このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220408となっている論文です。

PDF登録状況(公開日: 20220408)

TitleAuthorsAbstract論文公表日・翻訳日
# 課題は残っていない: 学生評価向上のための知識追跡とオプション追跡のマルチタスク学習

No Task Left Behind: Multi-Task Learning of Knowledge Tracing and Option Tracing for Better Student Assessment ( http://arxiv.org/abs/2204.14006v1 )

ライセンス: Link先を確認
Suyeong An, Junghoon Kim, Minsam Kim and Juneyoung Park(参考訳) 学生評価はAI教育(AIEd)分野における最も基本的な課題の1つである。 学生評価における最も一般的なアプローチの1つは、学生が与えられた質問に正しく答えるかどうかを予測することによって、学生の知識状態を評価する知識追跡(KT)である。 しかし、複数の選択(多義性)質問の文脈では、従来のKTアプローチは二進的(二元的)正当性ラベル(すなわち正しいか間違っているか)しか考慮せず、学生が選択した特定の選択肢を無視している。 一方、オプショントラクション(OT)は、与えられた質問に対してどの選択肢を選択するかを予測することによって、学生をモデル化しようとするが、正確性情報を見落としている。 本稿では,KTとOTを組み合わせたマルチタスク学習フレームワークであるDichotomous-Polytomo us Multi-Task Learning (DP-MTL)を提案する。 特に,DP-MTL フレームワークにおける OT の正規化用語として KT が機能することを示し,既存の深層学習に基づく KT モデル上に本手法を適用するための適切なアーキテクチャを提案する。 DP-MTL は KT と OT の両方の性能を著しく向上させるとともに,スコア予測 (SP) などの下流処理にも有効であることを確認した。

Student assessment is one of the most fundamental tasks in the field of AI Education (AIEd). One of the most common approach to student assessment is Knowledge Tracing (KT), which evaluates a student's knowledge state by predicting whether the student will answer a given question correctly or not. However, in the context of multiple choice (polytomous) questions, conventional KT approaches are limited in that they only consider the binary (dichotomous) correctness label (i.e., correct or incorrect), and disregard the specific option chosen by the student. Meanwhile, Option Tracing (OT) attempts to model a student by predicting which option they will choose for a given question, but overlooks the correctness information. In this paper, we propose Dichotomous-Polytomo us Multi-Task Learning (DP-MTL), a multi-task learning framework that combines KT and OT for more precise student assessment. In particular, we show that the KT objective acts as a regularization term for OT in the DP-MTL framework, and propose an appropriate architecture for applying our method on top of existing deep learning-based KT models. We experimentally confirm that DP-MTL significantly improves both KT and OT performances, and also benefits downstream tasks such as Score Prediction (SP).
翻訳日:2022-05-16 01:11:16 公開日:2022-04-08
# 生体インスパイアされたニューロン適応はニューラルネットワークの学習を改善する

Biologically-inspire d neuronal adaptation improves learning in neural networks ( http://arxiv.org/abs/2204.14008v1 )

ライセンス: Link先を確認
Yoshimasa Kubo, Eric Chalmers, Artur Luczak(参考訳) 人間は依然として多くのタスクで人工ニューラルネットワークを上回っているため、脳からインスピレーションを得て、現在の機械学習アルゴリズムを改善するのに役立つかもしれない。 Contrastive Hebbian Learning (CHL) と Equilibrium Propagation (EP) は、局所情報のみを用いて重みを更新する生物学的に妥当なアルゴリズムである。 本研究では,神経細胞の刺激に対するニューロンの応答を短時間で調節する適応効果に触発されて,chlとepを調節適応で拡張した。 我々は、MNISTとCIFAR-10で訓練された多層パーセプトロンと畳み込みニューラルネットワークにこの適応機能を付加する。 驚いたことに、これらのネットワークの性能は改善された。 このアイデアの生物学的なインスピレーションについて論じ,学習の安定性と正確性を改善する上で,なぜニューロン適応が重要な脳機構になるのかを検討する。

Since humans still outperform artificial neural networks on many tasks, drawing inspiration from the brain may help to improve current machine learning algorithms. Contrastive Hebbian Learning (CHL) and Equilibrium Propagation (EP) are biologically plausible algorithms that update weights using only local information (without explicitly calculating gradients) and still achieve performance comparable to conventional backpropagation. In this study, we augmented CHL and EP with Adjusted Adaptation, inspired by the adaptation effect observed in neurons, in which a neuron's response to a given stimulus is adjusted after a short time. We add this adaptation feature to multilayer perceptrons and convolutional neural networks trained on MNIST and CIFAR-10. Surprisingly, adaptation improved the performance of these networks. We discuss the biological inspiration for this idea and investigate why Neuronal Adaptation could be an important brain mechanism to improve the stability and accuracy of learning.
翻訳日:2022-05-16 01:10:50 公開日:2022-04-08
# (参考訳) 幾何学的劣化する動的環境における決定依存リスク最小化 [全文訳有]

Decision-Dependent Risk Minimization in Geometrically Decaying Dynamic Environments ( http://arxiv.org/abs/2204.08281v1 )

ライセンス: CC BY 4.0
Mitas Ray, Dmitriy Drusvyatskiy, Maryam Fazel, Lillian J. Ratliff(参考訳) 本稿では,意思決定者の行動に依存し,幾何学的崩壊過程に従って動的に進化するデータ分布が与える期待損失最小化の問題について検討する。 意思決定者が一階勾配オラクルを持つ情報設定と、単に損失関数オラクルを持つ設定の両方のための新しいアルゴリズムが導入される。 アルゴリズムは同じ原理で動作し、意思決定者は、決定を更新する前に動的に変化する環境が十分に混ざり合うように、エポックの長さに対して一定の決定を繰り返し展開する。 各設定における繰り返しの複雑さは、対数係数までの一階確率勾配法とゼロ階確率勾配法の既存の速度と一致する。 このアルゴリズムは, SFpark動的価格パイロットスタディから得られた実世界のデータを用いて, 半合成の例で評価され, 発表された価格は, 総合的な駐車率の低下を図りながら, 施設の目的(占領対象)の改善につながることが示された。

This paper studies the problem of expected loss minimization given a data distribution that is dependent on the decision-maker's action and evolves dynamically in time according to a geometric decay process. Novel algorithms for both the information setting in which the decision-maker has a first order gradient oracle and the setting in which they have simply a loss function oracle are introduced. The algorithms operate on the same underlying principle: the decision-maker repeatedly deploys a fixed decision over the length of an epoch, thereby allowing the dynamically changing environment to sufficiently mix before updating the decision. The iteration complexity in each of the settings is shown to match existing rates for first and zero order stochastic gradient methods up to logarithmic factors. The algorithms are evaluated on a "semi-synthetic" example using real world data from the SFpark dynamic pricing pilot study; it is shown that the announced prices result in an improvement for the institution's objective (target occupancy), while achieving an overall reduction in parking rates.
翻訳日:2022-04-24 19:53:53 公開日:2022-04-08
# 会話型AIの最近の進歩

Recent Progress in Conversational AI ( http://arxiv.org/abs/2204.09719v1 )

ライセンス: Link先を確認
Zijun Xue, Ruirui Li, Mingda Li(参考訳) 会話型人工知能(AI)は、産業や学界でますます人気が高まっている。 ニューラルネットワークベースのモデルの開発が急速に進み、多くのニューラルネットワークベースの会話型AIシステムが開発されている。 一般的に採用されている技術、注目すべき作品、アカデミアや業界からの有名なコンペティション、広く使われているデータセットなど、会話型aiの最近の進歩について簡単にレビューする。

Conversational artificial intelligence (AI) is becoming an increasingly popular topic among industry and academia. With the fast development of neural network-based models, a lot of neural-based conversational AI system are developed. We will provide a brief review of the recent progress in the Conversational AI, including the commonly adopted techniques, notable works, famous competitions from academia and industry and widely used datasets.
翻訳日:2022-04-24 16:13:53 公開日:2022-04-08
# 能動学習に基づく非侵襲的モデルオーダー削減

Active-learning-base d non-intrusive Model Order Reduction ( http://arxiv.org/abs/2204.08523v1 )

ライセンス: Link先を確認
Qinyu Zhuang, Dirk Hartmann, Hans Joachim Bungartz, Juan Manuel Lorenzi(参考訳) モデルオーダリダクション(mor)手法は、高速シミュレーションのためにコンパクトな数値モデルを提供できる。 侵入的MOR法とは異なり、非侵入的MORはフルオーダーモデル(FOM)、特にシステム行列へのアクセスを必要としない。 非侵入的MOR法はFOMのスナップショットに強く依存するため、優れたスナップショットセットの構築が重要となる。 本研究では,2つの新奇性を持つ新しいアクティブラーニング手法を提案する。 このアプローチによる新しいアイデアは、還元状態空間の推定から取得したシステム状態からの単一時間ステップスナップショットを使用することである。 これらの状態は、エラー推定器ベースのガウスプロセス回帰(GPR)によって支持される欲求戦略を用いて選択される。 さらに,確率的近似(PAC)学習に基づくユースケース独立型検証戦略を導入する。 本研究では,ANNを用いてリダクションオーダーモデル(ROM)を同定するが,他のROM識別手法にも適用できる。 ワークフロー全体の性能は2次元熱伝導と3次元真空炉モデルによって試験される。 特定のユースケースに依存しないユーザインタラクションとトレーニング戦略をほとんど必要とせず,提案手法は産業利用において,いわゆる実行可能なDigital Twins(DT)を作成する大きな可能性を提供する。

The Model Order Reduction (MOR) technique can provide compact numerical models for fast simulation. Different from the intrusive MOR methods, the non-intrusive MOR does not require access to the Full Order Models (FOMs), especially system matrices. Since the non-intrusive MOR methods strongly rely on the snapshots of the FOMs, constructing good snapshot sets becomes crucial. In this work, we propose a new active learning approach with two novelties. A novel idea with our approach is the use of single-time step snapshots from the system states taken from an estimation of the reduced-state space. These states are selected using a greedy strategy supported by an error estimator based Gaussian Process Regression (GPR). Additionally, we introduce a use case-independent validation strategy based on Probably Approximately Correct (PAC) learning. In this work, we use Artificial Neural Networks (ANNs) to identify the Reduced Order Model (ROM), however the method could be similarly applied to other ROM identification methods. The performance of the whole workflow is tested by a 2-D thermal conduction and a 3-D vacuum furnace model. With little required user interaction and a training strategy independent to a specific use case, the proposed method offers a huge potential for industrial usage to create so-called executable Digital Twins (DTs).
翻訳日:2022-04-24 16:11:36 公開日:2022-04-08
# (参考訳) 正確なアクティベーションクリッピングと適応バッチ正規化によるデータ自由量子化 [全文訳有]

Data-Free Quantization with Accurate Activation Clipping and Adaptive Batch Normalization ( http://arxiv.org/abs/2204.04215v1 )

ライセンス: CC BY 4.0
Yefei He, Luoming Zhang, Weijia Wu, Hong Zhou(参考訳) データフリー量子化は、元のトレーニングデータにアクセスすることなく、ニューラルネットワークを低ビット幅に圧縮するタスクである。 既存のデータフリー量子化手法の多くは、不正確なアクティベーションクリッピング範囲と量子化誤差、特にビット幅が低いため、性能が著しく低下する。 本稿では,正確なアクティベーションクリッピングと適応バッチ正規化を用いた,単純かつ効率的なデータフリー量子化手法を提案する。 正確なアクティベーションクリッピング(AAC)は、フル精度モデルから正確なアクティベーション情報を活用することにより、モデルの精度を向上させる。 適応バッチ正規化は、まず、バッチ正規化層を適応的に更新することにより、分布変化からの量子化誤差に対処することを提案する。 広範な実験により、提案手法は、imagenetデータセット上でresnet18の64.33%のtop-1精度を達成し、既存の最先端手法よりも3.7%の絶対改善が得られた。

Data-free quantization is a task that compresses the neural network to low bit-width without access to original training data. Most existing data-free quantization methods cause severe performance degradation due to inaccurate activation clipping range and quantization error, especially for low bit-width. In this paper, we present a simple yet effective data-free quantization method with accurate activation clipping and adaptive batch normalization. Accurate activation clipping (AAC) improves the model accuracy by exploiting accurate activation information from the full-precision model. Adaptive batch normalization firstly proposes to address the quantization error from distribution changes by updating the batch normalization layer adaptively. Extensive experiments demonstrate that the proposed data-free quantization method can yield surprisingly performance, achieving 64.33% top-1 accuracy of ResNet18 on ImageNet dataset, with 3.7% absolute improvement outperforming the existing state-of-the-art methods.
翻訳日:2022-04-16 11:54:06 公開日:2022-04-08
# (参考訳) 固形肺結節診断のための信頼性・説明可能なaiモデルの開発 [全文訳有]

Towards Reliable and Explainable AI Model for Solid Pulmonary Nodule Diagnosis ( http://arxiv.org/abs/2204.04219v1 )

ライセンス: CC BY 4.0
Chenglong Wang, Yun Liu, Fen Wang, Chengxiu Zhang, Yida Wang, Mei Yuan, Guang Yang(参考訳) 肺がんは世界で最も死亡率が高い。 早期発見は肺癌の治療に不可欠である。 しかし, 肺結節の検出と診断は放射線医の経験に大きく依存しており, 重度の作業量となる可能性がある。 結節検出・診断において放射線技師を支援するコンピュータ支援診断システム (CAD) が開発され, 診断精度を高めつつ, 作業負荷を大幅に軽減した。 近年のディープラーニングはCADシステムの性能を大幅に向上させた。 しかし、モデル信頼性と解釈可能性の欠如は、その大規模臨床応用の大きな障害である。 本研究では,肺結節診断のためのマルチタスク記述型ディープラーニングモデルを提案する。 我々の神経モデルは病変の悪性度を予測できるだけでなく、関連する徴候も特定できる。 さらに、各マニフェストの位置を視覚的解釈性のために視覚化することもできる。 提案したニューラルモデルはLIDC公開データセットで0.992のAUCを、社内データセットで0.923のAUCを達成した。 また,マルチタスクモデルにマニフェスト識別タスクを組み込むことにより,悪性度分類の精度も向上できることが実証された。 このマルチタスク説明可能なモデルは、臨床環境における放射線医との相互作用を改善するためのスキームを提供することができる。

Lung cancer has the highest mortality rate of deadly cancers in the world. Early detection is essential to treatment of lung cancer. However, detection and accurate diagnosis of pulmonary nodules depend heavily on the experiences of radiologists and can be a heavy workload for them. Computer-aided diagnosis (CAD) systems have been developed to assist radiologists in nodule detection and diagnosis, greatly easing the workload while increasing diagnosis accuracy. Recent development of deep learning, greatly improved the performance of CAD systems. However, lack of model reliability and interpretability remains a major obstacle for its large-scale clinical application. In this work, we proposed a multi-task explainable deep-learning model for pulmonary nodule diagnosis. Our neural model can not only predict lesion malignancy but also identify relevant manifestations. Further, the location of each manifestation can also be visualized for visual interpretability. Our proposed neural model achieved a test AUC of 0.992 on LIDC public dataset and a test AUC of 0.923 on our in-house dataset. Moreover, our experimental results proved that by incorporating manifestation identification tasks into the multi-task model, the accuracy of the malignancy classification can also be improved. This multi-task explainable model may provide a scheme for better interaction with the radiologists in a clinical environment.
翻訳日:2022-04-16 11:43:42 公開日:2022-04-08
# (参考訳) reservoircomputing.j l: 貯留層計算モデルのための効率的でモジュラーなライブラリ [全文訳有]

ReservoirComputing.j l: An Efficient and Modular Library for Reservoir Computing Models ( http://arxiv.org/abs/2204.05117v1 )

ライセンス: CC BY 4.0
Francesco Martinuzzi, Chris Rackauckas, Anas Abdelrehim, Miguel D. Mahecha and Karin Mora(参考訳) ReservoirComputing.j lは、貯水池計算モデルのためのオープンソースのJuliaライブラリである。 このソフトウェアは、文献で提示された膨大な数のアルゴリズムを提供し、内部ツールと外部ツールの両方で簡単に拡張することができる。 実装は非常にモジュール化され、高速で、文献から再現された実験を含む包括的なドキュメントが付属している。 コードとドキュメントはMITライセンスのhttps://github.com/S ciML/ReservoirComput ing.jlでGithubにホストされている。

We introduce ReservoirComputing.j l, an open source Julia library for reservoir computing models. The software offers a great number of algorithms presented in the literature, and allows to expand on them with both internal and external tools in a simple way. The implementation is highly modular, fast and comes with a comprehensive documentation, which includes reproduced experiments from literature. The code and documentation are hosted on Github under an MIT license https://github.com/S ciML/ReservoirComput ing.jl.
翻訳日:2022-04-16 11:25:57 公開日:2022-04-08
# (参考訳) CyNER: エンティティ認識というサイバーセキュリティのためのPythonライブラリ [全文訳有]

CyNER: A Python Library for Cybersecurity Named Entity Recognition ( http://arxiv.org/abs/2204.05754v1 )

ライセンス: CC BY 4.0
Md Tanvirul Alam, Dipkamal Bhusal, Youngja Park, Nidhi Rastogi(参考訳) open cyber threat intelligence (opencti) 情報はインターネット上の異種ソースから非構造化形式で入手できる。 我々は,エンティティ認識(NER)という,サイバーセキュリティのためのオープンソースのピソンライブラリであるCyNERを紹介する。 CyNERは、サイバーセキュリティ関連エンティティを抽出するためのトランスフォーマーベースのモデル、妥協の異なる指標を抽出するためのヒューリスティック、ジェネリックエンティティタイプを公開するNERモデルを組み合わせる。 ユーザが容易に利用できる多様なコーパスでトレーニングされたモデルを提供します。 MALOnt2.0 (Christian et al., 2021) と MALOnt (Rastogi et al., 2020) は、脅威情報コーパスから幅広いマルウェア攻撃の詳細を抽出する。 ユーザは、ニーズに合わせて、複数の異なるアプローチからの予測を組み合わせることができる。 図書館は公開されている。

Open Cyber threat intelligence (OpenCTI) information is available in an unstructured format from heterogeneous sources on the Internet. We present CyNER, an open-source python library for cybersecurity named entity recognition (NER). CyNER combines transformer-based models for extracting cybersecurity-relate d entities, heuristics for extracting different indicators of compromise, and publicly available NER models for generic entity types. We provide models trained on a diverse corpus that users can readily use. Events are described as classes in previous research - MALOnt2.0 (Christian et al., 2021) and MALOnt (Rastogi et al., 2020) and together extract a wide range of malware attack details from a threat intelligence corpus. The user can combine predictions from multiple different approaches to suit their needs. The library is made publicly available.
翻訳日:2022-04-16 11:19:43 公開日:2022-04-08
# (参考訳) 2次ソボレフ測度を持つ表面の弾性形状解析:包括的数値的枠組み [全文訳有]

Elastic shape analysis of surfaces with second-order Sobolev metrics: a comprehensive numerical framework ( http://arxiv.org/abs/2204.04238v1 )

ライセンス: CC BY 4.0
Emmanuel Hartman, Yashil Sukurdeep, Eric Klassen, Nicolas Charon, Martin Bauer(参考訳) 本稿では,不変(弾性)2次ソボレフ測度の設定における3次元曲面のリーマン形状解析のための数値的手法を提案する。 より具体的には、3次元メッシュとして表されるパラメータ化または非パラメータ化面間の測地線と測地線距離の計算に対処する。 そこで我々は,表面の集合の統計的形状解析のためのツールを開発し,カーチャー平均を推定し,形状上の接点PCAを演算し,表面の経路に沿った並列輸送を計算する。 提案手法は,非パラメータ面間の測地線を計算する際に再パラメータ化独立性を実現するために,可変忠実性項を用いることにより,測地マッチング問題に対するゆるやかな変分定式化を基本としている。 重要なのは、部分的に観測されたデータに取り組むために、我々の緩和された変分フレームワークをどのように拡張できるかを実証することです。 私たちの数値パイプラインの異なる利点は、合成と現実の様々な例で示されています。

This paper introduces a set of numerical methods for Riemannian shape analysis of 3D surfaces within the setting of invariant (elastic) second-order Sobolev metrics. More specifically, we address the computation of geodesics and geodesic distances between parametrized or unparametrized immersed surfaces represented as 3D meshes. Building on this, we develop tools for the statistical shape analysis of sets of surfaces, including methods for estimating Karcher means and performing tangent PCA on shape populations, and for computing parallel transport along paths of surfaces. Our proposed approach fundamentally relies on a relaxed variational formulation for the geodesic matching problem via the use of varifold fidelity terms, which enable us to enforce reparametrization independence when computing geodesics between unparametrized surfaces, while also yielding versatile algorithms that allow us to compare surfaces with varying sampling or mesh structures. Importantly, we demonstrate how our relaxed variational framework can be extended to tackle partially observed data. The different benefits of our numerical pipeline are illustrated over various examples, synthetic and real.
翻訳日:2022-04-16 11:09:43 公開日:2022-04-08
# (参考訳) インタラクティブパターンマイニングにおける複雑なパターン特徴の活用

Exploiting complex pattern features for interactive pattern mining ( http://arxiv.org/abs/2204.04242v1 )

ライセンス: CC BY 4.0
Arnold Hien, Samir Loudni, Noureddine Aribi, Abdelkader Ouali, Albrecht Zimmermann(参考訳) 近年では、ユーザが事前に制約を定義し、その結果を精査するパターンマイニングプロセスから、インタラクティブなプロセスへとシフトしている。 この新しいフレームワークは、ユーザのフィードバックを利用してパターンの品質関数を学習する。 既存のアプローチでは、静的に事前定義された低レベル機能を使用し、ユーザにとっての重要性を表す独立した重みを学習しようとするという弱点がある。 その代わりとして,ユーザによって課されるパターンランキングから直接派生した,より複雑な機能を扱うことを提案する。 学習された重みは低レベルの機能に集約され、品質機能を正しい方向に進めるのに役立つ。 異なるパラメータ選択の効果を実験的に検討し,高複雑度特徴を用いることで,メソッドの実行時間にさほど加えず,隠れた品質関数と一致したパターンを選択することが可能であることを見出した。 優れたユーザフィードバックを得るためには、私たちが達成しているような多様なパターンを迅速に提示する必要がありますが、既存の多様性制約をインタラクティブマイニングシステムのサンプリングコンポーネントにプッシュする必要があります。 結果として生じるパターンは、たいていの場合、より素早く良いソリューションに収束できる。 この2つの改善を組み合わせることで、既存の最先端技術に対して明確な優位性を示すアルゴリズムが実現される。

Recent years have seen a shift from a pattern mining process that has users define constraints before-hand, and sift through the results afterwards, to an interactive one. This new framework depends on exploiting user feedback to learn a quality function for patterns. Existing approaches have a weakness in that they use static pre-defined low-level features, and attempt to learn independent weights representing their importance to the user. As an alternative, we propose to work with more complex features that are derived directly from the pattern ranking imposed by the user. Learned weights are then aggregated onto lower-level features and help to drive the quality function in the right direction. We explore the effect of different parameter choices experimentally and find that using higher-complexity features leads to the selection of patterns that are better aligned with a hidden quality function while not adding significantly to the run times of the method. Getting good user feedback requires to quickly present diverse patterns, something that we achieve but pushing an existing diversity constraint into the sampling component of the interactive mining system LetSip. Resulting patterns allow in most cases to converge to a good solution more quickly. Combining the two improvements, finally, leads to an algorithm showing clear advantages over the existing state-of-the-art.
翻訳日:2022-04-16 10:32:14 公開日:2022-04-08
# (参考訳) ニューラルネットワーク誘導TEM画像解析における受容場とネットワーク複雑度の影響の理解 [全文訳有]

Understanding the Influence of Receptive Field and Network Complexity in Neural-Network-Guide d TEM Image Analysis ( http://arxiv.org/abs/2204.04250v1 )

ライセンス: CC BY 4.0
Katherine Sytwu, Catherine Groschner, Mary C. Scott(参考訳) トレーニングされたニューラルネットワークは、ますます増え続ける科学画像データを分析する有望なツールだが、トランスミッション電子マイクログラフのユニークな特徴のために、これらのネットワークを最適にカスタマイズする方法は不明だ。 本稿では,ニューラルネットワークアーキテクチャの選択が,透過型電子顕微鏡(tem)画像中のアモルファス背景から,ピクセル単位で分離された結晶性ナノ粒子にどのように影響するかを体系的に検討する。 我々は、学習可能なパラメータの数を決定するネットワークの複雑さから、受容場の影響、あるいは出力決定に寄与する入力画像の領域を分離することに注力する。 ナノ微粒子を背景から区別するために振幅コントラストに依存する低分解能tem画像では, 受容磁場はセグメンテーション性能に大きな影響を与えないことがわかった。 一方、ナノ粒子を識別するために振幅と位相コントラストの組合せに依存する高分解能TEM画像の場合、特に最小振幅コントラストの画像において、受容場は性能向上の鍵となるパラメータである。 この結果は、TEMデータセットを用いたアプリケーションにニューラルネットワークを適用する方法についての洞察とガイダンスを提供する。

Trained neural networks are promising tools to analyze the ever-increasing amount of scientific image data, but it is unclear how to best customize these networks for the unique features in transmission electron micrographs. Here, we systematically examine how neural network architecture choices affect how neural networks segment, or pixel-wise separate, crystalline nanoparticles from amorphous background in transmission electron microscopy (TEM) images. We focus on decoupling the influence of receptive field, or the area of the input image that contributes to the output decision, from network complexity, which dictates the number of trainable parameters. We find that for low-resolution TEM images which rely on amplitude contrast to distinguish nanoparticles from background, the receptive field does not significantly influence segmentation performance. On the other hand, for high-resolution TEM images which rely on a combination of amplitude and phase contrast changes to identify nanoparticles, receptive field is a key parameter for increased performance, especially in images with minimal amplitude contrast. Our results provide insight and guidance as to how to adapt neural networks for applications with TEM datasets.
翻訳日:2022-04-16 10:30:16 公開日:2022-04-08
# (参考訳) HBFL: 階層型ブロックチェーンベースのIoT侵入検出のためのフェデレーション学習フレームワーク [全文訳有]

HBFL: A Hierarchical Blockchain-based Federated Learning Framework for a Collaborative IoT Intrusion Detection ( http://arxiv.org/abs/2204.04254v1 )

ライセンス: CC BY 4.0
Mohanad Sarhan, Wai Weng Lo, Siamak Layeghy, Marius Portmann(参考訳) iotエコシステムのセキュリティ姿勢の継続的な強化は、相互接続されたデバイス数の増加と機密データ共有量のために不可欠である。 IoTサイバー攻撃に対する防御における機械学習(ML)機能の利用には、多くの潜在的なメリットがある。 しかし、現在提案されているフレームワークは、データプライバシ、セキュアなアーキテクチャ、および/またはIoTエコシステムのスケーラブルなデプロイメントを考慮していない。 本稿では,セキュアかつプライバシ保護されたコラボレーティブなIoT侵入検出を実現するための階層型ブロックチェーンベースのフェデレーション学習フレームワークを提案する。 サイバー脅威インテリジェンスを組織間iotネットワーク間で共有し,モデルの検出能力を改善することの重要性を強調し,実証する。 MLベースの侵入検出フレームワークの提案は、学習プロセスと組織データのプライバシを確保するために、階層的なフェデレーション付き学習アーキテクチャに従っている。 トランザクション(モデル更新)とプロセスはセキュアなイミュータブルな台帳上で動作し、実行されるタスクの適合性はスマートコントラクトによって検証される。 我々は,本ソリューションを検証し,その実現可能性を示し,主要なIoTデータセットを用いた侵入検出性能の評価を行った。 その結果は、データプライバシを保持しながら、広範囲の悪意あるアクティビティを検出できる、セキュアに設計されたMLベースの侵入検知システムである。

The continuous strengthening of the security posture of IoT ecosystems is vital due to the increasing number of interconnected devices and the volume of sensitive data shared. The utilisation of Machine Learning (ML) capabilities in the defence against IoT cyber attacks has many potential benefits. However, the currently proposed frameworks do not consider data privacy, secure architectures, and/or scalable deployments of IoT ecosystems. In this paper, we propose a hierarchical blockchain-based federated learning framework to enable secure and privacy-preserved collaborative IoT intrusion detection. We highlight and demonstrate the importance of sharing cyber threat intelligence among inter-organisational IoT networks to improve the model's detection capabilities. The proposed ML-based intrusion detection framework follows a hierarchical federated learning architecture to ensure the privacy of the learning process and organisational data. The transactions (model updates) and processes will run on a secure immutable ledger, and the conformance of executed tasks will be verified by the smart contract. We have tested our solution and demonstrated its feasibility by implementing it and evaluating the intrusion detection performance using a key IoT data set. The outcome is a securely designed ML-based intrusion detection system capable of detecting a wide range of malicious activities while preserving data privacy.
翻訳日:2022-04-16 10:18:29 公開日:2022-04-08
# (参考訳) BioRED: 総合的な医療関係抽出データセット [全文訳有]

BioRED: A Comprehensive Biomedical Relation Extraction Dataset ( http://arxiv.org/abs/2204.04263v1 )

ライセンス: CC BY 4.0
Ling Luo, Po-Ting Lai, Chih-Hsuan Wei, Cecilia N Arighi, Zhiyong Lu(参考訳) 生物医学文献からの自動関係抽出(RE)は、研究と実世界の双方で多くの下流テキストマイニングアプリケーションにとって重要である。 しかし、既存のバイオメディカルREのベンチマークデータセットのほとんどは、文レベルでの単一のタイプ(タンパク質とタンパク質の相互作用など)の関係のみに焦点を当てており、バイオメディシンにおけるREシステムの開発を著しく制限している。 本稿では、まず、名前付きエンティティ認識(ner)と再データセットをレビューする。 次に,600個のPubMed論文に,複数の実体型(遺伝子・タンパク質・疾患・化学物質など)と関連ペア(遺伝子・疾患・化学物質など)を有する第一種バイオメディカルREコーパスであるBioREDについて紹介する。 さらに,それぞれの関係を,新規発見と既知の背景知識のいずれかを記述し,新たな情報と背景情報とを自動アルゴリズムで区別できるようにする。 NER および RE タスク上で,BERT モデルを含む既存の最先端手法をベンチマークすることで,BioRED の有用性を評価する。 以上の結果から,既存の手法はNERタスクにおいて高い性能を達成することができる(Fスコア89.3%)が,特に新規な関係を抽出する場合(Fスコア47.7%)にはREタスクには改善の余地が十分にあることがわかった。 また,このような包括的データセットは,より正確で効率的でロバストな生物医療用reシステムの開発を効果的に促進できることを実証した。

Automated relation extraction (RE) from biomedical literature is critical for many downstream text mining applications in both research and real-world settings. However, most existing benchmarking datasets for bio-medical RE only focus on relations of a single type (e.g., protein-protein interactions) at the sentence level, greatly limiting the development of RE systems in biomedicine. In this work, we first review commonly used named entity recognition (NER) and RE datasets. Then we present BioRED, a first-of-its-kind biomedical RE corpus with multiple entity types (e.g., gene/protein, disease, chemical) and relation pairs (e.g., gene-disease; chemical-chemical), on a set of 600 PubMed articles. Further, we label each relation as describing either a novel finding or previously known background knowledge, enabling automated algorithms to differentiate between novel and background information. We assess the utility of BioRED by benchmarking several existing state-of-the-art methods, including BERT-based models, on the NER and RE tasks. Our results show that while existing approaches can reach high performance on the NER task (F-score of 89.3%), there is much room for improvement for the RE task, especially when extracting novel relations (F-score of 47.7%). Our experiments also demonstrate that such a comprehensive dataset can successfully facilitate the development of more accurate, efficient, and robust RE systems for biomedicine.
翻訳日:2022-04-16 09:55:01 公開日:2022-04-08
# (参考訳) 要求工学のための自然言語処理技術の分類 [全文訳有]

Classification of Natural Language Processing Techniques for Requirements Engineering ( http://arxiv.org/abs/2204.04282v1 )

ライセンス: CC BY 4.0
Liping Zhao, Waad Alhoshan, Alessio Ferrari, Keletso J. Letsholo(参考訳) 自然言語処理(NLP)技術を要求工学(RE)タスクに適用する研究は、1980年代に行われた最初の取り組みから、機械学習(ML)とディープラーニング(DL)技術による最近の試みまで、40年以上にわたる。 しかし,最近の調査により,reにおける一般的なnlp技術の体系的理解や組織化がいまだに欠如していることが判明した。 業界が直面しているハードルのひとつは、NLP技術とそのREタスクにおける使用に関する共有知識の欠如です。 本稿では,最も頻繁に使われている57のNLP技法をREで合成し,整理する取り組みについて述べる。 我々はこれらのNLP手法を2つの方法で分類する: まず、NLPタスクを典型的なパイプラインで、次に、言語分析レベルで分類する。 我々はこれらの2つの分類法が相補的であり、REにおけるNLP技術のより良い理解に寄与すると考えており、REのためのより良いNLPツールの開発にはそのような理解が不可欠である。

Research in applying natural language processing (NLP) techniques to requirements engineering (RE) tasks spans more than 40 years, from initial efforts carried out in the 1980s to more recent attempts with machine learning (ML) and deep learning (DL) techniques. However, in spite of the progress, our recent survey shows that there is still a lack of systematic understanding and organization of commonly used NLP techniques in RE. We believe one hurdle facing the industry is lack of shared knowledge of NLP techniques and their usage in RE tasks. In this paper, we present our effort to synthesize and organize 57 most frequently used NLP techniques in RE. We classify these NLP techniques in two ways: first, by their NLP tasks in typical pipelines and second, by their linguist analysis levels. We believe these two ways of classification are complementary, contributing to a better understanding of the NLP techniques in RE and such understanding is crucial to the development of better NLP tools for RE.
翻訳日:2022-04-15 11:43:41 公開日:2022-04-08
# (参考訳) 事前学習と微調整言語モデルにおける大規模談話構造理解に向けて [全文訳有]

Towards Understanding Large-Scale Discourse Structures in Pre-Trained and Fine-Tuned Language Models ( http://arxiv.org/abs/2204.04289v1 )

ライセンス: CC BY 4.0
Patrick Huber and Giuseppe Carenini(参考訳) 事前学習された言語モデルのさまざまな構成要素を分析したバートロジー研究が増えているので、事前学習と微調整された言語モデルにおける談話情報の詳細な分析を通じて、この研究範囲を拡張している。 まず、任意の長さの文書から談話構造を推測する新しいアプローチについて述べる。 第二に,bert モデルと bart モデルにおける内在的談話の捉え方と正確性を検討するための新しい分析手法を提案する。 最後に、生成した構造が様々なベースラインと、モデル内とモデル間の分布にどの程度似ているかを評価する。

With a growing number of BERTology work analyzing different components of pre-trained language models, we extend this line of research through an in-depth analysis of discourse information in pre-trained and fine-tuned language models. We move beyond prior work along three dimensions: First, we describe a novel approach to infer discourse structures from arbitrarily long documents. Second, we propose a new type of analysis to explore where and how accurately intrinsic discourse is captured in the BERT and BART models. Finally, we assess how similar the generated structures are to a variety of baselines as well as their distribution within and between models.
翻訳日:2022-04-15 11:12:27 公開日:2022-04-08
# (参考訳) 一般化可能なポリシー勾配アルゴリズムのための多目的進化 [全文訳有]

Multi-objective evolution for Generalizable Policy Gradient Algorithms ( http://arxiv.org/abs/2204.04292v1 )

ライセンス: CC BY 4.0
Juan Jose Garau-Luis, Yingjie Miao, John D. Co-Reyes, Aaron Parisi, Jie Tan, Esteban Real, Aleksandra Faust(参考訳) パフォーマンス、一般化性、安定性は、3つの強化学習(rl)の課題であり、それらは自分たちを組み合わせる多くの実用的なアプリケーションに関連する。 それでも、最先端のRLアルゴリズムは、複数のRL目標に同時に対処する際に不足している。 本稿では,グラフとして表現される新しいRLアルゴリズムを発見する進化的手法であるMetaPGを提案する。 その結果,sac (soft actor-critic, sac) をグラフベースで実装して個体群の初期化を行うと,sacの性能と一般化性をそれぞれ3%, 17%向上させ, 最大65%の不安定性を低減できる新しいアルゴリズムが得られた。 さらに,個体群における最良アルゴリズムのグラフ構造を分析し,汎用性のためのトレーディングパフォーマンスに役立つ特定の要素を解釈し,その逆も提供する。 RWRL Cartpole, RWRL Walker, Gym Pendulumの3つの連続制御タスクにおいて, 実験結果を検証した。

Performance, generalizability, and stability are three Reinforcement Learning (RL) challenges relevant to many practical applications in which they present themselves in combination. Still, state-of-the-art RL algorithms fall short when addressing multiple RL objectives simultaneously and current human-driven design practices might not be well-suited for multi-objective RL. In this paper we present MetaPG, an evolutionary method that discovers new RL algorithms represented as graphs, following a multi-objective search criteria in which different RL objectives are encoded in separate fitness scores. Our findings show that, when using a graph-based implementation of Soft Actor-Critic (SAC) to initialize the population, our method is able to find new algorithms that improve upon SAC's performance and generalizability by 3% and 17%, respectively, and reduce instability up to 65%. In addition, we analyze the graph structure of the best algorithms in the population and offer an interpretation of specific elements that help trading performance for generalizability and vice versa. We validate our findings in three different continuous control tasks: RWRL Cartpole, RWRL Walker, and Gym Pendulum.
翻訳日:2022-04-15 10:53:58 公開日:2022-04-08
# (参考訳) ランダム重みを変調する学習は、経済的メタと連続学習のためのタスク固有の文脈を誘発する [全文訳有]

Learning to modulate random weights can induce task-specific contexts for economical meta and continual learning ( http://arxiv.org/abs/2204.04297v1 )

ライセンス: CC BY-SA 4.0
Jinyung Hong and Theodore P. Pavlic(参考訳) ニューラルネットワークは、連続的なオンライン学習中にデータが定常的でない場合、破滅的な忘れ忘れに対して脆弱である。 1つのソリューションアプローチはモデルに依存しない連続メタ学習であり、タスク固有のパラメータとメタパラメータの両方をトレーニングする。 本稿では,生体神経系におけるニューロモジュレーションに触発された新しいニューラルネットワークアーキテクチャを提案する。 ニューロモジュレーション(Neuromodulation)は、機械学習において限られた注意を払っているリアルタイムの行動コンテキストを補完する、動的に制御する生物学的メカニズムである。 本稿では,タスクごとに比較的小さなコンテキストベクトル(タスク固有のパラメータ)のみを学習し,入力を変換するランダムな重み(メタパラメータ)をニューロ変調する単一隠れ層ネットワークを提案する。 タスク境界が利用できる場合、この手法は破滅的な忘れ込みを完全に排除すると同時に、他のコンテキストベクターベースのアプローチと比較して学習可能なパラメータの数を劇的に削減する。 さらに,このモデルと単純なメタ学習手法を組み合わせることで,タスク境界の知識を必要とせずに連続的な学習を行うためのフレームワークにモデルを一般化できることを実証する。 最後に,この枠組みを教師付きオンライン学習シナリオで紹介し,提案手法の意義について考察する。

Neural networks are vulnerable to catastrophic forgetting when data distributions are non-stationary during continual online learning; learning of a later task often leads to forgetting of an earlier task. One solution approach is model-agnostic continual meta-learning, whereby both task-specific and meta parameters are trained. Here, we depart from this view and introduce a novel neural-network architecture inspired by neuromodulation in biological nervous systems. Neuromodulation is the biological mechanism that dynamically controls and fine-tunes synaptic dynamics to complement the behavioral context in real-time, which has received limited attention in machine learning. We introduce a single-hidden-layer network that learns only a relatively small context vector per task (task-specific parameters) that neuromodulates unchanging, randomized weights (meta parameters) that transform the input. We show that when task boundaries are available, this approach can eliminate catastrophic forgetting entirely while also drastically reducing the number of learnable parameters relative to other context-vector-based approaches. Furthermore, by combining this model with a simple meta-learning approach for inferring task identity, we demonstrate that the model can be generalized into a framework to perform continual learning without knowledge of task boundaries. Finally, we showcase the framework in a supervised continual online learning scenario and discuss the implications of the proposed formalism.
翻訳日:2022-04-15 10:28:29 公開日:2022-04-08
# (参考訳) MMTAfrica:アフリカ言語のための多言語機械翻訳 [全文訳有]

MMTAfrica: Multilingual Machine Translation for African Languages ( http://arxiv.org/abs/2204.04306v1 )

ライセンス: CC BY 4.0
Chris C. Emezue, and Bonaventure F. P. Dossou(参考訳) 本稿では,アフリカの言語における多言語機械翻訳の課題に着目し,2021年のWMT共有タスク:大規模多言語機械翻訳への貢献について述べる。 MMTAfricaは,アフリカ系6言語(Fon (fon), Igbo (ibo), Kinyarwanda (kin), Swahili/Kiswahili (swa), Xhosa (xho), Yoruba (yor),非アフリカ系2言語( English (eng) と French (fra)))に対する最初の多言語多言語翻訳システムである。 アフリカの言語に関する多言語翻訳では,ランダムなオンライン翻訳とT5モデリングフレームワークに触発された新しい逆翻訳・再構成目的BT\&RECを導入し,モノリンガルデータを効果的に活用する。 さらに、FLORES 101ベンチマークよりもMMTAfricaの改善を報告します(spBLEUはスワヒリで+0.58ドルからフランス語で+19.46ドルからフランス語で+19.46ドルからXhosa)。 私たちはデータセットとソースコードをhttps://github.com/e daiofficial/mmtafric aでリリースしています。

In this paper, we focus on the task of multilingual machine translation for African languages and describe our contribution in the 2021 WMT Shared Task: Large-Scale Multilingual Machine Translation. We introduce MMTAfrica, the first many-to-many multilingual translation system for six African languages: Fon (fon), Igbo (ibo), Kinyarwanda (kin), Swahili/Kiswahili (swa), Xhosa (xho), and Yoruba (yor) and two non-African languages: English (eng) and French (fra). For multilingual translation concerning African languages, we introduce a novel backtranslation and reconstruction objective, BT\&REC, inspired by the random online back translation and T5 modeling framework respectively, to effectively leverage monolingual data. Additionally, we report improvements from MMTAfrica over the FLORES 101 benchmarks (spBLEU gains ranging from $+0.58$ in Swahili to French to $+19.46$ in French to Xhosa). We release our dataset and code source at https://github.com/e daiofficial/mmtafric a.
翻訳日:2022-04-15 10:11:53 公開日:2022-04-08
# (参考訳) 過渡および反復状態からの近似割引フリー政策評価 [全文訳有]

Approximate discounting-free policy evaluation from transient and recurrent states ( http://arxiv.org/abs/2204.04324v1 )

ライセンス: CC BY 4.0
Vektor Dewanto, Marcus Gallagher(参考訳) 過渡状態の悪い行動と善悪を規定する政策を区別するためには、政策のいわゆる偏見を過渡状態から評価する必要がある。 しかし, 現状の政策評価において, ほとんど(すべてではないにせよ)は, 再帰状態のみからバイアスを推定するために開発されたものである。 そこで本研究では,過渡的および反復的状態からのバイアス(特に相対値)を近似するシステムを提案する。 その鍵となる要素は半ノルム LSTD (Last-squares temporal difference) であり、モデルレス強化学習に必要なサンプリングによる近似を可能にする最小値式を導出する。 このセミノルム LSTD は、LSTD ベースのポリシー値近似器の一般的な統一手順の定式化を容易にする。 提案手法の有効性を実験的に検証した。

In order to distinguish policies that prescribe good from bad actions in transient states, we need to evaluate the so-called bias of a policy from transient states. However, we observe that most (if not all) works in approximate discounting-free policy evaluation thus far are developed for estimating the bias solely from recurrent states. We therefore propose a system of approximators for the bias (specifically, its relative value) from transient and recurrent states. Its key ingredient is a seminorm LSTD (least-squares temporal difference), for which we derive its minimizer expression that enables approximation by sampling required in model-free reinforcement learning. This seminorm LSTD also facilitates the formulation of a general unifying procedure for LSTD-based policy value approximators. Experimental results validate the effectiveness of our proposed method.
翻訳日:2022-04-15 09:53:13 公開日:2022-04-08
# (参考訳) 深部ニューラルネットワークの適応型ブラックボックスバックドア検出法 [全文訳有]

An Adaptive Black-box Backdoor Detection Method for Deep Neural Networks ( http://arxiv.org/abs/2204.04329v1 )

ライセンス: CC BY 4.0
Xinqiao Zhang, Huili Chen, Ke Huang, Farinaz Koushanfar(参考訳) 機械学習(ML)の急激な普及に伴い、インテリジェントなアプリケーションが新たに開発されている。 深層ニューラルネットワーク(dnn)は、医療診断や自動運転など、さまざまな分野で前例のないパフォーマンスを示している。 dnnはセキュリティに敏感な分野で広く使われているが、ステルストリガーによって制御され活性化されるニューラルトロイの木馬(nt)攻撃に対して脆弱である。 本稿では,事前学習されたモデルがデプロイ前にトロイの木馬化されているかどうかを調べる,ロバストで適応的なトロイの木馬検出スキームの設計を目標とする。 先行研究はトリガー分布の本質的性質を欠き、単純なヒューリスティック、すなわち与えられたモデルを間違った出力に刺激することでトリガーパターンを再構築しようとする。 その結果、検出時間と有効性は限られている。 我々は,画素トリガが一般に空間依存を特徴付けるという観測を活用し,入力空間におけるトリガの高速かつスケーラブルな検索を可能にする,最初のトリガ近似ベースのブラックボックストロイ検出フレームワークを提案する。 さらに、特定のフィルタ変換を用いてトロイの木馬を活性化する機能空間に埋め込まれたトロイの木馬も検出できる。 我々は、様々なデータセットやMLモデルにまたがるアプローチの性能を調べるために、広範な実験を行う。 実験の結果,公共TrojAIデータセット上でのROC-AUCスコアは0.93であることがわかった。 私たちのコードはhttps://github.com/x inqiaozhang/adatroja nにあります。

With the surge of Machine Learning (ML), An emerging amount of intelligent applications have been developed. Deep Neural Networks (DNNs) have demonstrated unprecedented performance across various fields such as medical diagnosis and autonomous driving. While DNNs are widely employed in security-sensitive fields, they are identified to be vulnerable to Neural Trojan (NT) attacks that are controlled and activated by stealthy triggers. In this paper, we target to design a robust and adaptive Trojan detection scheme that inspects whether a pre-trained model has been Trojaned before its deployment. Prior works are oblivious of the intrinsic property of trigger distribution and try to reconstruct the trigger pattern using simple heuristics, i.e., stimulating the given model to incorrect outputs. As a result, their detection time and effectiveness are limited. We leverage the observation that the pixel trigger typically features spatial dependency and propose the first trigger approximation based black-box Trojan detection framework that enables a fast and scalable search of the trigger in the input space. Furthermore, our approach can also detect Trojans embedded in the feature space where certain filter transformations are used to activate the Trojan. We perform extensive experiments to investigate the performance of our approach across various datasets and ML models. Empirical results show that our approach achieves a ROC-AUC score of 0.93 on the public TrojAI dataset. Our code can be found at https://github.com/x inqiaozhang/adatroja n
翻訳日:2022-04-15 08:32:11 公開日:2022-04-08
# 頑健な摂動防御を有するnlpモデルに対するバックドア攻撃

Backdoor Attack against NLP models with Robustness-Aware Perturbation defense ( http://arxiv.org/abs/2204.05758v1 )

ライセンス: Link先を確認
Shaik Mohammed Maqsood, Viveros Manuela Ceron, Addluri GowthamKrishna(参考訳) バックドア攻撃は、ディープニューラルネットワーク(dnn)に隠れたバックドアを埋め込むことを意図しており、攻撃されたモデルが良質なサンプルでうまく機能するようにしている。 この脅威は、サードパーティのデータセットのトレーニングや、サードパーティのモデルの採用など、トレーニングプロセスが完全にコントロールされていない場合に起こります。 この種のバックドア攻撃を防御するための研究や方法が数多くあり、ひとつは頑健さを意識した摂動ベースの防御方法である。 この方法は、主に毒物と清潔な試料の堅牢性の大きなギャップを利用する。 本研究では, 有害試料とクリーン試料との堅牢性ギャップを, 敵の訓練工程を用いて制御することにより, この防御を破る。

Backdoor attack intends to embed hidden backdoor into deep neural networks (DNNs), such that the attacked model performs well on benign samples, whereas its prediction will be maliciously changed if the hidden backdoor is activated by the attacker defined trigger. This threat could happen when the training process is not fully controlled, such as training on third-party data-sets or adopting third-party models. There has been a lot of research and different methods to defend such type of backdoor attacks, one being robustness-aware perturbation-based defense method. This method mainly exploits big gap of robustness between poisoned and clean samples. In our work, we break this defense by controlling the robustness gap between poisoned and clean samples using adversarial training step.
翻訳日:2022-04-13 14:34:44 公開日:2022-04-08
# インド亜大陸(NavIC)における航法用光流NSS

Optical flow GNSS for navigation in the Indian subcontinent (NavIC) ( http://arxiv.org/abs/2204.05980v1 )

ライセンス: Link先を確認
Sunit Shantanu Digamber Fulari, Harbinder Singh(参考訳) 本稿では,インド亜大陸における航法(navic)として知られるインド亜大陸におけるグローバル航法衛星システムgssについて,光フロー追跡グローバル航法システム(optical flow tracking global navigation system, gnss)と呼ばれる新しい手法のモデル化を試みた。 微分方程式を用いたこの方法は、インド亜大陸衛星の1500kmの範囲で地球表面の非常に小さな距離において非常に正確である。 gpsシステムの精度について語るとき、地球軌道上に位置する衛星による地上に対する移動物体の座標の変化を示すために使用する場合、地球表面において非常に正確であるべきである。 オプティカルフロー(optical flow)は、x軸とy軸の運動を座標の無限小変化に利用し、このアルゴリズムを大域的な測位系で使用し、地上測位に関して衛星座標の正確な位置を求める。 また,地球表面の座標の変化を観測するために衛星からモデル化された無限小のフレームを含むため,現代の微分フレーム法は非常に正確であり,本論文では,その代替となる光流GNSSシステムに新たなアルゴリズムを設計し,これらのアルゴリズムを応用分野において設計する際の研究を改善することができる。

This paper reveals about global navigation satellite system GNSS in the indian subcontinent known as the navigation in the indian subcontinent(NavIC) We have tried to model a new technique in GNSS known as the optical flow tracking global navigation system (OF GNSS). This method using differential equations is very accurate for very small distances on the surface of the earth in the 1500km range of the Indian subcontinent satellite coverage. When we talk of accuracy of the GPS system it should be very accurate on the surface of the earth when used to show changes in coordinate of the moving body with respect to the ground by the satellite which is situated on the earths orbit. Optical flow is a method which uses movements with respect to x and y axis for infinitesimal changes in its coordinates and then uses this algorithm to use it in global positioning system to find accurate position of the body with respect to the satellite coordinates with respect to ground positioning. The modern method of differential frames is also very accurate as it involves infinitesimal frames which are modelled together from the satellite to find changes in the coordinates on the earths surface, so we have designed a new algorithm in this paper on the Optical flow GNSS system which is an alternative and can improve the study done in the design of these algorithms in this field of applications.
翻訳日:2022-04-13 13:34:34 公開日:2022-04-08
# クロネッカー多層アーキテクチャによるディープラーニングの次元化

Dimensionality Reduction in Deep Learning via Kronecker Multi-layer Architectures ( http://arxiv.org/abs/2204.04273v1 )

ライセンス: Link先を確認
Jarom D. Hogue and Robert M. Kirby and Akil Narayan(参考訳) ニューラルネットワークを用いたディープラーニングは、複雑なデータのモデルを生成する効果的なテクニックである。 しかし、そのようなモデルのトレーニングは、ネットワークが多数の層とノードから生じる大きなモデル能力を持つ場合、高価である。 このような計算禁止体制でのトレーニングでは、次元削減技術は計算負担を緩和し、より堅牢なネットワークの実装を可能にする。 本稿では,クロネッカー積分解の高速行列乗算に基づく新しい深層学習アーキテクチャによる新たな次元低減手法を提案する。 このアーキテクチャは、従来のフィードフォワードニューラルネットワークと同じようなエラーレベルを達成しつつ、計算時間とリソースを大幅に削減して、ニューラルネットワークをトレーニングし、実装することができることを示している。

Deep learning using neural networks is an effective technique for generating models of complex data. However, training such models can be expensive when networks have large model capacity resulting from a large number of layers and nodes. For training in such a computationally prohibitive regime, dimensionality reduction techniques ease the computational burden, and allow implementations of more robust networks. We propose a novel type of such dimensionality reduction via a new deep learning architecture based on fast matrix multiplication of a Kronecker product decomposition; in particular our network construction can be viewed as a Kronecker product-induced sparsification of an "extended" fully connected network. Analysis and practical examples show that this architecture allows a neural network to be trained and implemented with a significant reduction in computational time and resources, while achieving a similar error level compared to a traditional feedforward neural network.
翻訳日:2022-04-12 19:04:51 公開日:2022-04-08
# 音に基づく車速推定法の改良の試み

An approach to improving sound-based vehicle speed estimation ( http://arxiv.org/abs/2204.05082v1 )

ライセンス: Link先を確認
Nikola Bulatovic, Slobodan Djukanovic(参考訳) 最近提案された音速推定法の性能改善について検討する。 本手法では, 車両検出と速度推定の両方において, 改良減衰 (MA) と呼ばれる中間特性が提案されている。 MA機能は、車両の最も近い接近地点の瞬間に最大化され、車両のパスのビデオ記録から抽出されたトレーニングラベルを表す。 本稿では,元のラベル付け手法が最適でないことを示すとともに,ラベル補正法を提案する。 この方法は、10台の異なる車両の304台のオーディオビデオ記録を含むvs10データセットでテストされている。 その結果,提案手法は平均速度推定誤差を7.39km/hから6.92km/hに低減することを示した。 速度を10km/hクラスに除算すると、正しいクラス予測の精度が53.2%から53.8%に向上し、1つのクラスオフセットの許容許容度が93.4%から94.3%に向上する。

We consider improving the performance of a recently proposed sound-based vehicle speed estimation method. In the original method, an intermediate feature, referred to as the modified attenuation (MA), has been proposed for both vehicle detection and speed estimation. The MA feature maximizes at the instant of the vehicle's closest point of approach, which represents a training label extracted from video recording of the vehicle's pass by. In this paper, we show that the original labeling approach is suboptimal and propose a method for label correction. The method is tested on the VS10 dataset, which contains 304 audio-video recordings of ten different vehicles. The results show that the proposed label correction method reduces average speed estimation error from 7.39 km/h to 6.92 km/h. If the speed is discretized into 10 km/h classes, the accuracy of correct class prediction is improved from 53.2% to 53.8%, whereas when tolerance of one class offset is allowed, accuracy is improved from 93.4% to 94.3%.
翻訳日:2022-04-12 19:00:40 公開日:2022-04-08
# 感情認識のためのトランスフォーマベース自己教師付き学習

Transformer-Based Self-Supervised Learning for Emotion Recognition ( http://arxiv.org/abs/2204.05103v1 )

ライセンス: Link先を確認
Juan Vazquez-Rodriguez (M-PSI), Gr\'egoire Lefebvre, Julien Cumin, James L. Crowley (M-PSI)(参考訳) 生理的信号などの時系列信号の表現を利用するためには、これらの表現が信号全体から関連する情報を取得することが不可欠である。 本研究では,心電図(心電図)を用いて感情認識を行うトランスフォーマモデルを提案する。 Transformerのアテンションメカニズムは、信号のコンテキスト化された表現を構築するために使用することができ、関連する部分にもっと重要になる。 これらの表現は、感情を予測するために完全に接続されたネットワークで処理される。 感情ラベル付きデータセットの比較的小さなサイズを克服するために、自己教師あり学習を用いる。 我々は、感情のラベルのないいくつかのECGデータセットを収集し、モデルを事前訓練し、AMIGOSデータセット上で感情認識のために微調整した。 AMIGOSの心電図信号を用いた感情認識の最先端性能を示す。 より一般に, トランスフォーマーとプレトレーニングは, 生理的信号を用いた感情認識に有望な戦略であることが示された。

In order to exploit representations of time-series signals, such as physiological signals, it is essential that these representations capture relevant information from the whole signal. In this work, we propose to use a Transformer-based model to process electrocardiograms (ECG) for emotion recognition. Attention mechanisms of the Transformer can be used to build contextualized representations for a signal, giving more importance to relevant parts. These representations may then be processed with a fully-connected network to predict emotions. To overcome the relatively small size of datasets with emotional labels, we employ self-supervised learning. We gathered several ECG datasets with no labels of emotion to pre-train our model, which we then fine-tuned for emotion recognition on the AMIGOS dataset. We show that our approach reaches state-of-the-art performances for emotion recognition using ECG signals on AMIGOS. More generally, our experiments show that transformers and pre-training are promising strategies for emotion recognition with physiological signals.
翻訳日:2022-04-12 19:00:24 公開日:2022-04-08
# ファイバアレイレーザ送信装置を用いた適応パワービーム用自己学習AIコントローラ

The self-learning AI controller for adaptive power beaming with fiber-array laser transmitter system ( http://arxiv.org/abs/2204.05227v1 )

ライセンス: Link先を確認
A.M. Vorontsov, G.A. Filimonov(参考訳) 本研究では,大気乱流下でのファイバアレイレーザ送信システムによる適応パワービームについて検討する。 大気ファイバーアレイを通した電力遷移の最適化は、従来、協調ターゲットに取り付けられた光-電気変換センサにより無線リンクを介して制御フィードバックを提供する確率的並列勾配降下(spgd)アルゴリズムによって制御されている。 spgdアルゴリズムは、ファイバーアレイ位相シフト器やファイバ先端位置決め器に適用される電圧を連続的かつランダムに摂動させ、センサ信号の最大化を図る。 このアプローチとは対照的に、最適制御を合成するパースペクティブ・インテリジェンス(AI)制御システムは、波面センサデータ、光電圧アレイ(PVA)データ、その他の光学的または大気的パラメータを含む分析に利用可能な様々な瞳孔または対象平面データを利用することができ、SPGDベースのコントローラのよく知られた欠点を取り除くことができる。 本研究では,ターゲットプレーンPVAセンサデータを入力として,ディープニューラルネットワーク(DNN)を用いて最適制御を行う。 DNNのトレーニングは、制御システム操作と同期してオンラインで行われ、DNNの出力に小さな摂動を適用して実行される。 このアプローチでは、初期のDNNの事前トレーニングや、システムのパフォーマンスの最適化を保証する必要はない。 すべての理論結果は数値実験によって検証される。

In this study we consider adaptive power beaming with fiber-array laser transmitter system in presence of atmospheric turbulence. For optimization of power transition through the atmosphere fiber-array is traditionally controlled by stochastic parallel gradient descent (SPGD) algorithm where control feedback is provided via radio frequency link by an optical-to-electrica l power conversion sensor, attached to a cooperative target. The SPGD algorithm continuously and randomly perturbs voltages applied to fiber-array phase shifters and fiber tip positioners in order to maximize sensor signal, i.e. uses, so-called, "blind" optimization principle. In opposite to this approach a perspective artificially intelligent (AI) control systems for synthesis of optimal control can utilize various pupil- or target-plane data available for the analysis including wavefront sensor data, photo-voltaic array (PVA) data, other optical or atmospheric parameters, and potentially can eliminate well-known drawbacks of SPGD-based controllers. In this study an optimal control is synthesized by a deep neural network (DNN) using target-plane PVA sensor data as its input. A DNN training is occurred online in sync with control system operation and is performed by applying of small perturbations to DNN's outputs. This approach does not require initial DNN's pre-training as well as guarantees optimization of system performance in time. All theoretical results are verified by numerical experiments.
翻訳日:2022-04-12 18:13:33 公開日:2022-04-08
# 空間的不定形後処理のための畳み込みオートエンコーダ

Convolutional autoencoders for spatially-informed ensemble post-processing ( http://arxiv.org/abs/2204.05102v1 )

ライセンス: Link先を確認
Sebastian Lerch and Kai L. Polsterer(参考訳) 組み合わさった天気予報は、通常、後処理で修正しなければならない系統的なエラーを示す。 ニューラルネットワークに基づく最先端のポストプロセッシング手法でさえ、物理気象モデルの空間予測フィールドを対象の場所に補間する必要がある場所固有の予測器のみに依存することが多い。 しかしながら、入力フィールド内の大規模空間構造に含まれる潜在的に有用な予測可能性情報は、この補間ステップで失われる可能性がある。 そこで本稿では,畳み込み型オートエンコーダを用いて空間入力場のコンパクトな表現を学習し,後処理モデルへの追加入力として位置固有情報を拡張できる手法を提案する。 この空間情報を含めることの利点は、ドイツの地上局における2m温度予測のケーススタディで示される。

Ensemble weather predictions typically show systematic errors that have to be corrected via post-processing. Even state-of-the-art post-processing methods based on neural networks often solely rely on location-specific predictors that require an interpolation of the physical weather model's spatial forecast fields to the target locations. However, potentially useful predictability information contained in large-scale spatial structures within the input fields is potentially lost in this interpolation step. Therefore, we propose the use of convolutional autoencoders to learn compact representations of spatial input fields which can then be used to augment location-specific information as additional inputs to post-processing models. The benefits of including this spatial information is demonstrated in a case study of 2-m temperature forecasts at surface stations in Germany.
翻訳日:2022-04-12 18:06:38 公開日:2022-04-08
# ビデオ・スーパーレゾリューションのための学習軌跡認識トランスフォーマ

Learning Trajectory-Aware Transformer for Video Super-Resolution ( http://arxiv.org/abs/2204.04216v1 )

ライセンス: Link先を確認
Chengxu Liu, Huan Yang, Jianlong Fu, Xueming Qian(参考訳) ビデオ超解像(VSR)は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。 ある程度の進展はあるものの、ビデオシーケンス全体の時間依存を効果的に活用する大きな課題がある。 既存のアプローチは通常、制限された隣接するフレーム(例えば5または7フレーム)からビデオフレームを調整して集約する。 本稿では,映像における時空間学習の有効化に向けて,さらに一歩踏み出す。 ビデオ超解像用トラジェクトリ対応トランスフォーマ(TTVSR)を提案する。 特に,ビデオフレームを連続的な視覚的トークンからなる事前整列軌道に定式化する。 クエリトークンの場合、自己注意は時空間軌跡に沿った関連する視覚トークンでのみ学習される。 バニラビジョントランスフォーマーと比較して、このような設計は計算コストを大幅に削減し、トランスフォーマーが長距離特性をモデル化できる。 さらに,長距離ビデオでしばしば発生するスケール変更問題を克服する,クロススケールな機能トークン化モジュールを提案する。 実験結果から,提案するttvsrの最先端モデルに対する優位性を,広範に使用されている4種類のビデオ超解像ベンチマークを用いた定量的・質的評価により実証した。 コードと事前訓練されたモデルはhttps://github.com/r esearchmm/TTVSRでダウンロードできる。

Video super-resolution (VSR) aims to restore a sequence of high-resolution (HR) frames from their low-resolution (LR) counterparts. Although some progress has been made, there are grand challenges to effectively utilize temporal dependency in entire video sequences. Existing approaches usually align and aggregate video frames from limited adjacent frames (e.g., 5 or 7 frames), which prevents these approaches from satisfactory results. In this paper, we take one step further to enable effective spatio-temporal learning in videos. We propose a novel Trajectory-aware Transformer for Video Super-Resolution (TTVSR). In particular, we formulate video frames into several pre-aligned trajectories which consist of continuous visual tokens. For a query token, self-attention is only learned on relevant visual tokens along spatio-temporal trajectories. Compared with vanilla vision Transformers, such a design significantly reduces the computational cost and enables Transformers to model long-range features. We further propose a cross-scale feature tokenization module to overcome scale-changing problems that often occur in long-range videos. Experimental results demonstrate the superiority of the proposed TTVSR over state-of-the-art models, by extensive quantitative and qualitative evaluations in four widely-used video super-resolution benchmarks. Both code and pre-trained models can be downloaded at https://github.com/r esearchmm/TTVSR.
翻訳日:2022-04-12 17:44:21 公開日:2022-04-08
# ChildCIフレームワーク:年齢検出のためのコンピュータインタラクションによる子どもの運動・認知発達の分析

ChildCI Framework: Analysis of Motor and Cognitive Development in Children-Computer Interaction for Age Detection ( http://arxiv.org/abs/2204.04236v1 )

ライセンス: Link先を確認
Juan Carlos Ruiz-Garcia, Ruben Tolosana, Ruben Vera-Rodriguez, Jaime Herreros-Rodriguez(参考訳) 本稿では,最近のkidciフレームワークで提案されている異なるテストの包括的分析を行い,子どもの神経運動と認知発達をよりよく理解する可能性と,e-healthやe-learningといった他の研究分野への応用について述べる。 特に,子どもたちとモバイルデバイスとのインタラクションの運動・認知的側面に関連する100以上のグローバル特徴のセットを提案し,その一部は文献から収集・適応された。 さらに, 運動と認知行動に基づいて, 児童年齢群検出の課題に対する実験結果を含む, 特徴集合の頑健性と識別力について分析した。 本研究では2つの異なるシナリオを考察する。 一 単体テストのシナリオ及び ii) 複数テストシナリオ。 93%以上の精度が、公開可能なkidcidb_v1データベース(18ヶ月から8歳までの400人以上の子ども)を用いて達成され、子どもの年齢とモバイルデバイスとのインタラクション方法との相関が証明された。

This article presents a comprehensive analysis of the different tests proposed in the recent ChildCI framework, proving its potential for generating a better understanding of children's neuromotor and cognitive development along time, as well as their possible application in other research areas such as e-Health and e-Learning. In particular, we propose a set of over 100 global features related to motor and cognitive aspects of the children interaction with mobile devices, some of them collected and adapted from the literature. Furthermore, we analyse the robustness and discriminative power of the proposed feature set including experimental results for the task of children age group detection based on their motor and cognitive behaviors. Two different scenarios are considered in this study: i) single-test scenario, and ii) multiple-test scenario. Results over 93% accuracy are achieved using the publicly available ChildCIdb_v1 database (over 400 children from 18 months to 8 years old), proving the high correlation of children's age with the way they interact with mobile devices.
翻訳日:2022-04-12 17:44:00 公開日:2022-04-08
# スケッチデータからの共形周波数推定

Conformalized Frequency Estimation from Sketched Data ( http://arxiv.org/abs/2204.04270v1 )

ライセンス: Link先を確認
Matteo Sesia and Stefano Favaro(参考訳) 膨大なデータ集合内のクエリ対象の頻度に対する信頼区間を,これらのデータのより小さなスケッチに含まれる情報に基づいて構築するために,フレキシブルな共形推論法を開発した。 この手法は完全にデータ適応的であり、人口分布やスケッチアルゴリズムの内部動作の知識を一切利用しない。 提案手法はより広い範囲で適用可能であるが,本論文では,有名なカウントミンスケッチアルゴリズムと,その非線形変動を併用して表現を容易にする。 この性能は、SARS-CoV-2のDNA配列と古典英語の文献からなる実際のデータセットと同様に、合成データによるいくつかの実験を通じて、既存の頻繁な代替品やベイズ的な代替品と比較される。

A flexible conformal inference method is developed to construct confidence intervals for the frequencies of queried objects in a very large data set, based on the information contained in a much smaller sketch of those data. The approach is completely data-adaptive and makes no use of any knowledge of the population distribution or of the inner workings of the sketching algorithm; instead, it constructs provably valid frequentist confidence intervals under the sole assumption of data exchangeability. Although the proposed solution is much more broadly applicable, this paper explicitly demonstrates its use in combination with the famous count-min sketch algorithm and a non-linear variation thereof to facilitate the exposition. The performance is compared to that of existing frequentist and Bayesian alternatives through several experiments with synthetic data as well as with real data sets consisting of SARS-CoV-2 DNA sequences and classic English literature.
翻訳日:2022-04-12 17:24:21 公開日:2022-04-08
# マルチソースドメイン適応のための自己改善グラフニューラルネットワーク

Self-Supervised Graph Neural Network for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2204.05104v1 )

ライセンス: Link先を確認
Jin Yuan, Feng Hou, Yangzhou Du, Zhongchao Shi, Xin Geng, Jianping Fan, Yong Rui(参考訳) ドメイン適応(DA)は、テストデータがトレーニングデータの同じ分布に完全に従わない場合と、マルチソースドメイン適応(MSDA)が現実世界のアプリケーションにとって非常に魅力的な場合のシナリオに取り組む。 大規模未ラベルサンプルから学習することで、自己教師型学習がディープラーニングの新しいトレンドとなっている。 自己教師付き学習とマルチソースドメイン適応の両方が、同じような目標を共有している点に注意が必要だ。 残念なことに,従来のマルチタスク型自己教師型学習では,(1)プリテキストタスクが下流タスクと強く関係しない場合があり,(2)プリテキストタスクから目標タスクに共有される有用な知識の習得が困難である場合,(2)同じ特徴抽出器がプリテキストタスクと下流タスクの間で共有され,異なる予測ヘッドのみが使用される場合,タスク間の情報交換と知識共有が不可能である場合,2つの課題に直面している。 そこで本研究では,より効果的なタスク間情報交換と知識共有を実現するために,グラフニューラルネットワークを橋渡しとして使用する新しい \textbf{s}elf-\textbf{s}upervised \textbf{g}raph neural network (ssg)を提案する。 より表現力のある表現は、いくつかのドメイン情報をマスクするためにマスクトークン戦略を採用することで学べる。 提案するssg法の有効性を示す4つの多ソースドメイン適応データセットについて,提案手法が最先端の結果を得たことを示す実験を行った。

Domain adaptation (DA) tries to tackle the scenarios when the test data does not fully follow the same distribution of the training data, and multi-source domain adaptation (MSDA) is very attractive for real world applications. By learning from large-scale unlabeled samples, self-supervised learning has now become a new trend in deep learning. It is worth noting that both self-supervised learning and multi-source domain adaptation share a similar goal: they both aim to leverage unlabeled data to learn more expressive representations. Unfortunately, traditional multi-task self-supervised learning faces two challenges: (1) the pretext task may not strongly relate to the downstream task, thus it could be difficult to learn useful knowledge being shared from the pretext task to the target task; (2) when the same feature extractor is shared between the pretext task and the downstream one and only different prediction heads are used, it is ineffective to enable inter-task information exchange and knowledge sharing. To address these issues, we propose a novel \textbf{S}elf-\textbf{S}upervised \textbf{G}raph Neural Network (SSG), where a graph neural network is used as the bridge to enable more effective inter-task information exchange and knowledge sharing. More expressive representation is learned by adopting a mask token strategy to mask some domain information. Our extensive experiments have demonstrated that our proposed SSG method has achieved state-of-the-art results over four multi-source domain adaptation datasets, which have shown the effectiveness of our proposed SSG method from different aspects.
翻訳日:2022-04-12 17:13:28 公開日:2022-04-08
# aprendizaje autom\'atico を用いた太陽の日射現象の予測

Predicci\'on de radiaci\'on solar en sistemas fotovoltaicos utilizando t\'ecnicas de aprendizaje autom\'atico ( http://arxiv.org/abs/2204.04313v1 )

ライセンス: Link先を確認
Luis Eduardo Ordo\~nez Palacios, V\'ictor Bucheli Guerrero, Hugo Ordo\~nez(参考訳) 地理的な位置における太陽放射の挙動を知ることは、太陽光発電システムを用いた太陽からのエネルギーの使用には不可欠であるが、気象パラメータの測定と遠隔地における太陽磁場の大きさの決定のためのステーションの数は限られている。 この研究では、gos-13衛星から得られた画像を用いて、気象観測所からデータセットに統合可能な変数を抽出した。 このことから、3つの異なるモデルが構築され、5つの機械学習アルゴリズムによる日射予測の性能が評価された。 4つの評価指標を用いて行った分析によれば、ニューラルネットワークは、気象変数と画像から得られる変数を統合するモデルで最も高い性能を示したが、rrmseが考慮された場合、得られたすべての結果は20%以上であり、アルゴリズムのパフォーマンスは公平であると分類された。 2012年のデータセットでは、MBE、R2、RMSE、rRMSEによる推定結果は、それぞれ-0.051、0.880、90.99、26.7%であった。 2017年のデータセットでは、MBE、R2、RMSE、rRMSEはそれぞれ-0.146、0.917、40.97、22.3%であった。 衛星画像から太陽放射を計算することは可能であるが、地上観測機器で捉えた放射データや日光に依存する統計方法もあることは事実であり、地上測定ステーションの数は限られているため、必ずしも不可能である。

Knowing the behavior of solar radiation at a geographic location is essential for the use of energy from the sun using photovoltaic systems; however, the number of stations for measuring meteorological parameters and for determining the size of solar fields in remote areas is limited. In this work, images obtained from the GOES-13 satellite were used, from which variables were extracted that could be integrated into datasets from meteorological stations. From this, 3 different models were built, on which the performance of 5 machine learning algorithms in predicting solar radiation was evaluated. The neural networks had the highest performance in the model that integrated the meteorological variables and the variables obtained from the images, according to an analysis carried out using four evaluation metrics; although if the rRMSE is considered, all results obtained were higher than 20%, which classified the performance of the algorithms as fair. In the 2012 dataset, the estimation results according to the metrics MBE, R2, RMSE, and rRMSE corresponded to -0.051, 0.880, 90.99 and 26.7%, respectively. In the 2017 dataset, the results of MBE, R2, RMSE, and rRMSE were -0.146, 0.917, 40.97 and 22.3%, respectively. Although it is possible to calculate solar radiation from satellite images, it is also true that some statistical methods depend on radiation data and sunshine captured by ground-based instruments, which is not always possible given that the number of measurement stations on the surface is limited.
翻訳日:2022-04-12 17:06:05 公開日:2022-04-08
# 各種カーネルサイズを有するマルチモーダルマルチヘッドコンボリューションの医療画像超解像への応用

Multimodal Multi-Head Convolutional Attention with Various Kernel Sizes for Medical Image Super-Resolution ( http://arxiv.org/abs/2204.04218v1 )

ライセンス: Link先を確認
Mariana-Iuliana Georgescu, Radu Tudor Ionescu, Andreea-Iuliana Miron, Olivian Savencu, Nicolae-Catalin Ristea, Nicolae Verga, Fahad Shahbaz Khan(参考訳) 超解像医療画像は、医師がより正確な診断を行うのに役立つ。 コンピュータ断層撮影(CT)または磁気共鳴イメージング(MRI)技術は、単一の調査で複数のスキャン(モデム)を出力するが、これは(マルチモーダルな方法で)共同で使用することで、超解像結果の質をさらに高めることができる。 そこで本研究では,超解像CTおよびMRIスキャンのためのマルチモーダルマルチヘッドコンボリューションアテンションモジュールを提案する。 コンボリューションモジュールは、コンボリューション演算を用いて複数の連結入力テンソルに対して共同で空間チャネル注意を行う。カーネル(受信フィールド)サイズが空間注意の低減率を制御し、畳み込みフィルタの個数がチャネル注意の低減率をそれぞれ制御する。 本稿では,空間的注意の特定の低減率に対応する異なる受容場サイズを有する複数の注意ヘッドを紹介する。 我々は,マルチモーダルマルチヘッド畳み込み注意(mmhca)を2つのディープニューラルネットワークに統合し,超解像実験を行った。 実験の結果,超解像における注目機構よりも注目モジュールの方が優れていることが示された。 さらに,注目モジュールの入力数や頭部数など,注目モジュールに関わるコンポーネントの影響を評価するためのアブレーション調査を実施している。

Super-resolving medical images can help physicians in providing more accurate diagnostics. In many situations, computed tomography (CT) or magnetic resonance imaging (MRI) techniques output several scans (modes) during a single investigation, which can jointly be used (in a multimodal fashion) to further boost the quality of super-resolution results. To this end, we propose a novel multimodal multi-head convolutional attention module to super-resolve CT and MRI scans. Our attention module uses the convolution operation to perform joint spatial-channel attention on multiple concatenated input tensors, where the kernel (receptive field) size controls the reduction rate of the spatial attention and the number of convolutional filters controls the reduction rate of the channel attention, respectively. We introduce multiple attention heads, each head having a distinct receptive field size corresponding to a particular reduction rate for the spatial attention. We integrate our multimodal multi-head convolutional attention (MMHCA) into two deep neural architectures for super-resolution and conduct experiments on three data sets. Our empirical results show the superiority of our attention module over the state-of-the-art attention mechanisms used in super-resolution. Moreover, we conduct an ablation study to assess the impact of the components involved in our attention module, e.g. the number of inputs or the number of heads.
翻訳日:2022-04-12 15:58:28 公開日:2022-04-08
# show, don't tell: スキーマ誘導タスク指向対話における説明よりも優れるデモ

Show, Don't Tell: Demonstrations Outperform Descriptions for Schema-Guided Task-Oriented Dialogue ( http://arxiv.org/abs/2204.04327v1 )

ライセンス: Link先を確認
Raghav Gupta, Harrison Lee, Jeffrey Zhao, Abhinav Rastogi, Yuan Cao, Yonghui Wu(参考訳) 複数のドメイン/apiにまたがってシームレスに動作し、最小限の監督とメンテナンスで新しいものに一般化できるユニバーサル対話システムを構築することは、重要な課題である。 近年の研究では,このようなシステムを実現するために,自然言語記述をスキーマ要素として活用している。 そこで本研究では,sep,don't tell,seq2seqモデリングのためのプロンプトフォーマットを提案する。 サービス開発者から同様の労力が必要とされる一方で、大規模な言語モデルを持つスキーマ表現として短い例を使用することで、パフォーマンスが向上し、2つの人気のある対話状態追跡ベンチマーク(schema-guided dialogue datasetとmultiwoz leave-one-out benchmark)の一般化が図れる。

Building universal dialogue systems that can seamlessly operate across multiple domains/APIs and generalize to new ones with minimal supervision and maintenance is a critical challenge. Recent works have leveraged natural language descriptions for schema elements to enable such systems; however, descriptions can only indirectly convey schema semantics. In this work, we propose Show, Don't Tell, a prompt format for seq2seq modeling which uses a short labeled example dialogue to show the semantics of schema elements rather than tell the model via descriptions. While requiring similar effort from service developers, we show that using short examples as schema representations with large language models results in stronger performance and better generalization on two popular dialogue state tracking benchmarks: the Schema-Guided Dialogue dataset and the MultiWoZ leave-one-out benchmark.
翻訳日:2022-04-12 15:55:47 公開日:2022-04-08
# 確率的最短経路問題の一般化解法における抽象的AND-ORグラフの適用に関する予備的結果

Preliminary Results on Using Abstract AND-OR Graphs for Generalized Solving of Stochastic Shortest Path Problems ( http://arxiv.org/abs/2204.04301v1 )

ライセンス: Link先を確認
Rushang Karia, Rashmeet Kaur Nayyar, Siddharth Srivastava(参考訳) 現実世界のいくつかのゴール指向問題は、SSP(Stochastic Shortest Path Problems)として自然に表現できる。 しかし、SSPフレームワークにおける問題に対する解の計算の難しさは、計算要求がしばしば適度な大きさの問題の解を見つけることを困難にしていることである。 このような問題に対する解は、小さな例から非常に容易に計算でき、多数のオブジェクトや異なるオブジェクト名を持つ問題に容易に適用できる一般化されたポリシーとして表されることが多い。 本稿では,そのような一般化されたポリシーを計算し,単純な非決定論的メモリレスコントローラへ変換するグラフとして表現するための,標準的抽象化を用いた予備的研究を行う。 このような政策構造は自然に問題を解くための階層的アプローチに結びつき、我々のアプローチを任意のSSP解決器に組み込んで階層的最適ポリシーを計算できることを示します。 我々は、よく知られた計画ベンチマークと難しいロボティクス領域で実証的な評価を行い、我々のアプローチが有望であることを示し、しばしば最先端のSSP解法よりもはるかに高速に最適ポリシーを計算した。

Several goal-oriented problems in the real-world can be naturally expressed as Stochastic Shortest Path Problems (SSPs). However, a key difficulty for computing solutions for problems in the SSP framework is that the computational requirements often make finding solutions to even moderately sized problems intractable. Solutions to many of such problems can often be expressed as generalized policies that are quite easy to compute from small examples and are readily applicable to problems with a larger number of objects and/or different object names. In this paper, we provide a preliminary study on using canonical abstractions to compute such generalized policies and represent them as AND-OR graphs that translate to simple non-deterministic, memoryless controllers. Such policy structures naturally lend themselves to a hierarchical approach for solving problems and we show that our approach can be embedded in any SSP solver to compute hierarchically optimal policies. We conducted an empirical evaluation on some well-known planning benchmarks and difficult robotics domains and show that our approach is promising, often computing optimal policies significantly faster than state-of-art SSP solvers.
翻訳日:2022-04-12 15:43:55 公開日:2022-04-08
# 完全観測可能な非決定論的計画のための反復的深さ優先探索

Iterative Depth-First Search for Fully Observable Non-Deterministic Planning ( http://arxiv.org/abs/2204.04322v1 )

ライセンス: Link先を確認
Ramon Fraga Pereira, Andr\'e G. Pereira, Frederico Messa, and Giuseppe De Giacomo(参考訳) 完全な可観測非決定論的計画(FOND)は、非決定論的効果を持つ行動を通じて不確実性をモデル化する。 既存のFOND計画アルゴリズムは有効であり、幅広い手法を採用している。 しかし、既存のアルゴリズムの多くは、非決定性とタスクサイズの両方を扱うのに堅牢ではない。 本稿では,FOND計画タスクを解き,強い周期的ポリシーを生成する,反復型深度優先探索アルゴリズムを提案する。 このアルゴリズムは、FOND計画の非決定論的側面をより直接的に扱えるように設計されており、反復探索プロセスにおいてアルゴリズムをより効果的にするためにヒューリスティック関数の利点を利用する。 提案アルゴリズムをよく知られたFONDプランナと比較し、異なる指標を考慮した複数の異なるFONDドメインに対して堅牢な性能を示すことを示す。

Fully Observable Non-Deterministic (FOND) planning models uncertainty through actions with non-deterministic effects. Existing FOND planning algorithms are effective and employ a wide range of techniques. However, most of the existing algorithms are not robust for dealing with both non-determinism and task size. In this paper, we develop a novel iterative depth-first search algorithm that solves FOND planning tasks and produces strong cyclic policies. Our algorithm is explicitly designed for FOND planning, addressing more directly the non-deterministic aspect of FOND planning, and it also exploits the benefits of heuristic functions to make the algorithm more effective during the iterative searching process. We compare our proposed algorithm to well-known FOND planners, and show that it has robust performance over several distinct types of FOND domains considering different metrics.
翻訳日:2022-04-12 15:43:36 公開日:2022-04-08
# 肺塞栓症アノテーションのための特徴強調半教師付き意味セグメンテーションネットワーク

Feature-enhanced Adversarial Semi-supervised Semantic Segmentation Network for Pulmonary Embolism Annotation ( http://arxiv.org/abs/2204.04217v1 )

ライセンス: Link先を確認
Ting-Wei Cheng, Jerry Chang, Ching-Chun Huang, Chin Kuo, Yun-Chien Cheng(参考訳) 本研究はCTPA画像における肺塞栓病変領域を自動的にアノテーションする機能強化逆行性半教師的セマンティックセグメンテーションモデルを構築した。 近年の研究では,PECTPA画像分割法はすべて教師あり学習によって訓練されている。 しかし、教師付き学習モデルの再訓練が必要であり、CTPA画像が異なる病院から来れば、画像は回避される必要がある。 本研究では,少量の未ラベル画像を追加することで,異なるデータセットに適用可能なモデルを半教師付き学習法を提案する。 ラベル付き画像とラベル付き画像の両方でモデルを訓練することにより、ラベル付き画像の精度を向上でき、ラベル付き画像のコストを低減できる。 半教師付きセグメンテーションモデルはセグメンテーションネットワークと判別ネットワークを含む。 識別器にセグメンテーションネットワークのエンコーダから生成された特徴情報を加え,予測マスクと地中真実マスクの類似性を学習できるようにした。 このHRNetベースのアーキテクチャは、畳み込み操作の高解像度を維持し、小さなPE病変領域の予測を改善することができる。 ラベル付きオープンソースデータセットと未ラベルの国立Cheng Kung University Hospital (NCKUH) (IRB番号:B-ER-108-380) データセットを用いて, 半教師付き学習モデルのトレーニングを行い, 結果として得られた平均交点(mIOU), ダイススコア, 感度はそれぞれ0.3510, 0.4854, 0.4253をNCKUHデータセット上で達成した。 その後,中国医科大学附属病院(CMUH)から少量の未ラベルPECTPA画像(IRB番号:CMUH110-REC3-173)を用いて実験を行った。 半教師モデルと教師付きモデルを比較すると, mIOU, サイススコア, 感度は0.2344, 0.3325, 0.3151から0.3721, 0.5113, 0.4967に改善した。

This study established a feature-enhanced adversarial semi-supervised semantic segmentation model to automatically annotate pulmonary embolism lesion areas in computed tomography pulmonary angiogram (CTPA) images. In current studies, all of the PE CTPA image segmentation methods are trained by supervised learning. However, the supervised learning models need to be retrained and the images need to be relabeled when the CTPA images come from different hospitals. This study proposed a semi-supervised learning method to make the model applicable to different datasets by adding a small amount of unlabeled images. By training the model with both labeled and unlabeled images, the accuracy of unlabeled images can be improved and the labeling cost can be reduced. Our semi-supervised segmentation model includes a segmentation network and a discriminator network. We added feature information generated from the encoder of segmentation network to the discriminator so that it can learn the similarity between predicted mask and ground truth mask. This HRNet-based architecture can maintain a higher resolution for convolutional operations so the prediction of small PE lesion areas can be improved. We used the labeled open-source dataset and the unlabeled National Cheng Kung University Hospital (NCKUH) (IRB number: B-ER-108-380) dataset to train the semi-supervised learning model, and the resulting mean intersection over union (mIOU), dice score, and sensitivity achieved 0.3510, 0.4854, and 0.4253, respectively on the NCKUH dataset. Then, we fine-tuned and tested the model with a small amount of unlabeled PE CTPA images from China Medical University Hospital (CMUH) (IRB number: CMUH110-REC3-173) dataset. Comparing the results of our semi-supervised model with the supervised model, the mIOU, dice score, and sensitivity improved from 0.2344, 0.3325, and 0.3151 to 0.3721, 0.5113, and 0.4967, respectively.
翻訳日:2022-04-12 15:00:23 公開日:2022-04-08
# 信頼性デプロイメントのための量子化モデルの振る舞いの特徴と理解

Characterizing and Understanding the Behavior of Quantized Models for Reliable Deployment ( http://arxiv.org/abs/2204.04220v1 )

ライセンス: Link先を確認
Qiang Hu, Yuejun Guo, Maxime Cordy, Xiaofei Xie, Wei Ma, Mike Papadakis, Yves Le Traon(参考訳) ディープニューラルネットワーク(dnn)は、自然言語モデリング、自動運転支援、ソースコード理解など、さまざまなアプリケーションで驚くほどのパフォーマンスのおかげで、過去数十年でかなりの注目を集めています。 迅速な探索により、より複雑なDNNアーキテクチャと巨大な事前学習モデルパラメータが提案されている。 このようなDNNモデルをユーザフレンドリーなデバイス(携帯電話など)で使用する一般的な方法は、デプロイ前にモデル圧縮を実行することである。 しかし、近年の研究では、モデル圧縮(例えばモデル量子化)が精度の低下をもたらすだけでなく、見当たらないデータでテストすると不一致が生じることが示されている。 未知のデータは常に分布シフトを含み、しばしば野生に現れるため、量子化されたモデルの品質と信頼性は保証されない。 本稿では,ユーザが量子化モデルの振る舞いを特徴付け,理解するための総合的な研究を行う。 本研究では,画像からテキストまでの4つのデータセット,フィードフォワードニューラルネットワークとリカレントニューラルネットワークを含む8つのdnnアーキテクチャ,合成および自然分布シフトの42のシフトセットについて検討した。 その結果は 1) 分散シフトを伴うデータは、無関係よりも相反する。 2)量子化アウェアトレーニングは,標準,敵意,ミックスアップトレーニングよりも安定なモデルを生成することができる。 3) 診断は、しばしばトップ1とトップ2の出力確率が近く、$Margin$は、相違点を区別する他の不確実性指標よりも優れた指標である。 4)不一致の緩和は、不一致の除去の効率に限界がある。 量子化モデルをさらに研究するための新しいベンチマークとして、コードとモデルをオープンソースとして公開しています。

Deep Neural Networks (DNNs) have gained considerable attention in the past decades due to their astounding performance in different applications, such as natural language modeling, self-driving assistance, and source code understanding. With rapid exploration, more and more complex DNN architectures have been proposed along with huge pre-trained model parameters. The common way to use such DNN models in user-friendly devices (e.g., mobile phones) is to perform model compression before deployment. However, recent research has demonstrated that model compression, e.g., model quantization, yields accuracy degradation as well as outputs disagreements when tested on unseen data. Since the unseen data always include distribution shifts and often appear in the wild, the quality and reliability of quantized models are not ensured. In this paper, we conduct a comprehensive study to characterize and help users understand the behaviors of quantized models. Our study considers 4 datasets spanning from image to text, 8 DNN architectures including feed-forward neural networks and recurrent neural networks, and 42 shifted sets with both synthetic and natural distribution shifts. The results reveal that 1) data with distribution shifts happen more disagreements than without. 2) Quantization-aware training can produce more stable models than standard, adversarial, and Mixup training. 3) Disagreements often have closer top-1 and top-2 output probabilities, and $Margin$ is a better indicator than the other uncertainty metrics to distinguish disagreements. 4) Retraining with disagreements has limited efficiency in removing disagreements. We opensource our code and models as a new benchmark for further studying the quantized models.
翻訳日:2022-04-12 14:58:43 公開日:2022-04-08
# パンデミックにおける政策立案のための解釈可能なAI

Interpretable AI for policy-making in pandemics ( http://arxiv.org/abs/2204.04256v1 )

ライセンス: Link先を確認
Leonardo Lucio Custode and Giovanni Iacca(参考訳) 新型コロナウイルス(covid-19)パンデミックの最初の波以降、政府は感染拡大を遅らせるために規制を講じてきた。 しかし、特に政府はパンデミック拡大と経済損失のトレードオフが必要なため、こうした政策の策定は困難である。 このため、いくつかの研究は、しばしば特別目的シミュレーターの助けを借りて機械学習技術を適用し、政府によって得られたものよりも効果的なポリシーを作成した。 これらのアプローチはブラックボックス機械学習をベースにしているため、これらのポリシーは分析もテストもできず、信頼できないため、現実の応用性は限られている。 本研究では,パンデミックを包含する解釈可能なポリシーの生成のために,強化学習と進化的計算を組み合わせたハイブリッドアプローチを最近開発した。 既存のシミュレーターで訓練されたこれらの政策は、経済損失を最小限に抑えつつ、パンデミックの拡散を減らすことを目的としている。 結果から,我々のアプローチは,極めて単純かつ極めて強力なソリューションを見つけることが可能であることが分かりました。 実際、我々のアプローチは以前の作業と政府の方針の両方よりもはるかに優れたパフォーマンス(シミュレーションシナリオでは)を持っています。

Since the first wave of the COVID-19 pandemic, governments have applied restrictions in order to slow down its spreading. However, creating such policies is hard, especially because the government needs to trade-off the spreading of the pandemic with the economic losses. For this reason, several works have applied machine learning techniques, often with the help of special-purpose simulators, to generate policies that were more effective than the ones obtained by governments. While the performance of such approaches are promising, they suffer from a fundamental issue: since such approaches are based on black-box machine learning, their real-world applicability is limited, because these policies cannot be analyzed, nor tested, and thus they are not trustable. In this work, we employ a recently developed hybrid approach, which combines reinforcement learning with evolutionary computation, for the generation of interpretable policies for containing the pandemic. These policies, trained on an existing simulator, aim to reduce the spreading of the pandemic while minimizing the economic losses. Our results show that our approach is able to find solutions that are extremely simple, yet very powerful. In fact, our approach has significantly better performance (in simulated scenarios) than both previous work and government policies.
翻訳日:2022-04-12 14:58:18 公開日:2022-04-08
# フーリエニューラル演算子の対向ロバスト性評価

Evaluating the Adversarial Robustness for Fourier Neural Operators ( http://arxiv.org/abs/2204.04259v1 )

ライセンス: Link先を確認
Abolaji D. Adesoji and Pin-Yu Chen(参考訳) 近年、ML(Machine-Learning) によるアプローチは科学的発見領域で広く用いられている。 このうち、フーリエ・ニューラル・オペレータ(FNO)は、ゼロショット超解法と優れた精度で乱流をシミュレートし、従来の偏微分方程式(PDE)の解法と比較して速度を大幅に改善した。 信頼性を検証するために,FNOの逆例を生成し,標準有界データ入力摂動に基づく科学的発見モデルの逆ロバスト性に関する最初の研究を行った。 FNOモデルの出力とPDEソルバの出力の平均2乗誤差を評価した結果、特に2D Darcy や Navier のような非単純ケースでは、モデルのロバスト性は摂動レベルの増加とともに急速に低下することが示された。 本研究は,MLに基づく科学的発見モデルの対角的堅牢性を評価するための感度解析ツールと評価原理を提供する。

In recent years, Machine-Learning (ML)-driven approaches have been widely used in scientific discovery domains. Among them, the Fourier Neural Operator (FNO) was the first to simulate turbulent flow with zero-shot super-resolution and superior accuracy, which significantly improves the speed when compared to traditional partial differential equation (PDE) solvers. To inspect the trustworthiness, we provide the first study on the adversarial robustness of scientific discovery models by generating adversarial examples for FNO, based on norm-bounded data input perturbations. Evaluated on the mean squared error between the FNO model's output and the PDE solver's output, our results show that the model's robustness degrades rapidly with increasing perturbation levels, particularly in non-simplistic cases like the 2D Darcy and the Navier cases. Our research provides a sensitivity analysis tool and evaluation principles for assessing the adversarial robustness of ML-based scientific discovery models.
翻訳日:2022-04-12 14:30:39 公開日:2022-04-08
# 言語抽象化と事前学習表現による意味探索

Semantic Exploration from Language Abstractions and Pretrained Representations ( http://arxiv.org/abs/2204.05080v1 )

ライセンス: Link先を確認
Allison C. Tam, Neil C. Rabinowitz, Andrew K. Lampinen, Nicholas A. Roy, Stephanie C. Y. Chan, DJ Strouse, Jane X. Wang, Andrea Banino, Felix Hill(参考訳) 連続した一対一の3D環境は、高次元の状態と行動空間のため、強化学習(RL)エージェントに固有の探索課題をもたらす。 これらの課題は、意味的に意味のある状態抽象化を使用して探索の新規性を定義することで改善することができる。 自然言語によって形成される学習表現は、まさにこの抽象化形式を提供する。 特に,インターネットからサンプリングされた画像キャプションデータセットに事前学習された場合,視覚言語表現は有意義でタスク関連性の高い探索を促進し,3次元シミュレーション環境における性能を向上させる。 我々はまた、事前訓練されたモデル、言語オラクル、およびいくつかのアブレーションからの表現の使用の影響を比較することによって、言語が探索に有用な抽象化を提供する理由と方法を特徴付ける。 我々は、我々のアプローチの利点を、ImpalaとR2D2という2つの人気のあるディープRLアルゴリズムと同様に、2つの非常に異なるタスクドメイン、すなわち、日常のオブジェクトの識別と操作を強調するもの、そして、拡張された世界でナビゲーションの探索を必要とするもので示します。 以上より,言語表現を用いることで,課題環境における様々なアルゴリズムやエージェントの探索が向上することが示唆された。

Continuous first-person 3D environments pose unique exploration challenges to reinforcement learning (RL) agents because of their high-dimensional state and action spaces. These challenges can be ameliorated by using semantically meaningful state abstractions to define novelty for exploration. We propose that learned representations shaped by natural language provide exactly this form of abstraction. In particular, we show that vision-language representations, when pretrained on image captioning datasets sampled from the internet, can drive meaningful, task-relevant exploration and improve performance on 3D simulated environments. We also characterize why and how language provides useful abstractions for exploration by comparing the impacts of using representations from a pretrained model, a language oracle, and several ablations. We demonstrate the benefits of our approach in two very different task domains -- one that stresses the identification and manipulation of everyday objects, and one that requires navigational exploration in an expansive world -- as well as two popular deep RL algorithms: Impala and R2D2. Our results suggest that using language-shaped representations could improve exploration for various algorithms and agents in challenging environments.
翻訳日:2022-04-12 14:30:21 公開日:2022-04-08
# 深層学習による視覚に基づくアメリカ手話分類手法

Vision-Based American Sign Language Classification Approach via Deep Learning ( http://arxiv.org/abs/2204.04235v1 )

ライセンス: Link先を確認
Nelly Elsayed, Zag ElSayed, Anthony S. Maida(参考訳) 聴覚障害は、社会の他者とのコミュニケーションに重大な問題を引き起こす部分的または全体的難聴の障害である。 アメリカン手話 (American Sign Language, ASL) は、聴覚障害のあるコミュニティが互いにコミュニケーションするために最もよく使われる手話である。 本稿では,障害に関連するコミュニケーション障壁を取り除くためのステップとして,アメリカ手話文字を分類することを目的とした,シンプルなディープラーニングモデルを提案する。

Hearing-impaired is the disability of partial or total hearing loss that causes a significant problem for communication with other people in society. American Sign Language (ASL) is one of the sign languages that most commonly used language used by Hearing impaired communities to communicate with each other. In this paper, we proposed a simple deep learning model that aims to classify the American Sign Language letters as a step in a path for removing communication barriers that are related to disabilities.
翻訳日:2022-04-12 14:26:01 公開日:2022-04-08
# ディープフェイク検出器のクロスデータセット一般化の改善について

On Improving Cross-dataset Generalization of Deepfake Detectors ( http://arxiv.org/abs/2204.04285v1 )

ライセンス: Link先を確認
Aakash Varma Nadimpalli and Ajita Rattani(参考訳) ディープフェイクによる顔操作は、大きなセキュリティリスクを引き起こし、社会的な深刻な懸念を引き起こした。 対策として,近年,多くの偽造検出手法が提案されている。 その多くは、タスクのために事前トレーニングされたbackbone convolutional neural network(cnn)アーキテクチャを使用して、ディープフェイク検出をバイナリ分類問題としてモデル化している。 これらのCNNベースの手法は、AUC(Area under the Curve)の下での深部偽造検出において0.99まで非常に高い効果を示した。 しかし,これらの手法の性能はデータセット間で評価すると著しく低下する。 本稿では、教師付きおよび強化学習(RL)のハイブリッド組み合わせとして深層偽検出を定式化し、そのクロスデータセット一般化性能を改善する。 提案手法は,RLエージェントによる各試験試料のTop-kオーグメンテーションを画像特異的に選択する。 cnnを用いて得られた分類スコアは、最終実または偽の分類のために、各テスト画像の補足度を合計する。 実験により,本手法は, ディープフェイク検出器のクロスデータセット一般化における既存の研究よりも優れていることを示す。

Facial manipulation by deep fake has caused major security risks and raised severe societal concerns. As a countermeasure, a number of deep fake detection methods have been proposed recently. Most of them model deep fake detection as a binary classification problem using a backbone convolutional neural network (CNN) architecture pretrained for the task. These CNN-based methods have demonstrated very high efficacy in deep fake detection with the Area under the Curve (AUC) as high as 0.99. However, the performance of these methods degrades significantly when evaluated across datasets. In this paper, we formulate deep fake detection as a hybrid combination of supervised and reinforcement learning (RL) to improve its cross-dataset generalization performance. The proposed method chooses the top-k augmentations for each test sample by an RL agent in an image-specific manner. The classification scores, obtained using CNN, of all the augmentations of each test image are averaged together for final real or fake classification. Through extensive experimental validation, we demonstrate the superiority of our method over existing published research in cross-dataset generalization of deep fake detectors, thus obtaining state-of-the-art performance.
翻訳日:2022-04-12 13:32:47 公開日:2022-04-08
# ロボットのための多目的強化学習における接地後見指導

Grounding Hindsight Instructions in Multi-Goal Reinforcement Learning for Robotics ( http://arxiv.org/abs/2204.04308v1 )

ライセンス: Link先を確認
Frank R\"oder, Manfred Eppe and Stefan Wermter(参考訳) 本稿では,自然言語目標表現に対するスパース報酬を用いたロボット強化学習に着目した。 オープンな問題は、自然言語の合成性や、知覚データや行動における言語の基礎から生じるサンプル非効率である。 我々はこれらの問題を3つの貢献で解決する。 まず,エキスパートフィードバックを利用した後見指導リプレイのメカニズムを提案する。 次に,言語的後見命令を生成するセク2seqモデルを提案する。 最後に,新しい言語指向学習タスクのクラスを提案する。 提案手法は,学習性能が期待どおりに向上することを示す。 さらに, エージェントの学習性能が3分の1向上できることを, ある意味, エージェントが自己監督的な方法で自己と対話することを学習した場合に示す。 我々は、本来意図しない行動に対する自然言語の目的として適切な言語命令を生成することを学ぶことでこれを達成した。 その結果,タスク複雑度によって性能が向上することが示唆された。

This paper focuses on robotic reinforcement learning with sparse rewards for natural language goal representations. An open problem is the sample-inefficiency that stems from the compositionality of natural language, and from the grounding of language in sensory data and actions. We address these issues with three contributions. We first present a mechanism for hindsight instruction replay utilizing expert feedback. Second, we propose a seq2seq model to generate linguistic hindsight instructions. Finally, we present a novel class of language-focused learning tasks. We show that hindsight instructions improve the learning performance, as expected. In addition, we also provide an unexpected result: We show that the learning performance of our agent can be improved by one third if, in a sense, the agent learns to talk to itself in a self-supervised manner. We achieve this by learning to generate linguistic instructions that would have been appropriate as a natural language goal for an originally unintended behavior. Our results indicate that the performance gain increases with the task-complexity.
翻訳日:2022-04-12 13:10:25 公開日:2022-04-08
# (参考訳) ニューラルインプリシットフロー:時空間データのメッシュ非依存次元減少パラダイム

Neural Implicit Flow: a mesh-agnostic dimensionality reduction paradigm of spatio-temporal data ( http://arxiv.org/abs/2204.03216v2 )

ライセンス: CC BY 4.0
Shaowu Pan, Steven L. Brunton, J. Nathan Kutz(参考訳) 高次元時空間力学はしばしば低次元部分空間に符号化される。 このような大規模システムのモデリング、キャラクタリゼーション、設計、制御のための工学的応用は、リアルタイムに解を計算可能なものにするために、しばしば次元の縮小に依存する。 次元減少のための一般的なパラダイムには、特異値分解(SVD)のような線形法や、畳み込みオートエンコーダ(CAE)の変種のような非線形法がある。 しかし、これらの符号化技術は時空間データに関連する複雑さを効率的に表現する能力に欠けており、これはしばしば可変幾何、非一様グリッド分解、適応メッシュ、および/またはパラメトリック依存関係を必要とする。 これらの実用的なエンジニアリング課題を解決するため,我々は,大規模,パラメトリック,空間時空間データのメッシュ非依存,低ランク表現を可能にする,neural implicit flow(nif)と呼ばれる汎用フレームワークを提案する。 NIFは2つの修飾多層パーセプトロン(MLP)から構成される。 (i)空間的複雑さを分離し表現するシェープネット (ii)パラメータネットは、パラメトリック依存性、時間、センサー測定など、他の入力の複雑さを考慮している。 パラメトリックサーロゲートモデリングにおけるnifの有用性を実証し,複雑な時空間ダイナミクスの解釈可能表現と圧縮,多空間クエリタスクの効率化,スパース再構成のための一般化性能の向上を実現した。

High-dimensional spatio-temporal dynamics can often be encoded in a low-dimensional subspace. Engineering applications for modeling, characterization, design, and control of such large-scale systems often rely on dimensionality reduction to make solutions computationally tractable in real-time. Common existing paradigms for dimensionality reduction include linear methods, such as the singular value decomposition (SVD), and nonlinear methods, such as variants of convolutional autoencoders (CAE). However, these encoding techniques lack the ability to efficiently represent the complexity associated with spatio-temporal data, which often requires variable geometry, non-uniform grid resolution, adaptive meshing, and/or parametric dependencies. To resolve these practical engineering challenges, we propose a general framework called Neural Implicit Flow (NIF) that enables a mesh-agnostic, low-rank representation of large-scale, parametric, spatial-temporal data. NIF consists of two modified multilayer perceptrons (MLPs): (i) ShapeNet, which isolates and represents the spatial complexity, and (ii) ParameterNet, which accounts for any other input complexity, including parametric dependencies, time, and sensor measurements. We demonstrate the utility of NIF for parametric surrogate modeling, enabling the interpretable representation and compression of complex spatio-temporal dynamics, efficient many-spatial-query tasks, and improved generalization performance for sparse reconstruction.
翻訳日:2022-04-12 11:57:04 公開日:2022-04-08
# 正規化とデータ拡張の効果はクラス依存である

The Effects of Regularization and Data Augmentation are Class Dependent ( http://arxiv.org/abs/2204.03632v2 )

ライセンス: Link先を確認
Randall Balestriero, Leon Bottou, Yann LeCun(参考訳) 正規化は、過度な適合を防ぎ、モデルの複雑さを制約することで一般化性能を改善するための基本的な技術である。 現在のDeep Networksは、Data-Augmentation (DA) や weight-decay のような正規化器に大きく依存しており、構造的リスク最小化、すなわちクロスバリデーションを用いて最適な正規化ハイパーパラメータを選択する。 本研究では,DAや体重減少といった手法が,クラス間で不公平な複雑性のモデルを生成することを示す。 クロスバリデーションから得られるDAの最適量や重量減衰は、例えばImagenetでresnet50を使用すれば、トレーニング中にランダムな農作物DAを導入することで、"barn Spider"分類テストの精度が6,8\%から4,6\%に低下する。 さらに驚くべきことに、ウェイト崩壊のような非形式的正規化技術を導入する際にもこのような性能低下が起こる。 これらの結果から,クラスやサンプルの平均的な一般化パフォーマンスの追求は,一部のクラスのパフォーマンスを静かに犠牲にするモデルやレギュラライザに留まっています。 例えば、inaturalistにデプロイされたimagenetプリトレーニングされたresnet50では、imagenetプレトレーニングフェーズでランダムクロップdaを導入すると、クラス \#8889で70\%$から30\%$に低下する。 これらの結果は、クラス依存バイアスのない新規な正則化器の設計がオープンな研究課題であることを示している。

Regularization is a fundamental technique to prevent over-fitting and to improve generalization performances by constraining a model's complexity. Current Deep Networks heavily rely on regularizers such as Data-Augmentation (DA) or weight-decay, and employ structural risk minimization, i.e. cross-validation, to select the optimal regularization hyper-parameters. In this study, we demonstrate that techniques such as DA or weight decay produce a model with a reduced complexity that is unfair across classes. The optimal amount of DA or weight decay found from cross-validation leads to disastrous model performances on some classes e.g. on Imagenet with a resnet50, the "barn spider" classification test accuracy falls from $68\%$ to $46\%$ only by introducing random crop DA during training. Even more surprising, such performance drop also appears when introducing uninformative regularization techniques such as weight decay. Those results demonstrate that our search for ever increasing generalization performance -- averaged over all classes and samples -- has left us with models and regularizers that silently sacrifice performances on some classes. This scenario can become dangerous when deploying a model on downstream tasks e.g. an Imagenet pre-trained resnet50 deployed on INaturalist sees its performances fall from $70\%$ to $30\%$ on class \#8889 when introducing random crop DA during the Imagenet pre-training phase. Those results demonstrate that designing novel regularizers without class-dependent bias remains an open research question.
翻訳日:2022-04-12 11:26:34 公開日:2022-04-08
# (参考訳) 勾配に基づく学習ランタイムpruningによる注意の促進 [全文訳有]

Accelerating Attention through Gradient-Based Learned Runtime Pruning ( http://arxiv.org/abs/2204.03227v2 )

ライセンス: CC BY 4.0
Zheng Li and Soroush Ghodrati and Amir Yazdanbakhsh and Hadi Esmaeilzadeh and Mingu Kang(参考訳) 自己アテンションは、様々なトランスフォーマーベースの自然言語処理モデルにおいて、最先端の精度を実現する鍵となる。 この注意機構は、文中の他の単語に対する各単語の相関スコアを算出する。 一般的に、少数の単語のサブセットだけが、実行時にのみ決定される単語に非常に関連している。 したがって、注目度が低いためかなりの量の計算は不必要であり、刈り取ることができる。 主な課題は、以下のスコアのしきい値を見つけることである。 このような閾値は離散的であるが、本論文は訓練の損失関数に統合されたソフトな微分可能正則化器による探索を定式化する。 この定式化されたピギーは、閾値と重みを同時に分析的に最適化するバックプロパゲーショントレーニングにバックバックし、精度と計算プラニングの正式な最適バランスを与える。 この数学的革新を最大限活用するために、ビットレベルの初期終端マイクロアーキテクチャ機構を持つトランスフォーマー言語モデルにleopardと呼ばれるビットシリアルアーキテクチャを考案する。 我々は,MemN2N,BERT,ALBERT, GPT-2,Visionトランスモデルの43のバックエンドタスクを対象とした設計評価を行った。 ポストレイアウトの結果、LeOPArdは平均で1.9倍のスピードアップと3.9倍のエネルギー削減を達成し、平均精度をほぼ無傷で維持する(0.2%劣化)。

Self-attention is a key enabler of state-of-art accuracy for various transformer-based Natural Language Processing models. This attention mechanism calculates a correlation score for each word with respect to the other words in a sentence. Commonly, only a small subset of words highly correlates with the word under attention, which is only determined at runtime. As such, a significant amount of computation is inconsequential due to low attention scores and can potentially be pruned. The main challenge is finding the threshold for the scores below which subsequent computation will be inconsequential. Although such a threshold is discrete, this paper formulates its search through a soft differentiable regularizer integrated into the loss function of the training. This formulation piggy backs on the back-propagation training to analytically co-optimize the threshold and the weights simultaneously, striking a formally optimal balance between accuracy and computation pruning. To best utilize this mathematical innovation, we devise a bit-serial architecture, dubbed LeOPArd, for transformer language models with bit-level early termination microarchitectural mechanism. We evaluate our design across 43 back-end tasks for MemN2N, BERT, ALBERT, GPT-2, and Vision transformer models. Post-layout results show that, on average, LeOPArd yields 1.9x and 3.9x speedup and energy reduction, respectively, while keeping the average accuracy virtually intact (<0.2% degradation)
翻訳日:2022-04-12 00:25:48 公開日:2022-04-08
# (参考訳) FedADMM: システムの不均一性に適応するロバストな深層学習フレームワーク [全文訳有]

FedADMM: A Robust Federated Deep Learning Framework with Adaptivity to System Heterogeneity ( http://arxiv.org/abs/2204.03529v2 )

ライセンス: CC0 1.0
Yonghai Gong, Yichuan Li, Nikolaos M. Freris(参考訳) フェデレーション・ラーニング(英語: federated learning, fl)は、通信帯域の制限、データ分布と計算資源の多様性、およびプライバシーの考慮を受けるエッジデバイスによる大規模データボリュームの分散処理のための新しいフレームワークである。 本稿では,プリマル・デュアル最適化に基づくfedammと呼ばれる新しいflプロトコルを提案する。 提案手法は,2つの変数を用いて統計的不均一性に対処し,クライアントの作業量の変動を許容することでシステム不均一性に対応する。 FedADMMはFedAvg/Proxと同じ通信コストを維持し、拡張されたラグランジアンを通じてそれらを一般化する。 非凸目的に対しては、データの類似性や1ラウンドあたりの参加者数といった制限なく収束証明が確立される。 IIDデータと非IIDデータの両方をクライアントに分散して、実際のデータセットで広範な実験を行うことで、メリットを実証する。 FedADMMは、通信効率の点で全てのベースライン手法を一貫して上回り、所定の精度に達するのに必要なラウンドの数を最大87%削減した。 このアルゴリズムは、ハイパーパラメータチューニングを必要とせず、双対変数を用いて異種データ分布に効果的に対応し、その利点は大規模システムにおいてより顕著である。

Federated Learning (FL) is an emerging framework for distributed processing of large data volumes by edge devices subject to limited communication bandwidths, heterogeneity in data distributions and computational resources, as well as privacy considerations. In this paper, we introduce a new FL protocol termed FedADMM based on primal-dual optimization. The proposed method leverages dual variables to tackle statistical heterogeneity, and accommodates system heterogeneity by tolerating variable amount of work performed by clients. FedADMM maintains identical communication costs per round as FedAvg/Prox, and generalizes them via the augmented Lagrangian. A convergence proof is established for nonconvex objectives, under no restrictions in terms of data dissimilarity or number of participants per round of the algorithm. We demonstrate the merits through extensive experiments on real datasets, under both IID and non-IID data distributions across clients. FedADMM consistently outperforms all baseline methods in terms of communication efficiency, with the number of rounds needed to reach a prescribed accuracy reduced by up to 87%. The algorithm effectively adapts to heterogeneous data distributions through the use of dual variables, without the need for hyperparameter tuning, and its advantages are more pronounced in large-scale systems.
翻訳日:2022-04-11 23:08:34 公開日:2022-04-08
# (参考訳) 同時翻訳には同時モデルが必要か? [全文訳有]

Does Simultaneous Speech Translation need Simultaneous Models? ( http://arxiv.org/abs/2204.03783v1 )

ライセンス: CC BY-SA 4.0
Sara Papi, Marco Gaido, Matteo Negri, Marco Turchi(参考訳) 同時音声翻訳(SimulST)では、高い翻訳品質と低レイテンシの最良のトレードオフを見つけることが難しい課題である。 異なるアプリケーションシナリオによって生じるレイテンシの制約を満たすため、複数の専用SimulSTモデルは通常、トレーニングとメンテナンスが行われ、高い計算コストと環境への影響が増大する。 本稿では,オフラインでトレーニングされた1つのモデルが,オフラインだけでなく,異なるレイテンシ・レジームでの同時タスクにも効果的に機能することを示し,トレーニング/適応手順をバイパスする。 この単一モデルソリューションは、レイテンシに影響を与えることなく、確立されたオフライン技術やアーキテクチャの採用を促進するだけでなく、同時設定でトレーニングされた同じモデルと同等あるいはそれ以上の翻訳品質をもたらす。 en$\rightarrow$\{de, es\}の実験は、我々のアプローチの有効性を示し、芸術のシマルスト状態と競争的な結果を示している。

In simultaneous speech translation (SimulST), finding the best trade-off between high translation quality and low latency is a challenging task. To meet the latency constraints posed by different application scenarios, multiple dedicated SimulST models are usually trained and maintained, causing high computational costs and increased environmental impact. In this paper, we show that a single model trained offline can effectively serve not only offline but also simultaneous tasks at different latency regimes, bypassing any training/adaptation procedures. This single-model solution does not only facilitate the adoption of well-established offline techniques and architectures without affecting latency but also yields similar or even better translation quality compared to the same model trained in the simultaneous setting. Experiments on En$\rightarrow$\{De, Es\} indicate the effectiveness of our approach, showing competitive results with the SimulST state of the art.
翻訳日:2022-04-11 20:05:29 公開日:2022-04-08
# (参考訳) 複合型マルチモーダルMRI再構成と合成のための学習可能な変分モデル [全文訳有]

A Learnable Variational Model for Joint Multimodal MRI Reconstruction and Synthesis ( http://arxiv.org/abs/2204.03804v1 )

ライセンス: CC BY 4.0
Wanyu Bian, Qingchao Zhang, Xiaojing Ye, Yunmei Chen(参考訳) 同じ解剖学のマルチコントラスト/モーダルmriの生成は、診断情報を豊かにするが、過剰なデータ取得時間のために実際に制限される。 本稿では,複数音源モードの不完全k空間データを入力として用いた,複数モードMRIの結合再構成と合成のための新しいディープラーニングモデルを提案する。 本モデルの出力には,音源モダリティの再構成画像と,対象モダリティで合成された高品質画像が含まれる。 提案モデルは,複数の学習可能な様相特異的特徴抽出器とマルチモーダル合成モジュールを用いた変分問題として定式化されている。 本稿では,マルチモーダルMRIデータを用いてパラメータを訓練可能なマルチフェーズネットワークを誘導する学習可能な最適化アルゴリズムを提案する。 さらに、ロバストパラメータトレーニングには、バイレベル最適化フレームワークが使用される。 本手法の有効性を広範囲な数値実験により実証する。

Generating multi-contrasts/moda l MRI of the same anatomy enriches diagnostic information but is limited in practice due to excessive data acquisition time. In this paper, we propose a novel deep-learning model for joint reconstruction and synthesis of multi-modal MRI using incomplete k-space data of several source modalities as inputs. The output of our model includes reconstructed images of the source modalities and high-quality image synthesized in the target modality. Our proposed model is formulated as a variational problem that leverages several learnable modality-specific feature extractors and a multimodal synthesis module. We propose a learnable optimization algorithm to solve this model, which induces a multi-phase network whose parameters can be trained using multi-modal MRI data. Moreover, a bilevel-optimization framework is employed for robust parameter training. We demonstrate the effectiveness of our approach using extensive numerical experiments.
翻訳日:2022-04-11 19:49:09 公開日:2022-04-08
# (参考訳) ハドロン噴流分類の普遍性を探る [全文訳有]

Exploring the Universality of Hadronic Jet Classification ( http://arxiv.org/abs/2204.03812v1 )

ライセンス: CC BY 4.0
Kingman Cheung, Yi-Lun Chung, Shih-Chieh Hsu, and Benjamin Nachman(参考訳) ジェット部分構造のモデル化は、Parton Shower Monte Carlo (PSMC) プログラムとは大きく異なる。 それにもかかわらず、異なるPSMCで訓練された機械学習分類器は、ほぼ同じ関数を学習する。 これは、これらの分類器がテストのために同じpsmcに適用されると、ほぼ同じ性能になることを意味する。 この分類器の普遍性は、あるシミュレーションで訓練され、別のシミュレーション(またはデータ)でテストされた機械学習モデルが最適であることを示している。 我々の観測は、lhcにおけるローレンツ・ブースト・ヒッグス・ジェット・タギングシミュレーションに応用された浅層および深層ニューラルネットワークの詳細な研究に基づいている。

The modeling of jet substructure significantly differs between Parton Shower Monte Carlo (PSMC) programs. Despite this, we observe that machine learning classifiers trained on different PSMCs learn nearly the same function. This means that when these classifiers are applied to the same PSMC for testing, they result in nearly the same performance. This classifier universality indicates that a machine learning model trained on one simulation and tested on another simulation (or data) will likely be optimal. Our observations are based on detailed studies of shallow and deep neural networks applied to simulated Lorentz boosted Higgs jet tagging at the LHC.
翻訳日:2022-04-11 19:35:58 公開日:2022-04-08
# (参考訳) ほぼゼロショットマルチタスク分類のための標準平均フィルタ [全文訳有]

Canonical Mean Filter for Almost Zero-Shot Multi-Task classification ( http://arxiv.org/abs/2204.03815v1 )

ライセンス: CC BY 4.0
Yong Li and Heng Wang and Xiang Ye(参考訳) サポートセットは、数ショットのタスクでモデルの迅速な適応のための条件付き事前を提供するためのキーです。 しかし、厳格なサポートセットは実際にその構築を実践的に困難にしている。 本稿では,CNAPsの特徴抽出における適応の役割を再考する。 この役割を解明するために、AZSタスクは、異なるタスクの前に異なる条件付きのサポートセットを提供する共通スキームを置き換えるためにサポートセットを固定することで設計される。 AZS実験の結果、特徴抽出器では適応がほとんど機能しないことが示された。 しかし、cnapsはランダムに選択されたサポートセットに対して頑健であり、単純な平均演算子が応答する散在平均埋め込みのため、メタデータセットのいくつかのデータセットではうまく動作しない。 CNAPのロバスト性を高めるために,Canonical Mean Filter (CMF)モジュールを提案し,サポートセットを標準形式にマッピングすることにより,特徴空間に平均埋め込みを集中的に安定させる。 CMFは、CNAPをランダム行列であっても任意の固定支持集合に対して堅牢にする。 この属性により、CNAPはテスト段階での平均エンコーダとパラメータ適応ネットワークを除去できる一方、AZSタスク上のCNAP-CMFは1ショットタスクでパフォーマンスを維持することができる。 これは大きなパラメータの削減につながる。 正確には、テスト段階で40.48\%のパラメータをドロップする。 また、CNAP-CMFは、内部タスクの不安定なパフォーマンス問題に対処するため、ワンショットタスクにおいてCNAPよりも優れている。 分類性能、可視化およびクラスタリングの結果、CMFがCNAPをよりシンプルにすることを確認した。

The support set is a key to providing conditional prior for fast adaption of the model in few-shot tasks. But the strict form of support set makes its construction actually difficult in practical application. Motivated by ANIL, we rethink the role of adaption in the feature extractor of CNAPs, which is a state-of-the-art representative few-shot method. To investigate the role, Almost Zero-Shot (AZS) task is designed by fixing the support set to replace the common scheme, which provides corresponding support sets for the different conditional prior of different tasks. The AZS experiment results infer that the adaptation works little in the feature extractor. However, CNAPs cannot be robust to randomly selected support sets and perform poorly on some datasets of Meta-Dataset because of its scattered mean embeddings responded by the simple mean operator. To enhance the robustness of CNAPs, Canonical Mean Filter (CMF) module is proposed to make the mean embeddings intensive and stable in feature space by mapping the support sets into a canonical form. CMFs make CNAPs robust to any fixed support sets even if they are random matrices. This attribution makes CNAPs be able to remove the mean encoder and the parameter adaptation network at the test stage, while CNAP-CMF on AZS tasks keeps the performance with one-shot tasks. It leads to a big parameter reduction. Precisely, 40.48\% parameters are dropped at the test stage. Also, CNAP-CMF outperforms CNAPs in one-shot tasks because it addresses inner-task unstable performance problems. Classification performance, visualized and clustering results verify that CMFs make CNAPs better and simpler.
翻訳日:2022-04-11 19:13:44 公開日:2022-04-08
# (参考訳) Wikipediaからの知識の注入によるスタンス検出 [全文訳有]

Infusing Knowledge from Wikipedia to Enhance Stance Detection ( http://arxiv.org/abs/2204.03839v1 )

ライセンス: CC BY 4.0
Zihao He, Negar Mokhberian, Kristina Lerman(参考訳) 姿勢検出は、テキスト作者のターゲットに対する態度を推測する。 モデルにターゲットに関するバックグラウンド知識がない場合、これは難しい。 ここでは,Wikipediaの背景知識が姿勢検出の性能向上に役立つことを示す。 本稿では,知識をスタンスエンコーディングに注入するウィキペディアスタンス検出BERT(WS-BERT)を紹介する。 ソーシャルメディアの議論やオンラインの議論を網羅した3つのベンチマークデータセットの広範な結果から、我々のモデルはターゲット固有のスタンス検出、ターゲット間のスタンス検出、ゼロ/ファウショットスタンス検出において、最先端の手法を著しく上回っていることが示唆された。

Stance detection infers a text author's attitude towards a target. This is challenging when the model lacks background knowledge about the target. Here, we show how background knowledge from Wikipedia can help enhance the performance on stance detection. We introduce Wikipedia Stance Detection BERT (WS-BERT) that infuses the knowledge into stance encoding. Extensive results on three benchmark datasets covering social media discussions and online debates indicate that our model significantly outperforms the state-of-the-art methods on target-specific stance detection, cross-target stance detection, and zero/few-shot stance detection.
翻訳日:2022-04-11 19:02:56 公開日:2022-04-08
# (参考訳) インスタンス依存部分ラベル学習のための分解に基づく生成プロセス [全文訳有]

Decomposition-based Generation Process for Instance-Dependent Partial Label Learning ( http://arxiv.org/abs/2204.03845v1 )

ライセンス: CC BY 4.0
Congyu Qiao, Ning Xu, Xin Geng(参考訳) 部分ラベル学習(pll)は典型的な弱い教師付き学習問題であり、各トレーニングサンプルは1つだけが真である候補ラベルの集合に関連付けられている。 既存のPLLアプローチの多くは、各トレーニング例の誤りラベルを候補ラベルとしてランダムに選択し、候補ラベルの生成プロセスを簡単な方法でモデル化している。 しかし、これらの手法は通常、候補ラベルの生成プロセスが常にインスタンスに依存しているため、期待通りには機能しない。 したがって、洗練された方法でモデル化されるべきである。 本稿では、インスタンス依存型pllについて考察し、候補ラベルの生成過程を2つの逐次的部分に分けて、まず正しいラベルが注釈器の心に現れるが、その後、その特徴に関連する不正確なラベルも、ラベルの不確かさから候補ラベルとして選択できると仮定する。 そこで本研究では,分解確率分布モデルを用いて候補ラベルの明示的にモデル化した生成プロセスに基づいて,後方(map)を最大化する新しいpll法を提案する。 ベンチマークおよび実世界のデータセットを用いた実験により,提案手法の有効性が検証された。

Partial label learning (PLL) is a typical weakly supervised learning problem, where each training example is associated with a set of candidate labels among which only one is true. Most existing PLL approaches assume that the incorrect labels in each training example are randomly picked as the candidate labels and model the generation process of the candidate labels in a simple way. However, these approaches usually do not perform as well as expected due to the fact that the generation process of the candidate labels is always instance-dependent. Therefore, it deserves to be modeled in a refined way. In this paper, we consider instance-dependent PLL and assume that the generation process of the candidate labels could decompose into two sequential parts, where the correct label emerges first in the mind of the annotator but then the incorrect labels related to the feature are also selected with the correct label as candidate labels due to uncertainty of labeling. Motivated by this consideration, we propose a novel PLL method that performs Maximum A Posterior(MAP) based on an explicitly modeled generation process of candidate labels via decomposed probability distribution models. Experiments on benchmark and real-world datasets validate the effectiveness of the proposed method.
翻訳日:2022-04-11 18:52:07 公開日:2022-04-08
# (参考訳) CrudeOilNews:イベント抽出のための注釈付き原油ニュースコーポレーション [全文訳有]

CrudeOilNews: An Annotated Crude Oil News Corpus for Event Extraction ( http://arxiv.org/abs/2204.03871v1 )

ライセンス: CC BY 4.0
Meisin Lee, Lay-Ki Soon, Eu-Gene Siew, Ly Fie Sugianto(参考訳) 本稿では,イベント抽出のための英語原油ニュースのコーパスである crudeoilnews を提案する。 商品ニュースとしては初めてであり、経済・金融のテキストマイニングのための資源構築に寄与している。 本稿では,コーパス作成に使用されるデータ収集プロセス,アノテーション方法論,イベントタイポロジーについて述べる。 まず175件のニュース記事のシードセットを手動でアノテートし,25件のニュースのサブセットをアノテータ間およびシステム評価のための適応参照テストセットとして使用した。 合意は概して実質的であり、アノテーションのパフォーマンスは十分であり、アノテーションスキームが高品質な一貫性のあるイベントアノテーションを生成することを示している。 その後、(1)データ拡張と(2)ヒューマン・イン・ザ・ループアクティブ・ラーニングによってデータセットを拡大する。 得られたコーパスには425のニュース記事があり、約11kのイベントが注釈付けされている。 アクティブな学習プロセスの一環として、コーパスは、マシンラベリングのための基本的なイベント抽出モデルをトレーニングするために使用され、結果として得られたモデルは、検証や、機械学習目的におけるコーパスの使用を実証するパイロットスタディとしても機能する。 注釈付きコーパスは、https://github.com/m eisin/CrudeOilNews-C orpusで学術研究用に提供されている。

In this paper, we present CrudeOilNews, a corpus of English Crude Oil news for event extraction. It is the first of its kind for Commodity News and serve to contribute towards resource building for economic and financial text mining. This paper describes the data collection process, the annotation methodology and the event typology used in producing the corpus. Firstly, a seed set of 175 news articles were manually annotated, of which a subset of 25 news were used as the adjudicated reference test set for inter-annotator and system evaluation. Agreement was generally substantial and annotator performance was adequate, indicating that the annotation scheme produces consistent event annotations of high quality. Subsequently the dataset is expanded through (1) data augmentation and (2) Human-in-the-loop active learning. The resulting corpus has 425 news articles with approximately 11k events annotated. As part of active learning process, the corpus was used to train basic event extraction models for machine labeling, the resulting models also serve as a validation or as a pilot study demonstrating the use of the corpus in machine learning purposes. The annotated corpus is made available for academic research purpose at https://github.com/m eisin/CrudeOilNews-C orpus.
翻訳日:2022-04-11 18:37:46 公開日:2022-04-08
# (参考訳) 制御不能障害からの制御不能障害:共同学習計測とインプット [全文訳有]

Controllable Missingness from Uncontrollable Missingness: Joint Learning Measurement Policy and Imputation ( http://arxiv.org/abs/2204.03872v1 )

ライセンス: CC BY 4.0
Seongwook Yoon, Jaehyun Kim, Heejeong Lim, Sanghoon Sull(参考訳) 測定のコストや干渉のため、測定システムを制御する必要がある。 各変数を順次に測定できると仮定すると、前の観測で次の測定を選択できる最適なポリシーが存在する。 最適な測定方針は実際には測定の目的に依存しているが、我々は主に完全なデータを取得することに焦点を当てている。 また,測定方針によって異なる欠落に対してインプテーション法を適用する。 しかし、学習測定方針とインプテーションは、残念ながら観測できない完全なデータを必要とする。 そこで本研究では,データ生成手法と共同学習アルゴリズムを提案する。 一番の考え方は 1)データ生成方法は、計算方法により継承され、 2) インキュベーションの適応は, 個別の学習よりも, 測定政策の学習を促す。 2つの異なるデータセットと様々な欠落率に対して提案アルゴリズムのバリエーションを実装した。 実験結果から,本アルゴリズムは一般に適用可能であり,ベースライン法より優れていることを示す。

Due to the cost or interference of measurement, we need to control measurement system. Assuming that each variable can be measured sequentially, there exists optimal policy choosing next measurement for the former observations. Though optimal measurement policy is actually dependent on the goal of measurement, we mainly focus on retrieving complete data, so called as imputation. Also, we adapt the imputation method to missingness varying with measurement policy. However, learning measurement policy and imputation requires complete data which is impossible to be observed, unfortunately. To tackle this problem, we propose a data generation method and joint learning algorithm. The main idea is that 1) the data generation method is inherited by imputation method, and 2) the adaptation of imputation encourages measurement policy to learn more than individual learning. We implemented some variations of proposed algorithm for two different datasets and various missing rates. From the experimental results, we demonstrate that our algorithm is generally applicable and outperforms baseline methods.
翻訳日:2022-04-11 18:21:48 公開日:2022-04-08
# (参考訳) 準Geostrophic turbulence parametrizationの後方学習

A posteriori learning for quasi-geostrophic turbulence parametrization ( http://arxiv.org/abs/2204.03911v1 )

ライセンス: CC BY 4.0
Hugo Frezat, Julien Le Sommer, Ronan Fablet, Guillaume Balarac, Redouane Lguensat(参考訳) 気候モデルにサブグリッドパラメータを構築するための機械学習の利用が注目されている。 最先端の戦略は問題を教師付き学習タスクとして対処し、粗い解像度モデルからの情報に基づいてサブグリッドフラックスを予測するアルゴリズムを最適化する。 実際には、粗い解法シミュレーションを模倣するために変換された高分解能数値シミュレーションからトレーニングデータを生成する。 本質的に、これらの戦略は、いわゆる$\textit{a priori}$ 条件を満たすためにサブグリッドパラメトリゼーションを最適化する。 しかし、サブグリッドパラメトリゼーションの実際の目的は、モデルの軌道全体を計算するための$\textit{a posteriori}$メトリックという観点で優れたパフォーマンスを得ることである。 本稿では,2次元準地すべり乱流におけるエネルギー後方散乱の表現に着目し,一定の計算量で異なる学習戦略で得られたパラメトリゼーションを比較する。 我々は,$\textit{a priori}$条件に基づく戦略が直接シミュレーションでは不安定なパラメータ化を生じさせ,$\textit{a posteriori}$条件を満たすために,サブグリッドパラメータがエンドツーエンドでどのように訓練されるかを記述する。 エンド・ツー・エンドの学習戦略は、既知の経験的およびデータ駆動型スキームを、異なるフロー構成に適用する性能、安定性、能力で上回るパラメトリゼーションをもたらす。 これらの結果は、将来の気候モデルにおける微分可能プログラミングパラダイムの関連性を支持する。

The use of machine learning to build subgrid parametrizations for climate models is receiving growing attention. State-of-the-art strategies address the problem as a supervised learning task and optimize algorithms that predict subgrid fluxes based on information from coarse resolution models. In practice, training data are generated from higher resolution numerical simulations transformed in order to mimic coarse resolution simulations. By essence, these strategies optimize subgrid parametrizations to meet so-called $\textit{a priori}$ criteria. But the actual purpose of a subgrid parametrization is to obtain good performance in terms of $\textit{a posteriori}$ metrics which imply computing entire model trajectories. In this paper, we focus on the representation of energy backscatter in two dimensional quasi-geostrophic turbulence and compare parametrizations obtained with different learning strategies at fixed computational complexity. We show that strategies based on $\textit{a priori}$ criteria yield parametrizations that tend to be unstable in direct simulations and describe how subgrid parametrizations can alternatively be trained end-to-end in order to meet $\textit{a posteriori}$ criteria. We illustrate that end-to-end learning strategies yield parametrizations that outperform known empirical and data-driven schemes in terms of performance, stability and ability to apply to different flow configurations. These results support the relevance of differentiable programming paradigms for climate models in the future.
翻訳日:2022-04-11 18:09:02 公開日:2022-04-08
# (参考訳) ニューラルアーキテクチャ探索におけるスーパーネット--分類学的調査 [全文訳有]

SuperNet in Neural Architecture Search: A Taxonomic Survey ( http://arxiv.org/abs/2204.03916v1 )

ライセンス: CC BY 4.0
Stephen Cha, Taehyeon Kim, Hayeon Lee, Se-Young Yun(参考訳) ディープニューラルネットワーク(DNN)は、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、幅広い視覚的認識タスクにおいて大きな進歩を遂げている。 畳み込みアーキテクチャの進化により、高価な計算コストを伴って性能が向上した。 さらに、ネットワーク設計は、労働集約的で、高いレベルのドメイン知識を必要とする、難しいタスクになっている。 このような問題を緩和するために、最適なアーキテクチャを自動検索する様々なニューラルネットワーク探索手法の研究が行われ、人間の設計したモデルよりも優れた性能を持つモデルが達成されている。 この調査は、この研究分野における既存の研究の概要を提供し、特に、重み共有を用いて全てのアーキテクチャをサブモデルとして組み立てるニューラルネットワークを構築するスーパーネット最適化に焦点を当てることを目的としている。 そこで本論文では,データ側最適化,低ランク相関緩和,多数のデプロイメントシナリオにおけるNAS(Transferable NAS)といった課題に対する解決策として提案することで,スーパーネット最適化を分類することを目的としている。

Deep Neural Networks (DNN) have made significant progress in a wide range of visual recognition tasks such as image classification, object detection, and semantic segmentation. The evolution of convolutional architectures has led to better performance by incurring expensive computational costs. In addition, network design has become a difficult task, which is labor-intensive and requires a high level of domain knowledge. To mitigate such issues, there have been studies for a variety of neural architecture search methods that automatically search for optimal architectures, achieving models with impressive performance that outperform human-designed counterparts. This survey aims to provide an overview of existing works in this field of research and specifically focus on the supernet optimization that builds a neural network that assembles all the architectures as its sub models by using weight sharing. We aim to accomplish that by categorizing supernet optimization by proposing them as solutions to the common challenges found in the literature: data-side optimization, poor rank correlation alleviation, and transferable NAS for a number of deployment scenarios.
翻訳日:2022-04-11 18:07:37 公開日:2022-04-08
# (参考訳) ネットワークシャッフル:ランダムウォークによるプライバシーの増幅 [全文訳有]

Network Shuffling: Privacy Amplification via Random Walks ( http://arxiv.org/abs/2204.03919v1 )

ライセンス: CC BY 4.0
Seng Pei Liew, Tsubasa Takahashi, Shun Takagi, Fumiyuki Kato, Yang Cao, Masatoshi Yoshikawa(参考訳) 近年、シャッフルは局所的な差分プライバシーにランダム化されたデータの中央の差分プライバシー保証を増幅できることが示されている。 この設定では、集中型で信頼性の高いシャッフルが、データの匿名性を維持することによって、システムのプライバシの保証を強化している。 しかし、もともとローカルプライバシモデルに集中型エンティティを導入すると、ローカルディファレンシャルプライバシのように集中型エンティティを持たないという魅力が失われる。 さらに、高度なハードウェアやセキュアな計算技術の既知のセキュリティ問題や要件のために、シャフラーを信頼性の高い方法で実装することは簡単ではない。 これらの実践的考察により、我々はシャッフルモデルを再考し、中央集権的で信頼できるシャッフルを必要とする仮定を緩和する。 匿名性によるプライバシーの増幅の代替として,ネットワーク/グラフ上でランダムウォーク方式でデータを交換する分散メカニズムであるネットワークシャッフルを導入する。 このような状況下で脅威モデルを分析し,実装が容易なネットワークシャッフルの分散プロトコルを提案する。 さらに、プライバシー増幅率は、均一シャッフルのような他のプライバシー増幅手法と類似していることを示す。 我々の知る限り、プライバシーの増幅技術を利用した最近研究された中間信頼モデルの中で、私たちの仕事は、プライバシーの増幅を達成するためにいかなる集中型エンティティにも依存していない最初のものである。

Recently, it is shown that shuffling can amplify the central differential privacy guarantees of data randomized with local differential privacy. Within this setup, a centralized, trusted shuffler is responsible for shuffling by keeping the identities of data anonymous, which subsequently leads to stronger privacy guarantees for systems. However, introducing a centralized entity to the originally local privacy model loses some appeals of not having any centralized entity as in local differential privacy. Moreover, implementing a shuffler in a reliable way is not trivial due to known security issues and/or requirements of advanced hardware or secure computation technology. Motivated by these practical considerations, we rethink the shuffle model to relax the assumption of requiring a centralized, trusted shuffler. We introduce network shuffling, a decentralized mechanism where users exchange data in a random-walk fashion on a network/graph, as an alternative of achieving privacy amplification via anonymity. We analyze the threat model under such a setting, and propose distributed protocols of network shuffling that is straightforward to implement in practice. Furthermore, we show that the privacy amplification rate is similar to other privacy amplification techniques such as uniform shuffling. To our best knowledge, among the recently studied intermediate trust models that leverage privacy amplification techniques, our work is the first that is not relying on any centralized entity to achieve privacy amplification.
翻訳日:2022-04-11 17:48:32 公開日:2022-04-08
# (参考訳) 書き直しから思い出へ:会話型QAモデルのための共通基盤 [全文訳有]

From Rewriting to Remembering: Common Ground for Conversational QA Models ( http://arxiv.org/abs/2204.03930v1 )

ライセンス: CC BY 4.0
Marco Del Tredici, Xiaoyu Shen, Gianni Barlacchi, Bill Byrne, Adri\`a de Gispert(参考訳) 会話型QAでは、モデルは次の質問に答えるために、以前の順番で情報を活用する必要がある。 現在のアプローチ、例えば質問の書き直しは、会話が揺れるにつれて関連する情報を抽出するのに苦労している。 我々は,会話情報を蓄積する手法である共通グラウンド(CG)を導入し,各ターンに関連情報を選択する。 CGは、既存のアプローチに比べて、より効率的で人間的な方法で会話情報を活用できることを示し、Open Domain Conversational QAの改善につながっている。

In conversational QA, models have to leverage information in previous turns to answer upcoming questions. Current approaches, such as Question Rewriting, struggle to extract relevant information as the conversation unwinds. We introduce the Common Ground (CG), an approach to accumulate conversational information as it emerges and select the relevant information at every turn. We show that CG offers a more efficient and human-like way to exploit conversational information compared to existing approaches, leading to improvements on Open Domain Conversational QA.
翻訳日:2022-04-11 17:18:39 公開日:2022-04-08
# (参考訳) 通信システムのエンドツーエンド学習のためのチャネルモデル:調査 [全文訳有]

Channel model for end-to-end learning of communications systems: A survey ( http://arxiv.org/abs/2204.03944v1 )

ライセンス: CC BY 4.0
Ijaz Ahmad and Seokjoo Shin(参考訳) 複数の独立した処理ブロックの連鎖に基づく従来の通信モデルは、効率に対する制約であり、人工的障壁を導入する。 したがって、個別に最適化されたブロックはシステムのエンドツーエンドのパフォーマンスを保証しない。 近年,機械学習(ML)による通信システムのエンドツーエンド学習が提案されている。 これらの手法は性能改善を示すが、異なるチャネルモデルを必要とするという制限がある。 本研究では,この問題を緩和する既存のアプローチを要約した。 本研究は,この話題のより深い理解と今後の研究への洞察をもたらすものと信じている。

The traditional communication model based on chain of multiple independent processing blocks is constraint to efficiency and introduces artificial barriers. Thus, each individually optimized block does not guarantee end-to-end performance of the system. Recently, end-to-end learning of communications systems through machine learning (ML) have been proposed to optimize the system metrics jointly over all components. These methods show performance improvements but has a limitation that it requires a differentiable channel model. In this study, we have summarized the existing approaches that alleviates this problem. We believe that this study will provide better understanding of the topic and an insight into future research in this field.
翻訳日:2022-04-11 17:09:24 公開日:2022-04-08
# (参考訳) RuBioRoBERTa:ロシア語バイオメディカルテキストマイニングのための事前訓練されたバイオメディカル言語モデル [全文訳有]

RuBioRoBERTa: a pre-trained biomedical language model for Russian language biomedical text mining ( http://arxiv.org/abs/2204.03951v1 )

ライセンス: CC BY 4.0
Alexander Yalunin, Alexander Nesterov, and Dmitriy Umerenkov(参考訳) 本稿では,ロシア語バイオメディカルテキストマイニング(RuBioBERT,RuBioRoBE RTa)のBERTモデルについて述べる。 モデルは、ロシア生物医学領域の自由に利用可能なテキストのコーパスで事前訓練されている。 この事前トレーニングにより,テキスト分類,質問応答,自然言語推論,名前付きエンティティ認識など,さまざまなタスクセットをカバーするrumedbenchrussian medical language understanding benchmarkの最先端結果が実証された。

This paper presents several BERT-based models for Russian language biomedical text mining (RuBioBERT, RuBioRoBERTa). The models are pre-trained on a corpus of freely available texts in the Russian biomedical domain. With this pre-training, our models demonstrate state-of-the-art results on RuMedBench - Russian medical language understanding benchmark that covers a diverse set of tasks, including text classification, question answering, natural language inference, and named entity recognition.
翻訳日:2022-04-11 17:03:21 公開日:2022-04-08
# (参考訳) SemEval-2022 Task 5: Ensemble Learning for identifying misogynous MEMEs [全文訳有]

RubCSG at SemEval-2022 Task 5: Ensemble learning for identifying misogynous MEMEs ( http://arxiv.org/abs/2204.03953v1 )

ライセンス: CC BY-SA 4.0
Wentao Yu, Benedikt Boenninghoff, Jonas Roehrig, Dorothea Kolossa(参考訳) 本研究は,SemEval 2022 Task 5: MAMI-Multimedia Automatic Misogyny Identificationのために開発された,様々なユニモーダルおよびバイモーダルモデルアーキテクチャに基づくアンサンブルシステムを提案する。 チャレンジオーガナイザは、偽造ミームを識別し分類するためのシステムを開発し、訓練するための英語のミームデータセットを提供する。 より正確には、コンペティションは2つのサブタスクに分けられる: サブタスク A ミームがミソジニーを表現しているかという二項決定を求め、サブタスク B はミソジニーミームをステレオタイプ、シェーミング、オブジェクト化、暴力の潜在的重複するサブカテゴリに分類する。 提案では,新しいモデル融合ネットワークを実装し,性能向上のためにアンサンブル学習手法を採用する。 この構造により、サブタスクaでは 0.755 マクロ平均 f1-score (11 番目)、サブタスクbでは 0.709 重み付き平均 f1-score (10 番目) を達成する。

This work presents an ensemble system based on various uni-modal and bi-modal model architectures developed for the SemEval 2022 Task 5: MAMI-Multimedia Automatic Misogyny Identification. The challenge organizers provide an English meme dataset to develop and train systems for identifying and classifying misogynous memes. More precisely, the competition is separated into two sub-tasks: sub-task A asks for a binary decision as to whether a meme expresses misogyny, while sub-task B is to classify misogynous memes into the potentially overlapping sub-categories of stereotype, shaming, objectification, and violence. For our submission, we implement a new model fusion network and employ an ensemble learning approach for better performance. With this structure, we achieve a 0.755 macroaverage F1-score (11th) in sub-task A and a 0.709 weighted-average F1-score (10th) in sub-task B.
翻訳日:2022-04-11 16:59:02 公開日:2022-04-08
# (参考訳) スマート環境におけるトランスファーラーニングのためのブロックチェーン [全文訳有]

Blockchain as an Enabler for Transfer Learning in Smart Environments ( http://arxiv.org/abs/2204.03959v1 )

ライセンス: CC BY 4.0
Amin Anjomshoaa and Edward Curry(参考訳) インテリジェントシステムのための機械学習モデルに具体化された知識は、大規模データ収集、データラベリング、ネットワークトレーニング、モデルの微調整といった、時間とコストのかかるプロセスと一般的に関連している。 トランスファーラーニングと呼ばれる別の環境にデプロイされたインテリジェントなシステム間で、これらの精巧なモデルの共有と再利用は、ユーザのためのサービスの採用を促進し、スマートビルディングやスマートシティアプリケーションといった環境におけるインテリジェントなシステムの取り込みを加速する。 この文脈では、AI対応環境間のコミュニケーションと知識交換は、システム、システムのシステム、デジタル資産、および従来の情報システムの集中型スキーマにほとんど従わない依存関係の連鎖の複雑なネットワークに依存する。 むしろ、データプロファイランス、ワークフローの透明性、プロセス参加者の検証といった機能によって強化された、適応的な分散システムアーキテクチャが必要です。 本研究では,IoT対応環境間の知識交換と相互運用性をサポートするブロックチェーンとナレッジグラフ技術に基づく分散適応型ソフトウェアフレームワークを,透過的で信頼性の高い方法で提案する。

The knowledge, embodied in machine learning models for intelligent systems, is commonly associated with time-consuming and costly processes such as large-scale data collection, data labelling, network training, and fine-tuning of models. Sharing and reuse of these elaborated models between intelligent systems deployed in a different environment, which is known as transfer learning, would facilitate the adoption of services for the users and accelerates the uptake of intelligent systems in environments such as smart building and smart city applications. In this context, the communication and knowledge exchange between AI-enabled environments depend on a complicated networks of systems, system of systems, digital assets, and their chain of dependencies that hardly follows the centralized schema of traditional information systems. Rather, it requires an adaptive decentralized system architecture that is empowered by features such as data provenance, workflow transparency, and validation of process participants. In this research, we propose a decentralized and adaptive software framework based on blockchain and knowledge graph technologies that supports the knowledge exchange and interoperability between IoT-enabled environments, in a transparent and trustworthy way.
翻訳日:2022-04-11 16:47:10 公開日:2022-04-08
# (参考訳) kgi: 知識集約型言語タスクのための統合フレームワーク [全文訳有]

KGI: An Integrated Framework for Knowledge Intensive Language Tasks ( http://arxiv.org/abs/2204.03985v1 )

ライセンス: CC BY 4.0
Md Faisal Mahbub Chowdhury, Michael Glass, Gaetano Rossiello, Alfio Gliozzo and Nandana Mihindukulasooriya(参考訳) 本研究では,新しいゼロショットスロット充填法を提案し,高密通路探索をハードネガで拡張し,拡張生成モデル検索のためのロバストなトレーニング手順を提案する。 本稿では,オープンドメイン質問応答(QA)や対話,事実チェックなど,他の知識集約型言語タスクに対してタスク特化モデルを訓練する,このアプローチの強化バージョンに基づくシステムを提案する。 我々のシステムは、KILTリーダーボードの最良のモデルに匹敵する結果を得る。 さらに,ユーザの問合せによって,これらの異なるモデルからの出力を組み合わせることで相互に検査できることを示す。 特に,QAモデルを用いて対話の精度を向上できることを示す。 このシステムをデモした短いビデオは、ここで入手できる。

In a recent work, we presented a novel state-of-the-art approach to zero-shot slot filling that extends dense passage retrieval with hard negatives and robust training procedures for retrieval augmented generation models. In this paper, we propose a system based on an enhanced version of this approach where we train task specific models for other knowledge intensive language tasks, such as open domain question answering (QA), dialogue and fact checking. Our system achieves results comparable to the best models in the KILT leaderboards. Moreover, given a user query, we show how the output from these different models can be combined to cross-examine each other. Particularly, we show how accuracy in dialogue can be improved using the QA model. A short video demonstrating the system is available here - \url{https://ibm.box.com/ v/kgi-interactive-de mo} .
翻訳日:2022-04-11 16:38:12 公開日:2022-04-08
# (参考訳) Multimodal Quasi-AutoRegression :新しいファッション製品の視覚的人気を予測 [全文訳有]

Multimodal Quasi-AutoRegression : Forecasting the visual popularity of new fashion products ( http://arxiv.org/abs/2204.04014v1 )

ライセンス: CC BY-SA 4.0
Stefanos I. Papadopoulos, Christos Koutlis, Symeon Papadopoulos, Ioannis Kompatsiaris(参考訳) 消費者の好みを推定することはファッション業界にとって最も重要であり、この情報を適切に活用することは利益の面で有益である。 ファッション業界の変化の速さから、ファッションにおけるトレンド検出は難しい課題である。 また、歴史資料の欠如により、新しい衣料品の視覚的な人気の予測がさらに求められている。 そこで本稿では,(1)コンピュータビジョンネットワークが抽出したマルチモーダル多層パーセプトロン処理のカテゴリと視覚的特徴,(2)過去のデータ不足を緩和する時間的人気パターンのプロキシとして使用される製品属性の時系列をモデル化する準自己回帰ニューラルネットワークの2つのモジュールを組み合わせた,マルチモーダル準自己回帰型ディープラーニングアーキテクチャであるMuQARを提案する。 muqarの妥当性を評価し、他のドメインへの汎用性を評価するためにamazon reviews: home and kitchenデータセットを使用するため、2つの大規模画像ファッションデータセット、mallezee-popularityとshift15mの広範なアブレーション解析を行う。 visuelleデータセットの比較研究によれば、muqarは、wapeの面では2.88%、maeの3.4%、ドメインの現在の最先端技術と競合することができる。

Estimating the preferences of consumers is of utmost importance for the fashion industry as appropriately leveraging this information can be beneficial in terms of profit. Trend detection in fashion is a challenging task due to the fast pace of change in the fashion industry. Moreover, forecasting the visual popularity of new garment designs is even more demanding due to lack of historical data. To this end, we propose MuQAR, a Multimodal Quasi-AutoRegressive deep learning architecture that combines two modules: (1) a multi-modal multi-layer perceptron processing categorical and visual features extracted by computer vision networks and (2) a quasi-autoregressive neural network modelling the time series of the product's attributes, which are used as a proxy of temporal popularity patterns mitigating the lack of historical data. We perform an extensive ablation analysis on two large scale image fashion datasets, Mallzee-popularity and SHIFT15m to assess the adequacy of MuQAR and also use the Amazon Reviews: Home and Kitchen dataset to assess generalisability to other domains. A comparative study on the VISUELLE dataset, shows that MuQAR is capable of competing and surpassing the domain's current state of the art by 2.88% in terms of WAPE and 3.04% in terms of MAE.
翻訳日:2022-04-11 16:31:06 公開日:2022-04-08
# (参考訳) ディスタングル型潜在音声表現による病的知能自動評価 [全文訳有]

Disentangled Latent Speech Representation for Automatic Pathological Intelligibility Assessment ( http://arxiv.org/abs/2204.04016v1 )

ライセンス: CC BY 4.0
Tobias Weise, Philipp Klumpp, Andreas Maier, Elmar Noeth, Bjoern Heismann, Maria Schuster, Seung Hee Yang(参考訳) 言語理解度評価は, 病的言語障害患者に対する治療において重要な役割を担っている。 従来の主観的および労働集約的な評価においてセラピストを支援するためには、自動的および客観的な措置が望ましい。 本研究では,健全な参照と病的話者から得られた並列発話対の非絡み合った潜在音声表現において,そのばらつきを利用した新しい手法について検討する。 脳性麻痺患者の英語データベースを用いた実験では、4つの基準話者ペア間での最小偏差(+-0.01)しか持たず、主観的知性尺度と高い有意な相関値(r = -0.9)を示す。 また,提案手法のロバスト性 (R = -0.89 で1000回以上,+-0.02) を,話者毎の発話量を大幅に小さくすることで示す。 以上の結果から,不等角化音声表現が自動的に病的音声明瞭度評価に応用できることを示す最初の例となり,少ない発話しかできない場合に適用可能な参照話者対不変法が得られた。

Speech intelligibility assessment plays an important role in the therapy of patients suffering from pathological speech disorders. Automatic and objective measures are desirable to assist therapists in their traditionally subjective and labor-intensive assessments. In this work, we investigate a novel approach for obtaining such a measure using the divergence in disentangled latent speech representations of a parallel utterance pair, obtained from a healthy reference and a pathological speaker. Experiments on an English database of Cerebral Palsy patients, using all available utterances per speaker, show high and significant correlation values (R = -0.9) with subjective intelligibility measures, while having only minimal deviation (+-0.01) across four different reference speaker pairs. We also demonstrate the robustness of the proposed method (R = -0.89 deviating +-0.02 over 1000 iterations) by considering a significantly smaller amount of utterances per speaker. Our results are among the first to show that disentangled speech representations can be used for automatic pathological speech intelligibility assessment, resulting in a reference speaker pair invariant method, applicable in scenarios with only few utterances available.
翻訳日:2022-04-11 16:17:24 公開日:2022-04-08
# (参考訳) eラーニング環境におけるマルチタスクトレーニングによるエンゲージメント検出 [全文訳有]

Engagement Detection with Multi-Task Training in E-Learning Environments ( http://arxiv.org/abs/2204.04020v1 )

ライセンス: CC BY 4.0
Onur Copur, Mert Nak{\i}p, Simone Scardapane, J\"urgen Slowack(参考訳) ユーザインタラクションの認識、特にエンゲージメント検出は、特にCOVID-19の発生時にオンラインの作業環境や学習環境において極めて重要になった。 このような認識と検出システムは、貴重なフィードバックを提供することで、ユーザエクスペリエンスと効率を大幅に改善する。 本稿では,eラーニング環境における学生のエンゲージメントレベルを決定するために,平均二乗誤差と三重項損失を最小化する,ED-MTT(Engagement Detection with Multi-Task Training)システムを提案する。 本システムの性能を,実生活シナリオから収集したビデオだけでなく,公開データセット上での最先端技術と比較し評価する。 その結果,ED-MTTは高い訓練時間と軽量な特徴抽出が可能な最先端性能よりも6%低いMSEを実現していることがわかった。

Recognition of user interaction, in particular engagement detection, became highly crucial for online working and learning environments, especially during the COVID-19 outbreak. Such recognition and detection systems significantly improve the user experience and efficiency by providing valuable feedback. In this paper, we propose a novel Engagement Detection with Multi-Task Training (ED-MTT) system which minimizes mean squared error and triplet loss together to determine the engagement level of students in an e-learning environment. The performance of this system is evaluated and compared against the state-of-the-art on a publicly available dataset as well as videos collected from real-life scenarios. The results show that ED-MTT achieves 6% lower MSE than the best state-of-the-art performance with highly acceptable training time and lightweight feature extraction.
翻訳日:2022-04-11 16:05:44 公開日:2022-04-08
# (参考訳) 計算的議論のための公平かつ議論的な言語モデリング [全文訳有]

Fair and Argumentative Language Modeling for Computational Argumentation ( http://arxiv.org/abs/2204.04026v1 )

ライセンス: CC BY-SA 4.0
Carolin Holtermann, Anne Lauscher, Simone Paolo Ponzetto(参考訳) NLPにおける多くの研究は意味空間におけるステレオタイプバイアスの測定と緩和に重点を置いているが、計算議論におけるバイアスに対処する研究はまだ初期段階にある。 本稿では,この研究ギャップに対処し,議論型言語モデルにおける偏見を徹底的に調査する。 この目的のために,議論に適したバイアス測定のための新しいリソースであるABBAを紹介する。 提案手法では,提案手法がトランスフォーマーベース言語モデルにおける固有バイアスに与える影響を,完全微調整よりも持続的かつパラメータ効率の高い軽量アダプタベースアプローチを用いて評価する。 最後に,言語モデルのデバイアスが,計算的議論の下流課題である議論品質予測の性能に与える影響について分析する。 その結果,ダウンストリームタスクにおけるモデル性能を維持しつつ,一般的な言語モデルや議論的な言語モデルのバイアスを,成功かつ持続的に除去できることがわかった。 実験的なコードとデータは、https://github.com/u manlp/FairArgumentat iveLMで公開しています。

Although much work in NLP has focused on measuring and mitigating stereotypical bias in semantic spaces, research addressing bias in computational argumentation is still in its infancy. In this paper, we address this research gap and conduct a thorough investigation of bias in argumentative language models. To this end, we introduce ABBA, a novel resource for bias measurement specifically tailored to argumentation. We employ our resource to assess the effect of argumentative fine-tuning and debiasing on the intrinsic bias found in transformer-based language models using a lightweight adapter-based approach that is more sustainable and parameter-efficient than full fine-tuning. Finally, we analyze the potential impact of language model debiasing on the performance in argument quality prediction, a downstream task of computational argumentation. Our results show that we are able to successfully and sustainably remove bias in general and argumentative language models while preserving (and sometimes improving) model performance in downstream tasks. We make all experimental code and data available at https://github.com/u manlp/FairArgumentat iveLM.
翻訳日:2022-04-11 15:55:02 公開日:2022-04-08
# (参考訳) 歴史的文書コレクションの日付推定のための汎用画像検索法 [全文訳有]

A Generic Image Retrieval Method for Date Estimation of Historical Document Collections ( http://arxiv.org/abs/2204.04028v1 )

ライセンス: CC BY 4.0
Adri\`a Molina and Lluis Gomez and Oriol Ramos Terrades and Josep Llad\'os(参考訳) 歴史的文書画像の日付推定は困難な問題であり、あるデータセットから他のデータセットへ一般化する能力に欠ける文献にいくつかの貢献がある。 本稿では,異種コレクションの前方でよく一般化する検索手法に基づく頑健な日付推定システムを提案する。 smooth-ndcg というランキング損失関数を用いて畳み込みニューラルネットワークを訓練し,問題毎に文書の順序を学習する。 提案手法の主な使用例の1つは、歴史的な文脈検索のためのツールである。 これは、大データセットから得られた歴史画像の比較分析を、制作時期の観点から行うことができることを意味している。 原稿や新聞画像の実際のデータセットから異なる種類の文書を実験的に評価する。

Date estimation of historical document images is a challenging problem, with several contributions in the literature that lack of the ability to generalize from one dataset to others. This paper presents a robust date estimation system based in a retrieval approach that generalizes well in front of heterogeneous collections. we use a ranking loss function named smooth-nDCG to train a Convolutional Neural Network that learns an ordination of documents for each problem. One of the main usages of the presented approach is as a tool for historical contextual retrieval. It means that scholars could perform comparative analysis of historical images from big datasets in terms of the period where they were produced. We provide experimental evaluation on different types of documents from real datasets of manuscript and newspaper images.
翻訳日:2022-04-11 15:28:23 公開日:2022-04-08
# (参考訳) 埋め込み空間の絶対配向によるオントロジーマッチング [全文訳有]

Ontology Matching Through Absolute Orientation of Embedding Spaces ( http://arxiv.org/abs/2204.04040v1 )

ライセンス: CC BY 4.0
Jan Portisch, Guilherme Costa, Karolin Stefani, Katharina Kreplin, Michael Hladik, Heiko Paulheim(参考訳) オントロジーマッチングは、相互運用可能でリンクされたオープンデータセットを作成する際のコアタスクである。 本稿では,知識グラフの埋め込みに基づく構造に基づく新しいマッピング手法について考察する: 一致すべきオントロジーは埋め込み,絶対配向として知られるアプローチは,2つの埋め込み空間を整合させる。 提案手法では,合成データと実世界データを用いた最初の予備評価を行う。 合成データを用いた実験において、このアプローチは同様に構造化されたグラフで非常にうまく機能し、オントロジーにおける大きさや構造的な違いよりもアライメントノイズを処理している。

Ontology matching is a core task when creating interoperable and linked open datasets. In this paper, we explore a novel structure-based mapping approach which is based on knowledge graph embeddings: The ontologies to be matched are embedded, and an approach known as absolute orientation is used to align the two embedding spaces. Next to the approach, the paper presents a first, preliminary evaluation using synthetic and real-world datasets. We find in experiments with synthetic data, that the approach works very well on similarly structured graphs; it handles alignment noise better than size and structural differences in the ontologies.
翻訳日:2022-04-11 15:17:15 公開日:2022-04-08
# (参考訳) HateCheck:ヘイトスピーチ検出のための行動認識学習のクロスファンクショナル分析 [全文訳有]

Checking HateCheck: a cross-functional analysis of behaviour-aware learning for hate speech detection ( http://arxiv.org/abs/2204.04042v1 )

ライセンス: CC BY 4.0
Pedro Henrique Luz de Araujo and Benjamin Roth(参考訳) 振る舞いテスト -- 人間が設計した入出力ペアを検証することでシステム機能を検証する -- は、標準アプローチの欠点に対処するために提案された自然言語処理システムの代替評価手法である。 振る舞いテストは人間の事前の知識と洞察を捉えるが、モデルトレーニングと開発にそれらを活用する方法についてはほとんど調査されていない。 このことを念頭に置いて,ヘイトスピーチ検出システムのための機能テストスイートであるHateCheckを用いて,いくつかの微調整スキームを調べ,行動認識学習について検討する。 評価を意図したデータに対するトレーニングの潜在的な落とし穴に対処するために,テストケースのカテゴリを保持することで,HateCheckのさまざまな構成に関するモデルをトレーニングし,評価する。 微調整手順は保留機能と同一性群の分類精度の向上につながり、モデルが見過ごされた機能に一般化できる可能性が示唆された。 しかし、ホールドアウト機能クラスとヘイトスピーチ検出データのパフォーマンスは低下し、これは一般化がほぼ同じクラスからの機能にわたって起こり、その手順がHateCheckデータ分布に過度に適合することを示している。

Behavioural testing -- verifying system capabilities by validating human-designed input-output pairs -- is an alternative evaluation method of natural language processing systems proposed to address the shortcomings of the standard approach: computing metrics on held-out data. While behavioural tests capture human prior knowledge and insights, there has been little exploration on how to leverage them for model training and development. With this in mind, we explore behaviour-aware learning by examining several fine-tuning schemes using HateCheck, a suite of functional tests for hate speech detection systems. To address potential pitfalls of training on data originally intended for evaluation, we train and evaluate models on different configurations of HateCheck by holding out categories of test cases, which enables us to estimate performance on potentially overlooked system properties. The fine-tuning procedure led to improvements in the classification accuracy of held-out functionalities and identity groups, suggesting that models can potentially generalise to overlooked functionalities. However, performance on held-out functionality classes and i.i.d. hate speech detection data decreased, which indicates that generalisation occurs mostly across functionalities from the same class and that the procedure led to overfitting to the HateCheck data distribution.
翻訳日:2022-04-11 15:12:47 公開日:2022-04-08
# (参考訳) C-NMT:ニューラルマシン翻訳のための協調推論フレームワーク [全文訳有]

C-NMT: A Collaborative Inference Framework for Neural Machine Translation ( http://arxiv.org/abs/2204.04043v1 )

ライセンス: CC BY 4.0
Yukai Chen, Roberta Chiaro, Enrico Macii, Massimo Poncino, Daniele Jahier Pagliari(参考訳) コラボレーション推論(CI)は、エッジとクラウドデバイスの相互運用を通じて、ディープラーニング推論のレイテンシとエネルギー消費を最適化する。 他のタスクには有益だが、ニューラルネットワーク翻訳(NMT)の中心にあるシーケンス列マッピング問題にCIは適用されていない。 本稿では、(未知)出力シーケンスを生成するのに必要なレイテンシを推定するなど、協調nmtの特定の問題に対処し、既存のciメソッドをこれらのアプリケーションにどのように適用できるかを示す。 実験の結果,非協調的アプローチと比較して,CIはNMTのレイテンシを最大44%削減できることがわかった。

Collaborative Inference (CI) optimizes the latency and energy consumption of deep learning inference through the inter-operation of edge and cloud devices. Albeit beneficial for other tasks, CI has never been applied to the sequence- to-sequence mapping problem at the heart of Neural Machine Translation (NMT). In this work, we address the specific issues of collaborative NMT, such as estimating the latency required to generate the (unknown) output sequence, and show how existing CI methods can be adapted to these applications. Our experiments show that CI can reduce the latency of NMT by up to 44% compared to a non-collaborative approach.
翻訳日:2022-04-11 15:01:42 公開日:2022-04-08
# (参考訳) 粒子追跡問題における動的超解像

Dynamic super-resolution in particle tracking problems ( http://arxiv.org/abs/2204.04092v1 )

ライセンス: CC BY 4.0
Ping Liu, Habib Ammari(参考訳) 生体イメージングにおける粒子追跡は、標的粒子の軌道、位置、速度を再構成することに関わる。 粒子追跡の標準的なアプローチは、2つのステップからなる: まず、各タイムステップのソース位置を静的に再構成し、次に、軌道と速度を得るための追跡技術を適用する。 対照的に、動的再構成は全てのフレームからソースの位置と速度を同時に回復し、一定の利点を享受することを目指している。 本稿では, 粒子追跡問題における一般的な動的再構成による震源数, 位置, 速度の復元限界に対する厳密な数学的解析を行い, 動的再構成における超解像化の可能性を示す。 粒子の位置-速度対が一定の距離(分解限界)を超えて分離されている場合、粒子の数と位置-速度対を安定して回収できることを示す。 解像度の限界は、撮像系のカットオフ周波数、信号対雑音比、ソースのスパーシティに関係している。 これらの推定値から,スパルシリティを促進させる動的再構成のための安定性結果も導出する。 さらに, 速度の再構成は粒子の移動とともに常に改善され, 分解能の限界が向上することを示した。 この結果は、速度回復に固有のカットオフ周波数を、画像システムのカットオフ周波数を乗じる総観測時間とみなすことができ、各回折制限フレームのカットオフ周波数と比べ、より優れた解像度限界をもたらす可能性があるという観測結果から導かれる。 この観察は, 粒子追跡の精度を向上させる新しい再構成アルゴリズムを刺激することが期待されている。

Particle tracking in biological imaging is concerned with reconstructing the trajectories, locations, or velocities of the targeting particles. The standard approach of particle tracking consists of two steps: first reconstructing statically the source locations in each time step, and second applying tracking techniques to obtain the trajectories and velocities. In contrast, the dynamic reconstruction seeks to simultaneously recover the source locations and velocities from all frames, which enjoys certain advantages. In this paper, we provide a rigorous mathematical analysis for the resolution limit of reconstructing source number, locations, and velocities by general dynamical reconstruction in particle tracking problems, by which we demonstrate the possibility of achieving super-resolution for the dynamic reconstruction. We show that when the location-velocity pairs of the particles are separated beyond certain distances (the resolution limits), the number of particles and the location-velocity pair can be stably recovered. The resolution limits are related to the cut-off frequency of the imaging system, signal-to-noise ratio, and the sparsity of the source. By these estimates, we also derive a stability result for a sparsity-promoting dynamic reconstruction. In addition, we further show that the reconstruction of velocities has a better resolution limit which improves constantly as the particles moving. This result is derived by an observation that the inherent cut-off frequency for the velocity recovery can be viewed as the total observation time multiplies the cut-off frequency of the imaging system, which may lead to a better resolution limit as compared to the one for each diffraction-limited frame. It is anticipated that this observation can inspire new reconstruction algorithms that improve the resolution of particle tracking in practice.
翻訳日:2022-04-11 14:53:18 公開日:2022-04-08
# (参考訳) EPASAD:Ellipsoid決定境界に基づくプロセス認識ステルス攻撃検出器 [全文訳有]

EPASAD: Ellipsoid decision boundary based Process-Aware Stealthy Attack Detector ( http://arxiv.org/abs/2204.04154v1 )

ライセンス: CC BY 4.0
Vikas Maurya, Rachit Agarwal, Saurabh Kumar, Sandeep Kumar Shukla(参考訳) 国家経済におけるクリティカル・インフラストラクチャー(CI)の重要性から、彼らはサイバー攻撃者に利益をもたらす標的となっている。 これらの重要なインフラは通常、電力網、水、下水処理施設、石油やガスパイプラインなどのサイバー物理システム(CPS)である。 近年、これらのシステムはサイバー攻撃に何度も悩まされている。 研究者たちは、永続的なダメージを避けるために、CIのためのサイバーセキュリティソリューションを開発している。 標準的なフレームワークによると、識別、保護、検出、応答、回復に基づくサイバーセキュリティが、これらの研究の核心にある。 ファイアウォール、アンチウイルス、ホスト/ネットワークの侵入検知などの標準的な防御から逃れる攻撃の検出は、最終的にはシステムの物理的ダイナミクスに影響を与えるため、重要になっている。 したがって、物理力学における異常検出は、ディフェンス・イン・ディープスを実装する効果的な方法である。 PASADはセンサ/アクチュエータデータにおける異常検出の一例であり、そのようなシステムの物理力学を表している。 実験の結果, PASAD の球面境界に基づく検出では検出できないことが明らかとなり, PASAD のマイクロステルス攻撃の検出技術を改善するEPASAD を提案する。 エパサド法は楕円体境界を用いてこれを克服し, 球面境界がすべての次元を等しく扱うのに対し, 様々な次元の境界を締め付ける。 TEプロセスシミュレータとCタウンデータセットによって生成されたデータセットを用いてEPASADを検証する。 その結果、EPASADはPASADの平均リコールをそれぞれ5.8%、9.5%改善していることがわかった。

Due to the importance of Critical Infrastructure (CI) in a nation's economy, they have been lucrative targets for cyber attackers. These critical infrastructures are usually Cyber-Physical Systems (CPS) such as power grids, water, and sewage treatment facilities, oil and gas pipelines, etc. In recent times, these systems have suffered from cyber attacks numerous times. Researchers have been developing cyber security solutions for CIs to avoid lasting damages. According to standard frameworks, cyber security based on identification, protection, detection, response, and recovery are at the core of these research. Detection of an ongoing attack that escapes standard protection such as firewall, anti-virus, and host/network intrusion detection has gained importance as such attacks eventually affect the physical dynamics of the system. Therefore, anomaly detection in physical dynamics proves an effective means to implement defense-in-depth. PASAD is one example of anomaly detection in the sensor/actuator data, representing such systems' physical dynamics. We present EPASAD, which improves the detection technique used in PASAD to detect these micro-stealthy attacks, as our experiments show that PASAD's spherical boundary-based detection fails to detect. Our method EPASAD overcomes this by using Ellipsoid boundaries, thereby tightening the boundaries in various dimensions, whereas a spherical boundary treats all dimensions equally. We validate EPASAD using the dataset produced by the TE-process simulator and the C-town datasets. The results show that EPASAD improves PASAD's average recall by 5.8% and 9.5% for the two datasets, respectively.
翻訳日:2022-04-11 14:51:56 公開日:2022-04-08
# (参考訳) 自己教師型話者ダイアリゼーション [全文訳有]

Self-supervised Speaker Diarization ( http://arxiv.org/abs/2204.04166v1 )

ライセンス: CC BY 4.0
Yehoshua Dissen, Felix Kreuk and Joseph Keshet(参考訳) 過去数年間、ディープラーニングは話者の検証、識別、ダイアリゼーションで人気を高めてきた。 必然的に、この成功の重要な部分は、話者表現の有効性の実証によるものである。 しかし、これらは大量の注釈付きデータに大きく依存しており、新しいドメインに敏感である。 本研究では,話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。 特にこの研究は、注釈付きデータなしで高品質なニューラルネットワーク表現の生成と、アノテーションなしでモデルの二次的ハイパーパラメータの推定に焦点を当てている。 話者埋め込みは、同一話者と推定される隣接セグメントのペアを用いて、自己教師方式で訓練されたエンコーダによって表現される。 次に、訓練されたエンコーダモデルを用いて擬似ラベルを自己生成し、確率線形判別分析(plda)を用いて同一呼び出しの異なるセグメント間の類似度スコアを訓練し、さらにクラスタリング停止閾値を学習する。 当社のモデルと最先端の教師なしベースライン,およびCallHomeベンチマークの教師付きベースラインを比較した。 実験結果によると,本手法は2つの話者しか呼出しない場合,教師なしの手法よりも優れており,近年の教師付きモデルよりもやや悪い。

Over the last few years, deep learning has grown in popularity for speaker verification, identification, and diarization. Inarguably, a significant part of this success is due to the demonstrated effectiveness of their speaker representations. These, however, are heavily dependent on large amounts of annotated data and can be sensitive to new domains. This study proposes an entirely unsupervised deep-learning model for speaker diarization. Specifically, the study focuses on generating high-quality neural speaker representations without any annotated data, as well as on estimating secondary hyperparameters of the model without annotations. The speaker embeddings are represented by an encoder trained in a self-supervised fashion using pairs of adjacent segments assumed to be of the same speaker. The trained encoder model is then used to self-generate pseudo-labels to subsequently train a similarity score between different segments of the same call using probabilistic linear discriminant analysis (PLDA) and further to learn a clustering stopping threshold. We compared our model to state-of-the-art unsupervised as well as supervised baselines on the CallHome benchmarks. According to empirical results, our approach outperforms unsupervised methods when only two speakers are present in the call, and is only slightly worse than recent supervised models.
翻訳日:2022-04-11 14:27:32 公開日:2022-04-08
# (参考訳) プレトレーニングトランスを用いた水中画像強調 [全文訳有]

Underwater Image Enhancement Using Pre-trained Transformer ( http://arxiv.org/abs/2204.04199v1 )

ライセンス: CC BY 4.0
Abderrahmene Boudiaf, Yuhang Guo, Adarsh Ghimire, Naoufel Werghi, Giulia De Masi, Sajid Javed, Jorge Dias(参考訳) 本研究の目的は,水中画像からの歪みを除去し,他の類似手法と比較するために,雑音画像トランスフォーマを適用することである。 水中画像の自動復元は、高価な機器を必要とせずに画像の品質を向上させることができるため、重要な役割を果たす。 これは、海洋探査と監視をサポートし、画像の手動処理のような人間の介入の必要性を減らし、時間、労力、コストを節約する機械学習アルゴリズムの重要な役割の重要な例である。 本稿では,水中画像に「事前学習画像処理変換器」と呼ばれる画像変換器を用いたアプローチを初めて適用した。 このアプローチはufo-120データセット上でテストされ、1500の画像と対応するクリーンイメージを含んでいる。

The goal of this work is to apply a denoising image transformer to remove the distortion from underwater images and compare it with other similar approaches. Automatic restoration of underwater images plays an important role since it allows to increase the quality of the images, without the need for more expensive equipment. This is a critical example of the important role of the machine learning algorithms to support marine exploration and monitoring, reducing the need for human intervention like the manual processing of the images, thus saving time, effort, and cost. This paper is the first application of the image transformer-based approach called "Pre-Trained Image Processing Transformer" to underwater images. This approach is tested on the UFO-120 dataset, containing 1500 images with the corresponding clean images.
翻訳日:2022-04-11 14:16:52 公開日:2022-04-08
# グローバルアップデートによる連合学習

Global Update Guided Federated Learning ( http://arxiv.org/abs/2204.03920v1 )

ライセンス: Link先を確認
Qilong Wu, Lin Liu, Shibei Xue(参考訳) フェデレーション学習は、データの代わりにモデルを交換することで、データのプライバシとセキュリティを保護する。 しかし、参加者間の不均衡なデータ分布は、連合学習アルゴリズムの精度と収束速度を損なう。 この問題を緩和するために、局所モデル更新の距離を制限する従来の研究とは異なり、局所目的関数にモデルコサイン損失を導入し、局所モデルがグローバルモデルの更新方向のガイダンスの下で局所データ分布に適合できるように、グローバル更新誘導型フェデレーションラーニング(FedGG)を提案する。 さらに,学習の初期段階において,グローバルモデルの更新方向が有益であることを考慮し,局所モデルの更新距離に基づく適応損失重み付けを提案する。 数値シミュレーションにより、他の高度なアルゴリズムと比較して、FedGGはモデル収束精度と速度を著しく改善していることが示された。 さらに、従来の固定損失重みと比較して、適応損失重みは我々のアルゴリズムをより安定して実装しやすくする。

Federated learning protects data privacy and security by exchanging models instead of data. However, unbalanced data distributions among participating clients compromise the accuracy and convergence speed of federated learning algorithms. To alleviate this problem, unlike previous studies that limit the distance of updates for local models, we propose global-update-guided federated learning (FedGG), which introduces a model-cosine loss into local objective functions, so that local models can fit local data distributions under the guidance of update directions of global models. Furthermore, considering that the update direction of a global model is informative in the early stage of training, we propose adaptive loss weights based on the update distances of local models. Numerical simulations show that, compared with other advanced algorithms, FedGG has a significant improvement on model convergence accuracies and speeds. Additionally, compared with traditional fixed loss weights, adaptive loss weights enable our algorithm to be more stable and easier to implement in practice.
翻訳日:2022-04-11 14:07:55 公開日:2022-04-08
# 確率ゲームにおけるマルコフ平衡の複雑さ

The Complexity of Markov Equilibrium in Stochastic Games ( http://arxiv.org/abs/2204.03991v1 )

ライセンス: Link先を確認
Constantinos Daskalakis and Noah Golowich and Kaiqing Zhang(参考訳) 一般確率ゲームにおける近似定常マルコフ粗相関平衡 (CCE) の計算は, 2人のプレイヤーが存在する場合でも, ゲームはターンベースであり, 割引係数は絶対定数であり, 近似は絶対定数であることを示す。 我々の難易度は、正確なCCEを効率的に計算できる通常のゲームとは対照的である。 その結果,マルチエージェント強化学習(MARL)におけるマルコフCCEポリシーの学習には,相互作用が2つのプレイヤーとターンベースであっても効率の良いアルゴリズムが存在しないこと,学習方針の割引係数と所望の近似が絶対定数であること,などが示唆された。 これらの結果は, ほぼ最適な定常マルコフ政策を効率的に学習できる単一エージェント強化学習(RL)とは対照的である。 定常マルコフCCEの難易度を補足し、非定常マルコフCCEポリシーを多項式時間で学習する分散アルゴリズム(プレイヤー間のランダム性を仮定する)を提供する。 マルコフのCCEポリシーを学習するためには、プレイヤー数の指数時間とサンプルの複雑さが必要だった。

We show that computing approximate stationary Markov coarse correlated equilibria (CCE) in general-sum stochastic games is computationally intractable, even when there are two players, the game is turn-based, the discount factor is an absolute constant, and the approximation is an absolute constant. Our intractability results stand in sharp contrast to normal-form games where exact CCEs are efficiently computable. A fortiori, our results imply that there are no efficient algorithms for learning stationary Markov CCE policies in multi-agent reinforcement learning (MARL), even when the interaction is two-player and turn-based, and both the discount factor and the desired approximation of the learned policies is an absolute constant. In turn, these results stand in sharp contrast to single-agent reinforcement learning (RL) where near-optimal stationary Markov policies can be efficiently learned. Complementing our intractability results for stationary Markov CCEs, we provide a decentralized algorithm (assuming shared randomness among players) for learning a nonstationary Markov CCE policy with polynomial time and sample complexity in all problem parameters. Previous work for learning Markov CCE policies all required exponential time and sample complexity in the number of players.
翻訳日:2022-04-11 14:07:40 公開日:2022-04-08
# 予算上のサブモジュラー機能を持つランキング

Ranking with submodular functions on a budget ( http://arxiv.org/abs/2204.04168v1 )

ライセンス: Link先を確認
Guangyi Zhang, Nikolaj Tatti, Aristides Gionis(参考訳) サブモジュラー最大化は、多くの重要な機械学習問題のバックボーンであり、バイラルマーケティング、多様化、センサー配置などに応用されている。 しかしながら、サブモジュラー関数を最大化する研究は、主に一連のアイテムを選択する文脈で制限されている。 一方、現実世界のアプリケーションの多くは、一連のアイテムをランク付けするソリューションを必要としている。 部分モジュラ函数最大化の文脈におけるランク付けの問題はこれまで検討されてきたが、項目選択の定式化よりもはるかに少ない。 本稿では,サブモジュール評価と予算制約を伴うランキング項目の新たな定式化について検討する。 この問題をmax-submodular ranking (msr) と呼ぶ。 より詳しくは、各関数が予算に関連付けられるような、項目の集合と非機能部分関数の集合を与えられたとき、予算制約の下ですべての関数によって達成される値の総和を最大化する項目の集合のランキングを見つけることを目的とする。 濃度とナップサック型予算制約を持つmsr問題に対して,近似保証付き実用的なアルゴリズムを提案する。 さらに,提案アルゴリズムの強いベースラインに対する優れた性能を示す経験的評価を行う。

Submodular maximization has been the backbone of many important machine-learning problems, and has applications to viral marketing, diversification, sensor placement, and more. However, the study of maximizing submodular functions has mainly been restricted in the context of selecting a set of items. On the other hand, many real-world applications require a solution that is a ranking over a set of items. The problem of ranking in the context of submodular function maximization has been considered before, but to a much lesser extent than item-selection formulations. In this paper, we explore a novel formulation for ranking items with submodular valuations and budget constraints. We refer to this problem as max-submodular ranking (MSR). In more detail, given a set of items and a set of non-decreasing submodular functions, where each function is associated with a budget, we aim to find a ranking of the set of items that maximizes the sum of values achieved by all functions under the budget constraints. For the MSR problem with cardinality- and knapsack-type budget constraints we propose practical algorithms with approximation guarantees. In addition, we perform an empirical evaluation, which demonstrates the superior performance of the proposed algorithms against strong baselines.
翻訳日:2022-04-11 14:07:19 公開日:2022-04-08
# 深層学習に基づくビデオ符号化のためのイントラモード導出

Deep Learning-Based Intra Mode Derivation for Versatile Video Coding ( http://arxiv.org/abs/2204.04059v1 )

ライセンス: Link先を確認
Linwei Zhu, Yun Zhang, Na Li, Gangyi Jiang, and Sam Kwong(参考訳) イントラコーディングでは、予め定義された候補リストから最適なイントラモードを実現するためにレート歪み最適化(RDO)を行う。 最適なイントラモードは、多くの符号化ビットが消費される残信号の他に、デコーダ側へ符号化され送信されることも要求される。 本稿では,汎用ビデオ符号化(vvc)におけるイントラコーディングの性能をさらに向上させるために,ディープラーニングに基づくイントラモード導出(dlimd)と呼ばれるインテリジェントイントラモード導出法を提案する。 具体的には、イントラモードの導出過程を多クラス分類タスクとして定式化し、イントラモードシグナリングのモジュールを省略して符号化ビットの低減を図る。 DLIMDのアーキテクチャは、異なる量子化パラメータ設定と2乗でないブロックを含む可変符号化ブロックに適応するように開発され、1つの訓練されたモデルで処理される。 既存のディープラーニングに基づく分類問題とは異なり、手作りの機能は、特徴学習ネットワークから学習した特徴に加え、モード内導出ネットワークに供給される。 従来の手法と競合するために、ビデオコーデックで1つの追加のバイナリフラグを使用して、選択したスキームをRDOで示す。 広範な実験結果から,提案手法は,vvcテストモデルのプラットフォーム上で,y,u,vコンポーネントの平均で2.28%,1.74%,2.18%のビットレート削減を達成できることが分かった。

In intra coding, Rate Distortion Optimization (RDO) is performed to achieve the optimal intra mode from a pre-defined candidate list. The optimal intra mode is also required to be encoded and transmitted to the decoder side besides the residual signal, where lots of coding bits are consumed. To further improve the performance of intra coding in Versatile Video Coding (VVC), an intelligent intra mode derivation method is proposed in this paper, termed as Deep Learning based Intra Mode Derivation (DLIMD). In specific, the process of intra mode derivation is formulated as a multi-class classification task, which aims to skip the module of intra mode signaling for coding bits reduction. The architecture of DLIMD is developed to adapt to different quantization parameter settings and variable coding blocks including non-square ones, which are handled by one single trained model. Different from the existing deep learning based classification problems, the hand-crafted features are also fed into the intra mode derivation network besides the learned features from feature learning network. To compete with traditional method, one additional binary flag is utilized in the video codec to indicate the selected scheme with RDO. Extensive experimental results reveal that the proposed method can achieve 2.28%, 1.74%, and 2.18% bit rate reduction on average for Y, U, and V components on the platform of VVC test model, which outperforms the state-of-the-art works.
翻訳日:2022-04-11 14:05:45 公開日:2022-04-08
# personal vad 2.0: オンデバイス音声認識のための個人音声活動検出の最適化

Personal VAD 2.0: Optimizing Personal Voice Activity Detection for On-Device Speech Recognition ( http://arxiv.org/abs/2204.03793v1 )

ライセンス: Link先を確認
Shaojin Ding, Rajeev Rikhye, Qiao Liang, Yanzhang He, Quan Wang, Arun Narayanan, Tom O'Malley, Ian McGraw(参考訳) デバイス上での音声認識(asr)のパーソナライズは、モバイルデバイスやスマートホームスピーカーでのパーソナルアシスタント機能の普及によって、近年爆発的な成長を遂げている。 本研究では,ストリーミングオンデバイスASRシステムの一環として,ターゲット話者の音声活動を検出するパーソナライズされた音声活動検出装置であるPersonal VAD 2.0を提案する。 以前の概念実証研究は、個人的vadの有効性を検証しているが、このモデルが本番環境で使われる前に対処すべき重要な課題はいくつかある。第一に、登録と登録なしのシナリオの両方において品質が十分満足できなければならないこと、第二に、ストリーミング方式で運用する必要があること、そして最後に、モデルのサイズは、限定されたレイテンシとcpu/メモリ予算に適合するほど小さいこと、である。 多面的要件を満たすために,我々は新しいデザインのシリーズを提案する。 1) 高度な話者埋め込み変調方法 2) 入学不要条件を一般化する新たな訓練パラダイム 3) レイテンシとリソース制限に対するアーキテクチャとランタイムの最適化。 現実的な音声認識システムにおける大規模実験により,提案手法の最先端性能を実証した。

Personalization of on-device speech recognition (ASR) has seen explosive growth in recent years, largely due to the increasing popularity of personal assistant features on mobile devices and smart home speakers. In this work, we present Personal VAD 2.0, a personalized voice activity detector that detects the voice activity of a target speaker, as part of a streaming on-device ASR system. Although previous proof-of-concept studies have validated the effectiveness of Personal VAD, there are still several critical challenges to address before this model can be used in production: first, the quality must be satisfactory in both enrollment and enrollment-less scenarios; second, it should operate in a streaming fashion; and finally, the model size should be small enough to fit a limited latency and CPU/Memory budget. To meet the multi-faceted requirements, we propose a series of novel designs: 1) advanced speaker embedding modulation methods; 2) a new training paradigm to generalize to enrollment-less conditions; 3) architecture and runtime optimizations for latency and resource restrictions. Extensive experiments on a realistic speech recognition system demonstrated the state-of-the-art performance of our proposed method.
翻訳日:2022-04-11 14:05:11 公開日:2022-04-08
# 部分モデルパーソナライズによる連合学習

Federated Learning with Partial Model Personalization ( http://arxiv.org/abs/2204.03809v1 )

ライセンス: Link先を確認
Krishna Pillutla, Kshitiz Malik, Abdelrahman Mohamed, Michael Rabbat, Maziar Sanjabi, Lin Xiao(参考訳) 共有パラメータと個人パラメータがデバイス上で同時または交互に更新される部分的パーソナライズされたモデルをトレーニングするための2つのフェデレーション学習アルゴリズムについて検討する。 どちらのアルゴリズムも文献で提案されているが、それらの収束特性は、特に交互変量に対して完全には理解されていない。 部分的参加を伴う一般の非凸設定における両アルゴリズムの収束解析を行い、一方が他方を支配している体制を規定する。 実世界の画像、テキスト、音声データセットに関する我々の実験は、それを実証している。 (a)部分的パーソナライゼーションは、個人的パラメータのごく一部でフルモデルパーソナライゼーションの利点のほとんどを得ることができ、 b) 交互更新アルゴリズムは、しばしば同時更新アルゴリズムよりも優れている。

We consider two federated learning algorithms for training partially personalized models, where the shared and personal parameters are updated either simultaneously or alternately on the devices. Both algorithms have been proposed in the literature, but their convergence properties are not fully understood, especially for the alternating variant. We provide convergence analyses of both algorithms in the general nonconvex setting with partial participation and delineate the regime where one dominates the other. Our experiments on real-world image, text, and speech datasets demonstrate that (a) partial personalization can obtain most of the benefits of full model personalization with a small fraction of personal parameters, and, (b) the alternating update algorithm often outperforms the simultaneous update algorithm.
翻訳日:2022-04-11 14:04:55 公開日:2022-04-08
# DiversiTree: 混合整数最適化問題に対する準最適解の多元計算

DiversiTree: Computing Diverse Sets of Near-Optimal Solutions to Mixed-Integer Optimization Problems ( http://arxiv.org/abs/2204.03822v1 )

ライセンス: Link先を確認
Izuwa Ahanor, Hugh Medal, Andrew C. Trapp(参考訳) 混合整数最適化問題を解くほとんどの方法は単一の最適解を求めるが、近似最適解の多様な集合を見つけることはより有用である。 多様な準最適解を生成するための最先端の手法は、通常二相アプローチを採り、まずは準最適解の集合を見つけ、次に多様な部分集合を見つける。 対照的に,準最適解探索における多様性を強調し,多様な解の集合を求める手法を提案する。 具体的には、分岐とバウンドのフレームワークにおいて、多様性を明示的に考慮するパラメータ化ノード選択ルールについて検討する。 その結果,本手法は最終解集合の多様性を著しく向上させることが示唆された。 提案手法は,既存手法と比較すると,通常のノード選択法と同じような実行時間で動作し,最大140%の多様性向上を実現している。 対照的に、best-first searchのような人気のあるノード選択ルールは40%未満の改善をもたらす。 さらに,本手法は,木深くではノード選択に多様性が強調され,解集合が十分に大きくなった場合にも有効であることがわかった。

While most methods for solving mixed-integer optimization problems seek a single optimal solution, finding a diverse set of near-optimal solutions can often be more useful. State of the art methods for generating diverse near-optimal solutions usually take a two-phase approach, first finding a set of near-optimal solutions and then finding a diverse subset. In contrast, we present a method of finding a set of diverse solutions by emphasizing diversity within the search for near-optimal solutions. Specifically, within a branch-and-bound framework, we investigate parameterized node selection rules that explicitly consider diversity. Our results indicate that our approach significantly increases diversity of the final solution set. When compared with existing methods for finding diverse near-optimal sets, our method runs with similar run-time as regular node selection methods and gives a diversity improvement of up to 140%. In contrast, popular node selection rules such as best-first search gives an improvement of no more than 40%. Further, we find that our method is most effective when diversity is emphasized more in node selection when deeper in the tree and when the solution set has grown large enough.
翻訳日:2022-04-11 14:04:43 公開日:2022-04-08
# メルスペクトログラムを用いた音響車両検出と速度推定

Mel-spectrogram features for acoustic vehicle detection and speed estimation ( http://arxiv.org/abs/2204.04013v1 )

ライセンス: Link先を確認
Nikola Bulatovic, Slobodan Djukanovic(参考訳) 本稿では,単一センサによる音響車両の検出と速度推定について述べる。 制御学習手法を用いて,入力音声のメル・スペクトログラムから予測されるクリップ付き車間距離を最小化することにより,車両のパスバイを瞬時に予測する。 また, メル・スペクトログラムを用いた車速推定では, 中間機能を導入せずに直接使用することができる。 その結果,提案手法は,平均誤差7.87km/hの精度の高い車両検出と速度推定に利用できることがわかった。 分類問題として速度推定を定式化して10km/hの離散化間隔で定式化した場合,提案手法は,1クラスのオフセットが許容される場合の平均精度が48.7%,91.0%となる。 提案手法は、10台の異なる車両の都市環境記録を304のデータセットで評価した。

The paper addresses acoustic vehicle detection and speed estimation from single sensor measurements. We predict the vehicle's pass-by instant by minimizing clipped vehicle-to-microphon e distance, which is predicted from the mel-spectrogram of input audio, in a supervised learning approach. In addition, mel-spectrogram-base d features are used directly for vehicle speed estimation, without introducing any intermediate features. The results show that the proposed features can be used for accurate vehicle detection and speed estimation, with an average error of 7.87 km/h. If we formulate speed estimation as a classification problem, with a 10 km/h discretization interval, the proposed method attains the average accuracy of 48.7% for correct class prediction and 91.0% when an offset of one class is allowed. The proposed method is evaluated on a dataset of 304 urban-environment on-field recordings of ten different vehicles.
翻訳日:2022-04-11 14:02:59 公開日:2022-04-08
# 創薬における仮想スクリーニングのための量子機械学習フレームワーク:先進的な量子アドバンテージ

Quantum Machine Learning Framework for Virtual Screening in Drug Discovery: a Prospective Quantum Advantage ( http://arxiv.org/abs/2204.04017v1 )

ライセンス: Link先を確認
Stefano Mensa, Emre Sahin, Francesco Tacchino, Panagiotis Kl. Barkoutsos and Ivano Tavernelli(参考訳) Ligand Based Virtual Screening(LB-VS)のための機械学習(ML)は、特に新型コロナウイルス(COVID-19)などの新興疾患に対して、迅速かつ費用対効果の高い方法で新薬を発見するための重要なサイリコツールである。 本稿では,従来のサポートベクトル分類器(SVC)アルゴリズムと実世界のデータベース上でのLB-VSの量子カーネル推定を組み合わせた汎用フレームワークを提案する。 実際、我々の量子統合ワークフローが、少なくともいくつかの関連する場合において、同じデータセット上で動作している最先端の古典的アルゴリズムと比較して、明確な利点をもたらすことをヒューリスティックに証明し、ターゲットと特徴の選択方法に強い依存を示す。 最後に、ADRB2およびCOVID-19データセットを用いてIBM Quantumプロセッサ上でアルゴリズムをテストし、ハードウェアシミュレーションが予測された性能と一致し、古典的な等価性を上回る結果が得られることを示した。

Machine Learning (ML) for Ligand Based Virtual Screening (LB-VS) is an important in-silico tool for discovering new drugs in a faster and cost-effective manner, especially for emerging diseases such as COVID-19. In this paper, we propose a general-purpose framework combining a classical Support Vector Classifier (SVC) algorithm with quantum kernel estimation for LB-VS on real-world databases, and we argue in favor of its prospective quantum advantage. Indeed, we heuristically prove that our quantum integrated workflow can, at least in some relevant instances, provide a tangible advantage compared to state-of-art classical algorithms operating on the same datasets, showing strong dependence on target and features selection method. Finally, we test our algorithm on IBM Quantum processors using ADRB2 and COVID-19 datasets, showing that hardware simulations provide results in line with the predicted performances and can surpass classical equivalents.
翻訳日:2022-04-11 14:02:43 公開日:2022-04-08
# karaoker:音声訓練データを用いたアライメントフリー歌唱音声合成

Karaoker: Alignment-free singing voice synthesis with speech training data ( http://arxiv.org/abs/2204.04127v1 )

ライセンス: Link先を確認
Panos Kakoulidis, Nikolaos Ellinas, Georgios Vamvoukakis, Konstantinos Markopoulos, June Sig Sung, Gunu Jho, Pirros Tsiakoulis, Aimilios Chalamandaris(参考訳) 既存の歌唱音声合成モデル(SVS)は通常、歌唱データに基づいて訓練され、エラーを起こしやすい時間アライメントと持続時間の特徴または明示的な楽譜情報に依存する。 本稿では,声質特性を条件とした多話者タコトロンモデルであるカラオカーを提案する。 カラオッカーは、未認識話者/シンガーの音源波形から抽出した多次元テンプレートに従って歌声を合成する。 このモデルは、ピッチ、強度、調和性、フォルマント、ケプストラムピークプロミネンス、オクターブを含む連続データに対して、単一の深い畳み込みエンコーダと共同で処理される。 我々は、特徴再構成、分類、話者識別タスクによってテキストから音声への学習目標を拡張し、モデルを正確な結果に導く。 マルチタスクを除くと,wasserstein gan の学習方式と音響モデルの出力に新たな損失を伴い,モデルの質をさらに向上させる。

Existing singing voice synthesis models (SVS) are usually trained on singing data and depend on either error-prone time-alignment and duration features or explicit music score information. In this paper, we propose Karaoker, a multispeaker Tacotron-based model conditioned on voice characteristic features that is trained exclusively on spoken data without requiring time-alignments. Karaoker synthesizes singing voice following a multi-dimensional template extracted from a source waveform of an unseen speaker/singer. The model is jointly conditioned with a single deep convolutional encoder on continuous data including pitch, intensity, harmonicity, formants, cepstral peak prominence and octaves. We extend the text-to-speech training objective with feature reconstruction, classification and speaker identification tasks that guide the model to an accurate result. Except for multi-tasking, we also employ a Wasserstein GAN training scheme as well as new losses on the acoustic model's output to further refine the quality of the model.
翻訳日:2022-04-11 14:02:04 公開日:2022-04-08
# コントラスト型自己監督型音声表現学習における自動データ拡張選択とパラメトリゼーション

Automatic Data Augmentation Selection and Parametrization in Contrastive Self-Supervised Speech Representation Learning ( http://arxiv.org/abs/2204.04170v1 )

ライセンス: Link先を確認
Salah Zaiem, Titouan Parcollet and Slim Essid(参考訳) コントラスト学習は、類似した信号セグメントの潜在表現間の類似性を最大化することにより、基底ラベルを使わずに有用な音声および音声表現の学習を可能にする。 このフレームワークでは、様々なデータ拡張技術が一般的に利用され、学習された表現内で望ましい不変性を強制し、より堅牢な埋め込みにより様々なオーディオタスクのパフォーマンスを向上させる。 現在、最も関連する拡張を選択することは、下流のパフォーマンスを改善する上で非常に重要であることが分かっています。 そこで本研究では, 条件付き独立性に基づく手法を導入し, 自己教師付き事前学習において, 条件付き独立性に基づく加法選択とそのパラメトリゼーションにより, 適切な分布を自動選択する手法を提案する。 これは下流の関心のあるタスクに関して行われ、コストのかかるハイパーパラメータの探索を省く。 2つの異なる下流タスクで行った実験は、追加なしでの実験やベースライン拡張よりも優れた結果を示す提案手法を検証する。 さらに, 最終ダウンストリームデータセットにしたがって, 自動選択された拡張とその変動を定性的に分析する。

Contrastive learning enables learning useful audio and speech representations without ground-truth labels by maximizing the similarity between latent representations of similar signal segments. In this framework various data augmentation techniques are usually exploited to help enforce desired invariances within the learned representations, improving performance on various audio tasks thanks to more robust embeddings. Now, selecting the most relevant augmentations has proven crucial for better downstream performances. Thus, this work introduces a conditional independance-based method which allows for automatically selecting a suitable distribution on the choice of augmentations and their parametrization from a set of predefined ones, for contrastive self-supervised pre-training. This is performed with respect to a downstream task of interest, hence saving a costly hyper-parameter search. Experiments performed on two different downstream tasks validate the proposed approach showing better results than experimenting without augmentation or with baseline augmentations. We furthermore conduct a qualitative analysis of the automatically selected augmentations and their variation according to the considered final downstream dataset.
翻訳日:2022-04-11 14:01:47 公開日:2022-04-08
# 仮説発見と検証のためのシンボリック回帰を用いた低コストロボット科学教育キット

A Low-Cost Robot Science Kit for Education with Symbolic Regression for Hypothesis Discovery and Validation ( http://arxiv.org/abs/2204.04187v1 )

ライセンス: Link先を確認
Logan Saar, Haotong Liang, Alex Wang, Austin McDannald, Efrain Rodriguez, Ichiro Takeuchi, A. Gilad Kusne(参考訳) 次世代の物理科学には、クローズドループで実験的な設計、実行、分析を行うロボット科学者の物理科学システムが含まれる。 このようなシステムは科学的な探索と発見のために現実世界で成功し、その中にはクラスで最高の物質が最初に発見されたことも含まれる。 これらのシステムの構築と利用には、ML、制御システム、計測科学、材料合成、意思決定理論など、さまざまな分野の専門知識が必要となる。 しかし、教育は遅れている。 教育者は必要なスキルを教えるために、低コストで使いやすいプラットフォームが必要です。 産業は、自律的な物理科学方法論の開発と評価のためのプラットフォームも利用できる。 我々は、低コストの自律科学者を構築するためのキットである科学教育の次世代を提示する。 このキットはメリーランド大学で2つのコースで、大学院生と大学院生に自律体科学を教えるために使用された。 本稿では,Henderson-Hasselbal ch方程式の自律的実験「発見」の例として,そのコースにおける利用と,自律的モデル探索,最適化,決定という2つのタスクを教える能力について論じる。

The next generation of physical science involves robot scientists - autonomous physical science systems capable of experimental design, execution, and analysis in a closed loop. Such systems have shown real-world success for scientific exploration and discovery, including the first discovery of a best-in-class material. To build and use these systems, the next generation workforce requires expertise in diverse areas including ML, control systems, measurement science, materials synthesis, decision theory, among others. However, education is lagging. Educators need a low-cost, easy-to-use platform to teach the required skills. Industry can also use such a platform for developing and evaluating autonomous physical science methodologies. We present the next generation in science education, a kit for building a low-cost autonomous scientist. The kit was used during two courses at the University of Maryland to teach undergraduate and graduate students autonomous physical science. We discuss its use in the course and its greater capability to teach the dual tasks of autonomous model exploration, optimization, and determination, with an example of autonomous experimental "discovery" of the Henderson-Hasselbalc h equation.
翻訳日:2022-04-11 14:01:29 公開日:2022-04-08
# (参考訳) 星の下のダンス:星の光を映すビデオ [全文訳有]

Dancing under the stars: video denoising in starlight ( http://arxiv.org/abs/2204.04210v1 )

ライセンス: CC BY 4.0
Kristina Monakhova, Stephan R. Richter, Laura Waller, Vladlen Koltun(参考訳) 低光度での撮像は光子数が少ないため極めて困難である。 現在、感度の高いCMOSカメラを使用して、夜間に月明かりの下でビデオ撮影が可能である(0.05-0.3ルックス照明)。 本稿では,初めてstarlight (no moon present, $<0.001 lux) の下で,フォトリアリスティックな映像を実演する。 これを実現するために,gan調の物理ノイズモデルを開発し,低照度でのカメラノイズをより正確に表現する。 このノイズモデルを用いて,ビデオデノイザーをシミュレートされたノイズ映像と実際のノイズ静止画像を組み合わせて訓練する。 約0.6-0.7ミリラックスで、アクティブな照明のない5-10fpsのビデオデータセットを撮影する。 代替手法との比較により、低照度で画質が向上し、初めてstarlightでのフォトリアリスティックな映像が得られた。

Imaging in low light is extremely challenging due to low photon counts. Using sensitive CMOS cameras, it is currently possible to take videos at night under moonlight (0.05-0.3 lux illumination). In this paper, we demonstrate photorealistic video under starlight (no moon present, $<$0.001 lux) for the first time. To enable this, we develop a GAN-tuned physics-based noise model to more accurately represent camera noise at the lowest light levels. Using this noise model, we train a video denoiser using a combination of simulated noisy video clips and real noisy still images. We capture a 5-10 fps video dataset with significant motion at approximately 0.6-0.7 millilux with no active illumination. Comparing against alternative methods, we achieve improved video quality at the lowest light levels, demonstrating photorealistic video denoising in starlight for the first time.
翻訳日:2022-04-11 13:59:58 公開日:2022-04-08
# 自己教師付き音声表現学習による発音自動評価

Automatic Pronunciation Assessment using Self-Supervised Speech Representation Learning ( http://arxiv.org/abs/2204.03863v1 )

ライセンス: Link先を確認
Eesung Kim, Jae-Jin Jeon, Hyeji Seo, Hoon Kim(参考訳) wav2vec 2.0やHuBERTモデルのような自己教師型学習(SSL)アプローチは、音声コミュニティの様々な下流タスクにおいて有望な結果を示している。 特に、SSLモデルで学習した音声表現は、様々な音声関連特性を符号化するのに有効であることが示されている。 そこで本研究では,SSLモデルに基づく発音自動評価手法を提案する。 提案手法は,データ環境下での英語学習者の英語発音に適応するために,事前学習したSSLモデルを接続時分類で微調整する。 そして、sslモデルのトランスフォーマー層全体から、レイヤ毎のコンテキスト表現を抽出する。 最後に、階層的文脈表現と対応するテキストを用いた双方向長短期記憶を用いて自動発音スコアを推定する。 提案手法は,韓国のESL学習者とSpeechocean762のデータセットに基づいて,ピアソン相関係数を用いてベースラインよりも優れていることを示す。 さらに、SSLモデルにおけるトランスフォーマー層の異なる表現が発音評価タスクの性能にどのように影響するかを分析する。

Self-supervised learning (SSL) approaches such as wav2vec 2.0 and HuBERT models have shown promising results in various downstream tasks in the speech community. In particular, speech representations learned by SSL models have been shown to be effective for encoding various speech-related characteristics. In this context, we propose a novel automatic pronunciation assessment method based on SSL models. First, the proposed method fine-tunes the pre-trained SSL models with connectionist temporal classification to adapt the English pronunciation of English-as-a-second- language (ESL) learners in a data environment. Then, the layer-wise contextual representations are extracted from all across the transformer layers of the SSL models. Finally, the automatic pronunciation score is estimated using bidirectional long short-term memory with the layer-wise contextual representations and the corresponding text. We show that the proposed SSL model-based methods outperform the baselines, in terms of the Pearson correlation coefficient, on datasets of Korean ESL learner children and Speechocean762. Furthermore, we analyze how different representations of transformer layers in the SSL model affect the performance of the pronunciation assessment task.
翻訳日:2022-04-11 13:41:44 公開日:2022-04-08
# FashionCLIP: 製品表現のための言語と画像の接続

FashionCLIP: Connecting Language and Images for Product Representations ( http://arxiv.org/abs/2204.03972v1 )

ライセンス: Link先を確認
Patrick John Chia, Giuseppe Attanasio, Federico Bianchi, Silvia Terragni, Ana Rita Magalh\~aes, Diogo Goncalves, Ciro Greco, Jacopo Tagliabue(参考訳) オンラインショッピングの着実に増加は、ますます複雑なMLとNLPモデルの開発と相まって進んでいる。 ほとんどのユースケースは専門的な教師付き学習問題としてキャストされていますが、実践者は製品のより転送可能な表現から大きな恩恵を受けるでしょう。 本研究では,ファッション業界におけるCLIPライクなモデルであるFashionCLIPをトレーニングするための,コントラスト学習の最近の発展の上に構築する。 検索、分類、接地機能を示し、我々のモデルとコードをコミュニティにリリースする。

The steady rise of online shopping goes hand in hand with the development of increasingly complex ML and NLP models. While most use cases are cast as specialized supervised learning problems, we argue that practitioners would greatly benefit from more transferable representations of products. In this work, we build on recent developments in contrastive learning to train FashionCLIP, a CLIP-like model for the fashion industry. We showcase its capabilities for retrieval, classification and grounding, and release our model and code to the community.
翻訳日:2022-04-11 13:41:28 公開日:2022-04-08
# 強化学習のための訓練行動空間のデータ駆動評価

Data-Driven Evaluation of Training Action Space for Reinforcement Learning ( http://arxiv.org/abs/2204.03840v1 )

ライセンス: Link先を確認
Rajat Ghosh, Debojyoti Dutta(参考訳) 強化学習のための訓練行動空間選択 (rl) は、複雑な状態-行動関係のために相反し易い。 そこで本研究では,行動空間の分類とランク付けをトレーニングするためのShapleyに着想を得た方法論を提案する。 指数時間シャプリー計算を減らすため、この手法は不要な探索を避けるためにモンテカルロシミュレーションを含む。 本手法の有効性を,クラウドインフラ資源チューニングケーススタディを用いて示す。 検索スペースを80\%削減し、トレーニングアクションセットを不要かつ必要不可欠なグループに分類する。 さらに、高性能でコスト効率のよいRLモデル設計を容易にするために、異なるトレーニングアクションをランク付けする。 提案したデータ駆動手法は、異なるドメイン、ユースケース、強化学習アルゴリズムに拡張可能である。

Training action space selection for reinforcement learning (RL) is conflict-prone due to complex state-action relationships. To address this challenge, this paper proposes a Shapley-inspired methodology for training action space categorization and ranking. To reduce exponential-time shapley computations, the methodology includes a Monte Carlo simulation to avoid unnecessary explorations. The effectiveness of the methodology is illustrated using a cloud infrastructure resource tuning case study. It reduces the search space by 80\% and categorizes the training action sets into dispensable and indispensable groups. Additionally, it ranks different training actions to facilitate high-performance yet cost-efficient RL model design. The proposed data-driven methodology is extensible to different domains, use cases, and reinforcement learning algorithms.
翻訳日:2022-04-11 13:40:56 公開日:2022-04-08
# 成績測定と人口統計を用いた多発性硬化症の障害予測

Disability prediction in multiple sclerosis using performance outcome measures and demographic data ( http://arxiv.org/abs/2204.03969v1 )

ライセンス: Link先を確認
Subhrajit Roy, Diana Mincu, Lev Proleev, Negar Rostamzadeh, Chintan Ghate, Natalie Harris, Christina Chen, Jessica Schrouff, Nenad Tomasev, Fletcher Lee Hartsell, Katherine Heller(参考訳) 多発性硬化症に対する機械学習に関する文献は、主に磁気共鳴画像や臨床検査などの神経画像データの使用に焦点を当てている。 しかし、これらのモダリティは症状や疾患の進行といった疾患活動と一致しないことが研究によって示されている。 さらに、これらのモダリティからデータを集めるコストが高いため、評価は不十分である。 本研究では,多次元,手頃な価格,物理的,スマートフォンによるパフォーマンス評価尺度(POM)と人口統計データを併用し,多発性硬化症の進行を予測する。 2つのデータセットで厳密なベンチマークを行い,13の臨床的に実行可能な予測エンドポイントと6つの機械学習モデルで結果を得た。 この結果から,POMと人口統計データを用いて2つのデータセットを用いて臨床治験およびスマートフォンベース研究の文脈で疾患の進行を予測することが可能であることを初めて明らかにした。 さらに,各POMと人口動態がモデル性能に与える影響について,特徴アブレーション研究を通じて検討した。 モデルのパフォーマンスは、年齢と性別に基づいて、異なるサブグループ間で同じであることも示しています。 この作業を可能にするために、異なるMSデータセットに対する迅速な実験を可能にする、エンドツーエンドで再利用可能な前処理および機械学習フレームワークを開発した。

Literature on machine learning for multiple sclerosis has primarily focused on the use of neuroimaging data such as magnetic resonance imaging and clinical laboratory tests for disease identification. However, studies have shown that these modalities are not consistent with disease activity such as symptoms or disease progression. Furthermore, the cost of collecting data from these modalities is high, leading to scarce evaluations. In this work, we used multi-dimensional, affordable, physical and smartphone-based performance outcome measures (POM) in conjunction with demographic data to predict multiple sclerosis disease progression. We performed a rigorous benchmarking exercise on two datasets and present results across 13 clinically actionable prediction endpoints and 6 machine learning models. To the best of our knowledge, our results are the first to show that it is possible to predict disease progression using POMs and demographic data in the context of both clinical trials and smartphone-base studies by using two datasets. Moreover, we investigate our models to understand the impact of different POMs and demographics on model performance through feature ablation studies. We also show that model performance is similar across different demographic subgroups (based on age and sex). To enable this work, we developed an end-to-end reusable pre-processing and machine learning framework which allows quicker experimentation over disparate MS datasets.
翻訳日:2022-04-11 13:40:46 公開日:2022-04-08
# ニューラルタンジェントカーネルに基づく生成逆法

Generative Adversarial Method Based On Neural Tangent Kernels ( http://arxiv.org/abs/2204.04090v1 )

ライセンス: Link先を確認
Yu-Rong Zhang, Sheng Yen Chou, Shan-Hung Wu(参考訳) 最近のGAN(Generative Adversarial Network)の開発により、多くのコンピュータビジョンアプリケーションが開発された。 高い合成品質にもかかわらず、訓練用ganはしばしば非収束、モード崩壊、勾配の消失などいくつかの問題に直面している。 例えば、リプシッツ連続性を正則化し、ワッサーシュタイン距離を採用するなどである。 これらの方法は部分的には解けるが、この問題はディープニューラルネットワークを用いた判別器のモデル化によるものであると論じる。 本稿では,ニューラル・タンジェント・カーネル(NTK)と呼ばれるニューラル・タンジェント・ニューラルネットワーク理論を基礎として,GA-NTK(Generative Adversarial NTK)と呼ばれる新しい生成アルゴリズムを提案する。 GA-NTKは、判別器をガウス過程(GP)としてモデル化する。 NTK理論の助けを借りて、GA-NTKのトレーニング力学を閉形式公式で記述することができる。 閉形式式でデータを合成するために、目的を単一レベルの逆最適化問題に単純化することができる。 その結果,GA-NTK は GAN に匹敵する画像を生成することができるが,様々な条件下での訓練がより容易であることがわかった。 また,GA-NTKの現在の限界についても検討し,GA-NTKをより実用的なものにするための回避策を提案する。

The recent development of Generative adversarial networks (GANs) has driven many computer vision applications. Despite the great synthesis quality, training GANs often confronts several issues, including non-convergence, mode collapse, and gradient vanishing. There exist several workarounds, for example, regularizing Lipschitz continuity and adopting Wasserstein distance. Although these methods can partially solve the problems, we argue that the problems are result from modeling the discriminator with deep neural networks. In this paper, we base on newly derived deep neural network theories called Neural Tangent Kernel (NTK) and propose a new generative algorithm called generative adversarial NTK (GA-NTK). The GA-NTK models the discriminator as a Gaussian Process (GP). With the help of the NTK theories, the training dynamics of GA-NTK can be described with a closed-form formula. To synthesize data with the closed-form formula, the objectives can be simplified into a single-level adversarial optimization problem. We conduct extensive experiments on real-world datasets, and the results show that GA-NTK can generate images comparable to those by GANs but is much easier to train under various conditions. We also study the current limitations of GA-NTK and propose some workarounds to make GA-NTK more practical.
翻訳日:2022-04-11 13:40:26 公開日:2022-04-08
# ソフトウェアのエンド・オブ・ライフはどのように定義・管理されるのか?

End-of-Life of Software How is it Defined and Managed? ( http://arxiv.org/abs/2204.03800v1 )

ライセンス: Link先を確認
Zena Assaad and Mina Henein(参考訳) 新しいソフトウェアとアルゴリズムの急速な開発は、膨大な量のデータによって加速され、ソフトウェア製品の寿命を大幅に短縮した。 毎日4万以上の新しいソフトウェアプロジェクトが開発され、古いソフトウェアを捨てて、急速に変化するニーズと要求を満たす新しいソフトウェアを取得するのは、より迅速かつ安くなってきている。 放棄されたソフトウェアに何が起こるのか、'throwaway'文化から何が起こるのか(cooper, 2005)はまだ疑問の余地がある。 本論では,ソフトウェアにおけるエンド・オブ・ライフというシステム工学のコンセプトを探求し,既存のソフトウェア工学の実践のギャップを浮き彫りにし,廃止を試みて放棄されたソフトウェアの事例を紹介し,放棄されたソフトウェアアーティファクトの反響を探求する。 特定された研究ギャップに対処するための提案手法についても詳述する。

The rapid development of new software and algorithms, fueled by the immense amount of data available, has made the shelf life of software products a lot shorter. With a rough estimate of more than 40,000 new software projects developed every day, it is becoming quicker and cheaper to abandon old software and acquire new software that meets rapidly changing needs and demands. What happens to software that is abandoned and what consequences may arise from 'throwaway' culture (Cooper, 2005) are still open questions. This paper will explore the systems engineering concept of end-of-life for software, it will highlight the gaps in existing software engineering practices, it will bring forward examples of software that has been abandoned in an attempt to decommission and it will explore the repercussions of abandoned software artefacts. A proposed way forward for addressing the identified research gaps is also detailed.
翻訳日:2022-04-11 13:39:59 公開日:2022-04-08
# IA-GCN:レコメンデーションのためのインタラクティブグラフ畳み込みネットワーク

IA-GCN: Interactive Graph Convolutional Network for Recommendation ( http://arxiv.org/abs/2204.03827v1 )

ライセンス: Link先を確認
Yinan Zhang, Pei Wang, Xiwei Zhao, Hao Qi, Jie He, Junsheng Jin, Changping Peng, Zhangang Lin, Jingping Shao(参考訳) 近年、グラフ畳み込みネットワーク(GCN)は、協調フィルタリング(CF)ベースのRecommender Systems(RS)のための新しい最先端技術となっている。 ユーザ項目の2部グラフに埋め込み伝搬を行い,その表現に基づいてユーザに対してパーソナライズされた項目提案を行うことで,情報的ユーザや項目表現を学習することが一般的である。 有効性にもかかわらず、既存のアルゴリズムは埋め込みプロセスにおけるユーザとイタムのペア間の貴重な対話的特徴を無視している。 異なる項目に対するユーザの好みを予測する際には、ユーザ近傍のターゲット関連情報を強調することなく、同じ方法でユーザツリーを集約する。 このような一様アグリゲーションスキームは、最適化されたユーザとアイテム表現に容易につながり、モデルの表現性をある程度制限する。 本稿では,各ユーザ・テーマペア間の双方向対話型ガイダンスを構築し,ia-gcn(interactive gcnの略)という新しいモデルを提案する。 具体的には,その周辺からユーザ表現を学習する場合,対象項目に類似した近傍に注意重みを割り当てる。 それに応じて、アイテム表現を学ぶとき、ターゲットユーザーに似た隣人にもっと注意を払う。 これは対話的で解釈可能な特徴をもたらし、各グラフ畳み込み操作を通じてターゲット固有の情報を効果的に蒸留する。 我々のモデルは、CFのための最先端GCNモデルであるLightGCNの上に構築されており、エンドツーエンドで様々なGCNベースのCFアーキテクチャと組み合わせることができる。 3つのベンチマークデータセットの大規模な実験は、IA-GCNの有効性と堅牢性を示している。

Recently, Graph Convolutional Network (GCN) has become a novel state-of-art for Collaborative Filtering (CF) based Recommender Systems (RS). It is a common practice to learn informative user and item representations by performing embedding propagation on a user-item bipartite graph, and then provide the users with personalized item suggestions based on the representations. Despite effectiveness, existing algorithms neglect precious interactive features between user-item pairs in the embedding process. When predicting a user's preference for different items, they still aggregate the user tree in the same way, without emphasizing target-related information in the user neighborhood. Such a uniform aggregation scheme easily leads to suboptimal user and item representations, limiting the model expressiveness to some extent. In this work, we address this problem by building bilateral interactive guidance between each user-item pair and proposing a new model named IA-GCN (short for InterActive GCN). Specifically, when learning the user representation from its neighborhood, we assign higher attention weights to those neighbors similar to the target item. Correspondingly, when learning the item representation, we pay more attention to those neighbors resembling the target user. This leads to interactive and interpretable features, effectively distilling target-specific information through each graph convolutional operation. Our model is built on top of LightGCN, a state-of-the-art GCN model for CF, and can be combined with various GCN-based CF architectures in an end-to-end fashion. Extensive experiments on three benchmark datasets demonstrate the effectiveness and robustness of IA-GCN.
翻訳日:2022-04-11 13:38:24 公開日:2022-04-08
# HINNPerf:階層型相互作用ニューラルネットワークによる構成可能なシステムの性能予測

HINNPerf: Hierarchical Interaction Neural Network for Performance Prediction of Configurable Systems ( http://arxiv.org/abs/2204.03931v1 )

ライセンス: Link先を確認
Jiezhu Cheng, Cuiyun Gao and Zibin Zheng(参考訳) 現代のソフトウェアシステムは通常、高度に構成可能で、様々な設定オプションを通じてカスタマイズされた機能を提供する。 特定の要件を満たす最適な構成を決定するためには、システムパフォーマンスが異なるオプションの組み合わせでどのように変化するかを理解することが重要です。 複数のオプション間の複雑な相互作用と、巨大な構成空間下での性能測定のコストのため、異なる構成がシステムパフォーマンスに与える影響を研究することは困難である。 これらの課題に対処するため,構成可能なシステムの性能予測のための階層型ニューラルネットワークHINNPerfを提案する。 HINNPerfは、組込み法と階層ネットワークブロックを用いて、構成オプション間の複雑な相互作用をモデル化し、メソッドの予測精度を向上させる。 さらに、モデルロバスト性を高めるために階層的正規化戦略を考案する。 実世界10システムにおける実験結果から, 予測精度が平均22.67%向上し, 統計的に最先端のアプローチを上回った。 さらに、統合勾配法(integrated gradients method)と組み合わせることで、設計された階層アーキテクチャは、インタラクションの複雑さと構成オプションの重要性に関する洞察を提供する。

Modern software systems are usually highly configurable, providing users with customized functionality through various configuration options. Understanding how system performance varies with different option combinations is important to determine optimal configurations that meet specific requirements. Due to the complex interactions among multiple options and the high cost of performance measurement under a huge configuration space, it is challenging to study how different configurations influence the system performance. To address these challenges, we propose HINNPerf, a novel hierarchical interaction neural network for performance prediction of configurable systems. HINNPerf employs the embedding method and hierarchic network blocks to model the complicated interplay between configuration options, which improves the prediction accuracy of the method. Besides, we devise a hierarchical regularization strategy to enhance the model robustness. Empirical results on 10 real-world configurable systems show that our method statistically significantly outperforms state-of-the-art approaches by achieving average 22.67% improvement in prediction accuracy. In addition, combined with the Integrated Gradients method, the designed hierarchical architecture provides some insights about the interaction complexity and the significance of configuration options, which might help users and developers better understand how the configurable system works and efficiently identify significant options affecting the performance.
翻訳日:2022-04-11 13:38:02 公開日:2022-04-08
# プロセスマイニングにおける不確実なケース識別:クリックデータにおけるイベント・ケース相関問題のユーザスタディ

Uncertain Case Identifiers in Process Mining: A User Study of the Event-Case Correlation Problem on Click Data ( http://arxiv.org/abs/2204.04164v1 )

ライセンス: Link先を確認
Marco Pegoraro, Merih Seran Uysal, Tom-Hendrik H\"ulsmann, Wil M.P. van der Aalst(参考訳) 今日利用可能な多くのイベントデータソースのうち、注目すべきはユーザーインタラクションデータである。 ユーザアクティビティはアプリケーションやwebサイトの使用中に記録され、クリックデータと呼ばれるユーザインタラクションデータの一種となる。 プロセスマイニングを用いたクリックデータ解析の障害は、データにケース識別子がないことである。 本稿では,モビリティ共有企業によるユーザインタラクションイベントの文脈において,クリックデータにおけるイベントケース相関の事例とユーザスタディを示す。 このプロセスのケース概念を再構築するために,ニューラルネットに基づくケースとして解釈されたユーザセッションにユーザインタラクションデータを集約する新しい手法を適用する。 この結果を検証するため,プロセス専門家へのインタビューを通じて,プロセスマイニング分析が結果の良好なイベントログに与える影響を質的に検討した。

Among the many sources of event data available today, a prominent one is user interaction data. User activity may be recorded during the use of an application or website, resulting in a type of user interaction data often called click data. An obstacle to the analysis of click data using process mining is the lack of a case identifier in the data. In this paper, we show a case and user study for event-case correlation on click data, in the context of user interaction events from a mobility sharing company. To reconstruct the case notion of the process, we apply a novel method to aggregate user interaction data in separate user sessions-interpreted as cases-based on neural networks. To validate our findings, we qualitatively discuss the impact of process mining analyses on the resulting well-formed event log through interviews with process experts.
翻訳日:2022-04-11 13:37:43 公開日:2022-04-08
# 共形モデルを用いた音声言語理解の異なる方法に関する研究

A Study of Different Ways to Use The Conformer Model For Spoken Language Understanding ( http://arxiv.org/abs/2204.03879v1 )

ライセンス: Link先を確認
Nick J.C. Wang, Shaojun Wang, Jing Xiao(参考訳) SLUは、ASRとNLUの機能を組み合わせて、音声からインテントへの理解を実現する。 本稿では,asr と nlu を結合する方法の比較を行った。特に,それぞれのアプローチの長所と短所をよりよく理解するために,そのコンポーネントを使用する異なる方法を持つ単一コンフォーメータモデルを用いる。 研究やアプリケーションに最適なシステムを決定する2段階の復号化システムとエンド・ツー・エンドシステムとの間には必ずしも選択肢がない。 システムの最適化は、各コンポーネントのパフォーマンスを注意深く改善する。 1つの方向が他方よりも決定的に優れていることを示すのは難しい。 本稿では,エンド・ツー・エンドモデルの精度と処理速度を向上しつつ,音響符号化シーケンスの長さを削減できる新しい接続性時相要約法(cts)を提案する。 本手法は複雑で時間を要する復号化を伴う最良2段slu認識と同じ意図精度を実現するが、計算コストは低くなる。 このスタックされたエンドツーエンドのSLUシステムは、SmartLightsの遠距離フィールドセットで93.97%、近接フィールドで95.18%、FluentSpeechで99.71%の意図精度が得られる。

SLU combines ASR and NLU capabilities to accomplish speech-to-intent understanding. In this paper, we compare different ways to combine ASR and NLU, in particular using a single Conformer model with different ways to use its components, to better understand the strengths and weaknesses of each approach. We find that it is not necessarily a choice between two-stage decoding and end-to-end systems which determines the best system for research or application. System optimization still entails carefully improving the performance of each component. It is difficult to prove that one direction is conclusively better than the other. In this paper, we also propose a novel connectionist temporal summarization (CTS) method to reduce the length of acoustic encoding sequences while improving the accuracy and processing speed of end-to-end models. This method achieves the same intent accuracy as the best two-stage SLU recognition with complicated and time-consuming decoding but does so at lower computational cost. This stacked end-to-end SLU system yields an intent accuracy of 93.97% for the SmartLights far-field set, 95.18% for the close-field set, and 99.71% for FluentSpeech.
翻訳日:2022-04-11 13:37:30 公開日:2022-04-08
# 音声言語識別のためのトランスデューサに基づく言語埋め込み

Transducer-based language embedding for spoken language identification ( http://arxiv.org/abs/2204.03888v1 )

ライセンス: Link先を確認
Peng Shen, Xugang Lu, Hisashi Kawai(参考訳) 音声と言語の特徴は,音声言語識別(LID)タスクにおいて重要な手がかりである。 近年のLIDシステムは, 言語的特徴符号化を欠いた音響的特徴を主に用いている。 本稿では,RNNトランスデューサモデルを言語埋め込みフレームワークに統合することにより,LIDタスクのための新しいトランスデューサベースの言語埋め込み手法を提案する。 提案手法は, RNNトランスデューサの言語表現能力の利点を活かして, LIDタスクの音響的特徴と明示的言語的特徴の両方を活用することができる。 大規模な多言語LibriSpeechとVoxLingua107データセットで実験を行った。 実験の結果, 提案手法は, LIDタスクの性能を12%から59%, 16%から24%で改善することがわかった。

The acoustic and linguistic features are important cues for the spoken language identification (LID) task. Recent advanced LID systems mainly use acoustic features that lack the usage of explicit linguistic feature encoding. In this paper, we propose a novel transducer-based language embedding approach for LID tasks by integrating an RNN transducer model into a language embedding framework. Benefiting from the advantages of the RNN transducer's linguistic representation capability, the proposed method can exploit both phonetically-aware acoustic features and explicit linguistic features for LID tasks. Experiments were carried out on the large-scale multilingual LibriSpeech and VoxLingua107 datasets. Experimental results showed the proposed method significantly improves the performance on LID tasks with 12% to 59% and 16% to 24% relative improvement on in-domain and cross-domain datasets, respectively.
翻訳日:2022-04-11 13:37:09 公開日:2022-04-08
# コンバータへのコネクショニスト時間要約の導入による音声認識におけるデコーダ効率の向上

Adding Connectionist Temporal Summarization into Conformer to Improve Its Decoder Efficiency For Speech Recognition ( http://arxiv.org/abs/2204.03889v1 )

ライセンス: Link先を確認
Nick J.C. Wang, Zongfeng Quan, Shaojun Wang, Jing Xiao(参考訳) Conformerモデルは,コネクショナリズム時間分類(CTC)のハイブリッド損失と,列車モデルパラメータへの注意を効果的に活用する,音声認識モデリングのための優れたアーキテクチャである。 コンフォーマの復号効率を向上させるために,エンコーダが生成する音響シーケンスから供給されるアテンションデコーダに必要なフレーム数を削減し,操作を削減した新しいコネクショニスト時相要約法(cts)を提案する。 しかし、このような復号化を実現するためには、相互注意観察が変更され、それに対応する改良が必要であるため、微調整モデルパラメーターが必要である。 最後の実験では、4本のビーム幅でLibriSpeechの復号化予算を最大20%削減でき、FluentSpeechのデータではASRの精度を失うことなく11%削減できることを示した。 LibriSpeech の "test-other" セットでも精度が向上している。 単語誤り率(wer)をビーム幅1で6対%、ビーム幅4で3%減少させる。

The Conformer model is an excellent architecture for speech recognition modeling that effectively utilizes the hybrid losses of connectionist temporal classification (CTC) and attention to train model parameters. To improve the decoding efficiency of Conformer, we propose a novel connectionist temporal summarization (CTS) method that reduces the number of frames required for the attention decoder fed from the acoustic sequences generated by the encoder, thus reducing operations. However, to achieve such decoding improvements, we must fine-tune model parameters, as cross-attention observations are changed and thus require corresponding refinements. Our final experiments show that, with a beamwidth of 4, the LibriSpeech's decoding budget can be reduced by up to 20% and for FluentSpeech data it can be reduced by 11%, without losing ASR accuracy. An improvement in accuracy is even found for the LibriSpeech "test-other" set. The word error rate (WER) is reduced by 6\% relative at the beam width of 1 and by 3% relative at the beam width of 4.
翻訳日:2022-04-11 13:36:56 公開日:2022-04-08
# GigaST:1万時間 Pseudo 音声翻訳コーパス

GigaST: A 10,000-hour Pseudo Speech Translation Corpus ( http://arxiv.org/abs/2204.03939v1 )

ライセンス: Link先を確認
Rong Ye, Chengqi Zhao, Tom Ko, Chutong Meng, Tao Wang, Mingxuan Wang, Jun Cao(参考訳) 本稿では,大規模擬似音声翻訳(ST)コーパスであるGigaSTを紹介する。 我々は、英語のASRコーパスであるGigaSpeechのテキストをドイツ語と中国語に翻訳することでコーパスを作成する。 トレーニングセットは強力な機械翻訳システムによって翻訳され、テストセットは人間によって翻訳される。 コーパスの追加でトレーニングしたSTモデルは、MuST-Cの英語-ドイツ語ベンチマークテストセット上で、新しい最先端の結果を得る。 翻訳プロセスの詳細を説明し,その品質を検証する。 翻訳されたテキストデータを公開し、音声翻訳の研究を促進することを期待する。 さらに、システムを複製しやすいように、neurstのトレーニングスクリプトもリリースしています。 GigaSTデータセットはhttps://st-benchmark .github.io/resources /GigaSTで公開されている。

This paper introduces GigaST, a large-scale pseudo speech translation (ST) corpus. We create the corpus by translating the text in GigaSpeech, an English ASR corpus, into German and Chinese. The training set is translated by a strong machine translation system and the test set is translated by human. ST models trained with an addition of our corpus obtain new state-of-the-art results on the MuST-C English-German benchmark test set. We provide a detailed description of the translation process and verify its quality. We make the translated text data public and hope to facilitate research in speech translation. Additionally, we also release the training scripts on NeurST to make it easy to replicate our systems. GigaST dataset is available at https://st-benchmark .github.io/resources /GigaST.
翻訳日:2022-04-11 13:36:33 公開日:2022-04-08
# 胸部X線画像を用いた新型コロナウイルスの予測

Prediction of COVID-19 using chest X-ray images ( http://arxiv.org/abs/2204.03849v1 )

ライセンス: Link先を確認
Narayana Darapaneni, Suma Maram, Harpreet Singh, Syed Subhani, Mandeep Kour, Sathish Nagam, and Anwesh Reddy Paduri(参考訳) 新型コロナウイルス(COVID-19)は、2019年後半に中国で初めて流行した、非常に伝染性の疾患である。 SARS-CoV-2(SARS-CoV- 2)は、この病気の原因となるコロナウイルス群に属する新型コロナウイルスである。 この病気は、2019年12月に中国の武漢で発生し、213か国以上に急速に広がり、世界的なパンデミックとなった。 発熱、干し草、疲労が最も典型的なcovid-19の症状である。 痛み、痛み、呼吸困難は、患者が直面する可能性のある他の症状である。 これらの症状の大部分は呼吸器感染症や肺疾患の指標であり、放射線科医が特定できる。 新型コロナウイルス(covid-19)患者の胸部x線は、透明で健康な肺ではなく、パッチ状でぼろぼろの肺に似ています。 しかしx線では、肺炎やその他の慢性肺疾患はcovid-19に似ている。 訓練を受けた放射線科医は、covid-19と感染の少ない病気を区別しなくてはならない。 我々のAIアルゴリズムは、医師に劣化のリスクを定量的に見積もる。 劣化リスクの高い患者をトリアージし、効率的に治療することができる。 この方法は、入院時のスクリーニングが病院のベッドなどの限られた資源の割り当てに重要である場合、パンデミックホットスポットで特に有用である。

COVID-19, also known as Novel Coronavirus Disease, is a highly contagious disease that first surfaced in China in late 2019. SARS-CoV-2 is a coronavirus that belongs to the vast family of coronaviruses that causes this disease. The sickness originally appeared in Wuhan, China in December 2019 and quickly spread to over 213 nations, becoming a global pandemic. Fever, dry cough, and tiredness are the most typical COVID-19 symptoms. Aches, pains, and difficulty breathing are some of the other symptoms that patients may face. The majority of these symptoms are indicators of respiratory infections and lung abnormalities, which radiologists can identify. Chest x-rays of COVID-19 patients seem similar, with patchy and hazy lungs rather than clear and healthy lungs. On x-rays, however, pneumonia and other chronic lung disorders can resemble COVID-19. Trained radiologists must be able to distinguish between COVID-19 and an illness that is less contagious. Our AI algorithm seeks to give doctors a quantitative estimate of the risk of deterioration. So that patients at high risk of deterioration can be triaged and treated efficiently. The method could be particularly useful in pandemic hotspots when screening upon admission is important for allocating limited resources like hospital beds.
翻訳日:2022-04-11 13:34:52 公開日:2022-04-08
# 厳密な三角形ノルムによるファジィ相互作用集合演算子と多点決定への応用

Picture Fuzzy Interactional Aggregation Operators via Strict Triangular Norms and Applications to Multi-Criteria Decision Making ( http://arxiv.org/abs/2204.03878v1 )

ライセンス: Link先を確認
X. Wu and Z. Zhu and G. \c{C}ayl{\i} and P. Liu and X. Zhang and Z. Yang(参考訳) 画像ファジィセットは3つの会員度で特徴づけられ、多基準意思決定(MCDM)に役立つツールである。 本稿では,画像ファジィ数(pfns)における閉操作則の構造を調査し,効率的な画像ファジィmcdm法を提案する。 まず最初に PFN に対して許容順序を導入し、すべての PFN がこの順序の下で完全な格子を形成することを証明する。 次に、既存の画像ファジィ集約作用素の非閉性を示す具体例を示す。 PFNsにおける運用法則の密接性を確保するため、正の次数(負の次数)と中性次数との相互作用を考慮した厳密な三角ノルムに基づく新たな図形ファジィ作用素を構築する。 これらの新しい演算子に基づき、ピクチャファジィ相互作用重み付き平均 (pfiwa) 演算子とピクチャファジィ相互作用重み付き幾何作用素 (pfiwg) を得る。 それらは単調、優等、有界、シフト不変、等質であることが証明されている。 また,PFIWAおよびPFIWG演算子を用いた画像ファジィ環境下での新しいMCDM手法を構築した。 さらに,本手法を明確に理解するための例を示す。 また、有名な三角形ノルムの6つのクラスによって引き起こされる作用素の比較解析も行う。

The picture fuzzy set, characterized by three membership degrees, is a helpful tool for multi-criteria decision making (MCDM). This paper investigates the structure of the closed operational laws in the picture fuzzy numbers (PFNs) and proposes efficient picture fuzzy MCDM methods. We first introduce an admissible order for PFNs and prove that all PFNs form a complete lattice under this order. Then, we give some specific examples to show the non-closeness of some existing picture fuzzy aggregation operators. To ensure the closeness of the operational laws in PFNs, we construct a new class of picture fuzzy operators based on strict triangular norms, which consider the interaction between the positive degrees (negative degrees) and the neutral degrees. Based on these new operators, we obtain the picture fuzzy interactional weighted average (PFIWA) operator and the picture fuzzy interactional weighted geometric (PFIWG) operator. They are proved to be monotonous, idempotent, bounded, shift-invariant, and homogeneous. We also establish a novel MCDM method under the picture fuzzy environment applying PFIWA and PFIWG operators. Furthermore, we present an illustrative example for a clear understanding of our method. We also give the comparative analysis among the operators induced by six classes of famous triangular norms.
翻訳日:2022-04-11 13:34:34 公開日:2022-04-08
# EfficientFi:CSI圧縮による大規模軽量WiFiセンシングを目指して

EfficientFi: Towards Large-Scale Lightweight WiFi Sensing via CSI Compression ( http://arxiv.org/abs/2204.04138v1 )

ライセンス: Link先を確認
Jianfei Yang, Xinyan Chen, Han Zou, Dazhuo Wang, Qianwen Xu, Lihua Xie(参考訳) 高速インターネットアクセスの必要性が高まっているため、WiFi技術は様々な場所に応用されている。 近年,ネットワークサービスに加えて,デバイスフリー,コスト効率,プライバシ保護など,スマートホームにもWiFiセンサが注目されている。 多くのWiFiセンシング手法が開発されているが、そのほとんどは単一のスマートホームシナリオしか考慮していない。 強力なクラウドサーバと巨大なユーザの接続がなければ、大規模なWiFiセンシングは依然として難しい。 本稿では,これらの障害をまず解析し,要約し,効率的な大規模WiFiセンシングフレームワークであるEfficientFiを提案する。 EfficientFiはWiFi APのエッジコンピューティングとセンターサーバのクラウドコンピューティングで動作する。 エッジで微細なWiFiチャネル状態情報(CSI)を圧縮し、クラウドでCSIを復元し、同時にセンシングタスクを実行できる、新しいディープニューラルネットワークで構成されている。 量子化オートエンコーダとジョイント分類器は、これらの目標をエンドツーエンドで達成するために設計されている。 私たちの知る限りでは、EfficientFiはIoTクラウド対応のWiFiセンシングフレームワークとしては初めてのもので、検知タスクを正確に実現しながら通信オーバーヘッドを大幅に削減します。 wifiセンシングによるヒューマンアクティビティ認識と同定を2つのケーススタディとして活用し,効率性評価のための広範囲な実験を行った。 その結果、CSIデータを1.368Mb/sから0.768Kb/sに極めて低い誤差で圧縮し、人間の活動認識の精度を98%以上達成した。

WiFi technology has been applied to various places due to the increasing requirement of high-speed Internet access. Recently, besides network services, WiFi sensing is appealing in smart homes since it is device-free, cost-effective and privacy-preserving. Though numerous WiFi sensing methods have been developed, most of them only consider single smart home scenario. Without the connection of powerful cloud server and massive users, large-scale WiFi sensing is still difficult. In this paper, we firstly analyze and summarize these obstacles, and propose an efficient large-scale WiFi sensing framework, namely EfficientFi. The EfficientFi works with edge computing at WiFi APs and cloud computing at center servers. It consists of a novel deep neural network that can compress fine-grained WiFi Channel State Information (CSI) at edge, restore CSI at cloud, and perform sensing tasks simultaneously. A quantized auto-encoder and a joint classifier are designed to achieve these goals in an end-to-end fashion. To the best of our knowledge, the EfficientFi is the first IoT-cloud-enabled WiFi sensing framework that significantly reduces communication overhead while realizing sensing tasks accurately. We utilized human activity recognition and identification via WiFi sensing as two case studies, and conduct extensive experiments to evaluate the EfficientFi. The results show that it compresses CSI data from 1.368Mb/s to 0.768Kb/s with extremely low error of data reconstruction and achieves over 98% accuracy for human activity recognition.
翻訳日:2022-04-11 13:34:12 公開日:2022-04-08
# 証明ブロック問題の効率的な部分信用格付け

Efficient Partial Credit Grading of Proof Blocks Problems ( http://arxiv.org/abs/2204.04196v1 )

ライセンス: Link先を確認
Seth Poulsen, Shubhang Kulkarni, Geoffrey Herman, and Matthew West(参考訳) Proof Blocksは、学生がスクラッチから証明を書く代わりに線をドラッグ&ドロップすることで数学的証明を書くことができるソフトウェアツールである。 本稿では,証明ブロック問題を完成させる学生に部分クレジットを割り当てる問題に対処する。 大きな解空間のため、不正な解と正しい解との差を計算するのに計算コストがかかり、自動的に学生に部分的クレジットを割り当てる能力が制限される。 本稿では,Proof Blocks問題の正しい解に対する任意の学生からの編集距離を求めるアルゴリズムを提案する。 提案アルゴリズムは,2020年秋以降,何千もの学生の投稿に対してベンチマークを行い,実データに対するナイーブアルゴリズムの100倍以上の性能を示す。 新しいアルゴリズムは、パーソンの問題を格付けするだけでなく、解空間が有向非巡回グラフとしてモデル化されるような他の種類の宿題や試験問題にも応用できる。

Proof Blocks is a software tool which allows students to practice writing mathematical proofs by dragging and dropping lines instead of writing proofs from scratch. In this paper, we address the problem of assigning partial credit to students completing Proof Blocks problems. Because of the large solution space, it is computationally expensive to calculate the difference between an incorrect student solution and some correct solution, restricting the ability to automatically assign students partial credit. We propose a novel algorithm for finding the edit distance from an arbitrary student submission to some correct solution of a Proof Blocks problem. We benchmark our algorithm on thousands of student submissions from Fall 2020, showing that our novel algorithm can perform over 100 times better than the naive algorithm on real data. Our new algorithm has further applications in grading Parson's Problems, as well as any other kind of homework or exam problem where the solution space may be modeled as a directed acyclic graph.
翻訳日:2022-04-11 13:33:46 公開日:2022-04-08
# 投影パワー法による相関ウィグナーモデルに対するシードグラフマッチング

Seeded graph matching for the correlated Wigner model via the projected power method ( http://arxiv.org/abs/2204.04099v1 )

ライセンス: Link先を確認
Ernesto Araya, Guillaume Braun and Hemant Tyagi(参考訳) グラフマッチング問題では、2つのグラフが$g,h$ で観察され、ゴールは頂点間の割り当て(またはマッチング)を見つけることである。 この研究において、観察された対 $g,h$ は、相関付き重み付きグラフの一般的なモデルである、相関付きウィグナーモデル(英語版)(relationeded wigner model)から引き出され、このモデルでは、$g$ と $h$ の隣接行列のエントリは独立ガウス行列であり、$g$ の各辺は、パラメータ $\sigma\in [0,1)$ で記述された辺相関と相関していると仮定する。 本稿では,予測パワー法(PPM)の性能をシードグラフマッチングアルゴリズムとして解析し,初期部分的正マッチング(シードと呼ぶ)を副次情報として与える。 この結果から, 種子が接地構造マッチングに十分近い場合, 高い確率でPPMは種子を反復的に改良し, 地上構造マッチングを$\mathcal{O}(\log n)$繰り返しで回収することを示した。 我々の結果は、PPMが定数$\sigma$のレギュレーションでも機能することを証明し、スパース Erd\"os-Renyi モデルに対する (Mao et al.,2021) 解析を (dense) ウィグナーモデルに拡張した。 我々の分析の副産物として、PPMフレームワークはシードグラフマッチングのための最先端アルゴリズムの一部を一般化している。 我々は, 合成データに関する数値実験を行い, 理論的知見を補完する。

In the graph matching problem we observe two graphs $G,H$ and the goal is to find an assignment (or matching) between their vertices such that some measure of edge agreement is maximized. We assume in this work that the observed pair $G,H$ has been drawn from the correlated Wigner model -- a popular model for correlated weighted graphs -- where the entries of the adjacency matrices of $G$ and $H$ are independent Gaussians and each edge of $G$ is correlated with one edge of $H$ (determined by the unknown matching) with the edge correlation described by a parameter $\sigma\in [0,1)$. In this paper, we analyse the performance of the projected power method (PPM) as a seeded graph matching algorithm where we are given an initial partially correct matching (called the seed) as side information. We prove that if the seed is close enough to the ground-truth matching, then with high probability, PPM iteratively improves the seed and recovers the ground-truth matching (either partially or exactly) in $\mathcal{O}(\log n)$ iterations. Our results prove that PPM works even in regimes of constant $\sigma$, thus extending the analysis in (Mao et al.,2021) for the sparse Erd\"os-Renyi model to the (dense) Wigner model. As a byproduct of our analysis, we see that the PPM framework generalizes some of the state-of-art algorithms for seeded graph matching. We support and complement our theoretical findings with numerical experiments on synthetic data.
翻訳日:2022-04-11 13:33:30 公開日:2022-04-08
# (参考訳) 空間の代替処理によるトークン化の改善 [全文訳有]

Improving Tokenisation by Alternative Treatment of Spaces ( http://arxiv.org/abs/2204.04058v1 )

ライセンス: CC BY 4.0
Edward Gow-Smith, Harish Tayyar Madabushi, Carolina Scarton and Aline Villavicencio(参考訳) トークン化は、ほとんどすべてのNLPタスクの最初のステップであり、最先端のトランスフォーマーベースの言語モデルはすべて、入力テキストを処理するためにサブワードトークン化アルゴリズムを使用している。 既存のアルゴリズムには問題があり、しばしば限定された言語的妥当性のトークンを生成し、単語内のその位置によって異なる等価文字列を表現する。 これらの問題は、複雑な単語を扱うトランスフォーマーベースモデルの能力を妨げていると仮定し、トークンに空間を含ませることによる結果であると示唆する。 したがって、空間は常に個々のトークンとして扱われる別のトークン化アプローチを試す。 具体的には、この修正をBPEおよびUnigramアルゴリズムに適用する。 改良したアルゴリズムは,自然言語理解タスクにおける性能に悪影響を及ぼすことなく,複雑な単語を扱う下流nlpタスクのパフォーマンス向上に繋がることがわかった。 本質的には、修正されたアルゴリズムは、特にプレフィックスを扱う場合に、より形態学的に正しいトークン化を与える。 実験の結果から, 空間を個々のトークンとして, 改良されたトークン化手法として常に扱うことを提唱した。

Tokenisation is the first step in almost all NLP tasks, and state-of-the-art transformer-based language models all use subword tokenisation algorithms to process input text. Existing algorithms have problems, often producing tokenisations of limited linguistic validity, and representing equivalent strings differently depending on their position within a word. We hypothesise that these problems hinder the ability of transformer-based models to handle complex words, and suggest that these problems are a result of allowing tokens to include spaces. We thus experiment with an alternative tokenisation approach where spaces are always treated as individual tokens. Specifically, we apply this modification to the BPE and Unigram algorithms. We find that our modified algorithms lead to improved performance on downstream NLP tasks that involve handling complex words, whilst having no detrimental effect on performance in general natural language understanding tasks. Intrinsically, we find our modified algorithms give more morphologically correct tokenisations, in particular when handling prefixes. Given the results of our experiments, we advocate for always treating spaces as individual tokens as an improved tokenisation method.
翻訳日:2022-04-11 13:30:49 公開日:2022-04-08
# マルコフ論理ネットワークにおける射影性について

On Projectivity in Markov Logic Networks ( http://arxiv.org/abs/2204.04009v1 )

ライセンス: Link先を確認
Sagar Malhotra and Luciano Serafini(参考訳) Markov Logic Networks (MLN) は、様々なドメインサイズ上の関係構造の確率分布を定義する。 多くの研究は、MLNが他の多くのリレーショナルモデルと同様に、異なるドメインサイズに対して一貫した限界推論を認めていないことに気付いた。 さらに、特定のドメインで学習したmlnsは、異なるサイズの新しいドメインに一般化しない。 最近の研究では、ドメインサイズ依存、リフトド推論、サブサンプルドメインからの学習の間にコネクションが出現している。 これらの作品の中心的な考え方は射影性の概念である。 射影モデルによって説明される確率分布は、領域の濃度に依存しない部分構造の限界確率を与える。 したがって、射影モデルは効率的な限界推定を認め、ドメインサイズに依存しない。 さらに、射影モデルは、サブサンプルドメインから効率的かつ一貫したパラメータ学習を可能にする。 本稿では,2変数MLNを投影するために必要な,必要かつ十分な条件を特徴付ける。 次に、このクラスのMLN、すなわちリレーショナルブロックモデル(RBM)で特別なモデルを分離する。 その結果, RBMは2変量フラグメントにおける最良の射影MLNであることがわかった。 最後に、RBMはサブサンプル領域上で一貫したパラメータ学習も認めていることを示す。

Markov Logic Networks (MLNs) define a probability distribution on relational structures over varying domain sizes. Many works have noticed that MLNs, like many other relational models, do not admit consistent marginal inference over varying domain sizes. Furthermore, MLNs learnt on a certain domain do not generalize to new domains of varied sizes. In recent works, connections have emerged between domain size dependence, lifted inference and learning from sub-sampled domains. The central idea to these works is the notion of projectivity. The probability distributions ascribed by projective models render the marginal probabilities of sub-structures independent of the domain cardinality. Hence, projective models admit efficient marginal inference, removing any dependence on the domain size. Furthermore, projective models potentially allow efficient and consistent parameter learning from sub-sampled domains. In this paper, we characterize the necessary and sufficient conditions for a two-variable MLN to be projective. We then isolate a special model in this class of MLNs, namely Relational Block Model (RBM). We show that, in terms of data likelihood maximization, RBM is the best possible projective MLN in the two-variable fragment. Finally, we show that RBMs also admit consistent parameter learning over sub-sampled domains.
翻訳日:2022-04-11 13:13:34 公開日:2022-04-08
# 人間とロボットのインタラクションのためのユーティリティ機能

Utility Functions for Human/Robot Interaction ( http://arxiv.org/abs/2204.04071v1 )

ライセンス: Link先を確認
Bruno Yun, Nir Oren, Madalina Croitoru(参考訳) 本稿では,人間とロボットの相互作用の文脈に自己を置き,認知的ロボットモデリングの問題に取り組む。 より正確には、ロボットの動作を管理するユーティリティベースのモデルの性質を調査している。 このアプローチの目新しさは、ロボットの責任を状況よりも、ユーティリティ集約機能を通じてユーティリティモデルに組み込むことにある。 そのような関数に対するdesiderataを記述し、関連する性質について考察する。

In this paper, we place ourselves in the context of human robot interaction and address the problem of cognitive robot modelling. More precisely we are investigating properties of a utility-based model that will govern a robot's actions. The novelty of this approach lies in embedding the responsibility of the robot over the state of affairs into the utility model via a utility aggregation function. We describe desiderata for such a function and consider related properties.
翻訳日:2022-04-11 13:13:20 公開日:2022-04-08
# 不確実なイベントデータのプロセスマイニング

Process Mining on Uncertain Event Data ( http://arxiv.org/abs/2204.04148v1 )

ライセンス: Link先を確認
Marco Pegoraro(参考訳) 組織におけるプロセスマイニングの普及に伴い、プロセスサイエンスの分野は、非標準イベントデータのアドホック分析技術への需要が高まっている。 そのようなデータの例としては、不確定なイベントデータがある。 本稿では,不確実なデータから洞察を抽出できるプロセスマイニング技術の開発を目的とした研究プロジェクトを概説する。 我々は,本研究の基礎を定め,利用可能な文献を再編成し,今後の展望を定義する。

With the widespread adoption of process mining in organizations, the field of process science is seeing an increase in the demand for ad-hoc analysis techniques of non-standard event data. An example of such data are uncertain event data: events characterized by a described and quantified attribute imprecision. This paper outlines a research project aimed at developing process mining techniques able to extract insights from uncertain data. We set the basis for this research topic, recapitulate the available literature, and define a future outlook.
翻訳日:2022-04-11 13:13:15 公開日:2022-04-08
# マルチラベル画像認識のための意味表現と依存学習

Semantic Representation and Dependency Learning for Multi-Label Image Recognition ( http://arxiv.org/abs/2204.03795v1 )

ライセンス: Link先を確認
Tao Pu, Lixian Yuan, Hefeng Wu, Tianshui Chen, Ling Tian, Liang Lin(参考訳) 近年,多くのマルチラベル画像認識(MLR)研究が,事前学習対象検出モデルを導入して多くの提案を作成したり,統計ラベルの共起を利用して,カテゴリ間の相関性を高めるなど,大きな進歩を遂げている。 しかし, ネットワークの有効性は, 高価で不都合な計算をもたらす事前学習対象検出モデルに大きく依存する, 2) 画像に時折共起オブジェクトが存在する場合, 特に稀なカテゴリにおいてネットワーク性能は低下する, という制約がある。 これらの課題に対処するために,各カテゴリのカテゴリ固有のセマンティック表現を学習し,各カテゴリ間のセマンティック依存を捕捉する,新しく効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。 具体的には,カテゴリー特化注意領域(car)モジュールを設計し,チャネル/空間毎の注意行列を生成し,意味認識領域に着目したモデルを導出する。 また,ネットワークトレーニングを規則化する意味認識領域を消去することにより,カテゴリ間の意味依存を暗黙的に学習するオブジェクト消去(oe)モジュールを設計した。 MLRベンチマークデータセット(MS-COCOとPascal VOC 2007)の大規模な実験と比較は、現在の最先端アルゴリズムよりも提案されたフレームワークの有効性を示している。

Recently many multi-label image recognition (MLR) works have made significant progress by introducing pre-trained object detection models to generate lots of proposals or utilizing statistical label co-occurrence enhance the correlation among different categories. However, these works have some limitations: (1) the effectiveness of the network significantly depends on pre-trained object detection models that bring expensive and unaffordable computation; (2) the network performance degrades when there exist occasional co-occurrence objects in images, especially for the rare categories. To address these problems, we propose a novel and effective semantic representation and dependency learning (SRDL) framework to learn category-specific semantic representation for each category and capture semantic dependency among all categories. Specifically, we design a category-specific attentional regions (CAR) module to generate channel/spatial-wise attention matrices to guide model to focus on semantic-aware regions. We also design an object erasing (OE) module to implicitly learn semantic dependency among categories by erasing semantic-aware regions to regularize the network training. Extensive experiments and comparisons on two popular MLR benchmark datasets (i.e., MS-COCO and Pascal VOC 2007) demonstrate the effectiveness of the proposed framework over current state-of-the-art algorithms.
翻訳日:2022-04-11 13:12:20 公開日:2022-04-08
# 識別子としてのタスク固有分類器の再使用:判別子なし逆ドメイン適応

Reusing the Task-specific Classifier as a Discriminator: Discriminator-free Adversarial Domain Adaptation ( http://arxiv.org/abs/2204.03838v1 )

ライセンス: Link先を確認
Lin Chen, Huaian Chen, Zhixiang Wei, Xin Jin, Xiao Tan, Yi Jin, Enhong Chen(参考訳) 教師なしドメイン適応 (UDA) において, 対人学習は顕著な成果を上げている。 既存のUDAメソッドは、通常、機能抽出器でmin-maxゲームをプレイするために追加の判別器を採用する。 しかし、これらの手法の多くは、予測された識別情報の有効利用に失敗し、ジェネレータのモード崩壊を引き起こした。 本研究では、この問題を異なる視点から解決し、識別器のない対数学習ネットワーク(DALN)の形で単純な対数パラダイムを設計し、分類器を識別器として再利用し、統一目的によって明確なドメインアライメントとカテゴリ識別を実現し、DALNが予測された識別情報を十分な特徴アライメントに活用できるようにする。 基本的には、識別を行うための明確なガイダンスを持つ核ノルムワッサーシュタイン不一致(NWD)を導入する。 このようなNWDは分類器と結合してK-Lipschitz制約を満たす判別器として機能し、加重切断や勾配のペナルティ戦略を必要としない。 ベルとホイッスルがなければ、DALNはさまざまな公開データセット上の既存の最先端(SOTA)メソッドと好意的に比較する。 さらに、プラグアンドプレイ技術として、NWDは既存のUDAアルゴリズムの恩恵を受けるために、ジェネリックレギュレータとして直接使用できる。 コードはhttps://github.com/x iaoachen98/DALNで入手できる。

Adversarial learning has achieved remarkable performances for unsupervised domain adaptation (UDA). Existing adversarial UDA methods typically adopt an additional discriminator to play the min-max game with a feature extractor. However, most of these methods failed to effectively leverage the predicted discriminative information, and thus cause mode collapse for generator. In this work, we address this problem from a different perspective and design a simple yet effective adversarial paradigm in the form of a discriminator-free adversarial learning network (DALN), wherein the category classifier is reused as a discriminator, which achieves explicit domain alignment and category distinguishment through a unified objective, enabling the DALN to leverage the predicted discriminative information for sufficient feature alignment. Basically, we introduce a Nuclear-norm Wasserstein discrepancy (NWD) that has definite guidance meaning for performing discrimination. Such NWD can be coupled with the classifier to serve as a discriminator satisfying the K-Lipschitz constraint without the requirements of additional weight clipping or gradient penalty strategy. Without bells and whistles, DALN compares favorably against the existing state-of-the-art (SOTA) methods on a variety of public datasets. Moreover, as a plug-and-play technique, NWD can be directly used as a generic regularizer to benefit existing UDA algorithms. Code is available at https://github.com/x iaoachen98/DALN.
翻訳日:2022-04-11 13:11:55 公開日:2022-04-08
# 2次元画像から3次元モデルへ:深部融合による多視点顔再建

From 2D Images to 3D Model:Weakly Supervised Multi-View Face Reconstruction with Deep Fusion ( http://arxiv.org/abs/2204.03842v1 )

ライセンス: Link先を確認
Weiguang Zhao and Chaolong Yang and Jianan Ye and Yuyao Yan and Xi Yang and Kaizhu Huang(参考訳) 少ないアノテーションで高品質な3次元顔モデルを生成するために、限られた2次元顔画像(例3)を利用する弱教師付き学習を伴うマルチビュー3次元顔再構成(MVR)の問題を考える。 奨励的なパフォーマンスにもかかわらず、現在のmvrメソッドは、単に多視点画像の特徴を結合し、重要な領域(例えば、目、額、鼻、口)に注意を払わない。 この目的のために,Deep Fusion MVR (DF-MVR) と呼ばれる新しいモデルを提案し,マルチビュー画像から深い特徴を抽出し,統合し,補償することができるスキップ接続を持つ単一デコードフレームワークにマルチビューエンコーディングを設計する。 さらに,批判的な共通顔領域を学習し,識別し,強調する多視点顔解析ネットワークを開発した。 最後に、我々のモデルはいくつかの2d画像で訓練されていますが、単一の2d画像が入力されても正確な3dモデルを再構築することができます。 様々な多視点3次元顔再構成法を評価するための広範囲な実験を行った。 提案モデルでは,既存の最弱教師付きMVRよりも11.4%のRMSE改善を実現した。 ソースコードは補足資料で入手できる。

We consider the problem of Multi-view 3D Face Reconstruction (MVR) with weakly supervised learning that leverages a limited number of 2D face images (e.g. 3) to generate a high-quality 3D face model with very light annotation. Despite their encouraging performance, present MVR methods simply concatenate multi-view image features and pay less attention to critical areas (e.g. eye, brow, nose and mouth). To this end, we propose a novel model called Deep Fusion MVR (DF-MVR) and design a multi-view encoding to a single decoding framework with skip connections, able to extract, integrate, and compensate deep features with attention from multi-view images. In addition, we develop a multi-view face parse network to learn, identify, and emphasize the critical common face area. Finally, though our model is trained with a few 2D images, it can reconstruct an accurate 3D model even if one single 2D image is input. We conduct extensive experiments to evaluate various multi-view 3D face reconstruction methods. Our proposed model attains superior performance, leading to 11.4% RMSE improvement over the existing best weakly supervised MVRs. Source codes are available in the supplementary materials.
翻訳日:2022-04-11 13:11:28 公開日:2022-04-08
# 連続手話認識のためのマルチスケール時間ネットワーク

Multi-scale temporal network for continuous sign language recognition ( http://arxiv.org/abs/2204.03864v1 )

ライセンス: Link先を確認
Qidan Zhu, Jing Li, Fei Yuan, Quan Gan(参考訳) 連続手話認識(cslr)は,手話データの時間系列に対する正確なアノテーションが欠如しているため,困難な研究課題である。 最近の一般的な使用法はCSLRの"CNN + RNN"に基づくハイブリッドモデルである。 しかし、これらの作品から時間的特徴を抽出する場合、ほとんどの手法は一定の時間的受容場を用いており、各手話単語の時間的特徴をうまく抽出できない。 本稿では,より正確な時間的特徴を得るために,マルチスケール時間ネットワーク (mstnet) を提案する。 ネットワークは主に3つの部分からなる。 Resnetと2つの完全連結(FC)層は、フレームワイド特徴抽出部を構成する。 時間的特徴抽出部は、提案したマルチスケール時間ブロック(MSTブロック)を用いて、まず異なるスケールの時間的受容場特徴を抽出し、時間的モデリング能力を改善し、さらにトランスフォーマーモジュールにより異なるスケールの時間的特徴を符号化し、より正確な時間的特徴を得る。 最後に,提案する多レベル接続性時間分類(CTC)損失部を用いて,認識結果を得る。 マルチレベルctc損失により,cnnにおける浅層ネットワークパラメータの学習と更新が向上し,パラメータ増加がなく,他のモデルにも柔軟に組み込むことが可能となった。 2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴を効果的に抽出し,CSLRの精度を向上し,最先端に到達できることが示されている。

Continuous Sign Language Recognition (CSLR) is a challenging research task due to the lack of accurate annotation on the temporal sequence of sign language data. The recent popular usage is a hybrid model based on "CNN + RNN" for CSLR. However, when extracting temporal features in these works, most of the methods using a fixed temporal receptive field and cannot extract the temporal features well for each sign language word. In order to obtain more accurate temporal features, this paper proposes a multi-scale temporal network (MSTNet). The network mainly consists of three parts. The Resnet and two fully connected (FC) layers constitute the frame-wise feature extraction part. The time-wise feature extraction part performs temporal feature learning by first extracting temporal receptive field features of different scales using the proposed multi-scale temporal block (MST-block) to improve the temporal modeling capability, and then further encoding the temporal features of different scales by the transformers module to obtain more accurate temporal features. Finally, the proposed multi-level Connectionist Temporal Classification (CTC) loss part is used for training to obtain recognition results. The multi-level CTC loss enables better learning and updating of the shallow network parameters in CNN, and the method has no parameter increase and can be flexibly embedded in other models. Experimental results on two publicly available datasets demonstrate that our method can effectively extract sign language features in an end-to-end manner without any prior knowledge, improving the accuracy of CSLR and reaching the state-of-the-art.
翻訳日:2022-04-11 13:10:38 公開日:2022-04-08
# 映像表現学習における選択周波数の時空間拡大

Spatiotemporal Augmentation on Selective Frequencies for Video Representation Learning ( http://arxiv.org/abs/2204.03865v1 )

ライセンス: Link先を確認
Jinhyung Kim, Taeoh Kim, Minho Shim, Dongyoon Han, Dongyoon Wee and Junmo Kim(参考訳) 近年の自己監督型ビデオ表現学習法は,複数の拡張ビュー間の類似度を最大化することに集中しており,生成ビューの品質に大きく依存している。 本稿では、ビデオ表現学習のための周波数領域における時空間データ拡張手法である周波数拡張(FreqAug)を提案する。 freqaugは、特定の周波数成分をフィルタリングすることで、ビデオから望ましくない情報を確率的に削除し、学習された表現は、さまざまな下流タスクでビデオの本質的な特徴をキャプチャする。 特にfreqaugは、空間的または時間的低周波成分を落とすことによって、動画の静的機能よりも動的機能に重点を置くようにモデルを押している。 言い換えれば、残周波成分間の不変性の学習は、静的バイアスの少ない高周波拡張表現をもたらす。 提案手法の汎用性を検証するため,FreqAugを複数の自己教師型学習フレームワーク上で実験し,標準拡張を行った。 改善された表現を5つのビデオアクション認識と2つの時間的アクションローカライゼーションに転送すると、ベースラインよりも一貫した改善が示される。

Recent self-supervised video representation learning methods focus on maximizing the similarity between multiple augmented views from the same video and largely rely on the quality of generated views. In this paper, we propose frequency augmentation (FreqAug), a spatio-temporal data augmentation method in the frequency domain for video representation learning. FreqAug stochastically removes undesirable information from the video by filtering out specific frequency components so that learned representation captures essential features of the video for various downstream tasks. Specifically, FreqAug pushes the model to focus more on dynamic features rather than static features in the video via dropping spatial or temporal low-frequency components. In other words, learning invariance between remaining frequency components results in high-frequency enhanced representation with less static bias. To verify the generality of the proposed method, we experiment with FreqAug on multiple self-supervised learning frameworks along with standard augmentations. Transferring the improved representation to five video action recognition and two temporal action localization downstream tasks shows consistent improvements over baselines.
翻訳日:2022-04-11 13:10:11 公開日:2022-04-08
# 骨格に基づく歩行認識における空間変換器ネットワーク

Spatial Transformer Network on Skeleton-based Gait Recognition ( http://arxiv.org/abs/2204.03873v1 )

ライセンス: Link先を確認
Cun Zhang, Xing-Peng Chen, Guo-Qiang Han, Xiang-Jie Liu(参考訳) スケルトンベースの歩行認識モデルは通常ロバスト性の問題に苦しむが、rank-1の精度は通常の歩行症例で90\%からコートケースで歩く場合で70\%に変化する。 本研究では,空間トランスフォーマフレームワークと時間畳み込みネットワークを組み合わせた,最先端の頑健な骨格型歩行認識モデルGait-TRを提案する。 歩行-TRは、よく知られた歩行データセットCASIA-Bの精度と堅牢性を向上し、他の骨格ベースの歩行モデルよりも大幅に改善されている。 特にコートを用いた歩行では、Gait-TRは90%のランク-1歩行認識精度が得られ、これはシルエットベースの歩行認識モデルよりも高い精度でシルエットベースの歩行認識モデルよりも高い結果である。 さらに,casia-bを用いた実験では,広く用いられているグラフ畳み込みネットワークよりも,人間の骨格から歩行の特徴を抽出できることを示した。

Skeleton-based gait recognition models usually suffer from the robustness problem, as the Rank-1 accuracy varies from 90\% in normal walking cases to 70\% in walking with coats cases. In this work, we propose a state-of-the-art robust skeleton-based gait recognition model called Gait-TR, which is based on the combination of spatial transformer frameworks and temporal convolutional networks. Gait-TR achieves substantial improvements over other skeleton-based gait models with higher accuracy and better robustness on the well-known gait dataset CASIA-B. Particularly in walking with coats cases, Gait-TR get a 90\% Rank-1 gait recognition accuracy rate, which is higher than the best result of silhouette-based models, which usually have higher accuracy than the silhouette-based gait recognition models. Moreover, our experiment on CASIA-B shows that the spatial transformer can extract gait features from the human skeleton better than the widely used graph convolutional network.
翻訳日:2022-04-11 13:09:53 公開日:2022-04-08
# シングルイメージデハージングのための視覚変換器

Vision Transformers for Single Image Dehazing ( http://arxiv.org/abs/2204.03883v1 )

ライセンス: Link先を確認
Yuda Song, Zhuqing He, Hui Qian, Xin Du(参考訳) 画像デハジングは、ヘイズ画像から潜伏したヘイズフリー画像を推定する、代表的な低レベル視覚タスクである。 近年、畳み込みニューラルネットワークに基づく手法が画像デハジングを支配している。 しかし、最近ハイレベルな視覚タスクを突破したビジョントランスフォーマーは、画像のデハージングに新しい次元をもたらすことはなかった。 人気の高いswin transformerから始めて、その重要な設計のいくつかが、画像のデハザーズに適さないことを見出します。 そこで本研究では,修正正規化層,活性化関数,空間情報集約スキームといった様々な改良を施したdehazeformerを提案する。 さまざまなデータセット上で,DehazeFormerの複数の変種をトレーニングして,その有効性を示す。 具体的には、最も頻繁に使用されるSOTS屋内セットにおいて、私たちの小さなモデルは、25%の#Paramと5%の計算コストでFFA-Netより優れています。 我々の知る限り、我々の大きなモデルはSOTS屋内セットのPSNRが40dBを超える最初の手法であり、従来の最先端手法よりも劇的に優れている。 また,高度に非均質なヘイズを除去する方法の能力を評価するために,大規模リモートセンシングデヘイジングデータセットを収集した。

Image dehazing is a representative low-level vision task that estimates latent haze-free images from hazy images. In recent years, convolutional neural network-based methods have dominated image dehazing. However, vision Transformers, which has recently made a breakthrough in high-level vision tasks, has not brought new dimensions to image dehazing. We start with the popular Swin Transformer and find that several of its key designs are unsuitable for image dehazing. To this end, we propose DehazeFormer, which consists of various improvements, such as the modified normalization layer, activation function, and spatial information aggregation scheme. We train multiple variants of DehazeFormer on various datasets to demonstrate its effectiveness. Specifically, on the most frequently used SOTS indoor set, our small model outperforms FFA-Net with only 25% #Param and 5% computational cost. To the best of our knowledge, our large model is the first method with the PSNR over 40 dB on the SOTS indoor set, dramatically outperforming the previous state-of-the-art methods. We also collect a large-scale realistic remote sensing dehazing dataset for evaluating the method's capability to remove highly non-homogeneous haze.
翻訳日:2022-04-11 13:09:35 公開日:2022-04-08
# ハンドジオメトリとニューラルネット分類器による生体認証

Biometric identification by means of hand geometry and a neural net classifier ( http://arxiv.org/abs/2204.03925v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Guillermo Mar Navarro M\'erida(参考訳) 本論文は手形生体認証システムについて述べる。 従来の文書スキャナを用いて22人のデータベースを取得した。 実験セクションは、異なる特徴の識別能力と、ニューラルネットワークに基づく異なる分類器を用いた識別率についての研究から成っている。

This Paper describes a hand geometry biometric identification system. We have acquired a database of 22 people using a conventional document scanner. The experimental section consists of a study about the discrimination capability of different extracted features, and the identification rate using different classifiers based on neural networks.
翻訳日:2022-04-11 13:09:15 公開日:2022-04-08
# 単色ドット投影を用いた深部視線深度再構成

Deep Hyperspectral-Depth Reconstruction Using Single Color-Dot Projection ( http://arxiv.org/abs/2204.03929v1 )

ライセンス: Link先を確認
Chunyu Li, Yusuke Monno, Masatoshi Okutomi(参考訳) 深度再構成と高スペクトル反射率再構成はコンピュータビジョンと画像処理における2つの研究課題である。 従来,これら2つの話題は独立した撮像装置を用いて別々に研究されてきたが,特別なハードウェアを使わずに1ショットで深度とスペクトルの反射率を同時に取得できる手法は存在しない。 本稿では,市販のRGBカメラとプロジェクタを用いた単発ハイパースペクトル深度再構成手法を提案する。 提案手法は,高スペクトル反射率再構成のための奥行き再構成と空間的に異なるカラー照明のための構造光として同時に機能する単一ドット投影法に基づく。 単一色ドット画像から深度と高スペクトル反射率を協調的に再構成するために,幾何的な色ドットパターン損失と光度ハイパースペクトル反射率損失を効果的に組み込んだエンドツーエンドネットワークアーキテクチャを提案する。 実験により,提案手法は既存の単一ショット高反射率再構成法と深度再構成法を併用した場合よりも優れることを示した。

Depth reconstruction and hyperspectral reflectance reconstruction are two active research topics in computer vision and image processing. Conventionally, these two topics have been studied separately using independent imaging setups and there is no existing method which can acquire depth and spectral reflectance simultaneously in one shot without using special hardware. In this paper, we propose a novel single-shot hyperspectral-depth reconstruction method using an off-the-shelf RGB camera and projector. Our method is based on a single color-dot projection, which simultaneously acts as structured light for depth reconstruction and spatially-varying color illuminations for hyperspectral reflectance reconstruction. To jointly reconstruct the depth and the hyperspectral reflectance from a single color-dot image, we propose a novel end-to-end network architecture that effectively incorporates a geometric color-dot pattern loss and a photometric hyperspectral reflectance loss. Through the experiments, we demonstrate that our hyperspectral-depth reconstruction method outperforms the combination of an existing state-of-the-art single-shot hyperspectral reflectance reconstruction method and depth reconstruction method.
翻訳日:2022-04-11 13:09:11 公開日:2022-04-08
# ビデオコントラスト学習のための確率的表現

Probabilistic Representations for Video Contrastive Learning ( http://arxiv.org/abs/2204.03946v1 )

ライセンス: Link先を確認
Jungin Park, Jiyoung Lee, Ig-Jae Kim, Kwanghoon Sohn(参考訳) 本稿では,コントラスト学習と確率的表現を橋渡しする自己教師あり表現学習手法であるprobabilistic video contrastive learningを提案する。 ビデオを構成するクリップは、短い期間で異なる分布を持つが、共通の埋め込み空間で組み合わせることで、複雑で洗練された映像分布を表現できると仮定する。 そこで,提案手法では,ビデオクリップを正規分布として表現し,ガウス分布を混合して映像分布全体をモデル化する。 ビデオ配信全体から埋め込みをサンプリングすることにより、注意深いサンプリング戦略や変換を回避してクリップの強化ビューを生成することができる。 さらに,適切な映像分布を学習し,生映像の性質から固有の不確実性を扱う確率的コントラスト損失を提案する。 実験結果から,UCF101やHMDB51など,最もポピュラーなベンチマークにおいて,動作認識と映像検索のための最先端のビデオ表現学習として,我々の確率的埋め込みが有効であることが確認された。

This paper presents Probabilistic Video Contrastive Learning, a self-supervised representation learning method that bridges contrastive learning with probabilistic representation. We hypothesize that the clips composing the video have different distributions in short-term duration, but can represent the complicated and sophisticated video distribution through combination in a common embedding space. Thus, the proposed method represents video clips as normal distributions and combines them into a Mixture of Gaussians to model the whole video distribution. By sampling embeddings from the whole video distribution, we can circumvent the careful sampling strategy or transformations to generate augmented views of the clips, unlike previous deterministic methods that have mainly focused on such sample generation strategies for contrastive learning. We further propose a stochastic contrastive loss to learn proper video distributions and handle the inherent uncertainty from the nature of the raw video. Experimental results verify that our probabilistic embedding stands as a state-of-the-art video representation learning for action recognition and video retrieval on the most popular benchmarks, including UCF101 and HMDB51.
翻訳日:2022-04-11 13:08:52 公開日:2022-04-08
# points to patch: 3次元形状認識におけるセルフアテンションの利用

Points to Patches: Enabling the Use of Self-Attention for 3D Shape Recognition ( http://arxiv.org/abs/2204.03957v1 )

ライセンス: Link先を確認
Axel Berg, Magnus Oskarsson, Mark O'Connor(参考訳) 機械学習の分野ではトランスフォーマーアーキテクチャが普及しているが、3d形状認識への適応は自明ではない。 二次計算の複雑さのため、自己注意演算子は入力点の集合が大きくなるとすぐに非効率になる。 さらに,注意機構は,グローバルスケールで個々の点間の有用な接続を見出すのに苦労していることがわかった。 これらの問題を緩和するために,局所的およびグローバルな注意機構を組み合わせた2段階のPoint Transformer-in-Trans former(Point-TnT)アプローチを提案する。 形状分類の実験は、このような手法がベースライントランスフォーマーよりも下流タスクに有用な機能を提供する一方で、計算効率も良いことを示している。 また,シーン再構築のための特徴マッチングにも拡張し,既存のシーン再構築パイプラインと組み合わせて使用できることを示す。

While the Transformer architecture has become ubiquitous in the machine learning field, its adaptation to 3D shape recognition is non-trivial. Due to its quadratic computational complexity, the self-attention operator quickly becomes inefficient as the set of input points grows larger. Furthermore, we find that the attention mechanism struggles to find useful connections between individual points on a global scale. In order to alleviate these problems, we propose a two-stage Point Transformer-in-Trans former (Point-TnT) approach which combines local and global attention mechanisms, enabling both individual points and patches of points to attend to each other effectively. Experiments on shape classification show that such an approach provides more useful features for downstream tasks than the baseline Transformer, while also being more computationally efficient. In addition, we also extend our method to feature matching for scene reconstruction, showing that it can be used in conjunction with existing scene reconstruction pipelines.
翻訳日:2022-04-11 13:08:35 公開日:2022-04-08
# ゲーム固有のアノテーションの少ないチームスポーツ選手の効率的な追跡

Efficient tracking of team sport players with few game-specific annotations ( http://arxiv.org/abs/2204.04049v1 )

ライセンス: Link先を確認
Adrien Maglo, Astrid Orcesi, Quoc-Cuong Pham(参考訳) チームスポーツ分析の要件の1つは、選手を追跡し認識することである。 多くの追跡・再同定手法がビデオ監視の文脈で提案されている。 MOTチャレンジのような公開データセットでテストすると、非常に説得力のある結果が得られる。 しかし,これらの手法の性能はプレイヤー追跡に適用しても不十分である。 実際、非常に速く、しばしば無視されるのに加えて、プレイヤーは同じジャージを着ており、再識別の作業は非常に複雑である。 最近の追跡手法はチームスポーツの文脈に特化して開発されている。 公開データがないため、これらのメソッドはプライベートデータセットを使用し、それと比較することは不可能である。 本稿では,半対話型システムを用いて収集した人間アノテーションを用いて,全試合中のチームスポーツ選手を追跡する新しい汎用的手法を提案する。 非曖昧なトラックレットとその外観特徴は、両方の公開データセットで事前訓練された検出と再識別ネットワークによって自動的に生成される。 次に、インクリメンタル学習機構がトランスフォーマーを訓練して、ゲーム固有の人間のアノテーションをほとんど使わずにアイデンティティを分類する。 最後に、トラックレットはアソシエーションアルゴリズムによってリンクされる。 我々は,ラグビーセブンズデータセットに対するアプローチの有効性を実証する。 パブリックスポーツ追跡データセットの欠如を克服するため、このデータセットをhttps://kalisteo.cea .fr/index.php/free-r esources/で公開しています。 また,本手法は,選手1人あたり6秒間の長さのトラックレットをアノテーションとして,最小限の解像度で観測可能であれば,全試合中にラグビーセブンス選手を追跡することができることを示す。

One of the requirements for team sports analysis is to track and recognize players. Many tracking and reidentification methods have been proposed in the context of video surveillance. They show very convincing results when tested on public datasets such as the MOT challenge. However, the performance of these methods are not as satisfactory when applied to player tracking. Indeed, in addition to moving very quickly and often being occluded, the players wear the same jersey, which makes the task of reidentification very complex. Some recent tracking methods have been developed more specifically for the team sport context. Due to the lack of public data, these methods use private datasets that make impossible a comparison with them. In this paper, we propose a new generic method to track team sport players during a full game thanks to few human annotations collected via a semi-interactive system. Non-ambiguous tracklets and their appearance features are automatically generated with a detection and a reidentification network both pre-trained on public datasets. Then an incremental learning mechanism trains a Transformer to classify identities using few game-specific human annotations. Finally, tracklets are linked by an association algorithm. We demonstrate the efficiency of our approach on a challenging rugby sevens dataset. To overcome the lack of public sports tracking dataset, we publicly release this dataset at https://kalisteo.cea .fr/index.php/free-r esources/. We also show that our method is able to track rugby sevens players during a full match, if they are observable at a minimal resolution, with the annotation of only 6 few seconds length tracklets per player.
翻訳日:2022-04-11 13:08:19 公開日:2022-04-08
# 意味マッチングによるあいまいな類似性条件の同定

Identifying Ambiguous Similarity Conditions via Semantic Matching ( http://arxiv.org/abs/2204.04053v1 )

ライセンス: Link先を確認
Han-Jia Ye, Yi Shi, De-Chuan Zhan(参考訳) 画像内のリッチセマンティクスは、他のものと曖昧な関係を生じさせる。つまり、2つのイメージは、ある条件では似ているが、別の条件では似ていない可能性がある。 航空機」のような三重項は「列車」よりも「鳥」に似ているが、弱い教師付き条件付き類似性学習(ws-csl)は「飛べる」などの明示的な条件ラベルなしで意味的条件にマッチする複数の組込みを学習する。 しかし、三重項における類似性関係は条件を与える以外は不確実である。 例えば、条件ラベルが"is vehicle"に変更されると、以前の比較は無効になる。 そこで本研究では,WS-CSLが教師付きモデルとして潜在意味論をどの程度カバーできるかを測定するため,学習した埋め込みを最適条件に割り当てた後,比較の正しさを予測し,新しい評価基準を導入する。 さらに, インスタンスインスタンスと三重項条件の関係を「分解・融合」的に特徴付ける, 距離誘起セマンティック・コンディション検証ネットワーク (DiscoverNet) を提案する。 学習された埋め込みがすべてのセマンティクスをカバーするようにするために、discoverynetは三重項と条件の対応の上にセットモジュールまたは追加の正規化子を利用する。 DiscoverNetはUT-Zappos-50kやCeleb-A w.r.t.といったベンチマークで最先端のパフォーマンスを実現している。

Rich semantics inside an image result in its ambiguous relationship with others, i.e., two images could be similar in one condition but dissimilar in another. Given triplets like "aircraft" is similar to "bird" than "train", Weakly Supervised Conditional Similarity Learning (WS-CSL) learns multiple embeddings to match semantic conditions without explicit condition labels such as "can fly". However, similarity relationships in a triplet are uncertain except providing a condition. For example, the previous comparison becomes invalid once the conditional label changes to "is vehicle". To this end, we introduce a novel evaluation criterion by predicting the comparison's correctness after assigning the learned embeddings to their optimal conditions, which measures how much WS-CSL could cover latent semantics as the supervised model. Furthermore, we propose the Distance Induced Semantic COndition VERification Network (DiscoverNet), which characterizes the instance-instance and triplets-condition relations in a "decompose-and-fuse&q uot; manner. To make the learned embeddings cover all semantics, DiscoverNet utilizes a set module or an additional regularizer over the correspondence between a triplet and a condition. DiscoverNet achieves state-of-the-art performance on benchmarks like UT-Zappos-50k and Celeb-A w.r.t. different criteria.
翻訳日:2022-04-11 13:07:57 公開日:2022-04-08
# 固有反射率最適化のための不変ディスクリプタ

Invariant Descriptors for Intrinsic Reflectance Optimization ( http://arxiv.org/abs/2204.04076v1 )

ライセンス: Link先を確認
Anil S. Baslamisli, Theo Gevers(参考訳) 内在的な画像分解は、画像をアルベド(反射)とシェーディング(照明)サブコンポーネントに分解することを目的としている。 不適切で訓練が不足しているため、非常に難しいコンピュータビジョンの問題である。 同じ入力を再構築できる反射率と陰影画像の無限対が存在する。 この問題に対処するため、WildのIntrinsic Imagesは、長距離物質関係を考慮した密度条件付きランダムフィールド(CRF)の定式化に基づく最適化フレームワークを提供する。 照明不変画像記述子:色比を導入することにより,そのモデルを改善する。 色比と反射固有性はどちらも照明に不変であり、高い相関関係にある。 詳細な実験を通して、高密度CRF最適化に色比を注入する方法を提供する。 我々のアプローチは物理ベース、学習フリーであり、より正確で堅牢な反射率分解をもたらす。

Intrinsic image decomposition aims to factorize an image into albedo (reflectance) and shading (illumination) sub-components. Being ill-posed and under-constrained, it is a very challenging computer vision problem. There are infinite pairs of reflectance and shading images that can reconstruct the same input. To address the problem, Intrinsic Images in the Wild provides an optimization framework based on a dense conditional random field (CRF) formulation that considers long-range material relations. We improve upon their model by introducing illumination invariant image descriptors: color ratios. The color ratios and the reflectance intrinsic are both invariant to illumination and thus are highly correlated. Through detailed experiments, we provide ways to inject the color ratios into the dense CRF optimization. Our approach is physics-based, learning-free and leads to more accurate and robust reflectance decompositions.
翻訳日:2022-04-11 13:07:32 公開日:2022-04-08
# ドメイン対応カテゴリー表現を用いた一般インクリメンタルラーニング

General Incremental Learning with Domain-aware Categorical Representations ( http://arxiv.org/abs/2204.04078v1 )

ライセンス: Link先を確認
Jiangwei Xie, Shipeng Yan, Xuming He(参考訳) エージェントは、ストリーミングデータ/タスクに対する知識を継続的に蓄積する必要があるため、現実世界のアプリケーションにおいて人間レベルの知性を達成する上で、継続的な学習は重要な問題である。 本研究では,クラス分布とクラス固有ドメイン分布の両方が時間とともに変化する,一般かつ未熟な漸進学習問題を考える。 クラスインクリメンタル学習の典型的な課題に加えて、この設定はクラス内安定性-可塑性ジレンマとクラス内ドメインの不均衡の問題にも直面している。 上記の課題に対処するため,EMフレームワークに基づくドメイン対応連続学習手法を開発した。 具体的には,von mises-fisher混合モデルに基づくフレキシブルなクラス表現を導入し,クラス内構造をキャプチャし,クラス複雑性に応じてコンポーネント数を動的に増加させる拡張・還元戦略を提案する。 さらに, クラス内およびクラス間のデータ不均衡に対処するバイレベルバランスメモリを設計し, 蒸留損失と組み合わせることで, クラス間およびクラス内安定性・塑性トレードオフを改善する。 iDigits、iDomainNet、iCIFAR-20の3つのベンチマークで徹底的な実験を行った。 その結果,提案手法は従来手法よりも有意な差を示し,その優位性を示した。

Continual learning is an important problem for achieving human-level intelligence in real-world applications as an agent must continuously accumulate knowledge in response to streaming data/tasks. In this work, we consider a general and yet under-explored incremental learning problem in which both the class distribution and class-specific domain distribution change over time. In addition to the typical challenges in class incremental learning, this setting also faces the intra-class stability-plasticity dilemma and intra-class domain imbalance problems. To address above issues, we develop a novel domain-aware continual learning method based on the EM framework. Specifically, we introduce a flexible class representation based on the von Mises-Fisher mixture model to capture the intra-class structure, using an expansion-and-reduct ion strategy to dynamically increase the number of components according to the class complexity. Moreover, we design a bi-level balanced memory to cope with data imbalances within and across classes, which combines with a distillation loss to achieve better inter- and intra-class stability-plasticity trade-off. We conduct exhaustive experiments on three benchmarks: iDigits, iDomainNet and iCIFAR-20. The results show that our approach consistently outperforms previous methods by a significant margin, demonstrating its superiority.
翻訳日:2022-04-11 13:07:17 公開日:2022-04-08
# Visible-Thermal UAV Tracking:大規模ベンチマークと新しいベースライン

Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline ( http://arxiv.org/abs/2204.04120v1 )

ライセンス: Link先を確認
Pengyu Zhang, Jie Zhao, Dong Wang, Huchuan Lu, Xiang Ruan(参考訳) マルチモーダルセンサの普及に伴い、可視熱量(RGB-T)オブジェクトトラッキングは、オブジェクトの温度情報のガイダンスを用いて、堅牢なパフォーマンスとより広いアプリケーションシナリオを実現する。 しかし、ペアのトレーニングサンプルがないことが、RGB-Tトラッキングのパワーをアンロックする主なボトルネックとなっている。 高品質なRGB-Tシーケンスの収集には熱心であるため、最近のベンチマークはテストシーケンスのみを提供する。 本稿では,高解像度(1920$\times$1080 pixels)のフレーム対を持つ500のシーケンスを含む可視熱UAV追跡(VTUAV)の多様性の高い大規模ベンチマークを構築した。 さらに,多種多様なカテゴリやシーンを含む包括的アプリケーション(短期追跡,長期追跡,セグメンテーションマスク予測)を網羅的に評価する。 さらに,難解なトラッカーの可能性を活かすために,フレームレベルの属性を提供する粗い属性アノテーションを提供する。 さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。 いくつかのデータセットに対する多数の実験を行い、HMFTの有効性と異なる融合型の相補性を明らかにする。 このプロジェクトはここで入手できる。

With the popularity of multi-modal sensors, visible-thermal (RGB-T) object tracking is to achieve robust performance and wider application scenarios with the guidance of objects' temperature information. However, the lack of paired training samples is the main bottleneck for unlocking the power of RGB-T tracking. Since it is laborious to collect high-quality RGB-T sequences, recent benchmarks only provide test sequences. In this paper, we construct a large-scale benchmark with high diversity for visible-thermal UAV tracking (VTUAV), including 500 sequences with 1.7 million high-resolution (1920 $\times$ 1080 pixels) frame pairs. In addition, comprehensive applications (short-term tracking, long-term tracking and segmentation mask prediction) with diverse categories and scenes are considered for exhaustive evaluation. Moreover, we provide a coarse-to-fine attribute annotation, where frame-level attributes are provided to exploit the potential of challenge-specific trackers. In addition, we design a new RGB-T baseline, named Hierarchical Multi-modal Fusion Tracker (HMFT), which fuses RGB-T data in various levels. Numerous experiments on several datasets are conducted to reveal the effectiveness of HMFT and the complement of different fusion types. The project is available at here.
翻訳日:2022-04-11 13:06:57 公開日:2022-04-08
# Sat2lod2:衛星写真とデジタル表面モデルによるLod-2自動モデリングソフトウェア

Sat2lod2: A Software For Automated Lod-2 Modeling From Satellite-Derived Orthophoto And Digital Surface Model ( http://arxiv.org/abs/2204.04139v1 )

ライセンス: Link先を確認
Shengxi Gui, Rongjun Qin, Yang Tang(参考訳) 衛星画像から再構成された正光およびデジタル表面モデル(DSM)からLoD2モデルを抽出することは難しい課題である。 既存のソリューションは主に、ヒューリスティックな幾何学的操作だけでなく、機械学習ベースのセマンティックセグメンテーションやビルディング検出といった高度なステップを含む複雑なステップワイズプロセスを必要とするシステムアプローチである。 本稿では, SAT2LOD2というオープンソースツールについて述べる。 sat2lod2は、完全にオープンソースでgui(graphics user interface)ベースのソフトウェアで、pythonでコーディングされ、オルソ写真とdsmを入力として個々のビルモデルを出力する。 我々はその方法の堅牢性をさらに向上する。 1) HRNetV2に基づく建物セグメンテーションのソフトウェアへの中間化 2)複雑な建物を識別し,システムの観点から誤ったlod2再構成を避けるためにメッシュを直接生成する決定戦略を実施している。 このソフトウェアは、CUDAをサポートするグラフィックカードを備えたPCを用いて、適度なレベルのデータ(約5000*5000の正写真とDSM)を処理できる。 さらに、GUIは自己完結型であり、研究者が容易に学習し、必要に応じて中間ファイルを再利用できるように中間処理結果を格納する。 更新されたコードとソフトウェアは、GitHubのこのページで入手できる。

Deriving LoD2 models from orthophoto and digital surface models (DSM) reconstructed from satellite images is a challenging task. Existing solutions are mostly system approaches that require complicated step-wise processes, including not only heuristic geometric operations, but also high-level steps such as machine learning-based semantic segmentation and building detection. Here in this paper, we describe an open-source tool, called SAT2LOD2, built based on a minorly modified version of our recently published work. SAT2LoD2 is a fully open-source and GUI (Graphics User Interface) based software, coded in Python, which takes an orthophoto and DSM as inputs, and outputs individual building models, and it can additionally take road network shapefiles, and customized classification maps to further improve the reconstruction results. We further improve the robustness of the method by 1) intergrading building segmentation based on HRNetV2 into our software; and 2) having implemented a decision strategy to identify complex buildings and directly generate mesh to avoid erroneous LoD2 reconstruction from a system point of view. The software can process a moderate level of data (around 5000*5000 size of orthophoto and DSM) using a PC with a graphics card supporting CUDA. Furthermore, the GUI is self-contained and stores the intermediate processing results facilitating researchers to learn the process easily and reuse intermediate files as needed. The updated codes and software are available under this GitHub page: https://github.com/G DAOSU/LOD2BuildingMo del.
翻訳日:2022-04-11 13:06:35 公開日:2022-04-08
# 多視点ステレオ3次元再構成のための球面エピポラリゼーションの検討

Investigating Spherical Epipolar Rectification for Multi-View Stereo 3D Reconstruction ( http://arxiv.org/abs/2204.04141v1 )

ライセンス: Link先を確認
Mostafa Elhashash, Rongjun Qin(参考訳) マルチビューステレオ(MVS)再構成は3次元モデル作成に不可欠である。 このアプローチでは、エピポーラ整流法を適用後、不一致推定のための密マッチングを行う。 しかし、既存のアプローチでは、主にオブジェクトスケールが大きく異なるため、異なる視点のイメージに密なマッチングを適用するという課題に直面している。 本稿では,主光の差による歪みを最小限に抑えるための球面補正モデルを提案する。 提案手法は,マルチカメラヘッドシステムからなる2つの空中ベースデータセットを用いて評価する。 提案手法は, 点雲の完全度を最大4.05%向上させ, 地上真実としてLiDARデータを用いて最大10.23%の精度向上を図ることにより, フレームベースのエピポーラ補正よりも優れた性能を示すことを示す。

Multi-view stereo (MVS) reconstruction is essential for creating 3D models. The approach involves applying epipolar rectification followed by dense matching for disparity estimation. However, existing approaches face challenges in applying dense matching for images with different viewpoints primarily due to large differences in object scale. In this paper, we propose a spherical model for epipolar rectification to minimize distortions caused by differences in principal rays. We evaluate the proposed approach using two aerial-based datasets consisting of multi-camera head systems. We show through qualitative and quantitative evaluation that the proposed approach performs better than frame-based epipolar correction by enhancing the completeness of point clouds by up to 4.05% while improving the accuracy by up to 10.23% using LiDAR data as ground truth.
翻訳日:2022-04-11 13:06:08 公開日:2022-04-08
# フォトグラメトリー処理における空中画像のアルベド回収のための新しい固有画像分解法

A Novel Intrinsic Image Decomposition Method to Recover Albedo for Aerial Images in Photogrammetry Processing ( http://arxiv.org/abs/2204.04142v1 )

ライセンス: Link先を確認
Shuang Song and Rongjun Qin(参考訳) リアルなレンダリングと合成環境のためのフォトグラム画像から表面アルベドを回収することで、VR/AR/MRおよびデジタルツインにおける下流の応用を大幅に促進することができる。 これらのテクスチャは、太陽の光、方向、表面の異なる外観を生じさせる方向など、空間的および時間的に変化する環境照明情報を内包し、合成照明下での3dレンダリングに使用する場合、そのようなモデルが現実的ではないため、これらの応用には最適である。 一方、アルベド画像は環境光による変化が少ないため、基本的なフォトグラム処理の恩恵を受けることができる。 本稿では,フォトグラメトリーにおける空中画像のアルベド回収の問題に挑戦し,高機能マッチングと高密度マッチングによるフォトグラメトリーデータ処理におけるアルベド回収の利点を実証する。 そこで我々は,自然照度条件下での屋外空間画像に対する画像形成モデルを提案し,その逆モデルを導出して,典型的なフォトグラム積を幾何学の初期近似として利用してアルベドを推定する。 推定アルベド画像は、本質的な画像分解、リライティング、特徴マッチング、密集したマッチング/ポイントクラウド生成結果において試験される。 合成実験と実世界の実験の両方で,本手法が既存の手法より優れ,光グラム処理を向上できることが実証されている。

Recovering surface albedos from photogrammetric images for realistic rendering and synthetic environments can greatly facilitate its downstream applications in VR/AR/MR and digital twins. The textured 3D models from standard photogrammetric pipelines are suboptimal to these applications because these textures are directly derived from images, which intrinsically embedded the spatially and temporally variant environmental lighting information, such as the sun illumination, direction, causing different looks of the surface, making such models less realistic when used in 3D rendering under synthetic lightings. On the other hand, since albedo images are less variable by environmental lighting, it can, in turn, benefit basic photogrammetric processing. In this paper, we attack the problem of albedo recovery for aerial images for the photogrammetric process and demonstrate the benefit of albedo recovery for photogrammetry data processing through enhanced feature matching and dense matching. To this end, we proposed an image formation model with respect to outdoor aerial imagery under natural illumination conditions; we then, derived the inverse model to estimate the albedo by utilizing the typical photogrammetric products as an initial approximation of the geometry. The estimated albedo images are tested in intrinsic image decomposition, relighting, feature matching, and dense matching/point cloud generation results. Both synthetic and real-world experiments have demonstrated that our method outperforms existing methods and can enhance photogrammetric processing.
翻訳日:2022-04-11 13:05:54 公開日:2022-04-08
# 非校正型マルチカメラシステムによる移動構造制約付きバンドル調整

Constrained Bundle Adjustment for Structure From Motion Using Uncalibrated Multi-Camera Systems ( http://arxiv.org/abs/2204.04145v1 )

ライセンス: Link先を確認
Debao Huang, Mostafa Elhashash, Rongjun Qin(参考訳) 非対応マルチカメラシステムによる動作からの構造構築は難しい課題である。 本稿では,これらのカメラが静的であることを示すベースライン制約を実装したバンドル調整ソリューションを提案する。 これらのカメラはモバイルプラットフォームに搭載され、非対応で、粗く同期していると仮定します。 そこで本研究では,カメラのビューが重なり合うシナリオを定式化したベースライン制約を提案する。 制約は、異なるカメラの相対運動を静的に保つために、バンドル調整ソリューションに組み込まれる。 システムキャリブレーションのない車両に搭載された2台のgoproカメラのビデオフレームを用いて実験を行った。 この2台のカメラは重なり合う内容を捉えた。 提案する制約を用いてバンドル調整を行い,3次元高密度点雲を作成した。 これらの高密度点雲とLiDAR参照データを比較して評価を行った。 従来のバンドル調整と比較して,提案手法は29.38%の改善を実現した。

Structure from motion using uncalibrated multi-camera systems is a challenging task. This paper proposes a bundle adjustment solution that implements a baseline constraint respecting that these cameras are static to each other. We assume these cameras are mounted on a mobile platform, uncalibrated, and coarsely synchronized. To this end, we propose the baseline constraint that is formulated for the scenario in which the cameras have overlapping views. The constraint is incorporated in the bundle adjustment solution to keep the relative motion of different cameras static. Experiments were conducted using video frames of two collocated GoPro cameras mounted on a vehicle with no system calibration. These two cameras were placed capturing overlapping contents. We performed our bundle adjustment using the proposed constraint and then produced 3D dense point clouds. Evaluations were performed by comparing these dense point clouds against LiDAR reference data. We showed that, as compared to traditional bundle adjustment, our proposed method achieved an improvement of 29.38%.
翻訳日:2022-04-11 13:05:26 公開日:2022-04-08
# 出現動作のセマンティック表現一貫性に基づくビデオ異常検出フレームワーク

A Video Anomaly Detection Framework based on Appearance-Motion Semantics Representation Consistency ( http://arxiv.org/abs/2204.04151v1 )

ライセンス: Link先を確認
Xiangyu Huang, Caidan Zhao, Yilin Wang, Zhiqiang Wu(参考訳) ビデオ異常検出(video anomaly detection)は、期待された行動から逸脱する事象の識別を指す。 トレーニングに異常なサンプルがないため、ビデオ異常検出は非常に難しい課題となる。 既存の方法は、再構成または将来のフレーム予測モードにほぼ従う。 しかし,これらの手法は,標本の出現と運動情報の一貫性を無視し,異常検出性能を制限している。 監視映像の移動フォアグラウンドでのみ異常が発生するため,背景情報のない映像フレームシーケンスと光フローで表現される意味論は,異常検出において高い一貫性と意義を持つべきである。 そこで本研究では,正規データの出現と動作意味表現の一貫性を用いて異常検出を行うフレームワークであるaspect-motion semantics representation consistency (amsrc)を提案する。 まず,通常サンプルの外観・動作情報表現を符号化する2ストリームエンコーダを設計し,正常サンプルの外観・動作情報間の特徴意味の一貫性をさらに高めることにより,異常サンプルの出現・動作特徴表現の特定を可能にする。 また,異常標本の出現・運動特性の一貫性を低下させることで,復元誤差が大きい予測フレームの生成が可能となり,異常検出が容易になる。 実験の結果,提案手法の有効性が示された。

Video anomaly detection refers to the identification of events that deviate from the expected behavior. Due to the lack of anomalous samples in training, video anomaly detection becomes a very challenging task. Existing methods almost follow a reconstruction or future frame prediction mode. However, these methods ignore the consistency between appearance and motion information of samples, which limits their anomaly detection performance. Anomalies only occur in the moving foreground of surveillance videos, so the semantics expressed by video frame sequences and optical flow without background information in anomaly detection should be highly consistent and significant for anomaly detection. Based on this idea, we propose Appearance-Motion Semantics Representation Consistency (AMSRC), a framework that uses normal data's appearance and motion semantic representation consistency to handle anomaly detection. Firstly, we design a two-stream encoder to encode the appearance and motion information representations of normal samples and introduce constraints to further enhance the consistency of the feature semantics between appearance and motion information of normal samples so that abnormal samples with low consistency appearance and motion feature representation can be identified. Moreover, the lower consistency of appearance and motion features of anomalous samples can be used to generate predicted frames with larger reconstruction error, which makes anomalies easier to spot. Experimental results demonstrate the effectiveness of the proposed method.
翻訳日:2022-04-11 13:05:15 公開日:2022-04-08
# 粒子ビデオ再考:点軌道を用いたオクルージョンの追跡

Particle Videos Revisited: Tracking Through Occlusions Using Point Trajectories ( http://arxiv.org/abs/2204.04153v1 )

ライセンス: Link先を確認
Adam W. Harley, Zhaoyuan Fang, Katerina Fragkiadaki(参考訳) ビデオ中のピクセルの追跡は、通常光学フロー推定問題として研究され、各ピクセルは次のフレームに位置決めする変位ベクトルで記述される。 より広い時間的文脈は自由に利用できるが、それを考慮する以前の取り組みは、2フレームメソッドよりもわずかに利益しか得られなかった。 本稿では,砂とテラーの「粒子ビデオ」アプローチを再検討し,各画素を複数のフレームに配置する軌道で記述する長距離運動推定問題として画素追跡について検討する。 私たちはこの古典的なアプローチを、高コストマップや反復最適化、外見の更新など、現在の最先端のフローとオブジェクト追跡を駆動するコンポーネントを使って再構築します。 従来のオプティカルフローデータセットから抽出した遠距離アモーダルポイントトラジェクタを用いて,オクルージョンにより合成的に拡張したモデルを構築する。 提案手法を軌道推定ベンチマークやキーポイントラベル伝搬タスクで検証し,現状の光学的流れや特徴追跡手法と比較した。

Tracking pixels in videos is typically studied as an optical flow estimation problem, where every pixel is described with a displacement vector that locates it in the next frame. Even though wider temporal context is freely available, prior efforts to take this into account have yielded only small gains over 2-frame methods. In this paper, we revisit Sand and Teller's "particle video" approach, and study pixel tracking as a long-range motion estimation problem, where every pixel is described with a trajectory that locates it in multiple future frames. We re-build this classic approach using components that drive the current state-of-the-art in flow and object tracking, such as dense cost maps, iterative optimization, and learned appearance updates. We train our models using long-range amodal point trajectories mined from existing optical flow datasets that we synthetically augment with occlusions. We test our approach in trajectory estimation benchmarks and in keypoint label propagation tasks, and compare favorably against state-of-the-art optical flow and feature tracking methods.
翻訳日:2022-04-11 13:04:53 公開日:2022-04-08
# 低音源多言語音声認識のための階層型ソフトマックス

Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition ( http://arxiv.org/abs/2204.03855v1 )

ライセンス: Link先を確認
Qianying Liu, Yuhang Yang, Zhuo Gong, Sheng Li, Chenchen Ding, Nobuaki Minematsu, Hao Huang, Fei Cheng, Sadao Kurohashi(参考訳) 低リソース音声認識は、不十分なトレーニングデータから長い間悩まされてきた。 近隣言語はしばしば補助訓練データとして使用されるが、モデルが類似した単位(文字、サブワードなど)を言語全体に誘導することは困難である。 本稿では、近隣言語における類似単位が類似項周波数を共有し、Huffman木を形成し、多言語階層型Softmax復号を行う。 復号化の間、階層構造は低リソース言語のトレーニングに役立つ。 実験の結果,本手法の有効性が示された。

Low resource speech recognition has been long-suffering from insufficient training data. While neighbour languages are often used as assistant training data, it would be difficult for the model to induct similar units (character, subword, etc.) across the languages. In this paper, we assume similar units in neighbour language share similar term frequency and form a Huffman tree to perform multi-lingual hierarchical Softmax decoding. During decoding, the hierarchical structure can benefit the training of low-resource languages. Experimental results show the effectiveness of our method.
翻訳日:2022-04-11 13:04:35 公開日:2022-04-08
# (参考訳) KCD:ニュースメディアにおける知識ウォークとテキストキューによる政治的視点の検出 [全文訳有]

KCD: Knowledge Walks and Textual Cues Enhanced Political Perspective Detection in News Media ( http://arxiv.org/abs/2204.04046v1 )

ライセンス: CC BY 4.0
Wenqian Zhang, Shangbin Feng, Zilong Chen, Zhenyu Lei, Jundong Li, Minnan Luo(参考訳) 政治的視点検出は、エコーチェンバーや政治的分極と戦うのに役立つ、ますます重要なタスクになっている。 従来のアプローチは一般的に、背景知識の推論や、ニュース記事のリッチなセマンティックなテキストラベルの活用に失敗しながら、スタンスを識別するためにテキストコンテンツを活用することに重点を置いていた。 これらの制約を考慮し,多目的知識推論を可能にする政治的視点検出手法であるKCDを提案し,段落レベルのラベルとしてテキストキューを組み込む。 具体的には,まず外部知識グラフ上でランダムなウォークを生成し,ニューステキスト表現を付与する。 そこで我々は,ニュースコンテンツとセマンティック,構文,実体的手がかりを協調的にモデル化する異種情報ネットワークを構築した。 最後に,グラフレベルの表現学習に関係グラフニューラルネットワークを適用し,政治的視点検出を行う。 大規模な実験により、我々の手法は2つのベンチマークデータセット上で最先端の手法より優れていることが示された。 さらに,知識ウォークとテキスト手がかりの効果と,その効果がデータ効率に与える影響について検討した。

Political perspective detection has become an increasingly important task that can help combat echo chambers and political polarization. Previous approaches generally focus on leveraging textual content to identify stances, while they fail to reason with background knowledge or leverage the rich semantic and syntactic textual labels in news articles. In light of these limitations, we propose KCD, a political perspective detection approach to enable multi-hop knowledge reasoning and incorporate textual cues as paragraph-level labels. Specifically, we firstly generate random walks on external knowledge graphs and infuse them with news text representations. We then construct a heterogeneous information network to jointly model news content as well as semantic, syntactic and entity cues in news articles. Finally, we adopt relational graph neural networks for graph-level representation learning and conduct political perspective detection. Extensive experiments demonstrate that our approach outperforms state-of-the-art methods on two benchmark datasets. We further examine the effect of knowledge walks and textual cues and how they contribute to our approach's data efficiency.
翻訳日:2022-04-11 13:03:57 公開日:2022-04-08
# サイテーション市場は再現可能な仕事を取り戻すか?

Does the Market of Citations Reward Reproducible Work? ( http://arxiv.org/abs/2204.03829v1 )

ライセンス: Link先を確認
Edward Raff(参考訳) 引用と行動を研究する書誌学の分野は再現性に関する議論に不可欠である。 サイテーションは学術研究の主要なインセンティブと報酬システムの一つであり、このインセンティブが再現可能な作業に報いるかどうかを知りたい。 しかし、私たちの知る限りでは、この組み合わせ空間を考察しようとする試みはたった1つで、再生不能な作業がより高く引用されていることを結論付けている。 この質問に答えることは、最初に提案されたよりも難しいことを示し、微妙な問題が堅牢な結論を阻害する可能性がある。 よりロバストな振る舞いを持つ推論を行うために,一定時間経過後の引用数ではなく,時間経過の引用率を組み込んだ階層ベイズモデルを提案する。 そのような中で、現在の証拠の下では、医学や機械学習(ML)のような特定の分野の研究が再現可能な作品とより多くの引用を関連付ける可能性が高いが、他の分野には関係がないと考えられる。 さらに,コードの公開と事前作業の徹底的な参照は,引用の増加と正の相関関係にあると考えられる。 私たちのコードとデータは https://github.com/E dwardRaff/Reproducib leCitations で確認できます。

The field of bibliometrics, studying citations and behavior, is critical to the discussion of reproducibility. Citations are one of the primary incentive and reward systems for academic work, and so we desire to know if this incentive rewards reproducible work. Yet to the best of our knowledge, only one work has attempted to look at this combined space, concluding that non-reproducible work is more highly cited. We show that answering this question is more challenging than first proposed, and subtle issues can inhibit a robust conclusion. To make inferences with more robust behavior, we propose a hierarchical Bayesian model that incorporates the citation rate over time, rather than the total number of citations after a fixed amount of time. In doing so we show that, under current evidence the answer is more likely that certain fields of study such as Medicine and Machine Learning (ML) do correlate reproducible works with more citations, but other fields appear to have no relationship. Further, we find that making code available and thoroughly referencing prior works appear to also positively correlate with increased citations. Our code and data can be found at https://github.com/E dwardRaff/Reproducib leCitations .
翻訳日:2022-04-11 12:47:41 公開日:2022-04-08
# タンカーターミナルの協調スケジューリングの最適化:知的空間時間データ駆動アプローチ -その1-

Optimizing Coordinative Schedules for Tanker Terminals: An Intelligent Large Spatial-Temporal Data-Driven Approach -- Part 1 ( http://arxiv.org/abs/2204.03899v1 )

ライセンス: Link先を確認
Deqing Zhai and Xiuju Fu and Xiao Feng Yin and Haiyan Xu and Wanbing Zhang and Ning Li(参考訳) 本研究では, 平均待ち時間とターンアラウンド時間を削減し, ポート効率を向上させるために, 新たなコーディネートスケジューリング最適化手法を提案する。 提案手法は,カーネルとしての強化粒子群最適化 (epso) とグローバル最適探索としての拡張fireflyアルゴリズム (afa) から構成される。 提案手法の2つのパラダイム法について検討し, バッチ法とローリングホライズン法について検討した。 実験の結果, 提案手法のパラダイム手法は, ポート効率を効果的に向上できることがわかった。 平均待ち時間は86.0%から95.5%に大幅に減少し、平均折り返し時間は最終的に過去のベンチマークから38.2%から42.4%節約できる。 さらに, 最大性能のバッチ法では4時間ではなく, 3ヶ月のデータセット上での走行時間を20分に短縮することができた。

In this study, a novel coordinative scheduling optimization approach is proposed to enhance port efficiency by reducing average wait time and turnaround time. The proposed approach consists of enhanced particle swarm optimization (ePSO) as kernel and augmented firefly algorithm (AFA) as global optimal search. Two paradigm methods of the proposed approach are investigated, which are batch method and rolling horizon method. The experimental results show that both paradigm methods of proposed approach can effectively enhance port efficiency. The average wait time could be significantly reduced by 86.0% - 95.5%, and the average turnaround time could eventually save 38.2% - 42.4% with respect to historical benchmarks. Moreover, the paradigm method of rolling horizon could reduce to 20 mins on running time over 3-month datasets, rather than 4 hrs on batch method at corresponding maximum performance.
翻訳日:2022-04-11 12:47:18 公開日:2022-04-08
# タンカーターミナルの協調スケジューリング最適化: インテリジェントな空間時間データ駆動アプローチ -その2-

Optimizing Coordinative Schedules for Tanker Terminals: An Intelligent Large Spatial-Temporal Data-Driven Approach -- Part 2 ( http://arxiv.org/abs/2204.03955v1 )

ライセンス: Link先を確認
Deqing Zhai and Xiuju Fu and Xiao Feng Yin and Haiyan Xu and Wanbing Zhang and Ning Li(参考訳) 本研究では,重み付き平均ターンアラウンド時間を短縮し,ポート効率を向上させるために,新たな座標最適化手法を提案する。 提案手法は, 週次圧延水平法を用いて異なる観測窓を用いて, ヒューリスティックなアルゴリズムを適用し, 検討した。 実験の結果,提案手法が有効であり,船舶の旋回時間を緩和できる可能性が示唆された。 その結果,1週間の観測基準では17時間(28%),2週間の観測基準では45時間(7%),3週間の観測基準では70時間(40%)の削減が得られた。 実験結果は過去のデータセットに基づいているが、リアルタイムアプリケーションが二次計算の複雑さの下で適用された場合、この結果は大きなメリットをもたらす可能性がある。

In this study, a novel coordinative scheduling optimization approach is proposed to enhance port efficiency by reducing weighted average turnaround time. The proposed approach is developed as a heuristic algorithm applied and investigated through different observation windows with weekly rolling horizon paradigm method. The experimental results show that the proposed approach is effective and promising on mitigating the turnaround time of vessels. The results demonstrate that largest potential savings of turnaround time (weighted average) are around 17 hours (28%) reduction on baseline of 1-week observation, 45 hours (37%) reduction on baseline of 2-week observation and 70 hours (40%) reduction on baseline of 3-week observation. Even though the experimental results are based on historical datasets, the results potentially present significant benefits if real-time applications were applied under a quadratic computational complexity.
翻訳日:2022-04-11 12:47:02 公開日:2022-04-08
# ディープラーニングモデルのラベルフリー比較試験

Labeling-Free Comparison Testing of Deep Learning Models ( http://arxiv.org/abs/2204.03994v1 )

ライセンス: Link先を確認
Yuejun Guo, Qiang Hu, Maxime Cordy, Xiaofei Xie, Mike Papadakis, Yves Le Traon(参考訳) 様々なディープニューラルネットワーク(DNN)が開発され、複数のドメインで大きな成功を収めたと報告されている。 特定のタスクが与えられたら、開発者はパブリックソースから大量のDNNを収集して効率的に再利用し、スクラッチから冗長な作業を避けることができる。 しかし、複数のDNNのパフォーマンス(例えば精度と堅牢性)をテストし、どのモデルを使うべきかを合理的に推奨することは、ラベル付きデータの不足とドメインの専門知識の要求に関して難しい。 既存のテストアプローチは主に、サンプリング後、DNNを識別するためにいくつかのテストデータがラベル付けされている。 したがって、サンプリングのランダム性のため、性能ランキングは決定論的ではない。 本稿では,ラベリングの限界を克服し,ランダム性をサンプリングするためのラベリングフリー比較試験手法を提案する。 主なアイデアは、予測されたラベルのみに基づいてモデルの専門性を推測するベイズモデルを学ぶことである。 提案手法の有効性を評価するため,画像,テキスト,ソースコードの領域にまたがる9つのベンチマークデータセットと165個のDNNの総合的な実験を行った。 精度に加えて、合成および自然分布シフトに対する堅牢性についても検討する。 実験の結果,既存手法の性能は分布シフトにより低下することが示された。 提案手法は,spiermanの相関値とkendallの$\tau$を,データセットと分布シフトによらず,0.74 と 0.53 のベースライン法を上回った。 さらに,モデル品質(正確性とロバスト性)と多様性(品質の標準偏差)がテスト有効性に与える影響を調査し,品質が50\%以上で多様性が18\%以上の場合,良好な結果が得られる確率が高いことを観察した。

Various deep neural networks (DNNs) are developed and reported for their tremendous success in multiple domains. Given a specific task, developers can collect massive DNNs from public sources for efficient reusing and avoid redundant work from scratch. However, testing the performance (e.g., accuracy and robustness) of multiple DNNs and giving a reasonable recommendation that which model should be used is challenging regarding the scarcity of labeled data and demand of domain expertise. Existing testing approaches are mainly selection-based where after sampling, a few of the test data are labeled to discriminate DNNs. Therefore, due to the randomness of sampling, the performance ranking is not deterministic. In this paper, we propose a labeling-free comparison testing approach to overcome the limitations of labeling effort and sampling randomness. The main idea is to learn a Bayesian model to infer the models' specialty only based on predicted labels. To evaluate the effectiveness of our approach, we undertook exhaustive experiments on 9 benchmark datasets spanning in the domains of image, text, and source code, and 165 DNNs. In addition to accuracy, we consider the robustness against synthetic and natural distribution shifts. The experimental results demonstrate that the performance of existing approaches degrades under distribution shifts. Our approach outperforms the baseline methods by up to 0.74 and 0.53 on Spearman's correlation and Kendall's $\tau$, respectively, regardless of the dataset and distribution shift. Additionally, we investigated the impact of model quality (accuracy and robustness) and diversity (standard deviation of the quality) on the testing effectiveness and observe that there is a higher chance of a good result when the quality is over 50\% and the diversity is larger than 18\%.
翻訳日:2022-04-11 12:46:46 公開日:2022-04-08
# タンカーターミナルのベルト定常予測:システム的および動的アプローチ

Predicting Berth Stay for Tanker Terminals: A Systematic and Dynamic Approach ( http://arxiv.org/abs/2204.04085v1 )

ライセンス: Link先を確認
Deqing Zhai and Xiuju Fu and Xiao Feng Yin and Haiyan Xu and Wanbing Zhang(参考訳) デジタル化の傾向と海上輸送の増加を踏まえ,海洋ビッグデータ時代における運用研究とスケジューリング最適化の要件を満たすため,船舶の停泊の予測が引き起こされ,港湾効率と海運物流の強化に大きく寄与した。 本研究は,タンカー端末のバース滞留を予測するための系統的および動的アプローチを提案する。 このアプローチには3つの革新的な側面がある。 1)タンカー端末からの貨物運行データ、自動識別システム(ais)からの時系列データなど、使用するデータソースは多面的である。 2)データ解析と情報抽出にしたがってberth stayのプロセスは複数のブロックに分解され、それに応じて実用的な運用シナリオも開発される。 3) 回帰と分解分布を含む2つの手法による事前データ解析と情報抽出に基づいて, berth stayの予測モデルを開発した。 モデルは2つの異なる端末間で指定された貨物を持つ4つの動的シナリオで評価される。 評価結果は,提案手法が過去の基準値から98.81%の精度でバース滞在を予測できることを示し,また,提案手法がシナリオ間のバース滞在を予測する動的能力を有することを示した。 このモデルは、短期的なパイロット予約や、ポートインテリジェンスとロジスティクス効率の向上のための適切な時間枠内でのスケジューリングに応用される可能性がある。

Given the trend of digitization and increasing number of maritime transport, prediction of vessel berth stay has been triggered for requirements of operation research and scheduling optimization problem in the era of maritime big data, which takes a significant part in port efficiency and maritime logistics enhancement. This study proposes a systematic and dynamic approach of predicting berth stay for tanker terminals. The approach covers three innovative aspects: 1) Data source employed is multi-faceted, including cargo operation data from tanker terminals, time-series data from automatic identification system (AIS), etc. 2) The process of berth stay is decomposed into multiple blocks according to data analysis and information extraction innovatively, and practical operation scenarios are also developed accordingly. 3) The predictive models of berth stay are developed on the basis of prior data analysis and information extraction under two methods, including regression and decomposed distribution. The models are evaluated under four dynamic scenarios with certain designated cargoes among two different terminals. The evaluation results show that the proposed approach can predict berth stay with the accuracy up to 98.81% validated by historical baselines, and also demonstrate the proposed approach has dynamic capability of predicting berth stay among the scenarios. The model may be potentially applied for short-term pilot-booking or scheduling optimizations within a reasonable time frame for advancement of port intelligence and logistics efficiency.
翻訳日:2022-04-11 12:46:16 公開日:2022-04-08
# 多項式変換の学習

Learning Polynomial Transformations ( http://arxiv.org/abs/2204.04209v1 )

ライセンス: Link先を確認
Sitan Chen, Jerry Li, Yuanzhi Li, Anru R. Zhang(参考訳) ガウスの高次元多項式変換を学習する問題を考察する。 x\sim N(0, \mathrm{Id}_r)$ は隠され、$p: \mathbb{R}^r \to \mathbb{R}^d$ は全ての出力座標が低次多項式である函数であり、その目標は$p(x)$ 上の分布を学ぶことである。 この問題はそれ自体は自然だが、多項式活性化を持つ2層ニューラルネットワークの下でガウスのプッシュフォワード(pushforwards of gaussian)と呼ばれる深層生成モデルを学ぶ重要な特別なケースでもある。 このような生成モデルの学習可能性を理解することは、なぜそれが実際にうまく機能するのかを理解するために重要である。 最初の主な結果は、ガウスの二次変換を滑らかな設定で学習するための多項式時間アルゴリズムである。 第2の主な結果は、関連するテンソルのランクが小さいとき、ガウスの定数多項式変換を滑らかな設定で学習するための多項式時間アルゴリズムである。 実際、我々の結果はガウス分布だけでなく回転不変な入力分布にまで拡張される。 これらは、複数の層を持つニューラルネットワークの下でプッシュフォワードを学ぶための最初のエンドツーエンド保証である。 その過程では、テンソル環分解の証明可能な保証を持つ最初の多項式時間アルゴリズムも与え、これはテンソル環分解の一般的な一般化であり、実際には大きなテンソルを暗黙的に保存するために使われる。

We consider the problem of learning high dimensional polynomial transformations of Gaussians. Given samples of the form $p(x)$, where $x\sim N(0, \mathrm{Id}_r)$ is hidden and $p: \mathbb{R}^r \to \mathbb{R}^d$ is a function where every output coordinate is a low-degree polynomial, the goal is to learn the distribution over $p(x)$. This problem is natural in its own right, but is also an important special case of learning deep generative models, namely pushforwards of Gaussians under two-layer neural networks with polynomial activations. Understanding the learnability of such generative models is crucial to understanding why they perform so well in practice. Our first main result is a polynomial-time algorithm for learning quadratic transformations of Gaussians in a smoothed setting. Our second main result is a polynomial-time algorithm for learning constant-degree polynomial transformations of Gaussian in a smoothed setting, when the rank of the associated tensors is small. In fact our results extend to any rotation-invariant input distribution, not just Gaussian. These are the first end-to-end guarantees for learning a pushforward under a neural network with more than one layer. Along the way, we also give the first polynomial-time algorithms with provable guarantees for tensor ring decomposition, a popular generalization of tensor decomposition that is used in practice to implicitly store large tensors.
翻訳日:2022-04-11 12:44:42 公開日:2022-04-08
# Marginalized Annealed Importance Smpling を用いた自由エネルギー評価

Free Energy Evaluation Using Marginalized Annealed Importance Sampling ( http://arxiv.org/abs/2204.03784v1 )

ライセンス: Link先を確認
Muneki Yasuda and Chako Takahashi(参考訳) 確率モデルの自由エネルギーの評価は、物理学や機械学習の様々な分野において重要な問題であると考えられている。 しかし、正確な自由エネルギー評価は、難解な分割関数を含むため、計算上不可能である。 annealed importance sampling (ais) は、マルコフ連鎖モンテカルロ法に基づく重要サンプリングの一種であり、シミュレーションアニーリングと類似しており、自由エネルギーを効果的に近似することができる。 本研究は,mAISと呼ばれる新たなAISベースのアプローチを提案する。 maisの統計効率は理論的および数値的な観点から詳細に研究されている。 調査の結果,mAISは特定の条件下でAISよりも有効であることが確認された。

The evaluation of the free energy of a stochastic model is considered to be a significant issue in various fields of physics and machine learning. However, the exact free energy evaluation is computationally infeasible because it includes an intractable partition function. Annealed importance sampling (AIS) is a type of importance sampling based on the Markov chain Monte Carlo method, which is similar to a simulated annealing, and can effectively approximate the free energy. This study proposes a new AIS-based approach, referred to as marginalized AIS (mAIS). The statistical efficiency of mAIS is investigated in detail based on a theoretical and numerical perspectives. Based on the investigation, it has been proved that mAIS is more effective than AIS under a certain condition.
翻訳日:2022-04-11 12:43:35 公開日:2022-04-08
# クロスリンガル・トランスファー学習におけるMarvelous Agglutinative Languageの効果

Marvelous Agglutinative Language Effect on Cross Lingual Transfer Learning ( http://arxiv.org/abs/2204.03831v1 )

ライセンス: Link先を確認
Wooyoung Kim, Chaerin Jo, Minjung Kim and Wooju Kim(参考訳) 多言語モデルについては、多言語性の呪いから訓練用言語を選択することが重要である。 (Conneau et al., 2020)。 類似言語構造を持つ言語を使用することは、言語間移動学習に有効であることが知られている(Pires et al., 2019)。 しかし,韓国語などの凝集言語の使用は,言語間移動学習においてより効果的であることを示す。 これは、言語間移行学習のトレーニング戦略を変える素晴らしい発見です。

As for multilingual language models, it is important to select languages for training because of the curse of multilinguality. (Conneau et al., 2020). It is known that using languages with similar language structures is effective for cross lingual transfer learning (Pires et al., 2019). However, we demonstrate that using agglutinative languages such as Korean is more effective in cross lingual transfer learning. This is a great discovery that will change the training strategy of cross lingual transfer learning.
翻訳日:2022-04-11 12:42:53 公開日:2022-04-08
# 自動後編集の半教師付き学習に向けて--誤字マスクによるデータ合成

Towards Semi-Supervised Learning of Automatic Post-Editing: Data-Synthesis by Infilling Mask with Erroneous Tokens ( http://arxiv.org/abs/2204.03896v1 )

ライセンス: Link先を確認
WonKee Lee, Seong-Hwan Heo, Baikjin Jung, Jong-Hyeok Lee(参考訳) 自動後編集(APE)の分野では,人工訓練データを活用した半教師あり学習が広く採用されている。 この文脈では、高品質な合成データを生成するデータ合成手法も注目されている。 APEは、翻訳誤りを含む機械翻訳出力を入力として取り込んでおり、マスク言語モデルを用いて、偽のトークンでマスクされたトークンを置換してノイズの多いテキストを生成するが、真のAPEデータに現れる誤り量統計に従う。 また,有利なサンプルのみを採取して2つの別個の合成データを統合するコーパスインターリーブを提案し,ノーミング法で作成した合成データの品質をさらに向上させる。 実験の結果,提案手法で作成した合成データを用いることで,既存のデータ合成法が異なる合成データを用いた場合,apの性能が大幅に向上することが判明した。

Semi-supervised learning that leverages synthetic training data has been widely adopted in the field of Automatic post-editing (APE) to overcome the lack of human-annotated training data. In that context, data-synthesis methods to create high-quality synthetic data have also received much attention. Considering that APE takes machine-translation outputs containing translation errors as input, we propose a noising-based data-synthesis method that uses a mask language model to create noisy texts through substituting masked tokens with erroneous tokens, yet following the error-quantity statistics appearing in genuine APE data. In addition, we propose corpus interleaving, which is to combine two separate synthetic data by taking only advantageous samples, to further enhance the quality of the synthetic data created with our noising method. Experimental results reveal that using the synthetic data created with our approach results in significant improvements in APE performance upon using other synthetic data created with different existing data-synthesis methods.
翻訳日:2022-04-11 12:41:33 公開日:2022-04-08
# biobart: 生物医学的生成言語モデルの事前学習と評価

BioBART: Pretraining and Evaluation of A Biomedical Generative Language Model ( http://arxiv.org/abs/2204.03905v1 )

ライセンス: Link先を確認
Hongyi Yuan, Zheng Yuan, Ruyi Gan, Jiaxing Zhang, Yutao Xie and Sheng Yu(参考訳) 事前訓練された言語モデルは、自然言語処理の重要なバックボーンとして機能している。 近年、ドメイン内プリトレーニングは様々なドメイン固有のダウンストリームタスクに役立つことが示されている。 バイオメディカル領域では、自然言語生成(NLG)タスクが重要であり、検討されている。 NLGとしての自然言語理解(NLU)タスクへのアプローチは、制約付き言語生成や言語プロンプトを通じて、一般的なドメインのパフォーマンスを満足させる。 我々は、生物医学領域におけるドメイン内生成言語モデルと非体系的生成下流ベンチマークの欠如を強調し、研究コミュニティの発展を妨げる。 本稿では,BARTを生物医学領域に適応させる生成言語モデルBioBARTを紹介する。 対話,要約,エンティティリンク,名前付きエンティティ認識など,様々な生物医学的言語生成タスクを協調させる。 PubMedの抽象化で事前訓練されたBioBARTは、BARTと比較してパフォーマンスを向上し、いくつかのタスクに強いベースラインを設定している。 さらに,BioBARTの事前学習タスクに関するアブレーション研究を行い,文置換が下流タスクに悪影響を及ぼすことを見出した。

Pretrained language models have served as important backbones for natural language processing. Recently, in-domain pretraining has been shown to benefit various domain-specific downstream tasks. In the biomedical domain, natural language generation (NLG) tasks are of critical importance, while understudied. Approaching natural language understanding (NLU) tasks as NLG achieves satisfying performance in the general domain through constrained language generation or language prompting. We emphasize the lack of in-domain generative language models and the unsystematic generative downstream benchmarks in the biomedical domain, hindering the development of the research community. In this work, we introduce the generative language model BioBART that adapts BART to the biomedical domain. We collate various biomedical language generation tasks including dialogue, summarization, entity linking, and named entity recognition. BioBART pretrained on PubMed abstracts has enhanced performance compared to BART and set strong baselines on several tasks. Furthermore, we conduct ablation studies on the pretraining tasks for BioBART and find that sentence permutation has negative effects on downstream tasks.
翻訳日:2022-04-11 12:41:17 公開日:2022-04-08
# 単一ラベルと複数ラベルテキストの分類におけるバガ-オブ-ワード対シーケンス対グラフ対階層

Bag-of-Words vs. Sequence vs. Graph vs. Hierarchy for Single- and Multi-Label Text Classification ( http://arxiv.org/abs/2204.03954v1 )

ライセンス: Link先を確認
Andor Diera, Bao Xin Lin, Bhakti Khera, Tim Meuser, Tushar Singhal, Lukas Galke, Ansgar Scherp(参考訳) グラフニューラルネットワークは、今日の最先端技術を定義するグラフベースのテキスト分類方法を復活させた。 本稿では,Bag of Words (BoW) を用いたシンプルな多層パーセプトロン (MLP) が,最近のグラフベースモデルである TextGCN と HeteGCN をインダクティブテキスト分類設定で上回り,シングルラベル分類では HyperGAT に匹敵する性能を示した。 また,マルチラベル分類の実験も行っており,単純なmlpは最近の逐次型gmlpおよびamlpモデルよりも優れている。 さらに、シーケンスベースのbertと軽量ディチルベルトモデルを微調整し、ほとんどのデータセットにおいて、シングルラベル設定とマルチラベル設定の両方で全てのモデルよりも優れています。 これらの結果は、現代テキスト分類器で使われる合成グラフの重要性に疑問を呈する。 パラメータの面では、 DistilBERT は BoW ベースのワイド MLP の2倍の大きさであり、TextGCN のようなグラフベースのモデルでは $\mathcal{O}(N^2)$ graph をセットアップする必要があります。

Graph neural networks have triggered a resurgence of graph-based text classification methods, defining today's state of the art. We show that a simple multi-layer perceptron (MLP) using a Bag of Words (BoW) outperforms the recent graph-based models TextGCN and HeteGCN in an inductive text classification setting and is comparable with HyperGAT in single-label classification. We also run our own experiments on multi-label classification, where the simple MLP outperforms the recent sequential-based gMLP and aMLP models. Moreover, we fine-tune a sequence-based BERT and a lightweight DistilBERT model, which both outperform all models on both single-label and multi-label settings in most datasets. These results question the importance of synthetic graphs used in modern text classifiers. In terms of parameters, DistilBERT is still twice as large as our BoW-based wide MLP, while graph-based models like TextGCN require setting up an $\mathcal{O}(N^2)$ graph, where $N$ is the vocabulary plus corpus size.
翻訳日:2022-04-11 12:41:02 公開日:2022-04-08
# マスク言語モデリングを超えた文脈表現学習

Contextual Representation Learning beyond Masked Language Modeling ( http://arxiv.org/abs/2204.04163v1 )

ライセンス: Link先を確認
Zhiyi Fu, Wangchunshu Zhou, Jingjing Xu, Hao Zhou, Lei Li(参考訳) BERTのようなマスキング言語モデル(MLM)はどのようにコンテキスト表現を学ぶのか? 本研究では,MLMの学習力学を解析する。 MLMの効率と有効性を制限するために, サンプル埋め込みをアンカーとして, 文脈意味論を表現に注入することを発見した。 これらの課題に対処するため,グローバルな意味論を直接モデル化するシンプルな表現学習手法であるTACOを提案する。 tacoはコンテキスト化された表現に隠されたコンテキストセマンティクスを抽出・調整し、モデルがコンテキスト化された表現を生成する際にグローバルセマンティクスに出席するよう促す。 GLUEベンチマークの実験では、TACOは既存のMLMよりも最大5倍のスピードアップと1.2ポイントの平均的な改善を実現している。 コードはhttps://github.com/F UZHIYI/TACO.comで公開されている。

How do masked language models (MLMs) such as BERT learn contextual representations? In this work, we analyze the learning dynamics of MLMs. We find that MLMs adopt sampled embeddings as anchors to estimate and inject contextual semantics to representations, which limits the efficiency and effectiveness of MLMs. To address these issues, we propose TACO, a simple yet effective representation learning approach to directly model global semantics. TACO extracts and aligns contextual semantics hidden in contextualized representations to encourage models to attend global semantics when generating contextualized representations. Experiments on the GLUE benchmark show that TACO achieves up to 5x speedup and up to 1.2 points average improvement over existing MLMs. The code is available at https://github.com/F UZHIYI/TACO.
翻訳日:2022-04-11 12:40:38 公開日:2022-04-08
# (参考訳) Hmong, Lahu, Chineseにおける協調化合物の順序付けと協調表現の学習 [全文訳有]

Learning the Ordering of Coordinate Compounds and Elaborate Expressions in Hmong, Lahu, and Chinese ( http://arxiv.org/abs/2204.04080v1 )

ライセンス: CC BY 4.0
Chenxuan Cui, Katherine J. Zhang, David R. Mortensen(参考訳) 座標化合物 (ccs) と精巧な表現 (ees) は、東アジアや東南アジアの言語で一般的な座標構成である。 Mortensen (2006) は、(1)Hmong, Lahu, Chinese におけるEE と CC の線形順序付けは音韻的階層によって予測でき、(2)これらの音韻的階層は明確な音韻論的論理を欠いていると主張している。 これらの主張は、モルフォシンタクスは、しばしば音韻学とフィードフォワードの関係にあると見なされ、音韻論的一般化はしばしば音声学的に「自然」であると仮定された。 CCとEEの順序付けが実証的に学べるかどうか、計算モデル(分類器とシーケンスラベル付けモデル)がモーテンセン(2006)と類似した非自然的階層を学習できるかを検討する。 決定木とsvmは音韻学に基づいてccs/eeの順序を予測し、dtsはmortensenが提案したものと非常に類似した階層を学習する。 しかし,ニューラルシーケンスラベリングモデルでは,音韻情報を用いずに,ハンセンの精巧な表現の順序を極めて効果的に学習できることがわかった。 脳の順序付けは、音韻学と語彙分布という2つの独立した経路を通して学べると我々は主張する。 [ISO 639-3:hmn, lhu, cmn]

Coordinate compounds (CCs) and elaborate expressions (EEs) are coordinate constructions common in languages of East and Southeast Asia. Mortensen (2006) claims that (1) the linear ordering of EEs and CCs in Hmong, Lahu, and Chinese can be predicted via phonological hierarchies and (2) these phonological hierarchies lack a clear phonetic rationale. These claims are significant because morphosyntax has often been seen as in a feed-forward relationship with phonology, and phonological generalizations have often been assumed to be phonetically "natural". We investigate whether the ordering of CCs and EEs can be learned empirically and whether computational models (classifiers and sequence labeling models) learn unnatural hierarchies similar to those posited by Mortensen (2006). We find that decision trees and SVMs learn to predict the order of CCs/EEs on the basis of phonology, with DTs learning hierarchies strikingly similar to those proposed by Mortensen. However, we also find that a neural sequence labeling model is able to learn the ordering of elaborate expressions in Hmong very effectively without using any phonological information. We argue that EE ordering can be learned through two independent routes: phonology and lexical distribution, presenting a more nuanced picture than previous work. [ISO 639-3:hmn, lhu, cmn]
翻訳日:2022-04-11 12:38:50 公開日:2022-04-08
# 機械学習サロゲートモデルを用いた不均質化空間における一般化潜時同化

Generalised Latent Assimilation in Heterogeneous Reduced Spaces with Machine Learning Surrogate Models ( http://arxiv.org/abs/2204.03497v2 )

ライセンス: Link先を確認
Sibo Cheng and Jianhua Chen and Charitos Anastasiou and Panagiota Angeli and Omar K. Matar and Yi-Ke Guo and Christopher C. Pain and Rossella Arcucci(参考訳) 機械学習アルゴリズムを用いた低次元代用モデルと低次元代用モデルが高次元力学系に広く応用され,アルゴリズムの効率が向上した。 本稿では,低次サロゲートモデルと,異なる物理空間からのリアルタイム観測を組み込んだ新しいデータ同化(DA)技術を組み合わせたシステムを開発する。 我々は、符号化されたシステム変数の空間と現在の観測の空間をリンクする局所的滑らかな代理関数を用いて、計算コストの低い変分DAを実行する。 一般化潜在同化(Generalized Latent Assimilation)と呼ばれる新しいシステムは、低次モデリングによって提供される効率とデータ同化の精度の両方に恩恵をもたらす。 局所的なトレーニングセットのサイズに応じて上界が与えられるこの論文では, 代理関数と原同化コスト関数の差に関する理論的解析も行う。 新しいアプローチは、現在のラテント同化法では扱えない非線形観測演算子を持つ二相液体流の高次元CFD応用で検証された。 数値計算により,提案手法はCFDシミュレーションの1000倍近く高速な深層学習サロゲートモデルの再構成と予測精度を大幅に向上させることができることが示された。

Reduced-order modelling and low-dimensional surrogate models generated using machine learning algorithms have been widely applied in high-dimensional dynamical systems to improve the algorithmic efficiency. In this paper, we develop a system which combines reduced-order surrogate models with a novel data assimilation (DA) technique used to incorporate real-time observations from different physical spaces. We make use of local smooth surrogate functions which link the space of encoded system variables and the one of current observations to perform variational DA with a low computational cost. The new system, named Generalised Latent Assimilation can benefit both the efficiency provided by the reduced-order modelling and the accuracy of data assimilation. A theoretical analysis of the difference between surrogate and original assimilation cost function is also provided in this paper where an upper bound, depending on the size of the local training set, is given. The new approach is tested on a high-dimensional CFD application of a two-phase liquid flow with non-linear observation operators that current Latent Assimilation methods can not handle. Numerical results demonstrate that the proposed assimilation approach can significantly improve the reconstruction and prediction accuracy of the deep learning surrogate model which is nearly 1000 times faster than the CFD simulation.
翻訳日:2022-04-11 12:22:04 公開日:2022-04-08
# SnapMode: ビッグデータとDeep Generative Adversarial Network技術に基づく,インテリジェントで分散的な大規模ファッションイメージ検索プラットフォーム

SnapMode: An Intelligent and Distributed Large-Scale Fashion Image Retrieval Platform Based On Big Data and Deep Generative Adversarial Network Technologies ( http://arxiv.org/abs/2204.03998v1 )

ライセンス: Link先を確認
Narges Norouzi, Reza Azmi, Sara Saberi Tehrani Moghadam, Maral Zarvani(参考訳) ファッションは今や世界最大級の産業のひとつであり、人類の歴史を表現し、世界の物語を語るのに役立っている。 第4次産業革命の結果として、インターネットはますますファッション情報の重要な源となっている。 しかし、Webページやソーシャルデータの増加に伴い、人間がこの領域の継続的な進化と継続的な変化に手動で追いつくことはほとんど不可能である。 ビッグデータの適切な管理と活用は、世界経済の実質的な成長と市民満足への道を開く可能性がある。 それゆえ、コンピュータ科学者はビッグデータと機械学習技術を用いてeコマースファッションのウェブサイトを扱うことが困難であることに気付いた。 本稿では,電子商取引サイトにおけるファッションデータの抽出と処理を行う分散コンピューティングプラットフォームに基づく,スケーラブルなWebクローラエンジンを提案する。 提案するプラットフォームの役割は,コンテンツに基づく画像インデックス作成と検索に深層畳み込み生成対向ネットワーク(DCGAN)を用いることで,不整合特徴抽出法の開発において説明される。 最後に最先端ソリューションを比較し,提案手法の結果を標準データセット上で解析する。 提案されたソリューションの現実の実装のために、Webベースのアプリケーションは、Apache Storm、Kafka、Solr、Milvusプラットフォーム上で開発され、SnapModeと呼ばれるファッション検索エンジンを作成する。

Fashion is now among the largest industries worldwide, for it represents human history and helps tell the worlds story. As a result of the Fourth Industrial Revolution, the Internet has become an increasingly important source of fashion information. However, with a growing number of web pages and social data, it is nearly impossible for humans to manually catch up with the ongoing evolution and the continuously variable content in this domain. The proper management and exploitation of big data can pave the way for the substantial growth of the global economy as well as citizen satisfaction. Therefore, computer scientists have found it challenging to handle e-commerce fashion websites by using big data and machine learning technologies. This paper first proposes a scalable focused Web Crawler engine based on the distributed computing platforms to extract and process fashion data on e-commerce websites. The role of the proposed platform is then described in developing a disentangled feature extraction method by employing deep convolutional generative adversarial networks (DCGANs) for content-based image indexing and retrieval. Finally, the state-of-the-art solutions are compared, and the results of the proposed approach are analyzed on a standard dataset. For the real-life implementation of the proposed solution, a Web-based application is developed on Apache Storm, Kafka, Solr, and Milvus platforms to create a fashion search engine called SnapMode.
翻訳日:2022-04-11 12:21:43 公開日:2022-04-08
# pharmmt: 処方の指示を単純化するニューラルネットワーク翻訳手法

PharmMT: A Neural Machine Translation Approach to Simplify Prescription Directions ( http://arxiv.org/abs/2204.03830v1 )

ライセンス: Link先を確認
Jiazhao Li, Corey Lester, Xinyan Zhao, Yuting Ding, Yun Jiang, V.G.Vinod Vydiswaran(参考訳) 処方の指示で医師や医療専門家が使用する言語には、医学用語や暗黙の指示が含まれており、患者の間に多くの混乱を引き起こす。 薬局での言語を単純化するための人間の介入は、深刻な健康結果につながる可能性のある追加のエラーをもたらす可能性がある。 患者フレンドリーな言語への処方指示を自動的かつ確実に単純化し,薬剤師の作業負荷を大幅に削減する,新しい機械翻訳ベースのアプローチであるpharmmtを提案する。 大規模な郵便注文薬局から得られた530K以上の処方薬からなるデータセットに対する提案手法の評価を行った。 エンドツーエンドシステムは、薬剤師による基準方向に対するBLEUスコアが60.27であり、規則に基づく正規化よりも39.6%改善されている。 薬剤師は、単純化された方向の94.3%を、使用可能な、または最小限の変更で判断した。 本研究は,実生活における処方の方向を簡略化する機械翻訳ツールの実現可能性を示す。

The language used by physicians and health professionals in prescription directions includes medical jargon and implicit directives and causes much confusion among patients. Human intervention to simplify the language at the pharmacies may introduce additional errors that can lead to potentially severe health outcomes. We propose a novel machine translation-based approach, PharmMT, to automatically and reliably simplify prescription directions into patient-friendly language, thereby significantly reducing pharmacist workload. We evaluate the proposed approach over a dataset consisting of over 530K prescriptions obtained from a large mail-order pharmacy. The end-to-end system achieves a BLEU score of 60.27 against the reference directions generated by pharmacists, a 39.6% relative improvement over the rule-based normalization. Pharmacists judged 94.3% of the simplified directions as usable as-is or with minimal changes. This work demonstrates the feasibility of a machine translation-based tool for simplifying prescription directions in real-life.
翻訳日:2022-04-11 12:21:20 公開日:2022-04-08
# 共同学習トークン抽出とテキスト生成による不完全発話の復元

Enhance Incomplete Utterance Restoration by Joint Learning Token Extraction and Text Generation ( http://arxiv.org/abs/2204.03958v1 )

ライセンス: Link先を確認
Shumpei Inoue, Tsungwei Liu, Nguyen Hong Son, Minh-Tien Nguyen(参考訳) 本稿では,不完全発話回復モデル(IUR)を提案する。 データセットの抽出や抽象化のみに取り組む先行研究とは異なり、iurの両シナリオで動作する、シンプルだが効果的なモデルを設計します。 我々の設計はIURの性質をシミュレートし、文脈から省略されたトークンが復元に寄与する。 これにより,省略されたトークンを識別するピッカーを構築する。 ピッカーをサポートするために,省略されたトークンのアノテーションがない場合に使用可能な2つのラベル生成メソッド(ソフトラベルとハードラベル)を設計した。 この修復は、共同学習においてピッカーの助けを借りて発電機を用いて行う。 抽出および抽象化シナリオにおける4つのベンチマークデータセットの結果から、我々のモデルは、リッチかつ限られたトレーニングデータ設定において、事前訓練されたT5および非生成言語モデルメソッドよりも優れていることが分かる。 コードも利用可能になる。

This paper introduces a model for incomplete utterance restoration (IUR). Different from prior studies that only work on extraction or abstraction datasets, we design a simple but effective model, working for both scenarios of IUR. Our design simulates the nature of IUR, where omitted tokens from the context contribute to restoration. From this, we construct a Picker that identifies the omitted tokens. To support the picker, we design two label creation methods (soft and hard labels), which can work in cases of no annotation of the omitted tokens. The restoration is done by using a Generator with the help of the Picker on joint learning. Promising results on four benchmark datasets in extraction and abstraction scenarios show that our model is better than the pretrained T5 and non-generative language model methods in both rich and limited training data settings. The code will be also available.
翻訳日:2022-04-11 12:21:05 公開日:2022-04-08
# 比較・重み付けによる特徴的画像キャプションについて

On Distinctive Image Captioning via Comparing and Reweighting ( http://arxiv.org/abs/2204.03938v1 )

ライセンス: Link先を確認
Jiuniu Wang, Wenjia Xu, Qingzhong Wang, Antoni B. Chan(参考訳) 最近の画像キャプションモデルは、BLEU、CIDEr、SPICEといった一般的な指標に基づいて印象的な結果を得ている。 しかし、生成したキャプションと人間の注釈の重なりしか考慮しない最も一般的な指標に注目すると、共通する単語やフレーズが使用され、その特徴性に欠ける、すなわち、類似した画像の多くが同じキャプションを持つ。 本稿では,類似画像の集合との比較と再重み付けにより,画像キャプションの特異性を向上させることを目的とする。 まず,類似画像に対する字幕の識別性を評価するために,セットcider(ciderbtw)間の識別性指標を提案する。 MSCOCOデータセットの各画像の人間のアノテーションは、特徴性に基づいて等価ではないことが明らかとなったが、従来の研究では、トレーニング中に人間のアノテーションを等しく扱うことが特徴的でないキャプションを生成する理由となり得る。 対照的に、トレーニング中の特徴に応じて、各接頭辞を重み付けする。 さらに,より詳細な情報を含む希少な単語を強調するために長尾重み戦略を取り入れ,類似画像集合からのキャプションを負の例としてサンプリングし,生成文の独特化を促す。 最後に,提案手法は,CIDErBtwで測定した特徴量と,CIDErで測定した精度(例えば,CIDErで測定した精度)を,多種多様な画像キャプションベースラインに対して有意に改善することを示す。 これらの結果はユーザ調査によってさらに確認される。

Recent image captioning models are achieving impressive results based on popular metrics, i.e., BLEU, CIDEr, and SPICE. However, focusing on the most popular metrics that only consider the overlap between the generated captions and human annotation could result in using common words and phrases, which lacks distinctiveness, i.e., many similar images have the same caption. In this paper, we aim to improve the distinctiveness of image captions via comparing and reweighting with a set of similar images. First, we propose a distinctiveness metric -- between-set CIDEr (CIDErBtw) to evaluate the distinctiveness of a caption with respect to those of similar images. Our metric reveals that the human annotations of each image in the MSCOCO dataset are not equivalent based on distinctiveness; however, previous works normally treat the human annotations equally during training, which could be a reason for generating less distinctive captions. In contrast, we reweight each ground-truth caption according to its distinctiveness during training. We further integrate a long-tailed weight strategy to highlight the rare words that contain more information, and captions from the similar image set are sampled as negative examples to encourage the generated sentence to be unique. Finally, extensive experiments are conducted, showing that our proposed approach significantly improves both distinctiveness (as measured by CIDErBtw and retrieval metrics) and accuracy (e.g., as measured by CIDEr) for a wide variety of image captioning baselines. These results are further confirmed through a user study.
翻訳日:2022-04-11 12:19:10 公開日:2022-04-08
# POSTER:表情認識のためのピラミッド型クロスフュージョントランスネットワーク

POSTER: A Pyramid Cross-Fusion Transformer Network for Facial Expression Recognition ( http://arxiv.org/abs/2204.04083v1 )

ライセンス: Link先を確認
Ce Zheng, Matias Mendieta, and Chen Chen(参考訳) 顔の表情認識(FER)はコンピュータビジョンコミュニティへの関心が高まっている。 特にFERでは、クラス間の類似性、クラス内の不一致、スケール感度の3つの重要な課題がある。 既存のメソッドは通常これらの問題に対処するが、全てを統一されたフレームワークで対処しない。 そこで本稿では,これらの問題を解決することを目的とした2ストリームのピラミッド crOss-fuSion TransformER ネットワーク (POSTER) を提案する。 具体的には,顔ランドマークと直接画像の特徴を効果的に協調し,正常な顔領域への注意を最大化するトランスフォーマーベースのクロスフュージョンパラダイムを考案する。 さらに、POSTERはスケール不変性を促進するためにピラミッド構造を採用している。 広範な実験結果から,raf-db の sota メソッドは 92.05%,ferplus は 91.62%, affectnet (7 cls) は 67.31%, affectnet (8 cls) はそれぞれ 63.34% であった。

Facial Expression Recognition (FER) has received increasing interest in the computer vision community. As a challenging task, there are three key issues especially prevalent in FER: inter-class similarity, intra-class discrepancy, and scale sensitivity. Existing methods typically address some of these issues, but do not tackle them all in a unified framework. Therefore, in this paper, we propose a two-stream Pyramid crOss-fuSion TransformER network (POSTER) that aims to holistically solve these issues. Specifically, we design a transformer-based cross-fusion paradigm that enables effective collaboration of facial landmark and direct image features to maximize proper attention to salient facial regions. Furthermore, POSTER employs a pyramid structure to promote scale invariance. Extensive experimental results demonstrate that our POSTER outperforms SOTA methods on RAF-DB with 92.05%, FERPlus with 91.62%, AffectNet (7 cls) with 67.31%, and AffectNet (8 cls) with 63.34%, respectively.
翻訳日:2022-04-11 12:18:42 公開日:2022-04-08
# チームスポーツにおける光トラッキング

Optical tracking in team sports ( http://arxiv.org/abs/2204.04143v1 )

ライセンス: Link先を確認
Pegah Rahimian and Laszlo Toka(参考訳) スポーツ分析はコーチ、スカウト、ファンにとって重要視されている。 近年,コンピュータビジョン研究者は,自動演奏とボールトラッキングの手法を複数提案することにより,必要なデータ収集の課題に取り組んでいる。 収集された追跡データに基づいて、データマイナーはプレイヤーとチームのパフォーマンスを定量的に分析することができる。 本調査の目的は,入力データの作成過程とその特性について,定量的データ分析者に対して基礎的理解を提供することである。 そこで本研究では,従来の学習法と深層学習法の包括的分類法を別途提供し,近年の光学追跡法を概説する。 さらに,この領域におけるデータ追跡のプロセス前ステップ,最も一般的な課題,スポーツチームへのデータ追跡の適用について論じる。 最後に,その手法を費用と限界で比較し,今後の研究の方向性を強調することで結論づける。

Sports analysis has gained paramount importance for coaches, scouts, and fans. Recently, computer vision researchers have taken on the challenge of collecting the necessary data by proposing several methods of automatic player and ball tracking. Building on the gathered tracking data, data miners are able to perform quantitative analysis on the performance of players and teams. With this survey, our goal is to provide a basic understanding for quantitative data analysts about the process of creating the input data and the characteristics thereof. Thus, we summarize the recent methods of optical tracking by providing a comprehensive taxonomy of conventional and deep learning methods, separately. Moreover, we discuss the preprocessing steps of tracking, the most common challenges in this domain, and the application of tracking data to sports teams. Finally, we compare the methods by their cost and limitations, and conclude the work by highlighting potential future research directions.
翻訳日:2022-04-11 12:18:22 公開日:2022-04-08
# GRAM:コンテンツベース協調フィルタリングのための事前学習言語モデルの高速微調整

GRAM: Fast Fine-tuning of Pre-trained Language Models for Content-based Collaborative Filtering ( http://arxiv.org/abs/2204.04179v1 )

ライセンス: Link先を確認
Yoonseok Yang, Kyu Seok Kim, Minsam Kim, Juneyoung Park(参考訳) コンテンツベースの協調フィルタリング(CCF)は、ユーザのインタラクション履歴とアイテムのコンテンツ情報の両方に基づいて、パーソナライズされたアイテムレコメンデーションを提供する。 近年、CCFのための高品質なアイテムエンコーディングの抽出にPLM(Pre-trained Language Model)が用いられている。 しかし、マルチモーダルな性質から、plmをエンド・ツー・エンド(e2e)方式でccfで微調整することはリソース集約的である。 そこで本研究では,(1)E2Eとの理論的等価性を保ちながら各項目の勾配を集約するシングルステップGRAM,(2)E2Eの40倍のGPUメモリフットプリントを有する複数のトレーニングステップにまたがって勾配を蓄積するマルチステップGRAMを提案する。 GRAMは2つのタスク領域である知識トラシングとニュースレコメンデーションの5つのデータセットに基づいて,それぞれ1ステップのGRAMと複数ステップのGRAMが平均4倍,45倍のトレーニングスピードアップを達成することにより,トレーニング効率が著しく向上することを確認した。

Content-based collaborative filtering (CCF) provides personalized item recommendations based on both users' interaction history and items' content information. Recently, pre-trained language models (PLM) have been used to extract high-quality item encodings for CCF. However, it is resource-intensive to finetune PLM in an end-to-end (E2E) manner in CCF due to its multi-modal nature: optimization involves redundant content encoding for interactions from users. For this, we propose GRAM (GRadient Accumulation for Multi-modality): (1) Single-step GRAM which aggregates gradients for each item while maintaining theoretical equivalence with E2E, and (2) Multi-step GRAM which further accumulates gradients across multiple training steps, with less than 40\% GPU memory footprint of E2E. We empirically confirm that GRAM achieves a remarkable boost in training efficiency based on five datasets from two task domains of Knowledge Tracing and News Recommendation, where single-step and multi-step GRAM achieve 4x and 45x training speedup on average, respectively.
翻訳日:2022-04-11 12:18:09 公開日:2022-04-08
# ECGバイオメトリック認識:レビュー,システム提案,ベンチマーク評価

ECG Biometric Recognition: Review, System Proposal, and Benchmark Evaluation ( http://arxiv.org/abs/2204.03992v1 )

ライセンス: Link先を確認
Pietro Melzi, Ruben Tolosana, Ruben Vera-Rodriguez(参考訳) 心電図 (ECGs) は, 偽造の困難さ, 生存度検出, ユビキティなど, 他の生体特性と比較して, 異なる被験者を識別し, 重要な優位性を示す特異なパターンを示す。 また、ディープラーニング技術の成功により、近年ECGバイオメトリック認識への関心が高まっている。 しかし,公的なデータや標準実験プロトコルが欠如していることから,新しいECG法の改良を評価することは容易ではない。 本研究では,ECGバイオメトリック認識における様々なシナリオの広範囲な分析と比較を行う。 検証と識別のタスクとシングルセッションとマルチセッションのシナリオの両方を調べます。 最後に、胸と手足の電極と現在のユーザフレンドリーなウェアラブルデバイスを用いた従来のシナリオを考慮し、単葉ECG実験も行います。 さらに、社内の大規模データベースでトレーニングされた堅牢なディープラーニング技術であるECGXtractorを、さまざまなシナリオや複数のデータベースでうまく動作させることができる。 提案する特徴抽出器は,55,967名からなる複数の正弦波拍動を訓練し,詳細な実験プロトコルを用いて一般のベンチマーク評価を行う。 4つの異なるデータベースでシステム性能を評価する。 i) 社内データベース。 ii) PTB 三 ECG-ID及び iv)CYBHi。 広く使われているptbデータベースでは、検証で0.14%と2.06%、識別で100%と96.46%の誤り率を達成している。 この分野を進めるために、ソースコード、実験プロトコルの詳細、および事前トレーニングされたモデルをgithubにリリースします。

Electrocardiograms (ECGs) have shown unique patterns to distinguish between different subjects and present important advantages compared to other biometric traits, such as difficulty to counterfeit, liveness detection, and ubiquity. Also, with the success of Deep Learning technologies, ECG biometric recognition has received increasing interest in recent years. However, it is not easy to evaluate the improvements of novel ECG proposed methods, mainly due to the lack of public data and standard experimental protocols. In this study, we perform extensive analysis and comparison of different scenarios in ECG biometric recognition. Both verification and identification tasks are investigated, as well as single- and multi-session scenarios. Finally, we also perform single- and multi-lead ECG experiments, considering traditional scenarios using electrodes in the chest and limbs and current user-friendly wearable devices. In addition, we present ECGXtractor, a robust Deep Learning technology trained with an in-house large-scale database and able to operate successfully across various scenarios and multiple databases. We introduce our proposed feature extractor, trained with multiple sinus-rhythm heartbeats belonging to 55,967 subjects, and provide a general public benchmark evaluation with detailed experimental protocol. We evaluate the system performance over four different databases: i) our in-house database, ii) PTB, iii) ECG-ID, and iv) CYBHi. With the widely used PTB database, we achieve Equal Error Rates of 0.14% and 2.06% in verification, and accuracies of 100% and 96.46% in identification, respectively in single- and multi-session analysis. We release the source code, experimental protocol details, and pre-trained models in GitHub to advance in the field.
翻訳日:2022-04-11 12:17:25 公開日:2022-04-08
# フェデレート学習におけるモデルパーソナライズのためのcd$^2$-pfed: cyclic distillation-guided channel decoupling

CD$^2$-pFed: Cyclic Distillation-guided Channel Decoupling for Model Personalization in Federated Learning ( http://arxiv.org/abs/2204.03880v1 )

ライセンス: Link先を確認
Yiqing Shen, Yuyin Zhou, Lequan Yu(参考訳) フェデレートラーニング(Federated Learning, FL)は、複数のクライアントが共同でグローバルモデルを共有することのできる分散ラーニングパラダイムである。 最近の進歩にもかかわらず、異種データクライアントを扱うことは依然として困難であり、異種データ分散は、通常、グローバルモデルが各クライアントに優れた一般化能力を提供するのを妨げている。 本稿では,CD^2-pFedを提案する。このCD^2-pFedは,FLにおけるグローバルモデルのパーソナライズを,データヘテロジニティ(異種性)のさまざまな設定の下で行う。 異なるクライアントにまたがる非IIDデータを克服するために階層的パーソナライズを確立する従来の作業とは異なり、チャネルデカップリングと呼ばれるモデルパーソナライズのためのチャネル的パーソナライズの最初の試みを行う。 プライベートウェイトと共有ウェイトの協調をさらに促進するため, フェデレーション期間中に局所モデル表現とグローバルモデル表現の一貫した規則化を課す新しい循環蒸留スキームを提案する。 循環蒸留によって導かれる, チャネル分離フレームワークは, 特徴スキュー, ラベル分布スキュー, 概念シフトなど, 異なる種類の異種性に対して, より正確かつ汎用的な結果を提供できる。 自然画像および医用画像解析タスクを含む4つのベンチマークの総合的な実験により,本手法の局所的および外部的検証における一貫した有効性を示した。

Federated learning (FL) is a distributed learning paradigm that enables multiple clients to collaboratively learn a shared global model. Despite the recent progress, it remains challenging to deal with heterogeneous data clients, as the discrepant data distributions usually prevent the global model from delivering good generalization ability on each participating client. In this paper, we propose CD^2-pFed, a novel Cyclic Distillation-guided Channel Decoupling framework, to personalize the global model in FL, under various settings of data heterogeneity. Different from previous works which establish layer-wise personalization to overcome the non-IID data across different clients, we make the first attempt at channel-wise assignment for model personalization, referred to as channel decoupling. To further facilitate the collaboration between private and shared weights, we propose a novel cyclic distillation scheme to impose a consistent regularization between the local and global model representations during the federation. Guided by the cyclical distillation, our channel decoupling framework can deliver more accurate and generalized results for different kinds of heterogeneity, such as feature skew, label distribution skew, and concept shift. Comprehensive experiments on four benchmarks, including natural image and medical image analysis tasks, demonstrate the consistent effectiveness of our method on both local and external validations.
翻訳日:2022-04-11 12:14:31 公開日:2022-04-08
# imagenetのダウンストリームタスクへのロバスト性は?

Does Robustness on ImageNet Transfer to Downstream Tasks? ( http://arxiv.org/abs/2204.03934v1 )

ライセンス: Link先を確認
Yutaro Yamada, Mayu Otani(参考訳) ImageNetの精度が天井に近づくにつれ、研究コミュニティは、分散シフトの下で堅牢な精度をますます懸念している。 ニューラルネットワークを堅牢化するための様々な手法が提案されているが、これらの手法はしばしばImageNet分類に基づいてトレーニングされたモデルをターゲットにしている。 同時に、オブジェクト検出、セマンティックセグメンテーション、異なるドメインからのイメージ分類といった下流タスクにImageNet事前訓練されたバックボーンを使用するのが一般的である。 これらのロバストなイメージ分類器は、下流のタスクにロバストを転送できるか? オブジェクトの検出とセマンティックセマンティックセグメンテーションでは、高密度な予測タスクに適したVision Transformerの変種であるバニラSwin Transformerが、ImageNetの破損したバージョンに対して堅牢であるようにトレーニングされた畳み込みニューラルネットワークよりも堅牢性を伝達することがわかった。 CIFAR10分類では、ImageNetで頑健なモデルでは、完全に微調整された場合、頑健さを保たない。 これらの結果は,現在のロバスト化手法がイメージネット評価を強調する傾向があることを示唆する。 さらに、ネットワークアーキテクチャは、転送学習を考えるときの堅牢性の強い源である。

As clean ImageNet accuracy nears its ceiling, the research community is increasingly more concerned about robust accuracy under distributional shifts. While a variety of methods have been proposed to robustify neural networks, these techniques often target models trained on ImageNet classification. At the same time, it is a common practice to use ImageNet pretrained backbones for downstream tasks such as object detection, semantic segmentation, and image classification from different domains. This raises a question: Can these robust image classifiers transfer robustness to downstream tasks? For object detection and semantic segmentation, we find that a vanilla Swin Transformer, a variant of Vision Transformer tailored for dense prediction tasks, transfers robustness better than Convolutional Neural Networks that are trained to be robust to the corrupted version of ImageNet. For CIFAR10 classification, we find that models that are robustified for ImageNet do not retain robustness when fully fine-tuned. These findings suggest that current robustification techniques tend to emphasize ImageNet evaluations. Moreover, network architecture is a strong source of robustness when we consider transfer learning.
翻訳日:2022-04-11 12:14:02 公開日:2022-04-08
# 生体計測ハンドジオメトリ認識のためのニューラルネットワーク委員会に関する研究

Study of a committee of neural networks for biometric hand-geometry recognition ( http://arxiv.org/abs/2204.03935v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy(参考訳) 本稿では,生体パターン認識のためのニューラルネットワーク委員会について検討する。 ニューラルネットを識別と検証のために分類器として使用する。 ネットワーク委員会では,最高のパフォーマンスを提供するニューラルネットを拾い上げるマルチスタート初期化アルゴリズムと比較して,認識率を向上させることができることを示す。 一方,identifi-cationと同一の分類器を用いた検証アプリケーションとの間には,強い相関関係が認められなかった。

This Paper studies different committees of neural networks for biometric pattern recognition. We use the neural nets as classifiers for identification and verification purposes. We show that a committee of nets can improve the recognition rates when compared with a multi-start initialization algo-rithm that just picks up the neural net which offers the best performance. On the other hand, we found that there is no strong correlation between identifi-cation and verification applications using the same classifier.
翻訳日:2022-04-11 12:13:42 公開日:2022-04-08
# (参考訳) Habitat-Web: スケールでの人間デモから身体的オブジェクト検索戦略を学ぶ [全文訳有]

Habitat-Web: Learning Embodied Object-Search Strategies from Human Demonstrations at Scale ( http://arxiv.org/abs/2204.03514v2 )

ライセンス: CC BY 4.0
Ram Ramrakhya and Eric Undersander and Dhruv Batra and Abhishek Das(参考訳) 本研究では, 仮想ロボットが新しい環境の物体を探索するために必要なタスクにおいて, 人間の実演を模倣する大規模な研究について述べる。(1) オブジェクトゴールナビゲーション(例えば, 椅子へ行きなさい)と(2) ピック&プレイス(例えば, フィンドマグ、ピックマグ、カウンタ、ポットマグ、カウンターをカウンターに置きます)。 First, we develop a virtual teleoperation data-collection infrastructure -- connecting Habitat simulator running in a web browser to Amazon Mechanical Turk, allowing remote users to teleoperate virtual robots, safely and at scale. We collect 80k demonstrations for ObjectNav and 12k demonstrations for Pick&Place, which is an order of magnitude larger than existing human demonstration datasets in simulation or on real robots. Second, we attempt to answer the question -- how does large-scale imitation learning (IL) (which hasn't been hitherto possible) compare to reinforcement learning (RL) (which is the status quo)? ObjectNavでは,70k人の実演を用いたIL(ベルや笛のない)が240kのエージェント収集軌道でRLを上回っていることがわかった。 ILで訓練されたエージェントは、効率的な物体探索の振る舞いを示します -- 部屋を覗き込み、小さな物体の隅を覗き込み、パノラマ的な視界を得るために回転します -- これらはいずれもRLエージェントによって顕著に示されません。 最後に、正確性とトレーニングデータサイズプロットは有望なスケーリング動作を示し、より多くのデモンストレーションを収集するだけで、さらなる最先端技術がもたらされる可能性が示唆されている。 ピック&プレースでは、ilエージェントが9.5kの人間のデモンストレーションで訓練された場合、新しいオブジェクトレセプタクルロケーションでエピソードで${\sim}$18%の成功を収める一方、rlエージェントは0%を超えない。 全体として、我々の研究は大規模な模倣学習に投資するための説得力のある証拠を提供する。 プロジェクトページ: https://ram81.github .io/projects/habitat -web

We present a large-scale study of imitating human demonstrations on tasks that require a virtual robot to search for objects in new environments -- (1) ObjectGoal Navigation (e.g. 'find & go to a chair') and (2) Pick&Place (e.g. 'find mug, pick mug, find counter, place mug on counter'). First, we develop a virtual teleoperation data-collection infrastructure -- connecting Habitat simulator running in a web browser to Amazon Mechanical Turk, allowing remote users to teleoperate virtual robots, safely and at scale. We collect 80k demonstrations for ObjectNav and 12k demonstrations for Pick&Place, which is an order of magnitude larger than existing human demonstration datasets in simulation or on real robots. Second, we attempt to answer the question -- how does large-scale imitation learning (IL) (which hasn't been hitherto possible) compare to reinforcement learning (RL) (which is the status quo)? On ObjectNav, we find that IL (with no bells or whistles) using 70k human demonstrations outperforms RL using 240k agent-gathered trajectories. The IL-trained agent demonstrates efficient object-search behavior -- it peeks into rooms, checks corners for small objects, turns in place to get a panoramic view -- none of these are exhibited as prominently by the RL agent, and to induce these behaviors via RL would require tedious reward engineering. Finally, accuracy vs. training data size plots show promising scaling behavior, suggesting that simply collecting more demonstrations is likely to advance the state of art further. On Pick&Place, the comparison is starker -- IL agents achieve ${\sim}$18% success on episodes with new object-receptacle locations when trained with 9.5k human demonstrations, while RL agents fail to get beyond 0%. Overall, our work provides compelling evidence for investing in large-scale imitation learning. Project page: https://ram81.github .io/projects/habitat -web.
翻訳日:2022-04-11 12:12:20 公開日:2022-04-08
# マルチモーダルコントラスト学習とソフトデータ拡張による意味的コード検索の強化

Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation ( http://arxiv.org/abs/2204.03293v2 )

ライセンス: Link先を確認
Ensheng Shi, Wenchao Gub, Yanlin Wang, Lun Du, Hongyu Zhang, Shi Han, Dongmei Zhang, Hongbin Sun(参考訳) コード検索は、ある自然言語クエリに対して最も意味のあるコードスニペットを取得することを目的としている。 近年,CodeBERTやGraphCodeBERTといった大規模コード事前学習モデルでは,ソースコードの汎用表現を学習し,コード検索タスクを大幅に改善している。 しかし、コードスニペットの高品質なシーケンスレベル表現は十分に検討されていない。 本稿では,コード探索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しいアプローチを提案する。 マルチモーダルコントラスト学習は、コードクエリペアの表現をまとめて、未実装のコードスニペットとクエリを分離するために使用される。 さらに、データ拡張は、ハイクオリティな表現を学ぶためのコントラスト学習において重要である。 しかし、既存の作業ではソースコードの意味保存拡張のみが検討されている。 本研究では,コードシーケンス内のトークンを動的にマスキングし,置き換えることで,ペアクエリの正のサンプルとして必ずしも意味保存されないコードスニペットを生成することを提案する。 6つのプログラミング言語を用いた大規模データセットにおいて,提案手法の有効性を評価するための広範な実験を行った。 実験の結果,本手法は最先端手法よりも優れていた。 また,RoBERTaやCodeBERTなどの事前学習モデルにも適用し,コード検索タスクの性能を大幅に向上させる。

Code search aims to retrieve the most semantically relevant code snippet for a given natural language query. Recently, large-scale code pre-trained models such as CodeBERT and GraphCodeBERT learn generic representations of source code and have achieved substantial improvement on code search task. However, the high-quality sequence-level representations of code snippets have not been sufficiently explored. In this paper, we propose a new approach with multimodal contrastive learning and soft data augmentation for code search. Multimodal contrastive learning is used to pull together the representations of code-query pairs and push apart the unpaired code snippets and queries. Moreover, data augmentation is critical in contrastive learning for learning high-quality representations. However, only semantic-preserving augmentations for source code are considered in existing work. In this work, we propose to do soft data augmentation by dynamically masking and replacing some tokens in code sequences to generate code snippets that are similar but not necessarily semantic-preserving as positive samples for paired queries. We conduct extensive experiments to evaluate the effectiveness of our approach on a large-scale dataset with six programming languages. The experimental results show that our approach significantly outperforms the state-of-the-art methods. We also adapt our techniques to several pre-trained models such as RoBERTa and CodeBERT, and significantly boost their performance on the code search task.
翻訳日:2022-04-11 11:42:15 公開日:2022-04-08
# VNIbCReg: VICRegによる非定常地震信号時系列の評価

VNIbCReg: VICReg with Neighboring-Invarian ce and better-Covariance Evaluated on Non-stationary Seismic Signal Time Series ( http://arxiv.org/abs/2204.02697v3 )

ライセンス: Link先を確認
Daesoo Lee, Erlend Aune, Nad\`ege Langet, and Jo Eidsvik(参考訳) 最新の自己教師付き学習(SSL)手法であるVICRegは線形評価と微調整評価の両方において優れた性能を示した。 しかし、VICRegはコンピュータビジョンにおいて提案され、分散と共分散損失による表現空間を維持しながら、画像のランダムな作物の表現を引いて学習する。 しかし、VICRegは、入力の異なる部分/クロップが非定常性を考えるために異なるエンコードされるような非定常時系列では効果がない。 もうひとつの最近のSSL提案であるTNC(Temporal Neighborhood Coding)は、非定常時系列の符号化に有効である。 本研究では,非定常地震信号時系列を評価データセットとして使用する非定常時系列上で,VICReg方式とTNCの組み合わせがSSLに非常に有効であることを示す。

One of the latest self-supervised learning (SSL) methods, VICReg, showed a great performance both in the linear evaluation and the fine-tuning evaluation. However, VICReg is proposed in computer vision and it learns by pulling representations of random crops of an image while maintaining the representation space by the variance and covariance loss. However, VICReg would be ineffective on non-stationary time series where different parts/crops of input should be differently encoded to consider the non-stationarity. Another recent SSL proposal, Temporal Neighborhood Coding (TNC) is effective for encoding non-stationary time series. This study shows that a combination of a VICReg-style method and TNC is very effective for SSL on non-stationary time series, where a non-stationary seismic signal time series is used as an evaluation dataset.
翻訳日:2022-04-11 11:41:54 公開日:2022-04-08
# シーングラフ生成のためのきめ細かい述語学習

Fine-Grained Predicates Learning for Scene Graph Generation ( http://arxiv.org/abs/2204.02597v2 )

ライセンス: Link先を確認
Xinyu Lyu and Lianli Gao and Yuyu Guo and Zhou Zhao and Hao Huang and Heng Tao Shen and Jingkuan Song(参考訳) 現在のScene Graph Generationモデルのパフォーマンスは、"woman-on/standing on-beach"や"woman-near/ look at-child"といった、区別が難しい述語によって著しく妨げられている。 一般的なSGGモデルは、頭部の述語を予測する傾向があり、既存の再バランス戦略は尾の分類を好むが、これら区別が難しい述語を適切に扱うことはできない。 そこで本研究では,難解なオブジェクトクラス間の識別に焦点を当てたきめ細かい画像分類から着想を得たFGPL(Fined Predicates Learning)という手法を提案する。 具体的には,SGGモデルによる詳細な述語対の探索を支援するPredicate Latticeを導入する。 そして、述語格子を用いて、認識可能なものよりも学習された識別力を維持しながら、粒度の細かい述語を識別するのに寄与するカテゴリー識別損失とエンティティ識別損失を提案する。 提案するモデル非依存戦略により、3つのベンチマークモデル(transformer, vctree, モチーフ)の性能は、それぞれ、述語分類サブタスクで22.8\%、24.1\%、平均リコール(mr@100)の21.7\%向上する。 当社のモデルは,Visual Genomeデータセット上での最先端メソッド(すなわち,6.1\%,4.6\%,および3.2\%のMean Recall(mR@100))よりも優れています。

The performance of current Scene Graph Generation models is severely hampered by some hard-to-distinguish predicates, e.g., "woman-on/standing on/walking on-beach" or "woman-near/looking at/in front of-child". While general SGG models are prone to predict head predicates and existing re-balancing strategies prefer tail categories, none of them can appropriately handle these hard-to-distinguish predicates. To tackle this issue, inspired by fine-grained image classification, which focuses on differentiating among hard-to-distinguish object classes, we propose a method named Fine-Grained Predicates Learning (FGPL) which aims at differentiating among hard-to-distinguish predicates for Scene Graph Generation task. Specifically, we first introduce a Predicate Lattice that helps SGG models to figure out fine-grained predicate pairs. Then, utilizing the Predicate Lattice, we propose a Category Discriminating Loss and an Entity Discriminating Loss, which both contribute to distinguishing fine-grained predicates while maintaining learned discriminatory power over recognizable ones. The proposed model-agnostic strategy significantly boosts the performances of three benchmark models (Transformer, VCTree, and Motif) by 22.8\%, 24.1\% and 21.7\% of Mean Recall (mR@100) on the Predicate Classification sub-task, respectively. Our model also outperforms state-of-the-art methods by a large margin (i.e., 6.1\%, 4.6\%, and 3.2\% of Mean Recall (mR@100)) on the Visual Genome dataset.
翻訳日:2022-04-11 11:41:39 公開日:2022-04-08
# 歩行認識のための文脈感応型時間特徴学習

Context-Sensitive Temporal Feature Learning for Gait Recognition ( http://arxiv.org/abs/2204.03270v2 )

ライセンス: Link先を確認
Xiaohu Huang, Duowang Zhu, Xinggang Wang, Hao Wang, Bo Yang, Botao He, Wenyu Liu, and Bin Feng(参考訳) 歩行認識は近年研究の注目を集めているが,空間領域ではシルエットの違いが非常に微妙であるため,識別的時間的表現を学習することは依然として困難である。 異なる時間スケールの時間的クリップに適応的に焦点を合わせることで、人間が異なる被験者の歩行を区別できるという観察に着想を得て、歩行認識のための文脈依存型時間的特徴学習(CSTL)ネットワークを提案する。 CSTLは3つの尺度で時間的特徴を生成し、局所的およびグローバル的視点からコンテキスト情報に基づいて適応的にそれらを集約する。 具体的には、CSTLは適応時間アグリゲーションモジュールを含み、その後、局所関係モデリングとグローバル関係モデリングを行い、マルチスケールの特徴を融合させる。 また,時間的操作による空間的特徴の破損を解消するため,CSTLは空間的特徴を識別するグループを選択するために,空間的特徴学習(SSFL)モジュールを組み込んでいる。 特に,グローバルリレーションモデリングとssflモジュールの実装にトランスフォーマーを利用する。 私たちの知る限りでは、これは歩行認識にtransformerを採用する最初の仕事です。 3つのデータセットで広範な実験が行われ、最先端のパフォーマンスが実証された。 具体的には,CASIA-Bでは98.7%,96.2%,88.7%,OU -MVLPでは97.5%,GREWでは50.6%である。

Although gait recognition has drawn increasing research attention recently, it remains challenging to learn discriminative temporal representation, since the silhouette differences are quite subtle in spatial domain. Inspired by the observation that human can distinguish gaits of different subjects by adaptively focusing on temporal clips with different time scales, we propose a context-sensitive temporal feature learning (CSTL) network for gait recognition. CSTL produces temporal features in three scales, and adaptively aggregates them according to the contextual information from local and global perspectives. Specifically, CSTL contains an adaptive temporal aggregation module that subsequently performs local relation modeling and global relation modeling to fuse the multi-scale features. Besides, in order to remedy the spatial feature corruption caused by temporal operations, CSTL incorporates a salient spatial feature learning (SSFL) module to select groups of discriminative spatial features. Particularly, we utilize transformers to implement the global relation modeling and the SSFL module. To the best of our knowledge, this is the first work that adopts transformer in gait recognition. Extensive experiments conducted on three datasets demonstrate the state-of-the-art performance. Concretely, we achieve rank-1 accuracies of 98.7%, 96.2% and 88.7% under normal-walking, bag-carrying and coat-wearing conditions on CASIA-B, 97.5% on OU-MVLP and 50.6% on GREW.
翻訳日:2022-04-11 11:41:05 公開日:2022-04-08
# マルチラベル分類のための韓国のオンラインヘイトスピーチデータセット : 社会科学がヘイトスピーチのデータセットをどのように改善するか

Korean Online Hate Speech Dataset for Multilabel Classification: How Can Social Science Improve Dataset on Hate Speech? ( http://arxiv.org/abs/2204.03262v2 )

ライセンス: Link先を確認
TaeYoung Kang, Eunrang Kwon, Junbum Lee, Youngeun Nam, Junmo Song, JeongKyu Suh(参考訳) 本研究では,(1)人種と国籍,(2)宗教,(3)地域主義,(4)年齢,(5)ミソジニー,(6)性マイノリティ,(7)男性という7つのカテゴリーを網羅した韓国のネットヘイトスピーチデータセットを提案する。 私たちの35Kデータセットは、Krippendorff氏のAlphaラベルによる24Kのオンラインコメントから成り、ウィキペディアの2.2Kの中立文、Human-in-the-Loopの手順によって生成された1.7Kのラベル付き文、ルール生成の7.1Kの中立文で構成されています。 24Kの初期データセットを持つベースモデルはLRAP .892の精度を達成したが、1Kの追加データと組み合わせて.919に改善された。 従来の二分二分法や二分法と異なり、西洋文化に基づく英語テキストの制限を克服するために、文化的・言語的文脈を考慮したデータセットを設計した。 そこで,本稿は,局所ヘイトスピーチデータセットの提示に限らず,社会科学的な視点に基づく多様な文化的背景を持つ,より汎用的なヘイトスピーチデータセット構築マニュアルとして拡張されている。

We suggest a multilabel Korean online hate speech dataset that covers seven categories of hate speech: (1) Race and Nationality, (2) Religion, (3) Regionalism, (4) Ageism, (5) Misogyny, (6) Sexual Minorities, and (7) Male. Our 35K dataset consists of 24K online comments with Krippendorff's Alpha label accordance of .713, 2.2K neutral sentences from Wikipedia, 1.7K additionally labeled sentences generated by the Human-in-the-Loop procedure and rule-generated 7.1K neutral sentences. The base model with 24K initial dataset achieved the accuracy of LRAP .892, but improved to .919 after being combined with 11K additional data. Unlike the conventional binary hate and non-hate dichotomy approach, we designed a dataset considering both the cultural and linguistic context to overcome the limitations of western culture-based English texts. Thus, this paper is not only limited to presenting a local hate speech dataset but extends as a manual for building a more generalized hate speech dataset with diverse cultural backgrounds based on social science perspectives.
翻訳日:2022-04-11 11:40:41 公開日:2022-04-08
# Interval Bound Propagation$\unicode {x2013}$aided Few$\unicode{x002d}$shot Learning

Interval Bound Propagation$\unicode {x2013}$aided Few$\unicode{x002d}$shot Learning ( http://arxiv.org/abs/2204.03511v2 )

ライセンス: Link先を確認
Shounak Datta, Sankha Subhra Mullick, Swagatam Das(参考訳) 少数ショット学習は、与えられたタスク分散から、ラベル付きデータの限られた量で、さまざまなタスクのトレーニングから得られた知識を、同じ分散から未認識のタスクに一般化することを目的としている。 効果的な少数ショット一般化の基本的な要件は、タスク多様体のよい表現を学ぶことである。 これを奨励する1つの方法は、数発の学習者が学習した特徴空間内の地域を保存することである。 そこで本研究では,頑健な学習文献から少人数学習への区間境界の概念を導入する。 インターバルバウンダリは、トレーニングタスクの周辺を特徴付けるために使用される。 これらの近傍はタスクとそれぞれの境界の間の距離を最小化することで保存することができる。 さらに,利用可能なタスクとそれぞれのインターバル境界を補間して,新たなタスクを人工的に形成し,タスクが不足している場合に支援する新たな戦略を提案する。 このフレームワークをモデルに依存しないメタラーニングとプロトタイプベースのメトリックラーニングの両方に適用する。 提案手法の有効性は,近年の競争相手数に比べて,様々な分野のデータセットのパフォーマンスが向上していることから明らかである。

Few-shot learning aims to transfer the knowledge acquired from training on a diverse set of tasks, from a given task distribution, to generalize to unseen tasks, from the same distribution, with a limited amount of labeled data. The underlying requirement for effective few-shot generalization is to learn a good representation of the task manifold. One way to encourage this is to preserve local neighborhoods in the feature space learned by the few-shot learner. To this end, we introduce the notion of interval bounds from the provably robust training literature to few-shot learning. The interval bounds are used to characterize neighborhoods around the training tasks. These neighborhoods can then be preserved by minimizing the distance between a task and its respective bounds. We further introduce a novel strategy to artificially form new tasks for training by interpolating between the available tasks and their respective interval bounds, to aid in cases with a scarcity of tasks. We apply our framework to both model-agnostic meta-learning as well as prototype-based metric-learning paradigms. The efficacy of our proposed approach is evident from the improved performance on several datasets from diverse domains in comparison to a sizable number of recent competitors.
翻訳日:2022-04-11 11:40:14 公開日:2022-04-08
# MDA GAN: 逆学習に基づく3次元地震データ補間と複雑な欠損の復元

MDA GAN: Adversarial-Learning -based 3-D Seismic Data Interpolation and Reconstruction for Complex Missing ( http://arxiv.org/abs/2204.03197v2 )

ライセンス: Link先を確認
Yimin Dou, Kewen Li, Hongjie Duan, Timing Li, Lin Dong, Zongchao Huang(参考訳) 欠失跡の補間と復元は, 地震データ処理において重要なステップであり, さらに, 高率ランダム離散欠失, 連続欠失, 断層富度, 塩分体調査における欠失などの複雑なケースにおいても, 非常に不適切な問題である。 これらの複雑なケースは、現在のスパースや低ランクの事前ベース、ディープラーニングベースのアプローチではほとんど言及されない。 複雑なケースに対処するために,新しい3次元GANフレームワークであるMDA GAN(MDA GAN)を提案する。 各次元における元のデータ分布と再構成されたデータの一貫性を確保するために、3つの識別器を用いる。 特徴スプライシングモジュール(FSM)は、このフレームワークのジェネレータに設計され、組み込まれ、非許容部の機能を再構成部(欠部)のものと自動的にスプライシングし、非許容部の情報を完全保存する。 対向学習による地震データにおける画素歪みを防止するため, よりスムーズな勾配を与えるため, 新たな再構成損失Tanh Cross Entropy(TCE)損失を提案する。 本研究の個々の構成要素の有効性を実験的に検証し,複数の公開データ上で検証した。 この手法は、最大95%のランダムな離散欠失、100の連続欠失、さらに複雑なハイブリッド欠失に対する合理的な再構成を実現する。 断層に富んだ岩体や塩分を含む調査では、各3方向(合計98.2%)に75%の欠落がある有望な復元が可能となる。

The interpolation and reconstruction of missing traces is a crucial step in seismic data processing, moreover it is also a highly ill-posed problem, especially for complex cases such as high-ratio random discrete missing, continuous missing and missing in fault-rich or salt body surveys. These complex cases are rarely mentioned in current sparse or low-rank priorbased and deep learning-based approaches. To cope with complex missing cases, we propose Multi-Dimensional Adversarial GAN (MDA GAN), a novel 3-D GAN framework. It employs three discriminators to ensure the consistency of the reconstructed data with the original data distribution in each dimension. The feature splicing module (FSM) is designed and embedded into the generator of this framework, which automatically splices the features of the unmissing part with those of the reconstructed part (missing part), thus fully preserving the information of the unmissing part. To prevent pixel distortion in the seismic data caused by the adversarial learning process, we propose a new reconstruction loss Tanh Cross Entropy (TCE) loss to provide smoother gradients. We experimentally verified the effectiveness of the individual components of the study and then tested the method on multiple publicly available data. The method achieves reasonable reconstructions for up to 95% of random discrete missing, 100 traces of continuous missing and more complex hybrid missing. In surveys of fault-rich and salt bodies, the method can achieve promising reconstructions with up to 75% missing in each of the three directions (98.2% in total).
翻訳日:2022-04-11 11:39:55 公開日:2022-04-08