このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220319となっている論文です。

PDF登録状況(公開日: 20220319)

TitleAuthorsAbstract論文公表日・翻訳日
# 放射線テキスト解析システム(radtext: architecture and evaluation)

Radiology Text Analysis System (RadText): Architecture and Evaluation ( http://arxiv.org/abs/2204.09599v1 )

ライセンス: Link先を確認
Song Wang, Mingquan Lin, Ying Ding, George Shih, Zhiyong Lu, Yifan Peng(参考訳) 放射線学報告の分析は時間と誤差の伴う作業であり、放射線科医の作業の軽減と正確な診断を促進するための効率的な自動放射線学レポート分析システムの必要性が高まっている。 本稿では,python が開発したオープンソースの放射線分析システム radtext を提案する。 RadTextは、非識別、セクションセグメンテーション、文分割、単語トークン化、名前付きエンティティ認識、解析、否定検出など、使いやすいテキスト分析パイプラインを提供する。 radtextは柔軟なモジュラ設計を備え、ハイブリッドなテキスト処理スキーマを提供し、生のテキスト処理とローカル処理をサポートし、ユーザビリティとデータプライバシの向上を可能にする。 RadTextはBioCを統一インターフェースとして採用し、入力/出力を観測医療成果パートナーシップ(OMOP)共通データモデル(CDM)と互換性のある構造化表現に標準化する。 これにより、複数の異なるデータソースにまたがる観測研究へのより体系的なアプローチが可能になる。 我々はMIMIC-CXRデータセット上でRadTextを評価し,本研究にアノテートした5つの新しい病気ラベルを作成した。 RadTextは精度の高い分類性能を示し、平均精度は0.94、F-1スコアは0.92である。 私たちはコード、ドキュメンテーション、例、そしてテストセットをhttps://github.com/b ionlplab/radtext で公開しました。

Analyzing radiology reports is a time-consuming and error-prone task, which raises the need for an efficient automated radiology report analysis system to alleviate the workloads of radiologists and encourage precise diagnosis. In this work, we present RadText, an open-source radiology text analysis system developed by Python. RadText offers an easy-to-use text analysis pipeline, including de-identification, section segmentation, sentence split and word tokenization, named entity recognition, parsing, and negation detection. RadText features a flexible modular design, provides a hybrid text processing schema, and supports raw text processing and local processing, which enables better usability and improved data privacy. RadText adopts BioC as the unified interface, and also standardizes the input / output into a structured representation compatible with Observational Medical Outcomes Partnership (OMOP) Common Data Model (CDM). This allows for a more systematic approach to observational research across multiple, disparate data sources. We evaluated RadText on the MIMIC-CXR dataset, with five new disease labels we annotated for this work. RadText demonstrates highly accurate classification performances, with an average precision of, a recall of 0.94, and an F-1 score of 0.92. We have made our code, documentation, examples, and the test set available at https://github.com/b ionlplab/radtext .
翻訳日:2022-04-24 16:41:26 公開日:2022-03-19
# (参考訳) 長期記憶を用いた反射性繊維欠陥の検出と評価 [全文訳有]

Reflective Fiber Faults Detection and Characterization Using Long-Short-Term Memory ( http://arxiv.org/abs/2204.07058v1 )

ライセンス: CC BY 4.0
Khouloud Abdelli, Helmut Griesser, Peter Ehrle, Carsten Tropschug, and Stephan Pachnicke(参考訳) 運用保守費(OPEX)を削減し、光ネットワークの生存性を確保するためには、光ネットワークオペレーターがタイムリーかつ高精度に障害を検出し診断する必要がある。 テレメトリ技術とデータ分析技術の急速な進歩により、テレメトリデータを活用して障害診断問題に取り組むデータ駆動アプローチが、迅速な実装と展開のために人気を集めている。 本稿では,光時間領域反射法(OTDR)原則により得られた観測データから,光ファイバーケーブルやリンクのトラブルシューティングによく用いられる洞察を抽出することにより,コネクタや機械的スプライスを含む繊維反射欠陥(イベント)の反射率を検出し,検出し,推定する,長期記憶(LSTM)に基づく新しいマルチタスク学習モデルを提案する。 実験の結果,提案手法が証明された。 (i)低いsnr値であっても、短い測定時間内で優れた検出能力と高い位置決め精度を達成する。 (ii)従来の技法を上回っている。

To reduce operation-and-mainte nance expenses (OPEX) and to ensure optical network survivability, optical network operators need to detect and diagnose faults in a timely manner and with high accuracy. With the rapid advancement of telemetry technology and data analysis techniques, data-driven approaches leveraging telemetry data to tackle the fault diagnosis problem have been gaining popularity due to their quick implementation and deployment. In this paper, we propose a novel multi-task learning model based on long short-term memory (LSTM) to detect, locate, and estimate the reflectance of fiber reflective faults (events) including the connectors and the mechanical splices by extracting insights from monitored data obtained by the optical time domain reflectometry (OTDR) principle commonly used for troubleshooting of fiber optic cables or links. The experimental results prove that the proposed method: (i) achieves a good detection capability and high localization accuracy within short measurement time even for low SNR values; and (ii) outperforms conventionally employed techniques.
翻訳日:2022-04-17 10:38:34 公開日:2022-03-19
# (参考訳) 光ファイバモニタリングにおける機械学習に基づく異常検出 [全文訳有]

Machine Learning-based Anomaly Detection in Optical Fiber Monitoring ( http://arxiv.org/abs/2204.07059v1 )

ライセンス: CC BY 4.0
Khouloud Abdelli, Joo Yeon Cho, Florian Azendorf, Helmut Griesser, Carsten Tropschug, and Stephan Pachnicke(参考訳) 光ネットワークにおけるセキュアで信頼性の高いデータ通信は高速インターネットにとって重要である。 しかし、世界中のユーザのビヨンへの接続を提供するデータ伝送媒体として機能する光ファイバーは、障害(例えば、繊維切断)や悪意のある物理的攻撃(例えば、光盗聴(ファイバタッピング))などによる様々な異常を生じやすい。 このような異常はネットワークの混乱を引き起こし、それによって膨大な財務的・データ的損失を招き、携帯データへの不正アクセスを得ることで光ネットワークの機密性を損なうか、あるいはネットワーク操作を徐々に劣化させる。 そのため,光ネットワークの可用性と信頼性を高めるために,効率的な異常検出,診断,局所化を実現することが求められている。 本稿では,繊維切断や光盗聴攻撃を含む繊維異常を正確にかつ迅速に検出し,診断し,局所化するためのデータ駆動アプローチを提案する。 提案手法は、オートエンコーダに基づく異常検出と注意に基づく双方向ゲート再帰単位アルゴリズムを組み合わせることで、故障検出に前者が用いられ、後者がオートエンコーダによって異常が検出されると、故障診断とローカライズに採用される。 実運用データを用いた各種異常シナリオ実験により,提案手法の有効性を検証した。 実験結果はこう示しています (i)自動エンコーダは、f1スコア96.86%のファイバ障害又は異常を検出する。 (ii)注意に基づく双方向ゲート再帰単位アルゴリズムは、検出された異常を平均98.2%の精度で識別し、平均根平均二乗誤差0.19mで障害を局在化する。

Secure and reliable data communication in optical networks is critical for high-speed Internet. However, optical fibers, serving as the data transmission medium providing connectivity to billons of users worldwide, are prone to a variety of anomalies resulting from hard failures (e.g., fiber cuts) and malicious physical attacks (e.g., optical eavesdropping (fiber tapping)) etc. Such anomalies may cause network disruption and thereby inducing huge financial and data losses, or compromise the confidentiality of optical networks by gaining unauthorized access to the carried data, or gradually degrade the network operations. Therefore, it is highly required to implement efficient anomaly detection, diagnosis, and localization schemes for enhancing the availability and reliability of optical networks. In this paper, we propose a data driven approach to accurately and quickly detect, diagnose, and localize fiber anomalies including fiber cuts, and optical eavesdropping attacks. The proposed method combines an autoencoder-based anomaly detection and an attention-based bidirectional gated recurrent unit algorithm, whereby the former is used for fault detection and the latter is adopted for fault diagnosis and localization once an anomaly is detected by the autoencoder. We verify the efficiency of our proposed approach by experiments under various anomaly scenarios using real operational data. The experimental results demonstrate that: (i) the autoencoder detects any fiber fault or anomaly with an F1 score of 96.86%; and (ii) the attention-based bidirectional gated recurrent unit algorithm identifies the the detected anomalies with an average accuracy of 98.2%, and localizes the faults with an average root mean square error of 0.19 m.
翻訳日:2022-04-17 10:25:11 公開日:2022-03-19
# (参考訳) 有雑音otdr信号による光ファイバーリンクの反射イベント検出とキャラクタリゼーションのための畳み込みニューラルネットワーク [全文訳有]

Convolutional Neural Networks for Reflective Event Detection and Characterization in Fiber Optical Links Given Noisy OTDR Signals ( http://arxiv.org/abs/2203.14820v1 )

ライセンス: CC BY 4.0
Khouloud Abdelli, Helmut Griesser, and Stephan Pachnicke(参考訳) 光ファイバーケーブルの高速かつ正確な故障検出と位置決めは、光ネットワークの生存可能性と信頼性を確保するために非常に重要である。 したがって、光時間領域反射法(OTDR)装置で得られたテレメトリデータを利用して、リアルタイム光ファイバー故障検出および診断のための自動かつ信頼性の高いアルゴリズムを開発する必要がある。 本稿では,SNR(signal-to-noise ratio)値が0dBから30dBに変化し,反射事象パターンを取り入れた,ノイズを模擬したOTDRデータに基づく,畳み込みニューラルネットワーク(CNN)に基づく新しいデータ駆動手法を提案する。 シミュレーションでは,従来の手法と比較して,低いSNR値であっても,誤警報率と位置推定精度の高い検出性能を実現した。

Fast and accurate fault detection and localization in fiber optic cables is extremely important to ensure the optical network survivability and reliability. Hence there exists a crucial need to develop an automatic and reliable algorithm for real time optical fiber fault detection and diagnosis leveraging the telemetry data obtained by an optical time domain reflectometry (OTDR) instrument. In this paper, we propose a novel data driven approach based on convolutional neural networks (CNNs) to detect and characterize the fiber reflective faults given noisy simulated OTDR data, whose SNR (signal-to-noise ratio) values vary from 0 dB to 30 dB, incorporating reflective event patterns. In our simulations, we achieved a higher detection capability with low false alarm rate and greater localization accuracy even for low SNR values compared to conventionally employed techniques.
翻訳日:2022-04-03 19:25:32 公開日:2022-03-19
# (参考訳) 機械学習を用いた1550nmDFBレーザーの寿命予測 [全文訳有]

Lifetime Prediction of 1550 nm DFB Laser using Machine learning Techniques ( http://arxiv.org/abs/2203.14762v1 )

ライセンス: CC BY 4.0
Khouloud Abdelli, Danish Rafique, Helmut Griesser, and Stephan Pachnicke(参考訳) 1.55 um ingaasp mqw-dfbレーザーダイオードの寿命予測のための人工ニューラルネットワーク(ann)に基づく新しい手法を提案する。 加速老化試験により従来の寿命予測よりも優れる。

A novel approach based on an artificial neural network (ANN) for lifetime prediction of 1.55 um InGaAsP MQW-DFB laser diodes is presented. It outperforms the conventional lifetime projection using accelerated aging tests.
翻訳日:2022-04-03 19:19:33 公開日:2022-03-19
# (参考訳) P-MADDPGに基づく創発的事象の意思決定 [全文訳有]

Decision-making of Emergent Incident based on P-MADDPG ( http://arxiv.org/abs/2203.12673v1 )

ライセンス: CC BY 4.0
Yibo Guo, Lishuo Hou, Mingxin Li, Yue Yuan, Shun Liu, Jingyi Xue, Yafang Han, Mingliang Xu(参考訳) 近年,突発的な事故による人的被害や資源被害が世界中で深刻な問題となっている。 本稿では、緊急意思決定問題をモデル化し、マルチエージェントシステム(MAS)を用いて、決定速度が拡散速度に追従できないという問題を解決する。 MASはミッション完了時間を短縮するためにこれらのタスクの自動実行において重要な役割を果たす。 本稿では,次回にインシデントが発生しそうなノードを gru モデルで予測し,インシデント発生前に決定する創発的インシデントの緊急意思決定問題を解決する p-maddpg アルゴリズムを提案する。 現実的なシナリオを対象としたシミュレーション環境を構築し, 緊急時の緊急意思決定問題として, 無人貯蔵, 工場組立ライン, 市民空港荷物輸送の3つのシナリオを選定した。 P-MADDPGアルゴリズムを用いたシミュレーション結果とgreedyアルゴリズムとMADDPGアルゴリズムを比較し,P-MADDPGアルゴリズムは異なるサイズのシナリオにおいて,他のアルゴリズムよりも高速に収束することを示す。 P-MADDPアルゴリズムは緊急時の緊急意思決定に有効であることを示す。

In recent years, human casualties and damage to resources caused by emergent incidents have become a serious problem worldwide. In this paper, we model the emergency decision-making problem and use Multi-agent System (MAS) to solve the problem that the decision speed cannot keep up with the spreading speed. MAS can play an important role in the automated execution of these tasks to reduce mission completion time. In this paper, we propose a P-MADDPG algorithm to solve the emergency decision-making problem of emergent incidents, which predicts the nodes where an incident may occur in the next time by GRU model and makes decisions before the incident occurs, thus solving the problem that the decision speed cannot keep up with the spreading speed. A simulation environment was established for realistic scenarios, and three scenarios were selected to test the performance of P-MADDPG in emergency decision-making problems for emergent incidents: unmanned storage, factory assembly line, and civil airport baggage transportation. Simulation results using the P-MADDPG algorithm are compared with the greedy algorithm and the MADDPG algorithm, and the final experimental results show that the P-MADDPG algorithm converges faster and better than the other algorithms in scenarios of different sizes. This shows that the P-MADDP algorithm is effective for emergency decision-making in emergent incident.
翻訳日:2022-03-27 05:41:59 公開日:2022-03-19
# (参考訳) 知識蒸留によるニューラルネットワークによる量子ダイナミクスのシミュレーション [全文訳有]

Emulating Quantum Dynamics with Neural Networks via Knowledge Distillation ( http://arxiv.org/abs/2203.10200v1 )

ライセンス: CC BY 4.0
Yu Yao, Chao Cao, Stephan Haas, Mahak Agarwal, Divyam Khanna, Marcin Abram(参考訳) 高忠実な量子力学エミュレータは複雑な物理系の時間進化を予測するのに使うことができる。 本稿では,機械学習に基づくエミュレータ構築のための効率的な学習フレームワークを提案する。 我々のアプローチは知識蒸留の考え方に基づいており、カリキュラム学習の要素を利用する。 単純な、しかし、体育的な訓練例(カリキュラム)のセットを構築することで機能する。 これらの例は、量子系の時間発展を記述する一般的な規則(知識蒸留)を学ぶためにエミュレータによって使用される。 目標は、高品質な予測を得るだけでなく、エミュレータが基礎となる問題の物理をどのように学習するかを調べることである。 これにより、物理系に関する新しい事実を発見し、対称性を検出し、貢献する物理過程の相対的重要性を測定することができる。 本稿では、ニューラルネットワークをトレーニングして、潜在的景観を伝播する量子波パッケージの時間的進化を予測する。 簡単なトレーニング例のカリキュラムから,エミュレータが量子力学の規則をどのように学習するか,より困難なケースを解決するために獲得した知識をどの程度一般化できるか,といった問題に焦点をあてる。

High-fidelity quantum dynamics emulators can be used to predict the time evolution of complex physical systems. Here, we introduce an efficient training framework for constructing machine learning-based emulators. Our approach is based on the idea of knowledge distillation and uses elements of curriculum learning. It works by constructing a set of simple, but rich-in-physics training examples (a curriculum). These examples are used by the emulator to learn the general rules describing the time evolution of a quantum system (knowledge distillation). The goal is not only to obtain high-quality predictions, but also to examine the process of how the emulator learns the physics of the underlying problem. This allows us to discover new facts about the physical system, detect symmetries, and measure relative importance of the contributing physical processes. We illustrate this approach by training an artificial neural network to predict the time evolution of quantum wave packages propagating through a potential landscape. We focus on the question of how the emulator learns the rules of quantum dynamics from the curriculum of simple training examples and to which extent it can generalize the acquired knowledge to solve more challenging cases.
翻訳日:2022-03-27 01:36:01 公開日:2022-03-19
# (参考訳) 自己教師付き学習によるパターン形成過程の位相的遷移の推定 [全文訳有]

Inferring topological transitions in pattern-forming processes with self-supervised learning ( http://arxiv.org/abs/2203.10204v1 )

ライセンス: CC BY 4.0
Marcin Abram, Keith Burghardt, Greg Ver Steeg, Aram Galstyan, Remi Dingreville(参考訳) パターン形成過程におけるトポロジカルおよびミクロ組織的構造における遷移の同定と分類は、多くの応用領域において、ミクロ構造的に精密な新規材料の理解と構築に重要である。 残念なことに、関連するミクロ構造遷移は、相転移の古典的な理論では捉えられない微妙で複雑な方法でプロセスパラメータに依存するかもしれない。 教師付き機械学習はトランジッションレジームを特定するのに有用であるが、順序パラメータや関連する構造の事前知識を必要とするラベルが必要である。 動的システムの普遍性原理により、我々は、ニューラルネットワークを用いて観察されたミクロ構造からプロセスパラメータを予測する逆問題を解決するために、自己教師付きアプローチを用いる。 このアプローチでは、組織遷移を予測するターゲットタスクに関するラベル付きデータを必要としない。 本研究は, 構造パターンの質的変化が, 自己教師あり予測問題に対する不確実性の変化に対応しているため, 予測課題の実行が困難であることを示す。 2相混合物のスピノダル分解と, 薄膜の物理的蒸着過程における二元系合金の濃度変調の形成という2つの異なるパターン形成過程において, 組織的遷移を自動的に発見することで, アプローチの価値を実証する。 このアプローチは、見当たらない、または検出しにくいトランジッションレジームを発見し、理解し、最終的に複雑なパターン形成プロセスを制御するための有望な道を開く。

The identification and classification of transitions in topological and microstructural regimes in pattern-forming processes is critical for understanding and fabricating microstructurally precise novel materials in many application domains. Unfortunately, relevant microstructure transitions may depend on process parameters in subtle and complex ways that are not captured by the classic theory of phase transition. While supervised machine learning methods may be useful for identifying transition regimes, they need labels which require prior knowledge of order parameters or relevant structures. Motivated by the universality principle for dynamical systems, we instead use a self-supervised approach to solve the inverse problem of predicting process parameters from observed microstructures using neural networks. This approach does not require labeled data about the target task of predicting microstructure transitions. We show that the difficulty of performing this prediction task is related to the goal of discovering microstructure regimes, because qualitative changes in microstructural patterns correspond to changes in uncertainty for our self-supervised prediction problem. We demonstrate the value of our approach by automatically discovering transitions in microstructural regimes in two distinct pattern-forming processes: the spinodal decomposition of a two-phase mixture and the formation of concentration modulations of binary alloys during physical vapor deposition of thin films. This approach opens a promising path forward for discovering and understanding unseen or hard-to-detect transition regimes, and ultimately for controlling complex pattern-forming processes.
翻訳日:2022-03-27 01:10:35 公開日:2022-03-19
# (参考訳) Volkit: 3Dボリュームデータのためのパフォーマンス対応コンピュータビジョンライブラリ [全文訳有]

Volkit: A Performance-Portable Computer Vision Library for 3D Volumetric Data ( http://arxiv.org/abs/2203.10213v1 )

ライセンス: CC BY 4.0
Stefan Zellmann and Giovanni Aguirre and J\"urgen P. Schulze(参考訳) 画像操作と3次元ボリューム表現に焦点を当てたコンピュータビジョンアルゴリズムを高性能に実装した,オープンソースのライブラリであるvolkitを提案する。 Volkitは、CPUとGPUの両方を対象として、クロスプラットフォームでパフォーマンス対応のAPIを実装している。 我々はVolkitを使用して、VRでレンダリングされた医療およびシミュレーションデータを処理し、ライブラリをC++バーチャルリアリティソフトウェアCalVRに統合した。 本稿では,ケーススタディと性能について述べるとともに,本手法の有効性と有効性を示す。

We present volkit, an open source library with high performance implementations of image manipulation and computer vision algorithms that focus on 3D volumetric representations. Volkit implements a cross-platform, performance-portable API targeting both CPUs and GPUs that defers data and resource movement and hides them from the application developer using a managed API. We use volkit to process medical and simulation data that is rendered in VR and consequently integrated the library into the C++ virtual reality software CalVR. The paper presents case studies and performance results and by that demonstrates the library's effectiveness and the efficiency of this approach.
翻訳日:2022-03-27 00:50:38 公開日:2022-03-19
# (参考訳) グローバル最適化非凸制約問題に対する反射勾配ランジュバンダイナミクスの収束誤差解析 [全文訳有]

Convergence Error Analysis of Reflected Gradient Langevin Dynamics for Globally Optimizing Non-Convex Constrained Problems ( http://arxiv.org/abs/2203.10215v1 )

ライセンス: CC BY 4.0
Kanji Sato, Akiko Takeda, Reiichiro Kawai, Taiji Suzuki(参考訳) 非凸最適化問題には様々な重要な応用があるが、多くのアルゴリズムは定常点に収束することが証明されている。 一方、勾配ランジュバンダイナミクス(gld)とその変種は、非凸設定における大域的な解に対する理論的収束保証を提供するフレームワークとして注目されている。 GLDの研究は、最初は制約のない凸問題を扱い、最近になってLamperski (2021) による非凸問題に拡張された。 この研究では、ある種の非凸可能領域で非凸問題を扱うことができる。 本研究は,非凸制約問題を含む滑らかな制約問題に対する大域的最適化アルゴリズムである反射勾配ランジュバンダイナミクス(rgld)を解析し,$\epsilon$-sampling エラーのある解への収束率を導出する。 収束速度は凸制約ケースに対してLamperski (2021) が与えたものよりも速い。 我々の証明はポアソン方程式を利用して高速収束率の反射を効果的に活用する。

Non-convex optimization problems have various important applications, whereas many algorithms have been proven only to converge to stationary points. Meanwhile, gradient Langevin dynamics (GLD) and its variants have attracted increasing attention as a framework to provide theoretical convergence guarantees for a global solution in non-convex settings. The studies on GLD initially treated unconstrained convex problems and very recently expanded to convex constrained non-convex problems by Lamperski (2021). In this work, we can deal with non-convex problems with some kind of non-convex feasible region. This work analyzes reflected gradient Langevin dynamics (RGLD), a global optimization algorithm for smoothly constrained problems, including non-convex constrained ones, and derives a convergence rate to a solution with $\epsilon$-sampling error. The convergence rate is faster than the one given by Lamperski (2021) for convex constrained cases. Our proofs exploit the Poisson equation to effectively utilize the reflection for the faster convergence rate.
翻訳日:2022-03-27 00:38:26 公開日:2022-03-19
# (参考訳) アドバイス蒸留による教育性強化学習 [全文訳有]

Teachable Reinforcement Learning via Advice Distillation ( http://arxiv.org/abs/2203.11197v1 )

ライセンス: CC BY 4.0
Olivia Watkins, Trevor Darrell, Pieter Abbeel, Jacob Andreas, Abhishek Gupta(参考訳) 強化学習には報酬関数の慎重なハンドエンジニアリングが必要であり、模倣学習には特別なインフラと人間の専門家へのアクセスが必要であり、中間的な形式の監督(二元的嗜好など)からの学習には時間がかかり、人間の介入からほとんど情報を取り出すことができない。 リッチでインタラクティブなフィードバックから学ぶエージェントを構築することで、これらの課題を克服できますか? 外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。 我々はまず,教師が提供する複数のアドバイスを学習者に提供可能な,ループ内意思決定のクラスを定式化することから始める。 次に、まずアドバイスを解釈し、次にアドバイスから学び、人間の監督がなくてもタスクを完了させる、これらの問題に対する単純な学習アルゴリズムを記述する。 パズル解決,ナビゲーション,移動領域において,アドバイスから学習するエージェントは,標準的な強化学習アルゴリズムよりも人的監督力が少なく,模倣学習よりもはるかに少ない新しいスキルを習得できることを示す。

Training automated agents to complete complex tasks in interactive environments is challenging: reinforcement learning requires careful hand-engineering of reward functions, imitation learning requires specialized infrastructure and access to a human expert, and learning from intermediate forms of supervision (like binary preferences) is time-consuming and extracts little information from each human intervention. Can we overcome these challenges by building agents that learn from rich, interactive feedback instead? We propose a new supervision paradigm for interactive learning based on "teachable" decision-making systems that learn from structured advice provided by an external teacher. We begin by formalizing a class of human-in-the-loop decision making problems in which multiple forms of teacher-provided advice are available to a learner. We then describe a simple learning algorithm for these problems that first learns to interpret advice, then learns from advice to complete tasks even in the absence of human supervision. In puzzle-solving, navigation, and locomotion domains, we show that agents that learn from advice can acquire new skills with significantly less human supervision than standard reinforcement learning algorithms and often less than imitation learning.
翻訳日:2022-03-26 23:54:33 公開日:2022-03-19
# (参考訳) chartqa: 視覚的および論理的推論によるチャートに関する質問応答ベンチマーク [全文訳有]

ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning ( http://arxiv.org/abs/2203.10244v1 )

ライセンス: CC BY 4.0
Ahmed Masry, Do Xuan Long, Jia Qing Tan, Shafiq Joty, Enamul Hoque(参考訳) グラフはデータ分析にとても人気があります。 チャートを調べるとき、人々はいくつかの論理演算や算術演算を含む様々な複雑な推論の質問をする。 質問では、チャートの視覚的な特徴についても言及することが多い。 しかし、既存のデータセットの多くは、テンプレートベースであり、回答は固定語彙から来るので、そのような複雑な推論の問題に焦点を合わせていない。 本稿では、9.6kの人文的質問と23.1kの人文的質問を網羅する大規模ベンチマークを提案する。 グラフ上の視覚的推論と論理的推論を含むベンチマークにおけるユニークな課題に対処するために,視覚的特徴とグラフのデータテーブルを組み合わせた2つのトランスフォーマーモデルを提案する。 我々のモデルは、以前のデータセットとベンチマークで最先端の結果を達成する一方で、複雑な推論問題に答える上でのいくつかの課題も明らかにしている。

Charts are very popular for analyzing data. When exploring charts, people often ask a variety of complex reasoning questions that involve several logical and arithmetic operations. They also commonly refer to visual features of a chart in their questions. However, most existing datasets do not focus on such complex reasoning questions as their questions are template-based and answers come from a fixed-vocabulary. In this work, we present a large-scale benchmark covering 9.6K human-written questions as well as 23.1K questions generated from human-written chart summaries. To address the unique challenges in our benchmark involving visual and logical reasoning over charts, we present two transformer-based models that combine visual features and the data table of the chart in a unified way to answer questions. While our models achieve the state-of-the-art results on the previous datasets as well as on our benchmark, the evaluation also reveals several challenges in answering complex reasoning questions.
翻訳日:2022-03-26 23:28:32 公開日:2022-03-19
# (参考訳) 表現非依存形状場 [全文訳有]

Representation-Agnos tic Shape Fields ( http://arxiv.org/abs/2203.10259v1 )

ライセンス: CC BY 4.0
Xiaoyang Huang, Jiancheng Yang, Yanjun Wang, Ziyu Chen, Linguo Li, Teng Li, Bingbing Ni, Wenjun Zhang(参考訳) 3次元形状解析は深層学習の時代に広く研究されてきた。 メッシュ用のMeshCNN、ポイントクラウド用のPointNet、ボクセル用のVoxNetなど、さまざまな3Dデータ表現フォーマット用のモデルが開発されている。 本研究では,3次元深層学習のための汎用的で計算効率の良い形状埋め込みモジュールであるRepresentation-Agnos tic Shape Fields (RASF)を提案する。 RASFは学習可能な3Dグリッドで実装され、複数のチャンネルで局所幾何学を格納する。 RASFに基づいて,様々な3次元形状表現(点雲,メッシュ,ボクセル)の形状埋め込みを座標インデックスにより検索する。 RASFの学習可能なパラメータを最適化するには複数の方法があるが,本論文ではRASF事前学習において,形状再構成と正規推定という2つの効果的な手法を提案する。 一度訓練すると、RASFは無視できるコストでプラグアンドプレイのパフォーマンス向上剤となる。 多様な3次元表現形式,ネットワーク,アプリケーションに関する広範な実験により,提案したRASFの普遍的有効性を検証する。 コードおよび事前訓練されたモデルは、https://github.com/s eanywang0408/RASFで公開されている。

3D shape analysis has been widely explored in the era of deep learning. Numerous models have been developed for various 3D data representation formats, e.g., MeshCNN for meshes, PointNet for point clouds and VoxNet for voxels. In this study, we present Representation-Agnos tic Shape Fields (RASF), a generalizable and computation-efficien t shape embedding module for 3D deep learning. RASF is implemented with a learnable 3D grid with multiple channels to store local geometry. Based on RASF, shape embeddings for various 3D shape representations (point clouds, meshes and voxels) are retrieved by coordinate indexing. While there are multiple ways to optimize the learnable parameters of RASF, we provide two effective schemes among all in this paper for RASF pre-training: shape reconstruction and normal estimation. Once trained, RASF becomes a plug-and-play performance booster with negligible cost. Extensive experiments on diverse 3D representation formats, networks and applications, validate the universal effectiveness of the proposed RASF. Code and pre-trained models are publicly available https://github.com/s eanywang0408/RASF
翻訳日:2022-03-26 23:07:21 公開日:2022-03-19
# (参考訳) FaiRR: 自然言語に対する忠実でロバストな推論 [全文訳有]

FaiRR: Faithful and Robust Deductive Reasoning over Natural Language ( http://arxiv.org/abs/2203.10261v1 )

ライセンス: CC BY 4.0
Soumya Sanyal, Harman Singh, Xiang Ren(参考訳) トランスフォーマーは、自然言語で書かれた規則や文を含む論理ルールベースで演能的推論を実行できることが示されている。 最近の研究は、そのようなモデルがモデルの論理的推論過程をエミュレートする推論ステップ(すなわち証明グラフ)を生成できることを示している。 現在、これらのブラックボックスモデルは、同じモデル内の証明グラフと中間推論の両方を生成するため、偽りである可能性がある。 本研究では,ルール選択,事実選択,知識構成という3つのモジュールコンポーネントを定義することにより,推論タスクをフレーム化する。 ルールと事実選択ステップは、使用する候補ルールと事実を選択し、その後、知識合成がそれらを組み合わせて新しい推論を生成する。 これにより、証明ステップから推論推論への因果関係を確実にすることで、モデルの忠実性を保証する。 フレームワークをテストするために、上記3つのコンポーネントを独立してトランスフォーマーでモデル化するFaiRR(Faithful and Robust Reasoner)を提案する。 我々は、FaiRRが新しい言語の摂動に対して堅牢であり、既存の推論データセットよりも推論が速いことを観察した。 さらに、ブラックボックス生成モデルとは対照的に、FaiRRによる誤差はモジュラーアプローチによりより解釈可能である。

Transformers have been shown to be able to perform deductive reasoning on a logical rulebase containing rules and statements written in natural language. Recent works show that such models can also produce the reasoning steps (i.e., the proof graph) that emulate the model's logical reasoning process. Currently, these black-box models generate both the proof graph and intermediate inferences within the same model and thus may be unfaithful. In this work, we frame the deductive logical reasoning task by defining three modular components: rule selection, fact selection, and knowledge composition. The rule and fact selection steps select the candidate rule and facts to be used and then the knowledge composition combines them to generate new inferences. This ensures model faithfulness by assured causal relation from the proof step to the inference reasoning. To test our framework, we propose FaiRR (Faithful and Robust Reasoner) where the above three components are independently modeled by transformers. We observe that FaiRR is robust to novel language perturbations, and is faster at inference than previous works on existing reasoning datasets. Additionally, in contrast to black-box generative models, the errors made by FaiRR are more interpretable due to the modular approach.
翻訳日:2022-03-26 22:47:10 公開日:2022-03-19
# (参考訳) eXplainable AIを用いた予測アルゴリズムにおける性バイアスの評価 [全文訳有]

Assessing Gender Bias in Predictive Algorithms using eXplainable AI ( http://arxiv.org/abs/2203.10264v1 )

ライセンス: CC BY 4.0
Cristina Manresa-Yee and Silvia Ramis(参考訳) 予測アルゴリズムは、医学や教育など様々な分野で利益をもたらす強力な可能性を秘めている。 しかし、これらのアルゴリズムとそれらが使用するデータは人間によって構築されるため、人間に存在する偏見や偏見を継承することができる。 結果は、不公平な結果をもたらすエラーを体系的に繰り返すことができ、差別の状況(例えば、性別、社会的、人種)につながることもある。 バイアスを避けるために多種多様なトレーニングデータセットを数えることがいかに重要かを説明するために、表情認識データセットを操作し、性別バイアスを探索し、その意味を議論する。

Predictive algorithms have a powerful potential to offer benefits in areas as varied as medicine or education. However, these algorithms and the data they use are built by humans, consequently, they can inherit the bias and prejudices present in humans. The outcomes can systematically repeat errors that create unfair results, which can even lead to situations of discrimination (e.g. gender, social or racial). In order to illustrate how important is to count with a diverse training dataset to avoid bias, we manipulate a well-known facial expression recognition dataset to explore gender bias and discuss its implications.
翻訳日:2022-03-26 22:23:36 公開日:2022-03-19
# (参考訳) denoising convolutional autoencoderとbidirectional long short-term memoryを用いたノイズotdrトレースにおける光ファイバ障害の検出と局在 [全文訳有]

Optical Fiber Fault Detection and Localization in a Noisy OTDR Trace Based on Denoising Convolutional Autoencoder and Bidirectional Long Short-Term Memory ( http://arxiv.org/abs/2203.12604v1 )

ライセンス: CC BY 4.0
khouloud Abdelli, Helmut Griesser, Carsten Tropschug, and Stephan Pachnicke(参考訳) 光時間領域反射法(OTDR)は、光ファイバーリンクの特徴付けや繊維欠陥の検出や位置決めに広く用いられている。 OTDRトレースは、異なる種類のノイズによって歪む傾向があり、後方散乱された信号がぼやけてしまい、誤解を招く解釈と、より厄介なイベント検出タスクにつながる。 この問題に対処するため, 畳み込み畳み込み型オートエンコーダ(DCAE)と双方向長短期メモリ(BiLSTM)を組み合わせた新しい手法を提案し, 前者はOTDR信号のノイズ除去, 後者は故障検出, 局所化, 診断を入力として使用する。 提案手法は,5dBから15dBまでの入力SNRレベルが異なる雑音のOTDR信号に適用する。 実験結果はこう示しています i) DCAEはOTDRトレースを復調するのに効率的であり、他の深層学習技術や従来の復調方法よりも優れている。 (II) BiLSTMは、ノイズOTDR信号で訓練された同じモデルの性能と比較して、96.7%の高感度で13.74%の改善を実現している。

Optical time-domain reflectometry (OTDR) has been widely used for characterizing fiber optical links and for detecting and locating fiber faults. OTDR traces are prone to be distorted by different kinds of noise, causing blurring of the backscattered signals, and thereby leading to a misleading interpretation and a more cumbersome event detection task. To address this problem, a novel method combining a denoising convolutional autoencoder (DCAE) and a bidirectional long short-term memory (BiLSTM) is proposed, whereby the former is used for noise removal of OTDR signals and the latter for fault detection, localization, and diagnosis with the denoised signal as input. The proposed approach is applied to noisy OTDR signals of different levels of input SNR ranging from -5 dB to 15 dB. The experimental results demonstrate that: (i) the DCAE is efficient in denoising the OTDR traces and it outperforms other deep learning techniques and the conventional denoising methods; and (ii) the BiLSTM achieves a high detection and diagnostic accuracy of 96.7% with an improvement of 13.74% compared to the performance of the same model trained with noisy OTDR signals.
翻訳日:2022-03-26 22:14:06 公開日:2022-03-19
# (参考訳) 半導体レーザの寿命予測のための連合学習手法 [全文訳有]

Federated Learning Approach for Lifetime Prediction of Semiconductor Lasers ( http://arxiv.org/abs/2203.12414v1 )

ライセンス: CC BY 4.0
khouloud Abdelli, Helmut Griesser, and Stephan Pachnicke(参考訳) レーザーメーカが堅牢なMLベースのレーザー寿命予測モデルを構築するための,新たなプライバシ保護フェデレーション学習フレームワークを提案する。 平均的な絶対誤差0.1年の達成と大幅な性能向上

A new privacy-preserving federated learning framework allowing laser manufacturers to collaboratively build a robust ML-based laser lifetime prediction model, is proposed. It achieves a mean absolute error of 0.1 years and a significant performance improvement
翻訳日:2022-03-26 22:00:55 公開日:2022-03-19
# (参考訳) レーザー寿命予測のためのハイブリッドcnn-lstm法 [全文訳有]

A Hybrid CNN-LSTM Approach for Laser Remaining Useful Life Prediction ( http://arxiv.org/abs/2203.12415v1 )

ライセンス: CC BY 4.0
khouloud Abdelli, Helmut Griesser, and Stephan Pachnicke(参考訳) 畳み込みニューラルネットワーク(CNN)と長短期記憶(LSTM)に基づくハイブリッド予測モデルを提案し,レーザー残効寿命(RUL)を予測する。 実験の結果,従来の方法よりも優れていた。

A hybrid prognostic model based on convolutional neural networks (CNN) and long short-term memory (LSTM) is proposed to predict the laser remaining useful life (RUL). The experimental results show that it outperforms the conventional methods.
翻訳日:2022-03-26 21:56:25 公開日:2022-03-19
# (参考訳) ゲート型リカレントユニットを用いたパッシブ光ネットワークにおける光リンク故障診断用オートエンコーダ [全文訳有]

Gated Recurrent Unit based Autoencoder for Optical Link Fault Diagnosis in Passive Optical Networks ( http://arxiv.org/abs/2203.11727v1 )

ライセンス: CC BY 4.0
Khouloud Abdelli, Florian Azendorf, Helmut Griesser, Carsten Tropschug, Stephan Pachnicke(参考訳) 受動光ネットワークにおけるファイバ故障の特定と位置決定のためのオートエンコーダに基づく深層学習手法を提案する。 実験の結果,提案手法は97%の精度で故障を検知し,0.18mのrmseで検出し,従来の手法を上回った。

We propose a deep learning approach based on an autoencoder for identifying and localizing fiber faults in passive optical networks. The experimental results show that the proposed method detects faults with 97% accuracy, pinpoints them with an RMSE of 0.18 m and outperforms conventional techniques.
翻訳日:2022-03-26 21:52:37 公開日:2022-03-19
# (参考訳) 質問応答と通路検索によるクリックベイトスポイリング [全文訳有]

Clickbait Spoiling via Question Answering and Passage Retrieval ( http://arxiv.org/abs/2203.10282v1 )

ライセンス: CC BY-SA 4.0
Matthias Hagen and Maik Fr\"obe and Artur Jurk and Martin Potthast(参考訳) クリックベイト投稿によって引き起こされる好奇心を満たす短いテキストを生成する。 clickbaitはウェブページへのリンクをリンクし、興味を喚起してコンテンツを宣伝する。 私たちの貢献は、必要なスポイラーの種類(句や節)を分類し、適切なスポイラーを生成するためのアプローチです。 Webis Clickbait Spoiling Corpus 2022 という,5,000 個の手作業によるクリックベイトポストの新しいコーパスに対する大規模な評価とエラー解析は,我々のスポイラー型分類器が80%の精度を実現していることを示している。

We introduce and study the task of clickbait spoiling: generating a short text that satisfies the curiosity induced by a clickbait post. Clickbait links to a web page and advertises its contents by arousing curiosity instead of providing an informative summary. Our contributions are approaches to classify the type of spoiler needed (i.e., a phrase or a passage), and to generate appropriate spoilers. A large-scale evaluation and error analysis on a new corpus of 5,000 manually spoiled clickbait posts -- the Webis Clickbait Spoiling Corpus 2022 -- shows that our spoiler type classifier achieves an accuracy of 80%, while the question answering model DeBERTa-large outperforms all others in generating spoilers for both types.
翻訳日:2022-03-26 21:48:28 公開日:2022-03-19
# (参考訳) レーザ信頼性向上のための機械学習に基づくデータ駆動診断・予後予測手法 [全文訳有]

Machine Learning based Data Driven Diagnostic and Prognostic Approach for Laser Reliability Enhancement ( http://arxiv.org/abs/2203.11728v1 )

ライセンス: CC BY 4.0
khouloud Abdelli, Helmut Griesser, and Stephan Pachnicke(参考訳) 本稿では, 機械学習に基づくデータ駆動型診断・診断手法を提案し, レーザー故障モードを検出し, 動作中のレーザーの残存寿命(RUL)を予測する。 提案する認知的予測維持フレームワークのアーキテクチャを提案し,その効果を合成データを用いて実証する。

In this paper, a data-driven diagnostic and prognostic approach based on machine learning is proposed to detect laser failure modes and to predict the remaining useful life (RUL) of a laser during its operation. We present an architecture of the proposed cognitive predictive maintenance framework and demonstrate its effectiveness using synthetic data.
翻訳日:2022-03-26 21:27:07 公開日:2022-03-19
# (参考訳) 機械学習によるレーザー故障モード検出 [全文訳有]

Machine Learning based Laser Failure Mode Detection ( http://arxiv.org/abs/2203.11729v1 )

ライセンス: CC BY 4.0
khouloud Abdelli, Danish Rafique, and Stephan Pachnicke(参考訳) レーザ劣化解析は、レーザ信頼性を高めるための重要なプロセスである。 本稿では,Long Short-Term Memory(LSTM)リカレントニューラルネットワークに基づくデータ駆動型故障検出手法を提案する。 24.41%の分類精度を持つ典型的なしきい値ベースのシステムと比較すると、LSTMベースのモデルは95.52%の精度を達成し、Random Forest(RF)、K-Nearest Neighbours(KNN)、Logistic Regression(LR)といった古典的な機械学習(ML)モデルよりも優れている。

Laser degradation analysis is a crucial process for the enhancement of laser reliability. Here, we propose a data-driven fault detection approach based on Long Short-Term Memory (LSTM) recurrent neural networks to detect the different laser degradation modes based on synthetic historical failure data. In comparison to typical threshold-based systems, attaining 24.41% classification accuracy, the LSTM-based model achieves 95.52% accuracy, and also outperforms classical machine learning (ML) models namely Random Forest (RF), K-Nearest Neighbours (KNN) and Logistic Regression (LR).
翻訳日:2022-03-26 21:23:23 公開日:2022-03-19
# (参考訳) 高品質ビデオフレーム補間のための動きのあいまいさとアライメントの探索 [全文訳有]

Exploring Motion Ambiguity and Alignment for High-Quality Video Frame Interpolation ( http://arxiv.org/abs/2203.10291v1 )

ライセンス: CC BY 4.0
Kun Zhou, Wenbo Li, Xiaoguang Han, Jiangbo Lu(参考訳) ビデオフレーム補間(vfi)では、既存のディープラーニングベースのアプローチは、接地(gt)中間フレームに強く依存しており、与えられた隣接フレームから判断される不自然な動きの性質を無視することがある。 その結果、これらの手法は十分に明確でない平均解を生成する傾向にある。 この問題を軽減するため、GTに近い中間フレームを可能な限り再構築する要件を緩和することを提案する。 この目的のために、補間されたコンテンツは、与えられたフレーム内の他のコンテンツと類似した構造を維持するべきであるという仮定に基づいて、テクスチャ整合損失(TCL)を開発する。 この制約を満たす予測は推奨されるが、事前に定義されたGTとは異なる場合もある。 ベルとホイッスルがなければ、既存のVFIフレームワークの性能を向上させることができる。 一方、従来の手法ではコストボリュームや相関マップを採用し、より正確な画像や特徴のウォーピングを実現する。 しかし、O(N^2) ({N はピクセル数を意味する) の計算複雑性は、高分解能ケースでは実現不可能である。 本研究では,マルチスケール情報を高度に活用する,単純で効率的な(o(n))かつ強力なクロススケールピラミッドアライメント(cspa)モジュールを設計した。 広範な実験は,提案手法の効率性と有効性を正当化する。

For video frame interpolation (VFI), existing deep-learning-based approaches strongly rely on the ground-truth (GT) intermediate frames, which sometimes ignore the non-unique nature of motion judging from the given adjacent frames. As a result, these methods tend to produce averaged solutions that are not clear enough. To alleviate this issue, we propose to relax the requirement of reconstructing an intermediate frame as close to the GT as possible. Towards this end, we develop a texture consistency loss (TCL) upon the assumption that the interpolated content should maintain similar structures with their counterparts in the given frames. Predictions satisfying this constraint are encouraged, though they may differ from the pre-defined GT. Without the bells and whistles, our plug-and-play TCL is capable of improving the performance of existing VFI frameworks. On the other hand, previous methods usually adopt the cost volume or correlation map to achieve more accurate image/feature warping. However, the O(N^2) ({N refers to the pixel count}) computational complexity makes it infeasible for high-resolution cases. In this work, we design a simple, efficient (O(N)) yet powerful cross-scale pyramid alignment (CSPA) module, where multi-scale information is highly exploited. Extensive experiments justify the efficiency and effectiveness of the proposed strategy.
翻訳日:2022-03-26 21:19:00 公開日:2022-03-19
# (参考訳) 意味から知覚へ --単語と嗅覚の埋め込みの間の空間を探索する [全文訳有]

From meaning to perception -- exploring the space between word and odor perception embeddings ( http://arxiv.org/abs/2203.10294v1 )

ライセンス: CC BY 4.0
Janek Amann, Manex Agirrezabal(参考訳) 本稿では,Word2vecアルゴリズムを用いて,公用香料記述のみを用いて,匂いの知覚埋め込み(または匂いの埋め込み)を実現する。 相互に有意義な類似性関係を示すことに加えて、これらの埋め込みはそれぞれの単語の埋め込みと共有情報を持つことを示す。 これらの埋め込みの意味性は、美学が非ランダム結合データに対する分布的意味論によって動機づけられたアルゴリズムの使用に十分な制約を与える可能性があることを示唆している。 さらに、匂いを分類し、香水を分析する新しい方法の可能性も提供する。 また,実際の香水とランダムに生成された香水との差異に基づいて,香水の美的性質を理解するため,組込みを用いた。 さらに, 単語埋め込み空間と匂い知覚埋め込み空間とのマッピングの可能性について検討し, 単語認識埋め込みを共用語彙に組み込むことにより, 夜や空のような先天的な臭いを伴わずに, 単語の匂い知覚埋め込みを予測する。

In this paper we propose the use of the Word2vec algorithm in order to obtain odor perception embeddings (or smell embeddings), only using publicly available perfume descriptions. Besides showing meaningful similarity relationships among each other, these embeddings also demonstrate to possess some shared information with their respective word embeddings. The meaningfulness of these embeddings suggests that aesthetics might provide enough constraints for using algorithms motivated by distributional semantics on non-randomly combined data. Furthermore, they provide possibilities for new ways of classifying odors and analyzing perfumes. We have also employed the embeddings in an attempt to understand the aesthetic nature of perfumes, based on the difference between real and randomly generated perfumes. In an additional tentative experiment we explore the possibility of a mapping between the word embedding space and the odor perception embedding space by fitting a regressor on the shared vocabulary and then predict the odor perception embeddings of words without an a priori associated smell, such as night or sky.
翻訳日:2022-03-26 20:55:09 公開日:2022-03-19
# (参考訳) フレーズレベルユニバーサルビジュアル表現を用いたニューラルマシン翻訳 [全文訳有]

Neural Machine Translation with Phrase-Level Universal Visual Representations ( http://arxiv.org/abs/2203.10299v1 )

ライセンス: CC BY 4.0
Qingkai Fang, Yang Feng(参考訳) マルチモーダル機械翻訳(MMT)は、視覚情報を追加してニューラルマシン翻訳(NMT)を改善することを目的としているが、既存のほとんどのMMT手法では、ソース文と画像のペア入力を必要とするため、文と画像のペアが不足している。 本稿では,既存の文画像データセットからソース入力の視覚情報を取得するためのMMTのフレーズレベル検索に基づく手法を提案し,MMTがペア化された文画像入力の制限を破ることができるようにした。 提案手法は,フレーズレベルでの検索を行い,音源と接地領域のペアから視覚情報を学習することにより,データの疎さを軽減できる。 さらに,条件付き変分オートエンコーダを用いて冗長な視覚情報をフィルタリングし,句に関連する視覚情報のみを保持する視覚表現を学習する。 実験により,提案手法は複数のMTデータセット,特にテキストコンテキストが限定された場合において,強いベースラインを著しく上回ることがわかった。

Multimodal machine translation (MMT) aims to improve neural machine translation (NMT) with additional visual information, but most existing MMT methods require paired input of source sentence and image, which makes them suffer from shortage of sentence-image pairs. In this paper, we propose a phrase-level retrieval-based method for MMT to get visual information for the source input from existing sentence-image data sets so that MMT can break the limitation of paired sentence-image input. Our method performs retrieval at the phrase level and hence learns visual information from pairs of source phrase and grounded region, which can mitigate data sparsity. Furthermore, our method employs the conditional variational auto-encoder to learn visual representations which can filter redundant visual information and only retain visual information related to the phrase. Experiments show that the proposed method significantly outperforms strong baselines on multiple MMT datasets, especially when the textual context is limited.
翻訳日:2022-03-26 20:41:18 公開日:2022-03-19
# (参考訳) 動的配車における時空間粒度が需要予測に及ぼす影響の検討 [全文訳有]

Exploring the impact of spatiotemporal granularity on the demand prediction of dynamic ride-hailing ( http://arxiv.org/abs/2203.10301v1 )

ライセンス: CC BY 4.0
Kai Liu, Zhiju Chen, Toshiyuki Yamamoto and Liheng Tuo(参考訳) 動的需要予測は配車における重要な問題である。 需要対応型配車輸送サービスの増加の需要予測精度を向上させるために多くの手法が開発されている。 しかしながら、多スケール時空間的粒度による配車需要の予測の不確実性や結果として生じる統計誤差は、ほとんど解明されていない。 本稿では,中国成都の実証データを用いて,このギャップを埋め,配車需要予測精度に及ぼす時空間的粒度の影響を検討する。 ヘキサゴナル畳み込み操作(H-ConvLSTM)と組み合わせた畳み込み長短期記憶モデルを提案する。 実験解析の結果,提案手法は予測精度の点で従来の手法よりも優れていることがわかった。 ヘキサゴナル空間分割と800m側の長さと30分間の時間間隔を組み合わせた場合,36の時空間粒度を出発要求と到着要求の両方と比較すると,最も包括的な予測精度が得られた。 しかし、出発要求と到着要求は、様々な時空間的粒度の予測誤差において異なる変動傾向を示す。

Dynamic demand prediction is a key issue in ride-hailing dispatching. Many methods have been developed to improve the demand prediction accuracy of an increase in demand-responsive, ride-hailing transport services. However, the uncertainties in predicting ride-hailing demands due to multiscale spatiotemporal granularity, as well as the resulting statistical errors, are seldom explored. This paper attempts to fill this gap and to examine the spatiotemporal granularity effects on ride-hailing demand prediction accuracy by using empirical data for Chengdu, China. A convolutional, long short-term memory model combined with a hexagonal convolution operation (H-ConvLSTM) is proposed to explore the complex spatial and temporal relations. Experimental analysis results show that the proposed approach outperforms conventional methods in terms of prediction accuracy. A comparison of 36 spatiotemporal granularities with both departure demands and arrival demands shows that the combination of a hexagonal spatial partition with an 800 m side length and a 30 min time interval achieves the best comprehensive prediction accuracy. However, the departure demands and arrival demands reveal different variation trends in the prediction errors for various spatiotemporal granularities.
翻訳日:2022-03-26 20:25:39 公開日:2022-03-19
# (参考訳) 回帰係数が時間とともに変化するとき:提案 [全文訳有]

When regression coefficients change over time: A proposal ( http://arxiv.org/abs/2203.10302v1 )

ライセンス: CC BY 4.0
Malte Schierholz(参考訳) 問題の予測における一般的なアプローチは、過去のデータから最小二乗回帰(または他の統計的学習モデル)を推定し、将来の結果を予測することである。 根底にある前提は、過去に観測されたのと同じ相関が今後も続くということである。 この仮定が満たされていない状況に対するモデルを提案し、状態空間の文献から手法を取り入れ、回帰係数が時間とともにどのように変化するかをモデル化する。 我々のアプローチは、将来の予測に関連する大きな不確実性や、過去のダイナミクスの変化による影響を浮き彫りにすることができる。 シミュレーションでは, 結果が連続している場合に正確な推定値が得られるが, 2次結果に失敗する。

A common approach in forecasting problems is to estimate a least-squares regression (or other statistical learning models) from past data, which is then applied to predict future outcomes. An underlying assumption is that the same correlations that were observed in the past still hold for the future. We propose a model for situations when this assumption is not met: adopting methods from the state space literature, we model how regression coefficients change over time. Our approach can shed light on the large uncertainties associated with forecasting the future, and how much of this is due to changing dynamics of the past. Our simulation study shows that accurate estimates are obtained when the outcome is continuous, but the procedure fails for binary outcomes.
翻訳日:2022-03-26 20:06:38 公開日:2022-03-19
# (参考訳) 逆散乱の潜在空間における非線形依存のモデル化 [全文訳有]

Modelling nonlinear dependencies in the latent space of inverse scattering ( http://arxiv.org/abs/2203.10307v1 )

ライセンス: CC BY 4.0
Juliusz Ziomek and Katayoun Farrahi(参考訳) 2018年にアングルとマラットによって提案された逆散乱の問題は、画像に適用された散乱変換を反転させるためにディープニューラルネットワークを訓練することに関するものである。 このようなネットワークが訓練された後、散乱係数の主成分の分布からサンプルを得ることができるので、生成モデルとして使うことができる。 この目的のために、アングルとマラートは独立したガウス人からのサンプルを使用する。 しかし、本論文で示したように、興味の分布は実際には通常のものから遠く離れており、異なる係数の間には無視できない依存性が存在する可能性がある。 これは、変数間の非線形依存性を可能にするこの分布のモデルを使うことを動機付ける。 本稿では,2つのモデル,すなわち変分オートエンコーダと生成的逆ネットワークについて検討する。 得られた結果は、いくつかのデータセットで極めて現実的で、AnglesやMallatが生成したものよりもよく見えることを実証する。 これらのメタ分析は, 既存の画像生成モデルと比較して, トレーニングプロセスの効率性の観点から, 構築した生成モデルの実用的メリットを示す。

The problem of inverse scattering proposed by Angles and Mallat in 2018, concerns training a deep neural network to invert the scattering transform applied to an image. After such a network is trained, it can be used as a generative model given that we can sample from the distribution of principal components of scattering coefficients. For this purpose, Angles and Mallat simply use samples from independent Gaussians. However, as shown in this paper, the distribution of interest can actually be very far from normal and non-negligible dependencies might exist between different coefficients. This motivates using models for this distribution that allow for non-linear dependencies between variables. Within this paper, two such models are explored, namely a Variational AutoEncoder and a Generative Adversarial Network. We demonstrate the results obtained can be extremely realistic on some datasets and look better than those produced by Angles and Mallat. The conducted meta-analysis also shows a clear practical advantage of such constructed generative models in terms of the efficiency of their training process compared to existing generative models for images.
翻訳日:2022-03-26 19:59:19 公開日:2022-03-19
# (参考訳) voxel set transformer:ポイントクラウドからの3dオブジェクト検出のためのセット・ツー・セットアプローチ [全文訳有]

Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from Point Clouds ( http://arxiv.org/abs/2203.10314v1 )

ライセンス: CC BY 4.0
Chenhang He, Ruihuang Li, Shuai Li and Lei Zhang(参考訳) Transformerは多くの2次元視覚タスクで有望なパフォーマンスを示した。 しかし、ポイントクラウドは長いシーケンスであり、3D空間に不均一に分散するため、大規模なポイントクラウドデータの自己注意を計算するのは困難である。 この問題を解決するために、既存の手法は通常、ポイントを同じ大きさのクラスタにグループ化したり、離散化された表現で畳み込み自己アテンションを実行することで、局所的に自己アテンションを計算する。 しかしながら、前者は確率的な点降下が起こり、後者は典型的には注意場が狭い。 本稿では,点群から3dオブジェクトをセット・ツー・セット変換により検出する,voxel set transformer (voxset) という新しいvoxelベースのアーキテクチャを提案する。 VoxSeT はvoxel-based set attention (VSA) モジュール上に構築されており、各voxel の自己注意を2つのクロスアテンションと、潜伏符号のグループによって誘導される隠れ空間のモデルにより低減する。 vsaモジュールを使用すると、voxsetは任意のサイズのvoxelized pointクラスタを幅広い範囲で管理し、線形複雑性と並行して処理することができる。 提案するvoxsetは、畳み込みおよびポイントベースバックボーンの優れた代替手段として使用できるvoxelベースのモデルの効率と、トランスフォーマーの高性能を統合したものである。 VoxSeTは、KITTIとWaymo検出ベンチマークで競合する結果を報告している。 ソースコードは \url{https://github.com/s kyhehe123/VoxSeT} にある。

Transformer has demonstrated promising performance in many 2D vision tasks. However, it is cumbersome to compute the self-attention on large-scale point cloud data because point cloud is a long sequence and unevenly distributed in 3D space. To solve this issue, existing methods usually compute self-attention locally by grouping the points into clusters of the same size, or perform convolutional self-attention on a discretized representation. However, the former results in stochastic point dropout, while the latter typically has narrow attention fields. In this paper, we propose a novel voxel-based architecture, namely Voxel Set Transformer (VoxSeT), to detect 3D objects from point clouds by means of set-to-set translation. VoxSeT is built upon a voxel-based set attention (VSA) module, which reduces the self-attention in each voxel by two cross-attentions and models features in a hidden space induced by a group of latent codes. With the VSA module, VoxSeT can manage voxelized point clusters with arbitrary size in a wide range, and process them in parallel with linear complexity. The proposed VoxSeT integrates the high performance of transformer with the efficiency of voxel-based model, which can be used as a good alternative to the convolutional and point-based backbones. VoxSeT reports competitive results on the KITTI and Waymo detection benchmarks. The source codes can be found at \url{https://github.com/s kyhehe123/VoxSeT}.
翻訳日:2022-03-26 19:53:40 公開日:2022-03-19
# (参考訳) 推論への学習 : 複雑な関係抽出としての数学語問題解法 [全文訳有]

Learning to Reason Deductively: Math Word Problem Solving as Complex Relation Extraction ( http://arxiv.org/abs/2203.10316v1 )

ライセンス: CC BY 4.0
Zhanming Jie, Jierui Li, Wei Lu(参考訳) 数学的な単語の問題を解決するには、テキストの量に対する推論が必要である。 近年の様々な研究は、与えられた文脈で量間の関係推論を明示的に行なわずに数学的表現を生成するために、シーケンス・ツー・シーケンスまたはシーケンス・トゥ・ツリーモデルに主に依存している。 経験的に有効ではあるが、そのようなアプローチは一般的に生成された式の説明を提供しない。 本研究では,この課題を複雑な関係抽出問題とみなし,目的表現を反復的に構築するための説明可能な推論ステップを提案する。 4つのベンチマークデータセットの広範な実験を通して、提案モデルが既存の強いベースラインを大幅に上回ることを示す。 さらに,より説明可能な手順を示すだけでなく,より複雑な推論を必要とする質問に対して,より正確な予測を行うことができることを示す。

Solving math word problems requires deductive reasoning over the quantities in the text. Various recent research efforts mostly relied on sequence-to-sequence or sequence-to-tree models to generate mathematical expressions without explicitly performing relational reasoning between quantities in the given context. While empirically effective, such approaches typically do not provide explanations for the generated expressions. In this work, we view the task as a complex relation extraction problem, proposing a novel approach that presents explainable deductive reasoning steps to iteratively construct target expressions, where each step involves a primitive operation over two quantities defining their relation. Through extensive experiments on four benchmark datasets, we show that the proposed model significantly outperforms existing strong baselines. We further demonstrate that the deductive procedure not only presents more explainable steps but also enables us to make more accurate predictions on questions that require more complex reasoning.
翻訳日:2022-03-26 19:36:54 公開日:2022-03-19
# (参考訳) シーケンス間知識グラフの補完と質問応答 [全文訳有]

Sequence-to-Sequence Knowledge Graph Completion and Question Answering ( http://arxiv.org/abs/2203.10321v1 )

ライセンス: CC BY 4.0
Apoorv Saxena, Adrian Kochsiek, Rainer Gemulla(参考訳) 知識グラフ埋め込み(KGE)モデルは、低次元埋め込みベクトルを持つ知識グラフ(KG)の各実体と関係を表す。 これらの手法は、最近KGリンク予測と不完全KG(KGQA)上の質問応答に適用されている。 kgesは通常、グラフ内の各エンティティの埋め込みを作成し、数百万のエンティティを持つ実世界のグラフで大きなモデルサイズを生成する。 ダウンストリームタスクの場合、これらのアトミックエンティティ表現は、しばしばマルチステージパイプラインに統合され、ユーティリティが制限される。 既成のエンコーダ・デコーダトランスフォーマモデルがスケーラブルで汎用性の高いkgeモデルとして機能し,kgリンク予測や不完全kg質問応答の最先端結果が得られることを示す。 そこで本研究では, 逐次-シーケンスタスクとしてkgリンク予測を行い, 先行kge法と自己回帰復号法を交換する。 このような単純だが強力な手法は、従来のKGEモデルと比較してモデルサイズを最大98%削減し、推論時間を短縮できる。 このモデルを不完全なKGよりもKGQAのタスクで微調整した後、我々のアプローチは、広範囲なハイパーパラメータチューニングを伴わずに、複数の大規模データセットのベースラインを上回ります。

Knowledge graph embedding (KGE) models represent each entity and relation of a knowledge graph (KG) with low-dimensional embedding vectors. These methods have recently been applied to KG link prediction and question answering over incomplete KGs (KGQA). KGEs typically create an embedding for each entity in the graph, which results in large model sizes on real-world graphs with millions of entities. For downstream tasks these atomic entity representations often need to be integrated into a multi stage pipeline, limiting their utility. We show that an off-the-shelf encoder-decoder Transformer model can serve as a scalable and versatile KGE model obtaining state-of-the-art results for KG link prediction and incomplete KG question answering. We achieve this by posing KG link prediction as a sequence-to-sequence task and exchange the triple scoring approach taken by prior KGE methods with autoregressive decoding. Such a simple but powerful method reduces the model size up to 98% compared to conventional KGE models while keeping inference time tractable. After finetuning this model on the task of KGQA over incomplete KGs, our approach outperforms baselines on multiple large-scale datasets without extensive hyperparameter tuning.
翻訳日:2022-03-26 19:19:03 公開日:2022-03-19
# (参考訳) 合成言語による事前学習:言語モデルにおける伝達可能な知識の研究 [全文訳有]

Pretraining with Synthetic Language: Studying Transferable Knowledge in Language Models ( http://arxiv.org/abs/2203.10326v1 )

ライセンス: CC BY 4.0
Ryokan Ri and Yoshimasa Tsuruoka(参考訳) ニューラルネットワークエンコーダが自然言語処理にどのような構造的知識を伝達できるかを考察する。 我々は、自然言語を模倣する構造的特性を持つ合成言語を設計し、データ上にエンコーダを事前訓練し、そのエンコーダが自然言語の下流タスクにどの程度の性能を示すかを確認する。 実験の結果,ネスティング依存構造を持つ合成言語で事前学習することで,自然言語に伝達可能な知識が得られることがわかった。 後続の探索分析は、転送の成功は、符号化された文脈情報の量と関連しており、転送されるものは、言語の位置認識コンテキスト依存の知識であることを示している。 本稿では、ニューラルネットワークエンコーダが人間の言語をどのように処理するか、そして最近の多言語モデルにおける言語間変換可能性の源泉について考察する。

We investigate what kind of structural knowledge learned in neural network encoders is transferable to processing natural language. We design synthetic languages with structural properties that mimic natural language, pretrain encoders on the data, and see how much performance the encoder exhibits on downstream tasks in natural language. Our experimental results show that pretraining with a synthetic language with a nesting dependency structure provides some knowledge transferable to natural language. A follow-up probing analysis indicates that its success in the transfer is related to the amount of encoded contextual information and what is transferred is the knowledge of position-aware context dependence of language. Our results provide insights into how neural network encoders process human languages and the source of cross-lingual transferability of recent multilingual language models.
翻訳日:2022-03-26 18:43:24 公開日:2022-03-19
# (参考訳) 簡約線形モデルを用いた入出力パラメータフリーオンライン学習 [全文訳有]

Implicit Parameter-free Online Learning with Truncated Linear Models ( http://arxiv.org/abs/2203.10327v1 )

ライセンス: CC BY 4.0
Keyi Chen and Ashok Cutkosky and Francesco Orabona(参考訳) パラメータフリーアルゴリズムは、学習率の設定を必要としないオンライン学習アルゴリズムである。 初期点と任意の競合点の間の距離に関して最適な後悔を達成する。 しかし、パラメータフリーアルゴリズムは損失の幾何学を考慮に入れない。 近年, 確率最適化文献において, 損失をより密接にモデル化することにより, より優れた性能を実現するために, 切断された線形下限を用いる方法が提案されている。 特に、切断された線形モデルは損失関数の最小をオーバーシュートする問題を大幅に削減する。 残念なことに、切り詰められた線形モデルはパラメータフリーのアルゴリズムでは利用できない。 本稿では,'簡易'なフレーバーを持つ新しい更新により,断続線形モデルを活用できるパラメータフリーな新しいアルゴリズムを提案する。 後悔の新たな分解に基づいて、新しいアップデートは効率的であり、各ステップで1つの勾配しか必要とせず、停止したモデルの最小値を上書きせず、パラメータフリーな特性を維持している。 また,アルゴリズムの実用性を実証した実証的研究を行った。

Parameter-free algorithms are online learning algorithms that do not require setting learning rates. They achieve optimal regret with respect to the distance between the initial point and any competitor. Yet, parameter-free algorithms do not take into account the geometry of the losses. Recently, in the stochastic optimization literature, it has been proposed to instead use truncated linear lower bounds, which produce better performance by more closely modeling the losses. In particular, truncated linear models greatly reduce the problem of overshooting the minimum of the loss function. Unfortunately, truncated linear models cannot be used with parameter-free algorithms because the updates become very expensive to compute. In this paper, we propose new parameter-free algorithms that can take advantage of truncated linear models through a new update that has an "implicit" flavor. Based on a novel decomposition of the regret, the new update is efficient, requires only one gradient at each step, never overshoots the minimum of the truncated model, and retains the favorable parameter-free properties. We also conduct an empirical study demonstrating the practical utility of our algorithms.
翻訳日:2022-03-26 18:28:34 公開日:2022-03-19
# (参考訳) 臨界時の天文学的影響に基づく塑性ニューラルネットワーク, シナプス競争と電流およびMnの脳塑性による補償とシナプス形成 [全文訳有]

Plasticity Neural Network Based on Astrocytic Influence at Critical Periods, Synaptic Competition and Compensation by Current and Mnemonic Brain Plasticity and Synapse Formation ( http://arxiv.org/abs/2203.11740v1 )

ライセンス: CC BY 4.0
Jun-Bo Tao, Bai-Qing Sun, Wei-Dong Zhu, Shi-You Qu, Ling-Kun Chen, Jia-Qiang Li, Chong Wu, Yu Xiong, Jiaxuan Zhou(参考訳) RNNのフレームに基づいて,PNNのモデル構築,公式導出,アルゴリズムテストを行った。 我々は,最新のMITによるシナプス補償研究に基づいて,PNNのメカニズムを解明し,スタンフォード大学の研究成果に基づいて,シナプス形成が樹状突起形態形成の競争において重要であることを示唆した。 The influence of astrocytic impacts on brain plasticity and synapse formation is an important mechanism of our Neural Network at critical periods or the end of critical periods.In the model for critical periods, the hypothesis is that the best brain plasticity so far affects current brain plasticity and the best synapse formation so far affects current synapse formation.Furthermor e, PNN takes into account the mnemonic gradient informational synapse formation, and brain plasticity and synapse formation change frame of NN is a new method of Deep Learning.The question we proposed is whether the promotion of neuroscience and brain cognition was achieved by model construction, formula derivation or algorithm testing. 我々は、最先端の画像や遺伝ツールを含む生物学的テストだけでなく、ニューラルネットワーク(ANN)、進化的計算、仮説、可能な説明や規則などの数値的な手法を活用しました。

Based on the RNN frame, we accomplished the model construction, formula derivation and algorithm testing for PNN. We elucidated the mechanism of PNN based on the latest MIT research on synaptic compensation, and also grounded our study on the basis of findings of the Stanford research, which suggested that synapse formation is important for competition in dendrite morphogenesis. The influence of astrocytic impacts on brain plasticity and synapse formation is an important mechanism of our Neural Network at critical periods or the end of critical periods.In the model for critical periods, the hypothesis is that the best brain plasticity so far affects current brain plasticity and the best synapse formation so far affects current synapse formation.Furthermor e, PNN takes into account the mnemonic gradient informational synapse formation, and brain plasticity and synapse formation change frame of NN is a new method of Deep Learning.The question we proposed is whether the promotion of neuroscience and brain cognition was achieved by model construction, formula derivation or algorithm testing. We resorted to the Artificial Neural Network (ANN), evolutionary computation and other numerical methods for hypotheses, possible explanations and rules, rather than only biological tests which include cutting-edge imaging and genetic tools.And it has no ethics of animal testing.
翻訳日:2022-03-26 17:41:49 公開日:2022-03-19
# (参考訳) ほぼ不可能なニューラルネットワーク解析 [全文訳有]

Efficient Neural Network Analysis with Sum-of-Infeasibiliti es ( http://arxiv.org/abs/2203.11201v1 )

ライセンス: CC BY 4.0
Haoze Wu, Aleksandar Zelji\'c, Guy Katz, Clark Barrett(参考訳) 凸最適化における総和係数法に着想を得て,ニューラルネットワーク上での検証クエリを一方向の活性化関数で解析する手法を提案する。 非凸活性化関数を近似する凸緩和を考えると、活性化関数の違反をコスト関数として符号化し、凸緩和に関して最適化する。 コスト関数は Sum-of-Infeasibility (SoI) と呼ばれ、最小限がゼロであり、全てのアクティベーション関数が満たされた場合にのみ達成されるように設計されている。 soiを効率的に最小化するための確率的手続きであるdeepsoiを提案する。 標準ケース分析に基づく完全探索手順の拡張は、各検索状態で実行される凸手順をDeepSoIに置き換えることによって達成できる。 DeepSoIで完全な検索を拡張することは、複数の同時ゴールを達成する。 1) 反例に対する探索を案内する。 2)より情報的な分岐決定を可能にする。 3) 有界導出のための新たな機会を生み出す。 異なるベンチマークとソルバにまたがる広範な評価は、提案手法の利点を示している。 特に,SoIが既存の完全探索手順の性能を大幅に向上させることを示す。 さらに、SoIベースの実装は、他の最先端の完全検証よりも優れている。 また,本手法は,近年の逆攻撃アルゴリズムによる摂動境界を効率的に改善できることを示す。

Inspired by sum-of-infeasibiliti es methods in convex optimization, we propose a novel procedure for analyzing verification queries on neural networks with piecewise-linear activation functions. Given a convex relaxation which over-approximates the non-convex activation functions, we encode the violations of activation functions as a cost function and optimize it with respect to the convex relaxation. The cost function, referred to as the Sum-of-Infeasibiliti es (SoI), is designed so that its minimum is zero and achieved only if all the activation functions are satisfied. We propose a stochastic procedure, DeepSoI, to efficiently minimize the SoI. An extension to a canonical case-analysis-based complete search procedure can be achieved by replacing the convex procedure executed at each search state with DeepSoI. Extending the complete search with DeepSoI achieves multiple simultaneous goals: 1) it guides the search towards a counter-example; 2) it enables more informed branching decisions; and 3) it creates additional opportunities for bound derivation. An extensive evaluation across different benchmarks and solvers demonstrates the benefit of the proposed techniques. In particular, we demonstrate that SoI significantly improves the performance of an existing complete search procedure. Moreover, the SoI-based implementation outperforms other state-of-the-art complete verifiers. We also show that our technique can efficiently improve upon the perturbation bound derived by a recent adversarial attack algorithm.
翻訳日:2022-03-26 17:23:31 公開日:2022-03-19
# (参考訳) 医療用NLPによるニュース報道の理解 [全文訳有]

Understanding COVID-19 News Coverage using Medical NLP ( http://arxiv.org/abs/2203.10338v1 )

ライセンス: CC BY 4.0
Ali Emre Varol, Veysel Kocaman, Hasham Ul Haq, David Talby(参考訳) 新型コロナウイルスの感染拡大は、世界的なメディアの注目を集めた。 本研究では,世界有数のメディア組織であるCNNとThe Guardianのニュース出版物を分析した。 データセットには36,000以上の記事が含まれており、Spark NLP for Healthcareライブラリから臨床および生物医学的な自然言語処理(NLP)モデルを用いて分析されている。 分析は、主要な実体やフレーズ、観察されたバイアス、ニュース報道の時間とともに、一般的に言及される人口統計学的、職業的グループと、採掘された医学的症状、手順、薬物、ガイダンスを関連付けることで変化する。 別の分析では、薬物およびワクチン製造者に関する有害薬物の抽出現象が、主要な報道機関によって報告された場合、ワクチンのヒューシタンシーに影響を及ぼす。

Being a global pandemic, the COVID-19 outbreak received global media attention. In this study, we analyze news publications from CNN and The Guardian - two of the world's most influential media organizations. The dataset includes more than 36,000 articles, analyzed using the clinical and biomedical Natural Language Processing (NLP) models from the Spark NLP for Healthcare library, which enables a deeper analysis of medical concepts than previously achieved. The analysis covers key entities and phrases, observed biases, and change over time in news coverage by correlating mined medical symptoms, procedures, drugs, and guidance with commonly mentioned demographic and occupational groups. Another analysis is of extracted Adverse Drug Events about drug and vaccine manufacturers, which when reported by major news outlets has an impact on vaccine hesitancy.
翻訳日:2022-03-26 16:58:44 公開日:2022-03-19
# (参考訳) ファクチュアル知識を用いたエンティティ操作テキストの自動検出 [全文訳有]

Automatic Detection of Entity-Manipulated Text using Factual Knowledge ( http://arxiv.org/abs/2203.10343v1 )

ライセンス: CC BY 4.0
Ganesh Jawahar, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan(参考訳) 本研究では,人間が書いたニュース記事と,人間が書いたニュース記事のエンティティを操作することによって作成されたニュース記事とを区別する問題に焦点を当てる(例えば,エンティティを事実的に不正確なエンティティに置き換える)。 このような操作された記事は、人間が書いたニュース記事として振る舞うことで読者を誤解させることがある。 本稿では,論文に言及されている事実を推論して,操作されたニュース記事を検出するニューラルネットワークに基づく検出器を提案する。 提案手法は,グラフ畳み込みニューラルネットワークによる事実知識と,ニュース記事のテキスト情報を利用する。 また,新たな代替エンティティ(gpt-2からのエンティティ生成など)を生成するためのさまざまな戦略を検討することで,このタスクのための挑戦的なデータセットを作成する。 全ての設定において、提案したモデルは、精度で最先端の検出器にマッチするか、性能を上回ります。 私たちのコードとデータはhttps://github.com/U BC-NLP/manipulated_e ntity_detectionで公開されています。

In this work, we focus on the problem of distinguishing a human written news article from a news article that is created by manipulating entities in a human written news article (e.g., replacing entities with factually incorrect entities). Such manipulated articles can mislead the reader by posing as a human written news article. We propose a neural network based detector that detects manipulated news articles by reasoning about the facts mentioned in the article. Our proposed detector exploits factual knowledge via graph convolutional neural network along with the textual information in the news article. We also create challenging datasets for this task by considering various strategies to generate the new replacement entity (e.g., entity generation from GPT-2). In all the settings, our proposed model either matches or outperforms the state-of-the-art detector in terms of accuracy. Our code and data are available at https://github.com/U BC-NLP/manipulated_e ntity_detection.
翻訳日:2022-03-26 16:49:50 公開日:2022-03-19
# (参考訳) 野生の摂動: リアルな敵の攻撃と防御に人間の文章摂動を利用する [全文訳有]

Perturbations in the Wild: Leveraging Human-Written Text Perturbations for Realistic Adversarial Attack and Defense ( http://arxiv.org/abs/2203.10346v1 )

ライセンス: CC BY 4.0
Thai Le, Jooyoung Lee, Kevin Yen, Yifan Hu, Dongwon Lee(参考訳) そこで本研究では,野生における600万以上の人文文摂動を誘導的に抽出し,現実的な敵攻撃に活用する新しいアルゴリズムANTHROを提案する。 操作戦略のセットを推論的に仮定する既存の文字ベースの攻撃とは異なり、本研究は実世界のテキストからの実際の観察に基づいている。 その結果,アントロが生成した敵文は,(1)攻撃成功率,(2)原文の意味保存,(3)人文と区別できないステルス性,など,疑わしい印象を与えるのが困難であった。 具体的には,BERTとRoBERTaの攻撃成功率は,約83%,91%であった。 さらに,作業員と作業員の両方で評価した場合,意味的保存とステルス性の観点から,textbuggerベースラインを50%,40%向上させた。 ANTHROは、パースペクティブAPIと比較して、人書き有害テキストのさまざまなバリエーションを理解することでBERT分類器の性能をさらに向上させることができる。

We proposes a novel algorithm, ANTHRO, that inductively extracts over 600K human-written text perturbations in the wild and leverages them for realistic adversarial attack. Unlike existing character-based attacks which often deductively hypothesize a set of manipulation strategies, our work is grounded on actual observations from real-world texts. We find that adversarial texts generated by ANTHRO achieve the best trade-off between (1) attack success rate, (2) semantic preservation of the original text, and (3) stealthiness--i.e. indistinguishable from human writings hence harder to be flagged as suspicious. Specifically, our attacks accomplished around 83% and 91% attack success rates on BERT and RoBERTa, respectively. Moreover, it outperformed the TextBugger baseline with an increase of 50% and 40% in terms of semantic preservation and stealthiness when evaluated by both layperson and professional human workers. ANTHRO can further enhance a BERT classifier's performance in understanding different variations of human-written toxic texts via adversarial training when compared to the Perspective API.
翻訳日:2022-03-26 16:38:49 公開日:2022-03-19
# (参考訳) リコメンダシステムのオンライン更新のためのメタラーニング [全文訳有]

Meta-Learning for Online Update of Recommender Systems ( http://arxiv.org/abs/2203.10354v1 )

ライセンス: CC BY 4.0
Minseok Kim, Hwanjun Song, Yooju Shin, Dongmin Park, Kijung Shin, Jae-Gil Lee(参考訳) オンラインレコメンダシステムは、ユーザが望むアイテムを正確に提案するために、常にユーザの現在の関心に沿うべきである。 ユーザの関心は通常、時間とともに発展するので、更新戦略は、継続的に生成される新しいユーザ-テーマインタラクションからユーザの現在の関心を素早く捉えるために柔軟であるべきです。 既存の更新戦略は、各ユーザ-テムインタラクションの重要性や、レコメンダパラメータの学習率に重点を置いているが、このような一方向の柔軟性は、インタラクションとパラメータ間のさまざまな関係に適応するには不十分である。 本稿では,双方向柔軟性をサポートするメタラーニングによるオンラインレコメンダ更新戦略であるmelonを提案する。 パラメータ-インタラクションペア毎に適応学習率を特徴とし、ユーザの最新の関心を素早く学習するためのレコメンダを誘導する。 MeLONの手順はメタラーニングアプローチに従って最適化され、リコメンデータが将来の更新のために最適な学習率を生成する方法を学ぶ。 具体的には、MeLONはまず、前のインタラクションに基づいて各インタラクションの意味を豊かにし、各パラメータの役割を識別し、これらの2つの情報を組み合わせて適応学習率を生成する。 3つの実世界のオンラインレコメンデーションデータセットの理論解析と広範囲な評価により,MeLONの有効性が検証された。

Online recommender systems should be always aligned with users' current interest to accurately suggest items that each user would like. Since user interest usually evolves over time, the update strategy should be flexible to quickly catch users' current interest from continuously generated new user-item interactions. Existing update strategies focus either on the importance of each user-item interaction or the learning rate for each recommender parameter, but such one-directional flexibility is insufficient to adapt to varying relationships between interactions and parameters. In this paper, we propose MeLON, a meta-learning based novel online recommender update strategy that supports two-directional flexibility. It is featured with an adaptive learning rate for each parameter-interactio n pair for inducing a recommender to quickly learn users' up-to-date interest. The procedure of MeLON is optimized following a meta-learning approach: it learns how a recommender learns to generate the optimal learning rates for future updates. Specifically, MeLON first enriches the meaning of each interaction based on previous interactions and identifies the role of each parameter for the interaction; and then combines these two pieces of information to generate an adaptive learning rate. Theoretical analysis and extensive evaluation on three real-world online recommender datasets validate the effectiveness of MeLON.
翻訳日:2022-03-26 16:20:31 公開日:2022-03-19
# (参考訳) ソーシャルメディアにおけるアルジェリア人虐待者のオンライン行動 [全文訳有]

The Online Behaviour of the Algerian Abusers in Social Media Networks ( http://arxiv.org/abs/2203.10369v1 )

ライセンス: CC BY 4.0
Kheireddine Abainia(参考訳) ソーシャルメディアネットワークへの接続は、世界中の多くの人々にとって日常的なタスクとなり、共有情報の量は指数関数的に増加している。 このようにして、人々が意思疎通や対立、攻撃などから彼らを守るためには、コミュニケーションの方法を制御する必要がある。 本稿では,ソーシャルメディア(facebook)におけるサイバーいじめと虐待コンテンツに関する統計的研究を行い,アルジェリア社会における虐待者のオンライン行動を明らかにする。 具体的には、600の異なる地域から200人のfacebookユーザーがこの調査を行った。 本研究の目的は,オンライン活動の活用による自動乱用検知システムによる意思決定を支援することである。 乱用検出システムは、そのような種類のテキスト(例えば、非構造化および非公式のテキスト)に対してよりよく機能するために、大量のデータを必要とするが、これは、アルジェリアの方言や言語がさまざまな場所で話されている標準正書法が欠如しているためである。

Connecting to social media networks becomes a daily task for the majority of people around the world, and the amount of shared information is growing exponentially. Thus, controlling the way in which people communicate is necessary, in order to protect them from disorientation, conflicts, aggressions, etc. In this paper, we conduct a statistical study on the cyber-bullying and the abusive content in social media (i.e. Facebook), where we try to spot the online behaviour of the abusers in the Algerian community. More specifically, we have involved 200 Facebook users from different regions among 600 to carry out this study. The aim of this investigation is to aid automatic systems of abuse detection to take decision by incorporating the online activity. Abuse detection systems require a large amount of data to perform better on such kind of texts (i.e. unstructured and informal texts), and this is due to the lack of standard orthography, where there are various Algerian dialects and languages spoken.
翻訳日:2022-03-26 15:57:19 公開日:2022-03-19
# (参考訳) stylegan2潜在空間における方向検出のためのナイーブ法 [全文訳有]

A naive method to discover directions in the StyleGAN2 latent space ( http://arxiv.org/abs/2203.10373v1 )

ライセンス: CC BY 4.0
Andrea Giardina, Soumya Subhra Paria, Adhikari Kaustubh(参考訳) いくつかの研究グループが、GAN(Generative Adversarial Networks)は近年、フォトリアリスティックな画像を生成することができることを示した。 GANを使用して、潜在コードとフォトリアリスティック画像の間にマップを作成する。 この処理は逆転することもできる:写真が入力として与えられると、対応する潜在コードを取得することができる。 本稿では, 潜在空間を解釈し, フォトリアリスティックな顔を生成するganアーキテクチャであるstylegan2の出力を制御するために, インバージョンプロセスが容易に利用できることを示す。 生物学的観点からは, 鼻の大きさなどの顔の特徴は重要な遺伝的要因に依存し, このような生物学的特徴に対応する潜伏空間を探索する。 本稿では,CelebA-HQデータベースから抽出した画像に提案手法を適用した結果を示す。 2つのランドマークプロトコルを利用していくつかの指標を定量化し,統計解析によりロバスト性を評価する。 最後に、これらの測度をこれらの解釈可能な方向に沿って潜在空間を摂動させる入力パラメータと関連付ける。 本研究は, 生物特性を満足するフォトリアリスティックな顔を生成するために, このようなGANアーキテクチャを法医学で活用する基盤構築に寄与する。

Several research groups have shown that Generative Adversarial Networks (GANs) can generate photo-realistic images in recent years. Using the GANs, a map is created between a latent code and a photo-realistic image. This process can also be reversed: given a photo as input, it is possible to obtain the corresponding latent code. In this paper, we will show how the inversion process can be easily exploited to interpret the latent space and control the output of StyleGAN2, a GAN architecture capable of generating photo-realistic faces. From a biological perspective, facial features such as nose size depend on important genetic factors, and we explore the latent spaces that correspond to such biological features, including masculinity and eye colour. We show the results obtained by applying the proposed method to a set of photos extracted from the CelebA-HQ database. We quantify some of these measures by utilizing two landmarking protocols, and evaluate their robustness through statistical analysis. Finally we correlate these measures with the input parameters used to perturb the latent spaces along those interpretable directions. Our results contribute towards building the groundwork of using such GAN architecture in forensics to generate photo-realistic faces that satisfy certain biological attributes.
翻訳日:2022-03-26 15:44:29 公開日:2022-03-19
# (参考訳) 最適輸送マルチタスク回帰を用いた生理的パターンのパーソナライズ [全文訳有]

PhysioMTL: Personalizing Physiological Patterns using Optimal Transport Multi-Task Regression ( http://arxiv.org/abs/2203.12595v1 )

ライセンス: CC BY 4.0
Jiacheng Zhu, Gregory Darnell, Agni Kumar, Ding Zhao, Bo Li, Xuanlong Nguyen, Shirley You Ren(参考訳) 心拍変動(HRV)は、自律神経活動の実用的で非侵襲的な尺度であり、心臓血管健康において重要な役割を果たす。 しかし,HRVを用いて生理状態を評価することは困難である。 臨床状況でも、hrvは身体活動、精神的なストレス、水和、アルコール、睡眠などの急性ストレスに敏感である。 ウェアラブルデバイスは便利なHRV測定を提供するが、測定と非捕獲応力の異常は従来の分析手法に偏っている可能性がある。 下流医療応用におけるHRV測定をより正確に解釈するために、個人ごとの正確な生理指標としてパーソナライズされた日リズムを学習する。 我々は,MTL(Multitask-learn ing)フレームワークにおける最適輸送理論を利用して,生理的マルチタスク学習(PhysioMTL)を開発する。 提案手法は,異種観測から個人固有の予測モデルを学習し,各タスクの人口統計学的特徴に対して前進操作を行う最適輸送マップの推定を可能にする。 本モデルでは,合成データセットと実世界の2つのデータセットの観測不能な予測タスクにおいて,競合するMTL手法よりも優れる。 具体的には, 実世界の観測研究において, 対象者の20~%が有意な有意な予測結果を示した。 さらに本モデルでは,hrvリズムに対する急性ストレスと慢性状態の影響を発生させる反事実エンジンを実現する。

Heart rate variability (HRV) is a practical and noninvasive measure of autonomic nervous system activity, which plays an essential role in cardiovascular health. However, using HRV to assess physiology status is challenging. Even in clinical settings, HRV is sensitive to acute stressors such as physical activity, mental stress, hydration, alcohol, and sleep. Wearable devices provide convenient HRV measurements, but the irregularity of measurements and uncaptured stressors can bias conventional analytical methods. To better interpret HRV measurements for downstream healthcare applications, we learn a personalized diurnal rhythm as an accurate physiological indicator for each individual. We develop Physiological Multitask-Learning (PhysioMTL) by harnessing Optimal Transport theory within a Multitask-learning (MTL) framework. The proposed method learns an individual-specific predictive model from heterogeneous observations, and enables estimation of an optimal transport map that yields a push forward operation onto the demographic features for each task. Our model outperforms competing MTL methodologies on unobserved predictive tasks for synthetic and two real-world datasets. Specifically, our method provides remarkable prediction results on unseen held-out subjects given only $20\%$ of the subjects in real-world observational studies. Furthermore, our model enables a counterfactual engine that generates the effect of acute stressors and chronic conditions on HRV rhythms.
翻訳日:2022-03-26 15:27:14 公開日:2022-03-19
# (参考訳) CNNとトランスフォーマーは人間に似たハイブリッド画像を認識する [全文訳有]

CNNs and Transformers Perceive Hybrid Images Similar to Humans ( http://arxiv.org/abs/2203.11678v1 )

ライセンス: CC BY 4.0
Ali Borji(参考訳) ハイブリッド画像は、視線距離の関数として変化する2つの解釈を持つ画像を生成する技術である。 ヒトの視覚システムによる画像のマルチスケール処理の研究に利用されている。 ここでは,10の果実カテゴリにわたる63,000のハイブリッド画像を用いて,深層学習視覚モデルの予測が人間の知覚と質的に一致することを示す。 以上の結果は,畳み込みニューラルネットワーク(cnns)とトランスフォーマーが視覚野の心室系における情報のフィードフォワードスイープのモデル化に有効であるという仮説を裏付けるもう1つの証拠である。 コードとデータはhttps://github.com/a liborji/hybrid_image s.gitで入手できる。

Hybrid images is a technique to generate images with two interpretations that change as a function of viewing distance. It has been utilized to study multiscale processing of images by the human visual system. Using 63,000 hybrid images across 10 fruit categories, here we show that predictions of deep learning vision models qualitatively matches with the human perception of these images. Our results provide yet another evidence in support of the hypothesis that Convolutional Neural Networks (CNNs) and Transformers are good at modeling the feedforward sweep of information in the ventral stream of visual cortex. Code and data is available at https://github.com/a liborji/hybrid_image s.git.
翻訳日:2022-03-26 15:00:02 公開日:2022-03-19
# (参考訳) 機械学習とヘッダ情報を用いた電子メールの異常検出 [全文訳有]

Anomaly Detection in Emails using Machine Learning and Header Information ( http://arxiv.org/abs/2203.10408v1 )

ライセンス: CC BY 4.0
Craig Beaman and Haruna Isah(参考訳) フィッシングやスパムのようなメールの異常は、個人と組織の両方にプライバシー、お金、ブランドの評判を失うなど、大きなセキュリティリスクをもたらしている。 メールの異常検出に関する従来の研究は、単一のタイプの異常と、メール本体と対象内容の分析に頼っていた。 このアプローチの欠点は、メールコンテンツの書かれた言語を考慮に入れることだ。 この欠点を克服するため、メールヘッダーデータセットの特徴抽出と選択を行い、マルチクラスおよびワンクラスの異常検出アプローチを利用した。 その結果,メールヘッダ情報だけでスパムやフィッシングメールを確実に検出できることが実証された。 Random Forest, SVM, MLP, KNNなどの教師あり学習アルゴリズムとその積み重ねアンサンブルは非常に成功し、フィッシングでは97%、スパムメールでは99%という高い精度のスコアが得られた。 1クラスsvmによる1クラス分類では,スパムメールとフィッシングメールで87%,89%の精度スコアを得た。 実世界のメールフィルタリングアプリケーションは、リソースの利用と効率の点でヘッダ情報のみを使用することで恩恵を受ける。

Anomalies in emails such as phishing and spam present major security risks such as the loss of privacy, money, and brand reputation to both individuals and organizations. Previous studies on email anomaly detection relied on a single type of anomaly and the analysis of the email body and subject content. A drawback of this approach is that it takes into account the written language of the email content. To overcome this deficit, this study conducted feature extraction and selection on email header datasets and leveraged both multi and one-class anomaly detection approaches. Experimental analysis results obtained demonstrate that email header information only is enough to reliably detect spam and phishing emails. Supervised learning algorithms such as Random Forest, SVM, MLP, KNN, and their stacked ensembles were found to be very successful, achieving high accuracy scores of 97% for phishing and 99% for spam emails. One-class classification with One-Class SVM achieved accuracy scores of 87% and 89% with spam and phishing emails, respectively. Real-world email filtering applications will benefit from the use of only the header information in terms of resources utilization and efficiency.
翻訳日:2022-03-26 14:56:53 公開日:2022-03-19
# (参考訳) ブロック構造化ワークフローネットの言語保存削減規則 [全文訳有]

Language-Preserving Reduction Rules for Block-Structured Workflow Nets ( http://arxiv.org/abs/2203.10410v1 )

ライセンス: CC BY 4.0
Sander J.J. Leemans(参考訳) プロセスモデルは、人間の分析者によって行動のモデル化と分析に使われ、機械は、健全性、生存性、その他の到達可能性特性などの特性を検証し、それらの表現された行動と組織のビジネスプロセス内の記録された行動を比較する。 人間と機械の両方にとって、小さなモデルは大規模で複雑なモデルよりも好まれる:人間の理解の容易さと、状態空間探索において機械が費やす時間を短縮する。 ペトリネットでは,モデルの振る舞いを保存する還元ルールが定義されているが,本稿では,プロセス探索手法によって返されるペトリネット,すなわちブロック構造ワークフローネットのサブクラスが,プロセスツリーのブロック構造を考慮してさらに削減可能であることを示す。 我々は、プロセスツリーの既存の還元規則を再検討し、ルールが正しい、終了、合流、完了であり、どのプロセスツリーのクラスが完了していないかを示す。 実生活実験では,ペトリネット構造のみを考慮したルールと比較して,実生活イベントログから検出されるプロセスモデルをさらに削減できることを示す。

Process models are used by human analysts to model and analyse behaviour, and by machines to verify properties such as soundness, liveness or other reachability properties, and to compare their expressed behaviour with recorded behaviour within business processes of organisations. For both human and machine use, small models are preferable over large and complex models: for ease of human understanding and to reduce the time spent by machines in state space explorations. Reduction rules that preserve the behaviour of models have been defined for Petri nets, however in this paper we show that a subclass of Petri nets returned by process discovery techniques, that is, block-structured workflow nets, can be further reduced by considering their block structure in process trees. We revisit an existing set of reduction rules for process trees and show that the rules are correct, terminating, confluent and complete, and for which classes of process trees they are and are not complete. In a real-life experiment, we show that these rules can reduce process models discovered from real-life event logs further compared with rules that consider only Petri net structures.
翻訳日:2022-03-26 14:43:03 公開日:2022-03-19
# よりロバストな事前学習言語モデルのための自然対外サンプルからの非自然な識別

Distinguishing Non-natural from Natural Adversarial Samples for More Robust Pre-trained Language Model ( http://arxiv.org/abs/2203.11199v1 )

ライセンス: Link先を確認
Jiayi Wang, Rongzhou Bao, Zhuosheng Zhang, Hai Zhao(参考訳) 近年,事前学習言語モデル(PrLM)の堅牢性の問題が研究の関心を集めている。 敵攻撃に関する最近の研究は、PrLMに対して高い攻撃成功率を達成し、PrLMは堅牢ではないと主張している。 しかし、PrLMが失敗する逆のサンプルはほとんど自然ではないことが判明し、実際には現れない。 これらの非自然敵検体に基づくprlmのロバスト性評価の妥当性を疑問視し,より自然敵検体を用いたprlmのロバスト性を評価する異常検出器を提案する。 また, 異常検出装置の2つの応用について検討した。(1)データ拡張において, 非自然と区別される拡張データを強制的に生成するために, 異常検出器を用いることにより, PrLMの精度が向上する。 2)prlmのロバスト性を高めるために,アノマリー検出器を防御枠組みに適用する。 あらゆる種類の攻撃を防御するために使用することができ、他の防御フレームワークよりも敵のサンプルと準拠のサンプルの両方で高い精度を達成する。

Recently, the problem of robustness of pre-trained language models (PrLMs) has received increasing research interest. Latest studies on adversarial attacks achieve high attack success rates against PrLMs, claiming that PrLMs are not robust. However, we find that the adversarial samples that PrLMs fail are mostly non-natural and do not appear in reality. We question the validity of current evaluation of robustness of PrLMs based on these non-natural adversarial samples and propose an anomaly detector to evaluate the robustness of PrLMs with more natural adversarial samples. We also investigate two applications of the anomaly detector: (1) In data augmentation, we employ the anomaly detector to force generating augmented data that are distinguished as non-natural, which brings larger gains to the accuracy of PrLMs. (2) We apply the anomaly detector to a defense framework to enhance the robustness of PrLMs. It can be used to defend all types of attacks and achieves higher accuracy on both adversarial samples and compliant samples than other defense frameworks.
翻訳日:2022-03-23 13:33:42 公開日:2022-03-19
# 自動四辺メッシュ生成のための強化学習--ソフトアクタ-クリティックアプローチ

Reinforcement learning for automatic quadrilateral mesh generation: a soft actor-critic approach ( http://arxiv.org/abs/2203.11203v1 )

ライセンス: Link先を確認
Jie Pan, Jingwei Huang, Gengdong Cheng, Yong Zeng(参考訳) 本稿では,メッシュ自動生成のための強化学習(rl)ベースの計算フレームワークを提案し,実装し,評価する。 メッシュ生成は、NASA Vision 2030で同定された6つの基本的な研究方向の1つであり、計算幾何学において重要な領域であり、有限要素解析(FEA)と計算流体力学(CFD)の領域における数値シミュレーションにおいて基本的な役割を果たす。 既存のメッシュ生成手法は計算複雑性が高く、複雑なジオメトリのメッシュ品質が低く、速度制限がある。 メッシュ生成をマルコフ決定プロセス(MDP)問題として定式化することにより、最先端のRLアルゴリズムであるソフトアクタクリティカルを使用して、試験からメッシュエージェントのポリシを自動学習し、人間の介入なしに完全な自動メッシュ生成システムと、現在の商用ソフトウェアで一般的に必要とされる余分なクリーンアップ操作を実現することができる。 我々の実験といくつかの代表的な商用ソフトウェアとの比較では、システムは汎用性、堅牢性、有効性に関して有望な性能を示す。

This paper proposes, implements, and evaluates a Reinforcement Learning (RL) based computational framework for automatic mesh generation. Mesh generation, as one of six basic research directions identified in NASA Vision 2030, is an important area in computational geometry and plays a fundamental role in numerical simulations in the area of finite element analysis (FEA) and computational fluid dynamics (CFD). Existing mesh generation methods suffer from high computational complexity, low mesh quality in complex geometries, and speed limitations. By formulating the mesh generation as a Markov decision process (MDP) problem, we are able to use soft actor-critic, a state-of-the-art RL algorithm, to learn the meshing agent's policy from trials automatically, and achieve a fully automatic mesh generation system without human intervention and any extra clean-up operations, which are typically needed in current commercial software. In our experiments and comparison with a number of representative commercial software, our system demonstrates promising performance with respect to generalizability, robustness, and effectiveness.
翻訳日:2022-03-23 13:32:58 公開日:2022-03-19
# ランダムにないデータ不足に対する推薦のための二重ロバスト協調学習

Doubly Robust Collaborative Targeted Learning for Recommendation on Data Missing Not at Random ( http://arxiv.org/abs/2203.10258v1 )

ライセンス: Link先を確認
Peng Wu, Haoxuan Li, Yan Lyu, and Xiao-Hua Zhou(参考訳) レコメンダシステムでは、受信されたフィードバックデータはランダム(mnar)ではなく常に欠落している。 この問題に対処するために、最近の多くの研究がバイアスを減らすために二重頑健(DR)法とその変種について行われている。 しかし、理論解析によりDR法は比較的大きなばらつきを持つが、誤り計算法(EIB)法は小さいことが示されている。 本稿では,EIB と DR の利点を効果的に捉えた {\bf DR-TMLE を提案する。 DR-TMLE はまず最初の EIB 推定器を取得し、次にバイアス低減方向とともに誤差計算モデルを更新する。 さらに,DR-TMLE に対する RCT による協調学習アルゴリズム {\bf DR-TMLE-TL} を提案する。 理論的解析と実験は、既存のデバイアス法と比較して提案手法の利点を実証している。

In recommender systems, the feedback data received is always missing not at random (MNAR), which poses challenges for accurate rating prediction. To address this issue, many recent studies have been conducted on the doubly robust (DR) method and its variants to reduce bias. However, theoretical analysis shows that the DR method has a relatively large variance, while that of the error imputation-based (EIB) method is smaller. In this paper, we propose {\bf DR-TMLE} that effectively captures the merits of both EIB and DR, by leveraging the targeted maximum likelihood estimation (TMLE) technique. DR-TMLE first obtains an initial EIB estimator and then updates the error imputation model along with the bias-reduced direction. Furthermore, we propose a novel RCT-free collaborative targeted learning algorithm for DR-TMLE, called {\bf DR-TMLE-TL}, which updates the propensity model adaptively to reduce the bias of imputed errors. Both theoretical analysis and experiments demonstrate the advantages of the proposed methods compared with existing debiasing methods.
翻訳日:2022-03-23 13:30:35 公開日:2022-03-19
# 近隣効果の爆発: ヘテロフィリーグラフのためのConv-Agnostic GNNsフレームワーク

Exploiting Neighbor Effect: Conv-Agnostic GNNs Framework for Graphs with Heterophily ( http://arxiv.org/abs/2203.11200v1 )

ライセンス: Link先を確認
Jie Chen, Shouzhen Chen, Zengfeng Huang, Junping Zhang and Jian Pu(参考訳) グラフ畳み込みネットワークのホモフィリーな仮定のため、グラフニューラルネットワーク(GNN)はホモフィリックグラフではうまく機能するが、クラス間のエッジが多いヘテロフィリックグラフでは失敗する可能性があるという共通認識がある。 本研究では,GNNのヘテロフィリ問題を再検討し,クラス間隣人の特徴集約について検討する。 隣接ノードが下流タスクに有用かどうかをよりよく評価するために,各ノードの近傍効果の概念を示し,von neumannエントロピーを用いて各クラスに対する近傍分布のランダム性/識別性を測定する。 さらに,各ノードの隣接効果を学習することにより,異種データセット上でのGNNの性能向上を図るためのConv-Agnostic GNNsフレームワークを提案する。 具体的には、まず各ノードの特徴を下流タスクの判別機能とグラフ畳み込みの集約機能に分離する。 次に、各ノードの隣り合う効果を適応的に評価し、隣の情報を組み込むための共有ミキサーモジュールを提案する。 ノード分類タスクでよく知られた9つのベンチマークデータセットで実験を行う。 その結果, GIN, GAT, GCNはそれぞれ平均予測性能を9.81\%, 25.81\%, 20.61\%向上できることがわかった。 広範なアブレーション研究とロバストネス分析により,枠組みの有効性,ロバスト性,解釈性がさらに検証された。

Due to the homophily assumption of graph convolution networks, a common consensus is that graph neural networks (GNNs) perform well on homophilic graphs but may fail on the heterophilic graphs with many inter-class edges. In this work, we re-examine the heterophily problem of GNNs and investigate the feature aggregation of inter-class neighbors. To better evaluate whether the neighbor is helpful for the downstream tasks, we present the concept of the neighbor effect of each node and use the von Neumann entropy to measure the randomness/identifia bility of the neighbor distribution for each class. Moreover, we propose a Conv-Agnostic GNNs framework (CAGNNs) to enhance the performance of GNNs on heterophily datasets by learning the neighbor effect for each node. Specifically, we first decouple the feature of each node into the discriminative feature for downstream tasks and the aggregation feature for graph convolution. Then, we propose a shared mixer module for all layers to adaptively evaluate the neighbor effect of each node to incorporate the neighbor information. Experiments are performed on nine well-known benchmark datasets for the node classification task. The results indicate that our framework is able to improve the average prediction performance by 9.81\%, 25.81\%, and 20.61\% for GIN, GAT, and GCN, respectively. Extensive ablation studies and robustness analysis further verify the effectiveness, robustness, and interpretability of our framework.
翻訳日:2022-03-23 12:47:09 公開日:2022-03-19
# 多元混合サンプリングとメタラーニングによる事故シーンのロバストなセグメンテーションに向けて

Towards Robust Semantic Segmentation of Accident Scenes via Multi-Source Mixed Sampling and Meta-Learning ( http://arxiv.org/abs/2203.10395v1 )

ライセンス: Link先を確認
Xinyu Luo, Jiaming Zhang, Kailun Yang, Alina Roitberg, Kunyu Peng, Rainer Stiefelhagen(参考訳) 自動運転車は都市シーンのセグメンテーションを利用して、現実世界を人間のように理解し、それに応じて反応する。 通常のシーンのセマンティクスセグメンテーションは、従来のベンチマークの精度が著しく向上している。 しかし、実際の事故の大部分は、物体の変形、転覆、予期しない交通行動などの異常な場面を特徴としている。 運転シーンの小さな誤解でさえ、人間の生活に深刻な脅威をもたらす可能性があるため、事故シナリオにおけるモデルの堅牢性は、インテリジェントな輸送システムの安全性を確保する上で非常に重要な要素である。 本稿では,セグメント化変換器の極端な事故現場への一般化を改善するために,MMUDA(Multi-source Meta-learning Unsupervised Domain Adaptation)フレームワークを提案する。 MMUDAでは、Multi-Domain Mixed Smplingを用いて、複数のソースドメイン(通常シーン)の画像にターゲットデータ(異常シーン)を付加する。 モデルをトレーニングするために、セグメント化結果を堅牢化するためのマルチソース設定において、メタ学習戦略を介入し、研究する。 我々はさらに、空間ピラミッドプールとストリッププールを備えたHybridASPPデコーダ設計でセグメント化バックボーン(SegFormer)を強化し、長距離コンテキスト依存を効率的に集約する。 DADA-segベンチマークではmIoUスコアが46.97%に達し,従来の最先端モデルよりも7.50%以上向上した。 コードはhttps://github.com/x inyu-laura/MMUDA.com で公開される。

Autonomous vehicles utilize urban scene segmentation to understand the real world like a human and react accordingly. Semantic segmentation of normal scenes has experienced a remarkable rise in accuracy on conventional benchmarks. However, a significant portion of real-life accidents features abnormal scenes, such as those with object deformations, overturns, and unexpected traffic behaviors. Since even small mis-segmentation of driving scenes can lead to serious threats to human lives, the robustness of such models in accident scenarios is an extremely important factor in ensuring safety of intelligent transportation systems. In this paper, we propose a Multi-source Meta-learning Unsupervised Domain Adaptation (MMUDA) framework, to improve the generalization of segmentation transformers to extreme accident scenes. In MMUDA, we make use of Multi-Domain Mixed Sampling to augment the images of multiple-source domains (normal scenes) with the target data appearances (abnormal scenes). To train our model, we intertwine and study a meta-learning strategy in the multi-source setting for robustifying the segmentation results. We further enhance the segmentation backbone (SegFormer) with a HybridASPP decoder design, featuring large window attention spatial pyramid pooling and strip pooling, to efficiently aggregate long-range contextual dependencies. Our approach achieves a mIoU score of 46.97% on the DADA-seg benchmark, surpassing the previous state-of-the-art model by more than 7.50%. Code will be made publicly available at https://github.com/x inyu-laura/MMUDA.
翻訳日:2022-03-22 19:28:31 公開日:2022-03-19
# ランダム化svdの摂動解析と高次元統計への応用

Perturbation Analysis of Randomized SVD and its Applications to High-dimensional Statistics ( http://arxiv.org/abs/2203.10262v1 )

ライセンス: Link先を確認
Yichi Zhang and Minh Tang(参考訳) ランダム化特異値分解(英: Randomized singular value decomposition、RSVD)は、大規模データ行列の切り詰められたSVDを計算するための計算効率のよいアルゴリズムである。 n \times n$ 対称行列 $\mathbf{m}$ が与えられると、原型的なrsvdアルゴリズムは、$\mathbf{m}^{g} \mathbf{g}$; ここで$g \geq 1$ は整数で$\mathbf{g} \in \mathbb{r}^{n \times k}$ はランダムガウスのスケッチ行列である。 本稿では、一般の「信号+ノイズ」の枠組みの下でRSVDの統計的性質を研究する。すなわち、観測行列 $\hat{\mathbf{M}}$ は、真だが未知の信号行列 $\mathbf{M}$ の加法摂動であると仮定する。 まず、$\ell_2$(スペクトルノルム)と$\ell_{2\to\infty}$(最大行幅$\ell_2$ノルム)距離について、$\hat{\mathbf{M}}$の近似特異ベクトルと信号行列$\mathbf{M}$の真の特異ベクトルの間の上限を導出する。 これらの上限はsnr(signal-to-noise ratio)と電力反復数(power iteration)に依存する。 位相遷移現象は、より小さな SNR が $\ell_2$ と $\ell_{2\to\infty}$ 距離の収束を保証するために$g$ のより大きな値を必要とするのが観察される。 また、ノイズ行列が特定のトレース成長条件を満たすと、これらの相転移が発生する$g$のしきい値がシャープであることを示す。 最後に、近似特異ベクトルの行方向のゆらぎと近似行列のエントリ方向のゆらぎに対する正規近似を導出する。 本研究では,3つの統計的推論問題,すなわちコミュニティ検出,マトリクス補完,欠落データを用いた主成分分析に適用し,rsvdの最適性能保証を導出して理論的結果を示す。

Randomized singular value decomposition (RSVD) is a class of computationally efficient algorithms for computing the truncated SVD of large data matrices. Given a $n \times n$ symmetric matrix $\mathbf{M}$, the prototypical RSVD algorithm outputs an approximation of the $k$ leading singular vectors of $\mathbf{M}$ by computing the SVD of $\mathbf{M}^{g} \mathbf{G}$; here $g \geq 1$ is an integer and $\mathbf{G} \in \mathbb{R}^{n \times k}$ is a random Gaussian sketching matrix. In this paper we study the statistical properties of RSVD under a general "signal-plus-noise&qu ot; framework, i.e., the observed matrix $\hat{\mathbf{M}}$ is assumed to be an additive perturbation of some true but unknown signal matrix $\mathbf{M}$. We first derive upper bounds for the $\ell_2$ (spectral norm) and $\ell_{2\to\infty}$ (maximum row-wise $\ell_2$ norm) distances between the approximate singular vectors of $\hat{\mathbf{M}}$ and the true singular vectors of the signal matrix $\mathbf{M}$. These upper bounds depend on the signal-to-noise ratio (SNR) and the number of power iterations $g$. A phase transition phenomenon is observed in which a smaller SNR requires larger values of $g$ to guarantee convergence of the $\ell_2$ and $\ell_{2\to\infty}$ distances. We also show that the thresholds for $g$ where these phase transitions occur are sharp whenever the noise matrices satisfy a certain trace growth condition. Finally, we derive normal approximations for the row-wise fluctuations of the approximate singular vectors and the entrywise fluctuations of the approximate matrix. We illustrate our theoretical results by deriving nearly-optimal performance guarantees for RSVD when applied to three statistical inference problems, namely, community detection, matrix completion, and principal component analysis with missing data.
翻訳日:2022-03-22 19:28:03 公開日:2022-03-19
# 垂直的フェデレーション学習のための好適なコンパニオン:新しいゼロ階勾配アルゴリズム

Desirable Companion for Vertical Federated Learning: New Zeroth-Order Gradient Based Algorithm ( http://arxiv.org/abs/2203.10329v1 )

ライセンス: Link先を確認
Qingsong Zhang, Bin Gu, Zhiyuan Dang, Cheng Deng, Heng Huang(参考訳) 垂直連合学習(VFL)は、多人数協調モデリングの新たな需要とプライバシー漏洩の懸念から注目を集めている。 VFLアルゴリズムを評価するための指標の完全なリストには、モデル適用性、プライバシセキュリティ、通信コスト、計算効率などが含まれる。 しかしながら、我々の知る限りでは、これらの基準を十分に満たすVFLアルゴリズムは存在しない。 この課題に対処するため、本稿では、ゼロ階最適化(ZOO)がVFLの望ましい相補体であることを明らかにする。 特にZOOは 1)VFLフレームワークのモデル適用性の向上。 2)vflフレームワークが,好奇心や共謀,悪意のある脅威モデルの下でプライバシリークを防止する。 3) 安価な通信と効率的な計算をサポートする。 そこで本研究では,ZOOの有望な特性と独立に相互接続するブラックボックスモデルを用いた,斬新で実用的なVFLフレームワークを提案する。 すべての基準に適合する実用的なVFLフレームワークを設計するには1つの努力が必要だと考えています。 この枠組みでは、異なるスムーズな手法で2つの新しいze{\bf r}oth-ord{\bf e}rアルゴリズムを、f{\bf e}derated {\bf l}earning (AsyREVEL) に対して立ち上げる。 非凸条件下でのAsyREVELアルゴリズムの収束率を理論的に推算する。 さらに重要なことは、既存のVFL攻撃下で提案したフレームワークのプライバシーセキュリティを異なるレベルで証明することです。 ベンチマークデータセットに関する広範な実験では,モデルの適用性,プライバシセキュリティの満足度,安価な通信,効率的な計算,スケーラビリティ,ロスレス性などが示されています。

Vertical federated learning (VFL) attracts increasing attention due to the emerging demands of multi-party collaborative modeling and concerns of privacy leakage. A complete list of metrics to evaluate VFL algorithms should include model applicability, privacy security, communication cost, and computation efficiency, where privacy security is especially important to VFL. However, to the best of our knowledge, there does not exist a VFL algorithm satisfying all these criteria very well. To address this challenging problem, in this paper, we reveal that zeroth-order optimization (ZOO) is a desirable companion for VFL. Specifically, ZOO can 1) improve the model applicability of VFL framework, 2) prevent VFL framework from privacy leakage under curious, colluding, and malicious threat models, 3) support inexpensive communication and efficient computation. Based on that, we propose a novel and practical VFL framework with black-box models, which is inseparably interconnected to the promising properties of ZOO. We believe that it takes one stride towards designing a practical VFL framework matching all the criteria. Under this framework, we raise two novel {\bf asy}nchronous ze{\bf r}oth-ord{\bf e}r algorithms for {\bf v}ertical f{\bf e}derated {\bf l}earning (AsyREVEL) with different smoothing techniques. We theoretically drive the convergence rates of AsyREVEL algorithms under nonconvex condition. More importantly, we prove the privacy security of our proposed framework under existing VFL attacks on different levels. Extensive experiments on benchmark datasets demonstrate the favorable model applicability, satisfied privacy security, inexpensive communication, efficient computation, scalability and losslessness of our framework.
翻訳日:2022-03-22 19:27:00 公開日:2022-03-19
# メタ重み付きグラフニューラルネットワーク:グローバルホモフィリーを超えて限界を押し上げる

Meta-Weight Graph Neural Network: Push the Limits Beyond Global Homophily ( http://arxiv.org/abs/2203.10280v1 )

ライセンス: Link先を確認
Xiaojun Ma, Qin Chen, Yuanyi Ren, Guojie Song, Liang Wang(参考訳) グラフニューラルネットワーク(GNN)は、近隣からの情報を集約し、下流タスクにおける統合表現を使用することにより、グラフデータマイニングに強い表現力を示す。 グラフ内の各ノードに対する同じ集約方法とパラメータを使用して、GNNがホモフィリレーショナルデータを利用することができる。 しかし、すべてのグラフがホモ親和性を持つわけではないが、同じグラフであっても分布は大きく異なる可能性がある。 すべてのノードで同じ畳み込みを使用すると、様々なグラフパターンが無視される可能性がある。 さらに、多くの既存のGNNはノードの特徴と構造を同一に統合し、ノードの分布を無視し、さらにGNNの表現力を制限する。 これらの問題を解決するために,異なるノードに対するグラフ畳み込み層を適応的に構築するメタウェイトグラフニューラルネットワーク(MWGNN)を提案する。 まず,ノードの局所分布 (nld) を,ノードの特徴,位相構造,位置同一性からメタ重み付けを用いてモデル化する。 次に、メタ重みに基づいて適応グラフ畳み込みを生成し、ノード固有の重み付け集約を行い、ノード表現を増加させる。 最後に,mwgnnの有効性を評価するために,実世界および合成ベンチマークに関する広範な実験をデザインする。 これらの実験は,様々な分布のグラフデータを扱う上で,MWGNNの優れた表現力を示す。

Graph Neural Networks (GNNs) show strong expressive power on graph data mining, by aggregating information from neighbors and using the integrated representation in the downstream tasks. The same aggregation methods and parameters for each node in a graph are used to enable the GNNs to utilize the homophily relational data. However, not all graphs are homophilic, even in the same graph, the distributions may vary significantly. Using the same convolution over all nodes may lead to the ignorance of various graph patterns. Furthermore, many existing GNNs integrate node features and structure identically, which ignores the distributions of nodes and further limits the expressive power of GNNs. To solve these problems, we propose Meta Weight Graph Neural Network (MWGNN) to adaptively construct graph convolution layers for different nodes. First, we model the Node Local Distribution (NLD) from node feature, topological structure and positional identity aspects with the Meta-Weight. Then, based on the Meta-Weight, we generate the adaptive graph convolutions to perform a node-specific weighted aggregation and boost the node representations. Finally, we design extensive experiments on real-world and synthetic benchmarks to evaluate the effectiveness of MWGNN. These experiments show the excellent expressive power of MWGNN in dealing with graph data with various distributions.
翻訳日:2022-03-22 18:45:33 公開日:2022-03-19
# カオス暗号化による画像デノッシングによる敵防御

Adversarial Defense via Image Denoising with Chaotic Encryption ( http://arxiv.org/abs/2203.10290v1 )

ライセンス: Link先を確認
Shi Hu, Eric Nalisnick, Max Welling(参考訳) 逆境の例の文献では、ホワイトボックスとブラックボックスの攻撃が最も注目を集めている。 敵は、ディフェンダーのモデルに完全(白人)または無(黒人)アクセスを持っていると仮定される。 本研究では,攻撃者が部分的な情報を持っていると仮定して,実用的なグレーボックス設定に着目する。 攻撃者には秘密鍵以外の全てを利用できると仮定する新しい防御法を提案する。 当社のフレームワークは、離散ベイカーマップによる暗号化と結合した画像デノイジング手順を使用する。 fgsm、pgdなど、様々な勾配で製作された敵画像に対する広範囲なテストは、我々の防御がcifar-10とcifar-100において、自然と敵の正確性において最先端のグレーボックス防御よりも著しく優れた結果をもたらすことを示している。

In the literature on adversarial examples, white box and black box attacks have received the most attention. The adversary is assumed to have either full (white) or no (black) access to the defender's model. In this work, we focus on the equally practical gray box setting, assuming an attacker has partial information. We propose a novel defense that assumes everything but a private key will be made available to the attacker. Our framework uses an image denoising procedure coupled with encryption via a discretized Baker map. Extensive testing against adversarial images (e.g. FGSM, PGD) crafted using various gradients shows that our defense achieves significantly better results on CIFAR-10 and CIFAR-100 than the state-of-the-art gray box defenses in both natural and adversarial accuracy.
翻訳日:2022-03-22 18:45:12 公開日:2022-03-19
# PACE: 有向非巡回グラフのための並列計算エンコーダ

PACE: A Parallelizable Computation Encoder for Directed Acyclic Graphs ( http://arxiv.org/abs/2203.10304v1 )

ライセンス: Link先を確認
Zehao Dong, Muhan Zhang, Fuhai Li, Yixin Chen(参考訳) 有向非巡回グラフ(dag)構造の最適化には、ニューラルネットワーク探索(nas)や確率的グラフィカルモデル学習といった多くの応用がある。 DAGを実ベクトルにエンコードすることは、ほとんどのニューラルネットワークベースのDAG最適化フレームワークにおいて支配的なコンポーネントである。 現在、ほとんどのDAGエンコーダは非同期メッセージパッシングスキームを使用しており、DAG内のノード間の依存関係に応じて順次ノードを処理する。 つまり、前者がすべて処理されるまでノードは処理してはならない。 結果として、それらは本質的に並列化できない。 本研究では,ノードを同時に処理し,DAGを並列に符号化する並列化アテンションベースの計算構造(PACE)を提案する。 学習されたDAG埋め込みに基づいて最適なDAG構造を探索するエンコーダ依存最適化サブルーチンによるPACEの優位性を示す。 実験により、PACEはトレーニングと推論速度を大幅に向上した従来のDAGエンコーダよりも効率を向上するだけでなく、下流最適化サブルーチンに有利なスムーズな遅延(DAGエンコーディング)空間を生成することが示された。 我々のソースコードは \url{https://github.com/z ehaodong/PACE} で入手できる。

Optimization of directed acyclic graph (DAG) structures has many applications, such as neural architecture search (NAS) and probabilistic graphical model learning. Encoding DAGs into real vectors is a dominant component in most neural-network-based DAG optimization frameworks. Currently, most DAG encoders use an asynchronous message passing scheme which sequentially processes nodes according to the dependency between nodes in a DAG. That is, a node must not be processed until all its predecessors are processed. As a result, they are inherently not parallelizable. In this work, we propose a Parallelizable Attention-based Computation structure Encoder (PACE) that processes nodes simultaneously and encodes DAGs in parallel. We demonstrate the superiority of PACE through encoder-dependent optimization subroutines that search the optimal DAG structure based on the learned DAG embeddings. Experiments show that PACE not only improves the effectiveness over previous sequential DAG encoders with a significantly boosted training and inference speed, but also generates smooth latent (DAG encoding) spaces that are beneficial to downstream optimization subroutines. Our source code is available at \url{https://github.com/z ehaodong/PACE}
翻訳日:2022-03-22 18:17:24 公開日:2022-03-19
# リプレイ型連続学習手法の実践的勧告

Practical Recommendations for Replay-based Continual Learning Methods ( http://arxiv.org/abs/2203.10317v1 )

ライセンス: Link先を確認
Gabriele Merlin and Vincenzo Lomonaco and Andrea Cossu and Antonio Carta and Davide Bacciu(参考訳) 継続学習では、以前の知識を忘れることなく、動的で静止しないデータのストリームからモデルを学習する必要がある。 連続的な学習課題に取り組むために、文献でいくつかのアプローチが開発されている。 その中でも、リプレイアプローチが最も効果的であることが実証されている。 リプレイは、いくつかのサンプルをメモリに保存し、その後のタスクでトレーニング中に知識をリハーサルするために使用される。 しかし、異なるリプレイ実装に関する広範囲な比較と深い理解は、文献にはまだ欠けている。 本研究の目的は,既存のリプレイベース戦略を比較分析し,効率的かつ効果的かつ汎用的に適用可能なリプレイベース戦略を開発するための実践的勧告を提供することである。 特に、メモリサイズ値の役割、重み付けポリシーの違い、データ拡張の影響について検討し、より少ないメモリサイズでパフォーマンスを達成することを可能にする。

Continual Learning requires the model to learn from a stream of dynamic, non-stationary data without forgetting previous knowledge. Several approaches have been developed in the literature to tackle the Continual Learning challenge. Among them, Replay approaches have empirically proved to be the most effective ones. Replay operates by saving some samples in memory which are then used to rehearse knowledge during training in subsequent tasks. However, an extensive comparison and deeper understanding of different replay implementation subtleties is still missing in the literature. The aim of this work is to compare and analyze existing replay-based strategies and provide practical recommendations on developing efficient, effective and generally applicable replay-based strategies. In particular, we investigate the role of the memory size value, different weighting policies and discuss about the impact of data augmentation, which allows reaching better performance with lower memory sizes.
翻訳日:2022-03-22 18:17:02 公開日:2022-03-19
# 汎用エージェント研究のためのサンドボックス環境

The Sandbox Environment for Generalizable Agent Research (SEGAR) ( http://arxiv.org/abs/2203.10351v1 )

ライセンス: Link先を確認
R Devon Hjelm, Bogdan Mazoure, Florian Golemo, Felipe Frujeri, Mihai Jalobeanu, Andrey Kolobov(参考訳) 対話環境における逐次意思決定タスクの一般化に関する研究の課題は、明らかに進歩を示すベンチマークを設計することである。 目立った道のりはあったが、現在のベンチマークでは、適切な露出や根底にある要因の直感的な制御を提供しておらず、簡単に実装でき、カスタマイズ可能で、拡張可能でもなく、計算に費用がかかる。 これらすべてを念頭に置いて,汎用エージェントリサーチ(segar)のためのサンドボックス環境を構築しました。 segar は rl における一般化研究の容易さと説明可能性を改善し、一般化の目的をタスク分布を特定することで容易に設計できるため、一般化の目的の性質を測定することができる。 本稿では、SEGARの概要と、SEGARがこれらの目標にどのように貢献するか、およびSEGARが答えられるいくつかの研究課題を示す実験を紹介する。

A broad challenge of research on generalization for sequential decision-making tasks in interactive environments is designing benchmarks that clearly landmark progress. While there has been notable headway, current benchmarks either do not provide suitable exposure nor intuitive control of the underlying factors, are not easy-to-implement, customizable, or extensible, or are computationally expensive to run. We built the Sandbox Environment for Generalizable Agent Research (SEGAR) with all of these things in mind. SEGAR improves the ease and accountability of generalization research in RL, as generalization objectives can be easy designed by specifying task distributions, which in turns allows the researcher to measure the nature of the generalization objective. We present an overview of SEGAR and how it contributes to these goals, as well as experiments that demonstrate a few types of research questions SEGAR can help answer.
翻訳日:2022-03-22 18:16:51 公開日:2022-03-19
# 深層学習の一般化・外挿・過パラメータ化

Deep Learning Generalization, Extrapolation, and Over-parameterizatio n ( http://arxiv.org/abs/2203.10366v1 )

ライセンス: Link先を確認
Roozbeh Yousefzadeh(参考訳) トレーニングセットの凸殻に関して,過パラメータ化深層ネットワーク(画像分類用)の一般化について検討した。 その大きな成功にもかかわらず、ディープネットワークの一般化はミステリーと見なされている。 これらのモデルは、トレーニングサンプルよりも桁違いに多くのパラメータを持ち、トレーニング画像がランダムにラベル付けされたり、画像の内容がランダムなノイズに置き換えられたりしても、トレーニングセットの完全な精度を達成できます。 これらのモデルのトレーニング損失関数は無限個の近傍最小化子を持ち、最小化子の小さな部分集合のみがよく一般化される。 全体として、モデルが過度にパラメータ化される必要がある理由、トレーニングに非常に特定のトレーニングレジームを使用するべき理由、そしてそれらの分類が、不可避な敵対的摂動(adversarial vulnerability)の影響を受けやすい理由が明確ではない。 近年の研究ではこれらの疑問に答える研究が進んでいるが、補間のみを考える研究もある。 我々は,深層ネットワークの一般化を理解するには補間が不十分であることを示す。

We study the generalization of over-parameterized deep networks (for image classification) in relation to the convex hull of their training sets. Despite their great success, generalization of deep networks is considered a mystery. These models have orders of magnitude more parameters than their training samples, and they can achieve perfect accuracy on their training sets, even when training images are randomly labeled, or the contents of images are replaced with random noise. The training loss function of these models has infinite number of near zero minimizers, where only a small subset of those minimizers generalize well. Overall, it is not clear why models need to be over-parameterized, why we should use a very specific training regime to train them, and why their classifications are so susceptible to imperceivable adversarial perturbations (phenomenon known as adversarial vulnerability) \cite{papernot2016limitati ons,shafahi2018adver sarial,tsipras2018ro bustness}. Some recent studies have made advances in answering these questions, however, they only consider interpolation. We show that interpolation is not adequate to understand generalization of deep networks and we should broaden our perspective.
翻訳日:2022-03-22 18:16:36 公開日:2022-03-19
# DiSECt:ロボット切削におけるパラメータ推論と制御のための微分可能シミュレータ

DiSECt: A Differentiable Simulator for Parameter Inference and Control in Robotic Cutting ( http://arxiv.org/abs/2203.10263v1 )

ライセンス: Link先を確認
Eric Heiden, Miles Macklin, Yashraj Narang, Dieter Fox, Animesh Garg, Fabio Ramos(参考訳) ソフト素材のロボット切削は、食品加工、家事自動化、外科手術などの応用に不可欠である。 ロボット工学の他の分野と同様に、シミュレータは制御者検証、ポリシー学習、データセット生成を容易にすることができる。 さらに、微分可能なシミュレータは勾配に基づく最適化を可能にし、シミュレーションパラメータの校正やコントローラの最適化に有用である。 本研究は, 軟質材料を切断する最初の微分可能シミュレータであるDiSECtについて述べる。 シミュレータは、有限要素法(FEM)を、符号付き距離場(SDF)に基づく連続接触モデルと、切削面の反対側にバネを挿入し、剛性がゼロになるまで弱め、ひび割れ形成を可能にする連続損傷モデルとで拡張する。 各種実験により,シミュレータの性能評価を行った。 まず、現状の商用解法と実世界の切断データセットから得られた力と変形場を、切断速度とオブジェクトインスタンスにまたがる一般性を用いて、シミュレータをキャリブレーションできることを示す。 次に,シミュレータの微分可能性を利用してベイズ推定を効率的に行うことができ,デリバティブフリー手法の時間に数百以上のパラメータを推定できることを示した。 次に,シミュレーションにおける制御パラメータを最適化し,横スライシング動作による切削力を最小化できることを示す。 最後に,スライシングナイフを備えた実ロボットアームを用いて,力測定からシミュレーションパラメータを推定する実験を行った。 ナイフのスライス動作を最適化することにより, 垂直切削動作と比較して, 平均的なナイフ力は40%以上低減できることを示す。 コードと追加資料は、プロジェクトのwebサイトhttps://diff-cutting -sim.github.ioで公開しています。

Robotic cutting of soft materials is critical for applications such as food processing, household automation, and surgical manipulation. As in other areas of robotics, simulators can facilitate controller verification, policy learning, and dataset generation. Moreover, differentiable simulators can enable gradient-based optimization, which is invaluable for calibrating simulation parameters and optimizing controllers. In this work, we present DiSECt: the first differentiable simulator for cutting soft materials. The simulator augments the finite element method (FEM) with a continuous contact model based on signed distance fields (SDF), as well as a continuous damage model that inserts springs on opposite sides of the cutting plane and allows them to weaken until zero stiffness, enabling crack formation. Through various experiments, we evaluate the performance of the simulator. We first show that the simulator can be calibrated to match resultant forces and deformation fields from a state-of-the-art commercial solver and real-world cutting datasets, with generality across cutting velocities and object instances. We then show that Bayesian inference can be performed efficiently by leveraging the differentiability of the simulator, estimating posteriors over hundreds of parameters in a fraction of the time of derivative-free methods. Next, we illustrate that control parameters in the simulation can be optimized to minimize cutting forces via lateral slicing motions. Finally, we conduct experiments on a real robot arm equipped with a slicing knife to infer simulation parameters from force measurements. By optimizing the slicing motion of the knife, we show on fruit cutting scenarios that the average knife force can be reduced by more than 40% compared to a vertical cutting motion. We publish code and additional materials on our project website at https://diff-cutting -sim.github.io.
翻訳日:2022-03-22 18:10:50 公開日:2022-03-19
# 障害音声認識のためのクロスドメイン音響-調音反転特徴の抽出

Exploiting Cross Domain Acoustic-to-articula tory Inverted Features For Disordered Speech Recognition ( http://arxiv.org/abs/2203.10274v1 )

ライセンス: Link先を確認
Shujie Hu, Shansong Liu, Xurong Xie, Mengzhe Geng, Tianzi Wang, Shoukang Hu, Mingyu Cui, Xunying Liu, Helen Meng(参考訳) 調音機能は音響信号の歪みに本質的に不変であり、正常音声のための自動音声認識(ASR)システムにうまく組み込まれている。 障害話者からそのような専門的データを収集することの難しさにより、その音声認識への実践的応用が制限されることがしばしばある。 本稿では、102.7時間UASpeechコーパスに適合するまでのモデルトレーニングにおいて、15時間TORGOコーパスの並列音響調音データを利用するクロスドメイン音響調音(A2A)インバージョン手法を提案する。 混合密度ネットワークに基づくニューラルA2Aインバージョンモデルを用いた。 また,ORGOデータとUASpeechデータの音響ミスマッチを低減するために,クロスドメイン特徴適応ネットワークを用いた。 両方のタスクにおいて、A2Aの生成した調音機能を組み込むことで、ベースラインハイブリッドDNN/TDNN、CTC、コンフォーマーベースのエンドツーエンドシステムは音響的特徴のみを用いて構築された。 ビデオモダリティとクロスドメインの調音機能を組み込んだ最高のマルチモーダルシステムと、データ拡張と学習用隠れユニットコントリビューション(LHUC)話者適応は、ベンチマークUASpeechタスクの16の変形性話者に対して、24.82%の低い単語誤り率(WER)を生み出した。

Articulatory features are inherently invariant to acoustic signal distortion and have been successfully incorporated into automatic speech recognition (ASR) systems for normal speech. Their practical application to disordered speech recognition is often limited by the difficulty in collecting such specialist data from impaired speakers. This paper presents a cross-domain acoustic-to-articula tory (A2A) inversion approach that utilizes the parallel acoustic-articulator y data of the 15-hour TORGO corpus in model training before being cross-domain adapted to the 102.7-hour UASpeech corpus and to produce articulatory features. Mixture density networks based neural A2A inversion models were used. A cross-domain feature adaptation network was also used to reduce the acoustic mismatch between the TORGO and UASpeech data. On both tasks, incorporating the A2A generated articulatory features consistently outperformed the baseline hybrid DNN/TDNN, CTC and Conformer based end-to-end systems constructed using acoustic features only. The best multi-modal system incorporating video modality and the cross-domain articulatory features as well as data augmentation and learning hidden unit contributions (LHUC) speaker adaptation produced the lowest published word error rate (WER) of 24.82% on the 16 dysarthric speakers of the benchmark UASpeech task.
翻訳日:2022-03-22 18:10:16 公開日:2022-03-19
# 制約空間における遅延再配置計画

Lazy Rearrangement Planning in Confined Spaces ( http://arxiv.org/abs/2203.10379v1 )

ライセンス: Link先を確認
Rui Wang, Kai Gao, Jingjin Yu, Kostas Bekris(参考訳) オブジェクトの再配置は、多くのアプリケーションにとって重要であるが、特に棚のような狭い空間では、オブジェクトが上から簡単にアクセスできなくなり、互いにリーチビリティを阻害する。 このような制約は、多くの動作計画と衝突チェックコールを必要とし、計算コストがかかる。 さらに、配置空間(可能な対象配置の空間)はオブジェクトの数で指数関数的に増加する。 これらの問題に対処するために、この研究は、限定空間におけるオブジェクト再構成のための遅延評価フレームワークを導入する。 局所単調解法を改良し、一般の非単調の場合は高品質なプランナーに拡張する。 モノトンインスタンスは、各オブジェクトを一度だけ移動することで解決できる。 重要な洞察は、オブジェクトの開始と目標に対する到達可能性の制約は、高価なモーションプランニングクエリを実行する必要なしに、オブジェクト間の依存関係を素早く明らかにできるということである。 ローカルソルバは、アームパスが衝突しないことを検証せずに、これらの到達可能性制約を尊重する探索木を怠慢に構築する。 有望な解が到達可能な場合にのみ衝突チェックを行う。 モノトーンソリューションが見つからない場合、非モノトーンプランナーは遅延探索木をロードし、モノトーンソリューションがゴールに見つかる場所から中間の場所へオブジェクトを移動する方法を探索する。 非単調プランナーは衝突チェックを最小限に抑えるために遅延評価も施す。 包括的シミュレーションとロボットのデモンストレーションにより、提案手法は最大16個のオブジェクトで閉じた空間の難しいインスタンスを解決できることが示されている。 また、非単調なインスタンスでは平均1.8のアクションしか必要とせず、高品質なソリューションも実現している。 また、代替案が解決策を見つけるとき、代替案よりも早く問題を解決する。

Object rearrangement is important for many applications but remains challenging, especially in confined spaces, such as shelves, where objects cannot be easily accessed from above and they block reachability to each other. Such constraints require many motion planning and collision checking calls, which are computationally expensive. In addition, the arrangement space (space of possible object placements) grows exponentially with the number of objects. To address these issues, this work introduces a lazy evaluation framework for object rearrangement in confined spaces. It improves upon a local monotone solver, which extends to a high-quality planner for the general, non-monotone case. Monotone instances are those that can be solved by moving each object at most once. A key insight is that reachability constraints at the grasps for objects' starts and goals can quickly reveal dependencies between objects without having to execute expensive motion planning queries. The local solver builds lazily a search tree that respects these reachability constraints without verifying that the arm paths are collision free. It only collision checks when a promising solution is found given grasp reachability. If a monotone solution is not found, the non-monotone planner loads the lazy search tree and explores ways to move objects to intermediate locations from where monotone solutions to the goal can be found. The non-monotone planner also applies lazy evaluation to minimize collision checking. Comprehensive simulations and robot demonstrations show that the proposed framework can solve difficult instances in confined spaces with up to 16 objects, which state-of-the-art methods fail to solve. It also achieves high-quality solutions, i.e., only 1.8 additional actions on average are needed for non-monotone instances. It also solves problems faster than alternatives, when the alternatives find a solution.
翻訳日:2022-03-22 18:09:47 公開日:2022-03-19
# データスメル:AIベースのシステムにおけるカテゴリ、原因、原因、および注目データの検出

Data Smells: Categories, Causes and Consequences, and Detection of Suspicious Data in AI-based Systems ( http://arxiv.org/abs/2203.10384v1 )

ライセンス: Link先を確認
Harald Foidl, Michael Felderer, Rudolf Ramler(参考訳) 今日のAIベースのシステムには、高いデータ品質が不可欠だ。 しかし、データ品質は何十年も研究の対象であったが、潜在的なデータ品質問題(例えば曖昧で余分な値)に関する研究が明らかに欠如している。 この種の問題は自然に潜んでいるため、しばしば明らかではない。 それでも、AIベースのシステム(技術的負債、データ誘発障害など)における将来の問題の増加に関連付けられる。 ソフトウェア工学におけるコードの臭いの代替として、Data Smellsのような問題を参照する。 この記事では、AIベースのシステムのコンテキストにおけるその原因、結果、検出、使用について、データの臭いと精巧さを概念化する。 さらに,36種類のデータ臭いのカタログを,3つのカテゴリ(信頼臭,理解臭,一貫性臭)に分類した。 さらに, 240以上の実世界のデータセットにおいて, データ臭い検出のためのツールサポートを概説し, 最初の臭い検出の結果を提示する。

High data quality is fundamental for today's AI-based systems. However, although data quality has been an object of research for decades, there is a clear lack of research on potential data quality issues (e.g., ambiguous, extraneous values). These kinds of issues are latent in nature and thus often not obvious. Nevertheless, they can be associated with an increased risk of future problems in AI-based systems (e.g., technical debt, data-induced faults). As a counterpart to code smells in software engineering, we refer to such issues as Data Smells. This article conceptualizes data smells and elaborates on their causes, consequences, detection, and use in the context of AI-based systems. In addition, a catalogue of 36 data smells divided into three categories (i.e., Believability Smells, Understandability Smells, Consistency Smells) is presented. Moreover, the article outlines tool support for detecting data smells and presents the result of an initial smell detection on more than 240 real-world datasets.
翻訳日:2022-03-22 18:09:19 公開日:2022-03-19
# 閉塞型自己監督型モノクロ6Dオブジェクトポース推定

Occlusion-Aware Self-Supervised Monocular 6D Object Pose Estimation ( http://arxiv.org/abs/2203.10339v1 )

ライセンス: Link先を確認
Gu Wang, Fabian Manhardt, Xingyu Liu, Xiangyang Ji, Federico Tombari(参考訳) 6Dオブジェクトのポーズ推定は、コンピュータビジョンの基本的な問題である。 畳み込みニューラルネットワーク(cnns)は、単眼環境下でも信頼できる6dポーズ推定を予測できることが最近証明されている。 それでも、CNNは極めてデータ駆動であり、適切なアノテーションを取得することは、しばしば非常に時間がかかり、労力がかかる。 この制限を克服するために,自己教師付き学習による新しい単眼6Dポーズ推定手法を提案し,実際のアノテーションの必要性を排除した。 提案するネットワークを合成rgbデータで完全に監視した上で,ノイズの多い学生トレーニングと微分可能レンダリングの現在のトレンドを活用して,教師なし実rgb(-d)サンプルのモデルをさらに自己監督し,視覚的かつ幾何学的に最適なアライメントを求める。 さらに,目に見えるマスク情報とアモーダルマスク情報の両方を用いることで,咬合などの難易度の高いシナリオに対して,自己スーパービジョンが極めて堅牢になる。 総合評価の結果,提案する自己超越法は,合成データやドメイン適応領域の精巧な手法を用いて,他の手法よりも優れていた。 注目すべきは、我々の自己監督的アプローチは、合成訓練されたベースラインよりも一貫して改善され、しばしば完全に教師されたベースラインへのギャップを埋めることです。 コードとモデルはhttps://github.com/T HU-DA-6D-Pose-Group/ self6dpp.gitで公開されている。

6D object pose estimation is a fundamental yet challenging problem in computer vision. Convolutional Neural Networks (CNNs) have recently proven to be capable of predicting reliable 6D pose estimates even under monocular settings. Nonetheless, CNNs are identified as being extremely data-driven, and acquiring adequate annotations is oftentimes very time-consuming and labor intensive. To overcome this limitation, we propose a novel monocular 6D pose estimation approach by means of self-supervised learning, removing the need for real annotations. After training our proposed network fully supervised with synthetic RGB data, we leverage current trends in noisy student training and differentiable rendering to further self-supervise the model on these unsupervised real RGB(-D) samples, seeking for a visually and geometrically optimal alignment. Moreover, employing both visible and amodal mask information, our self-supervision becomes very robust towards challenging scenarios such as occlusion. Extensive evaluations demonstrate that our proposed self-supervision outperforms all other methods relying on synthetic data or employing elaborate techniques from the domain adaptation realm. Noteworthy, our self-supervised approach consistently improves over its synthetically trained baseline and often almost closes the gap towards its fully supervised counterpart. The code and models are publicly available at https://github.com/T HU-DA-6D-Pose-Group/ self6dpp.git.
翻訳日:2022-03-22 18:03:19 公開日:2022-03-19
# ALAP-AE: As-Lite-as-Possible Auto-Encoder

ALAP-AE: As-Lite-as-Possible Auto-Encoder ( http://arxiv.org/abs/2203.10363v1 )

ライセンス: Link先を確認
Nisarg A. Shah and Gaurav Bharaj(参考訳) 本稿では,条件付き画像生成オートエンコーダが要求するテンソル計算を削減し,フォトリアリスティック画像生成の品質を犠牲にすることなく,適度に実現可能にするアルゴリズムを提案する。 本手法はデバイス非依存であり,CPUのみのGPU計算デバイスに対して,汎用ワークステーション上でオートエンコーダをトレーニングするのに要する通常の時間でオートエンコーダを最適化することができる。 まずチャネル重みを凝縮し、可能な限りチャネルを使わないようにする2段階の新規戦略によってこれを達成する。 そして、ほぼゼロに近いウェイトアクティベーションをエクアリングし、このライトオートエンコーダを微調整する。 画質を維持するために,教師と教師のトレーニングによって微調整を行い,教師として自動エンコーダを再利用する。 顔画像に対するセグメンテーションマスク,マンガ化のための顔画像,そして最後に複数のコンピュータデバイス上でのシーブラデータセットに対するCycleGANベースモデルなど,様々な条件付き画像生成タスクのパフォーマンス向上を示す。 我々は、クレームと設計選択を正当化し、画像品質を維持しながら、CPU専用デバイス上で様々なオートエンコーダのリアルタイムバージョンを実現するために、様々なアブレーション研究を行い、そのようなオートエンコーダの大規模展開を可能にした。

We present a novel algorithm to reduce tensor compute required by a conditional image generation autoencoder and make it as-lite-as-possible, without sacrificing quality of photo-realistic image generation. Our method is device agnostic, and can optimize an autoencoder for a given CPU-only, GPU compute device(s) in about normal time it takes to train an autoencoder on a generic workstation. We achieve this via a two-stage novel strategy where, first, we condense the channel weights, such that, as few as possible channels are used. Then, we prune the nearly zeroed out weight activations, and fine-tune this lite autoencoder. To maintain image quality, fine-tuning is done via student-teacher training, where we reuse the condensed autoencoder as the teacher. We show performance gains for various conditional image generation tasks: segmentation mask to face images, face images to cartoonization, and finally CycleGAN-based model on horse to zebra dataset over multiple compute devices. We perform various ablation studies to justify the claims and design choices, and achieve real-time versions of various autoencoders on CPU-only devices while maintaining image quality, thus enabling at-scale deployment of such autoencoders.
翻訳日:2022-03-22 18:02:56 公開日:2022-03-19
# dureader_retrieval: web検索エンジンからのパッセージ検索のための中国の大規模ベンチマーク

DuReader_retrieval: A Large-scale Chinese Benchmark for Passage Retrieval from Web Search Engine ( http://arxiv.org/abs/2203.10232v1 )

ライセンス: Link先を確認
Yifu Qiu, Hongyu Li, Yingqi Qu, Ying Chen, Qiaoqiao She, Jing Liu, Hua Wu, Haifeng Wang(参考訳) 本稿では,経路探索のための大規模中国語データセットであるDuReader_retrievalを提案する。 DuReader_retrievalには90万以上のクエリとBaidu検索からの800万以上のユニークなエントリが含まれている。 ベンチマークの品質を保証し,既存のデータセットの欠点に対処するため,(1)人間のアノテーションで複数の検索者の結果をプールすることで,開発とテストセットの誤りを低減し,(2)開発とテストセットによるトレーニングの間に意味論的に類似した疑問を取り除く。 さらに、ドメイン一般化能力をベンチマークするための2つのドメイン外テストセットを導入します。 実験の結果、DuReader_retrievalは困難であり、ドメイン間の一般化、クエリと段落間の適切なフレーズと構文ミスマッチ、ロバストネスなど、コミュニティが改善する余地がまだたくさんあることが示された。 dureader_retrievalはhttps://github.com/b aidu/dureader/tree/m aster/dureader-retri evalで公開されている。

In this paper, we present DuReader_retrieval, a large-scale Chinese dataset for passage retrieval. DuReader_retrieval contains more than 90K queries and over 8M unique passages from Baidu search. To ensure the quality of our benchmark and address the shortcomings in other existing datasets, we (1) reduce the false negatives in development and testing sets by pooling the results from multiple retrievers with human annotations, (2) and remove the semantically similar questions between training with development and testing sets. We further introduce two extra out-of-domain testing sets for benchmarking the domain generalization capability. Our experiment results demonstrate that DuReader_retrieval is challenging and there is still plenty of room for the community to improve, e.g. the generalization across domains, salient phrase and syntax mismatch between query and paragraph and robustness. DuReader_retrieval will be publicly available at https://github.com/b aidu/DuReader/tree/m aster/DuReader-Retri eval
翻訳日:2022-03-22 17:22:06 公開日:2022-03-19
# 音声認識における類似性とコンテンツベース音声自己注意

Similarity and Content-based Phonetic Self Attention for Speech Recognition ( http://arxiv.org/abs/2203.10252v1 )

ライセンス: Link先を確認
Kyuhong Shim, Wonyong Sung(参考訳) トランスベースの音声認識モデルは,特徴抽出過程の各フレームを利用するセルフアテンション(sa)機構によって,大きな成功を収めている。 特に下層におけるsaヘッドは、フレーム間のペア関係を計算するために設計されたquery-key dot製品によって様々な音声特性をキャプチャする。 本稿では,より代表的な音声特徴を抽出するSAの変種を提案する。 提案する音素自己着想 (phsa) は, 類似性に基づくものと, コンテンツに基づくものという, 2種類の音韻的注意から成り立っている。 要するに、類似性に基づく注意はフレーム間の相関を利用するが、コンテンツベースの注意は、他の影響を受けずに各フレームのみを考慮する。 原点製品のどの部分が2つの異なる注意パターンと関連しているかを識別し、簡単な修正により各部分を改善する。 音素分類と音声認識実験により,saを低層でphsaに置き換えることで,レイテンシやパラメータサイズを増加させずに認識性能が向上することを示した。

Transformer-based speech recognition models have achieved great success due to the self-attention (SA) mechanism that utilizes every frame in the feature extraction process. Especially, SA heads in lower layers capture various phonetic characteristics by the query-key dot product, which is designed to compute the pairwise relationship between frames. In this paper, we propose a variant of SA to extract more representative phonetic features. The proposed phonetic self-attention (phSA) is composed of two different types of phonetic attention; one is similarity-based and the other is content-based. In short, similarity-based attention utilizes the correlation between frames while content-based attention only considers each frame without being affected by others. We identify which parts of the original dot product are related to two different attention patterns and improve each part by simple modifications. Our experiments on phoneme classification and speech recognition show that replacing SA with phSA for lower layers improves the recognition performance without increasing the latency and the parameter size.
翻訳日:2022-03-22 17:20:51 公開日:2022-03-19
# ドメイン代表キーワードの選択:確率的アプローチ

Domain Representative Keywords Selection: A Probabilistic Approach ( http://arxiv.org/abs/2203.10365v1 )

ライセンス: Link先を確認
Pritom Saha Akash, Jie Huang, Kevin Chen-Chuan Chang, Yunyao Li, Lucian Popa, ChengXiang Zhai(参考訳) 本稿では,コンテキスト領域と対比して,候補集合から \textit{target domain representative keywords} の部分集合を選択する確率的アプローチを提案する。 このようなタスクは、自然言語処理において多くの下流タスクに不可欠である。 対象ドメインとコンテキストドメインとを対比するため,<textit{two-component mix model} の概念を適用し,候補キーワードの分布を生成する。 コンテキストドメインとは対照的な一般的なキーワードよりも、ターゲットドメインの \textit{distinctive}キーワードをより重要視しています。 対象領域に対して選択されたキーワードの \textit{representativeness} をサポートするために,生成した候補分布からサブセットを選択する \textit{optimization algorithm} を導入する。 我々は,最適化アルゴリズムを近似近似により効率的に実装できることを実証した。 最後に,複数のドメインを対象とした広範な実験により,キーワード要約生成やトレンドキーワード選択のタスクにおいて,他のベースラインよりも優れたアプローチが得られた。

We propose a probabilistic approach to select a subset of a \textit{target domain representative keywords} from a candidate set, contrasting with a context domain. Such a task is crucial for many downstream tasks in natural language processing. To contrast the target domain and the context domain, we adapt the \textit{two-component mixture model} concept to generate a distribution of candidate keywords. It provides more importance to the \textit{distinctive} keywords of the target domain than common keywords contrasting with the context domain. To support the \textit{representativeness} of the selected keywords towards the target domain, we introduce an \textit{optimization algorithm} for selecting the subset from the generated candidate distribution. We have shown that the optimization algorithm can be efficiently implemented with a near-optimal approximation guarantee. Finally, extensive experiments on multiple domains demonstrate the superiority of our approach over other baselines for the tasks of keyword summary generation and trending keywords selection.
翻訳日:2022-03-22 17:20:34 公開日:2022-03-19
# tukeyのbiweight m-estimateを用いた共役勾配適応学習

Conjugate Gradient Adaptive Learning with Tukey's Biweight M-Estimate ( http://arxiv.org/abs/2203.10205v1 )

ライセンス: Link先を確認
Lu Lu, Yi Yu, Rodrigo C. de Lamare and Xiaomin Yang(参考訳) 本研究では, インパルス雑音環境におけるシステム同定のために, タキーのbiweight m-estimate cg (tbmcg) と呼ばれる新しいm-estimate conjugate gradient (cg) アルゴリズムを提案する。 特に、TbMCGアルゴリズムは、再帰的最小二乗法(RLS)アルゴリズムと比較して計算複雑性を小さく保ちながら、より高速な収束を達成することができる。 具体的には、Tukeyの双重項M推定は、インパルスノイズ環境に対処するためにCGフィルタに制約を組み込む。 さらに,TbMCGアルゴリズムの収束挙動を解析した。 シミュレーションの結果,システム識別およびアクティブノイズ制御のためのTbMCGアルゴリズムの優れた性能が確認された。

We propose a novel M-estimate conjugate gradient (CG) algorithm, termed Tukey's biweight M-estimate CG (TbMCG), for system identification in impulsive noise environments. In particular, the TbMCG algorithm can achieve a faster convergence while retaining a reduced computational complexity as compared to the recursive least-squares (RLS) algorithm. Specifically, the Tukey's biweight M-estimate incorporates a constraint into the CG filter to tackle impulsive noise environments. Moreover, the convergence behavior of the TbMCG algorithm is analyzed. Simulation results confirm the excellent performance of the proposed TbMCG algorithm for system identification and active noise control applications.
翻訳日:2022-03-22 17:19:11 公開日:2022-03-19
# ドメイン適応とゼロショット学習:マルチモーダル医療画像セグメンテーションへのアノテーション効率の良いアプローチ

Domain Adaptation Meets Zero-Shot Learning: An Annotation-Efficient Approach to Multi-Modality Medical Image Segmentation ( http://arxiv.org/abs/2203.10332v1 )

ライセンス: Link先を確認
Cheng Bian, Chenglang Yuan, Kai Ma, Shuang Yu, Dong Wei and Yefeng Zheng(参考訳) 適切にアノテートされた医療データの欠如により、深層モデルの一般化能力の探求が公の関心事となっている。 ゼロショット学習(zsl)は、深層モデルに未知のクラスを認識する能力を持たせるために近年登場している。 しかし、既存の研究では、言語モデルを用いてZSLの補助情報を抽出する自然画像を中心に研究されている。 医学用語は非常にドメイン固有であり、医学用語の言語モデルを取得することは容易ではないため、自然画像ZSLソリューションを直接医療画像に適用することは不可能である。 そこで本研究では,医療画像を対象としたZSLの新しいパラダイムを提案する。 提案パラダイムの主な貢献は3つある。 まず,関係プロトタイプと呼ばれるセグメンテーション対象に関する事前知識を先行モデルから抽出し,そのプロトタイプをゼロショットモデルに継承するクロスモダリティ適応モジュールを提案する。 次に,プロトタイプに含まれる情報をゼロショットモデルに認識させるための関係プロトタイプ認識モジュールを提案する。 最後に、我々は継承プロセスを強化するために関係プロトタイプを再調整する継承注意モジュールを開発した。 提案フレームワークは心臓データセットと腹部データセットを含む2つの公開クロスモダリティデータセット上で評価される。 大規模な実験により、提案された枠組みは芸術の状態を著しく上回る結果となった。

Due to the lack of properly annotated medical data, exploring the generalization capability of the deep model is becoming a public concern. Zero-shot learning (ZSL) has emerged in recent years to equip the deep model with the ability to recognize unseen classes. However, existing studies mainly focus on natural images, which utilize linguistic models to extract auxiliary information for ZSL. It is impractical to apply the natural image ZSL solutions directly to medical images, since the medical terminology is very domain-specific, and it is not easy to acquire linguistic models for the medical terminology. In this work, we propose a new paradigm of ZSL specifically for medical images utilizing cross-modality information. We make three main contributions with the proposed paradigm. First, we extract the prior knowledge about the segmentation targets, called relation prototypes, from the prior model and then propose a cross-modality adaptation module to inherit the prototypes to the zero-shot model. Second, we propose a relation prototype awareness module to make the zero-shot model aware of information contained in the prototypes. Last but not least, we develop an inheritance attention module to recalibrate the relation prototypes to enhance the inheritance process. The proposed framework is evaluated on two public cross-modality datasets including a cardiac dataset and an abdominal dataset. Extensive experiments show that the proposed framework significantly outperforms the state of the arts.
翻訳日:2022-03-22 16:56:44 公開日:2022-03-19
# TO-FLOW: 移動速度を伴う時間最適化を伴う効率的な連続正規化流れ

TO-FLOW: Efficient Continuous Normalizing Flows with Temporal Optimization adjoint with Moving Speed ( http://arxiv.org/abs/2203.10335v1 )

ライセンス: Link先を確認
Shian Du, Yihong Luo, Wei Chen, Jian Xu, Delu Zeng(参考訳) 連続正規化フロー (cnfs) は、神経常微分方程式 (neural odes) を用いた任意の複素分布と等方性ガウス分布の間の可逆写像を構成する。 ニューラルODEトレーニングの複雑さが増しているため、大規模なデータセットでは処理できない。 最適輸送理論は、ODEの力学を規則化し、最近の研究でトレーニングを高速化するために応用されている。 本稿では,神経odeトレーニングの前方伝播のための進化時間を最適化した時間最適化を提案する。 本稿では,CNFのネットワーク重みを座標降下による進化時間と交互に最適化する。 さらに時間的正則化により、進化の安定性が確保される。 このアプローチは、元の正規化アプローチと併用することができる。 提案手法は,ベースラインモデルよりも性能を犠牲にすることなく,トレーニングを著しく高速化できることを示した。

Continuous normalizing flows (CNFs) construct invertible mappings between an arbitrary complex distribution and an isotropic Gaussian distribution using Neural Ordinary Differential Equations (neural ODEs). It has not been tractable on large datasets due to the incremental complexity of the neural ODE training. Optimal Transport theory has been applied to regularize the dynamics of the ODE to speed up training in recent works. In this paper, a temporal optimization is proposed by optimizing the evolutionary time for forward propagation of the neural ODE training. In this appoach, we optimize the network weights of the CNF alternately with evolutionary time by coordinate descent. Further with temporal regularization, stability of the evolution is ensured. This approach can be used in conjunction with the original regularization approach. We have experimentally demonstrated that the proposed approach can significantly accelerate training without sacrifying performance over baseline models.
翻訳日:2022-03-22 16:56:22 公開日:2022-03-19
# No Shifted Augmentations (NSA):堅牢な自己監督型異常検出のためのコンパクト分布

No Shifted Augmentations (NSA): compact distributions for robust self-supervised Anomaly Detection ( http://arxiv.org/abs/2203.10344v1 )

ライセンス: Link先を確認
Mohamed Yousef, Marcel Ackermann, Unmesh Kurup, Tom Bishop(参考訳) 教師なし異常検出(AD)は正規化の概念を構築し、利用可能なIDサンプルのみを使用して、分布内(ID)と分布外(OOD)データを区別する必要がある。 近年, 自然画像領域において, 自己教師付きコントラスト特徴学習を第1ステップとして, kNN や従来の特徴評価用一階分類器に次いで大きな成果を上げている。 単位超球面上に一様分布しない学習表現は、このタスクに有益であることが示されている。 我々はさらに、ID特徴分布の‘emph {geometrical compactness’が、特にIDトレーニングデータが汚染された現実的な状況において、アウトリーチの分離と検出を容易にする(例えば、IDデータは、特徴抽出パラメータの学習に使用されるOODデータを含んでいる)方法について検討する。 我々は,IDデータのコンパクトな分布を学習可能にする自己教師型特徴学習ステップに,新たなアーキテクチャ変更を提案する。 提案する修正は,既存の自己監督目標の多くに効果的に適用可能であり,高い性能向上が期待できることを示す。 さらに、この改良されたOOD性能は、強い拡張ID画像(例えば90度回転)を未知のOODデータのプロキシとして用いるようなトリックを使わずに得られ、これらはIDデータとその不変性に関する過度に規範的な仮定を課す。 我々は,一級OOD検出のためのベンチマークデータセットについて広範な研究を行い,IDデータに汚染が存在する場合の最先端性能と同等の性能を示す。 また, 角マハラノビス距離に基づく新しい特徴点スコアリング手法を提案し, 評価中の特徴点センシングのための簡易かつ新しい手法を提案する。

Unsupervised Anomaly detection (AD) requires building a notion of normalcy, distinguishing in-distribution (ID) and out-of-distribution (OOD) data, using only available ID samples. Recently, large gains were made on this task for the domain of natural images using self-supervised contrastive feature learning as a first step followed by kNN or traditional one-class classifiers for feature scoring. Learned representations that are non-uniformly distributed on the unit hypersphere have been shown to be beneficial for this task. We go a step further and investigate how the \emph {geometrical compactness} of the ID feature distribution makes isolating and detecting outliers easier, especially in the realistic situation when ID training data is polluted (i.e. ID data contains some OOD data that is used for learning the feature extractor parameters). We propose novel architectural modifications to the self-supervised feature learning step, that enable such compact distributions for ID data to be learned. We show that the proposed modifications can be effectively applied to most existing self-supervised objectives, with large gains in performance. Furthermore, this improved OOD performance is obtained without resorting to tricks such as using strongly augmented ID images (e.g. by 90 degree rotations) as proxies for the unseen OOD data, as these impose overly prescriptive assumptions about ID data and its invariances. We perform extensive studies on benchmark datasets for one-class OOD detection and show state-of-the-art performance in the presence of pollution in the ID data, and comparable performance otherwise. We also propose and extensively evaluate a novel feature scoring technique based on the angular Mahalanobis distance, and propose a simple and novel technique for feature ensembling during evaluation that enables a big boost in performance at nearly zero run-time cost.
翻訳日:2022-03-22 16:56:08 公開日:2022-03-19
# 印象ラベルを欠いたフォント生成

Font Generation with Missing Impression Labels ( http://arxiv.org/abs/2203.10348v1 )

ライセンス: Link先を確認
Seiya Matsuda, Akisato Kimura, Seiichi Uchida(参考訳) 我々のゴールは、印象ラベル付きフォントデータセットで生成する敵ネットワークをトレーニングすることで、特定の印象を持つフォントを生成することである。 主な難点は、フォント印象が曖昧であり、インプレッションラベルがないことは、フォントがインプレッションを持っていないことを意味するとは限らない。 本稿では,印象ラベルの欠落に対して頑健なフォント生成モデルを提案する。 提案手法の主な考え方は,(1)共起型ラベル推定器と(2)印象ラベル空間圧縮器である。 ひとつは、データセット内のラベルの共起に基づいて、欠落した印象ラベルを補間して、モデルのトレーニングに使用することだ。 2つ目は、高次元の印象空間を低次元に圧縮するエンコーダデコーダモジュールである。 定性的,定量的な評価により,ラベルを欠いた多ラベルデータを用いて高品質なフォント画像を生成することを実証した。

Our goal is to generate fonts with specific impressions, by training a generative adversarial network with a font dataset with impression labels. The main difficulty is that font impression is ambiguous and the absence of an impression label does not always mean that the font does not have the impression. This paper proposes a font generation model that is robust against missing impression labels. The key ideas of the proposed method are (1)a co-occurrence-based missing label estimator and (2)an impression label space compressor. The first is to interpolate missing impression labels based on the co-occurrence of labels in the dataset and use them for training the model as completed label conditions. The second is an encoder-decoder module to compress the high-dimensional impression space into low-dimensional. We proved that the proposed model generates high-quality font images using multi-label data with missing labels through qualitative and quantitative evaluations.
翻訳日:2022-03-22 16:55:33 公開日:2022-03-19
# CLRNet:レーン検出のためのクロスレイヤリファインメントネットワーク

CLRNet: Cross Layer Refinement Network for Lane Detection ( http://arxiv.org/abs/2203.10350v1 )

ライセンス: Link先を確認
Tu Zheng, Yifei Huang, Yang Liu, Wenjian Tang, Zheng Yang, Deng Cai, Xiaofei He(参考訳) レーンはインテリジェントな車両の視覚ナビゲーションシステムにおいて重要である。 レーンは当然、高レベルのセマンティクスを持つトラフィックサインであるが、正確にローレベルの詳細な特徴を必要とする特定のローカルパターンを所有している。 正確なレーン検出には、異なる機能レベルを使用することが非常に重要であるが、まだ検討中である。 本稿では,レーン検出におけるハイレベルと低レベル両方の機能を十分に活用することを目的とした,クロスレイヤリファインメントネットワーク(clrnet)を提案する。 特に、まずハイレベルなセマンティックな特徴を持つレーンを検出し、低レベルな特徴に基づいて改善を行う。 このようにして、局所的な詳細な車線特徴を活用して、より文脈的な情報を利用して車線を検知し、ローカライズ精度を向上させることができる。 我々はroigatherを用いてグローバルコンテキストを収集し,レーンの特徴表現をさらに強化する。 新たなネットワーク設計に加えて,Line IoU損失(Line IoU損失)を導入し,車線全体を単位として局所化精度を向上させる。 実験により,提案手法が最先端の車線検出手法を大きく上回ることを示した。

Lane is critical in the vision navigation system of the intelligent vehicle. Naturally, lane is a traffic sign with high-level semantics, whereas it owns the specific local pattern which needs detailed low-level features to localize accurately. Using different feature levels is of great importance for accurate lane detection, but it is still under-explored. In this work, we present Cross Layer Refinement Network (CLRNet) aiming at fully utilizing both high-level and low-level features in lane detection. In particular, it first detects lanes with high-level semantic features then performs refinement based on low-level features. In this way, we can exploit more contextual information to detect lanes while leveraging local detailed lane features to improve localization accuracy. We present ROIGather to gather global context, which further enhances the feature representation of lanes. In addition to our novel network design, we introduce Line IoU loss which regresses the lane line as a whole unit to improve the localization accuracy. Experiments demonstrate that the proposed method greatly outperforms the state-of-the-art lane detection approaches.
翻訳日:2022-03-22 16:55:19 公開日:2022-03-19
# 小型データセットのためのマルチドメインマルチディフィニションランドマーク位置決め

Multi-Domain Multi-Definition Landmark Localization for Small Datasets ( http://arxiv.org/abs/2203.10358v1 )

ライセンス: Link先を確認
David Ferman and Gaurav Bharaj(参考訳) 本稿では,小データセットの顔位置推定のためのマルチ画像領域とマルチランドマーク定義学習法を提案する。 大規模な(r)データセットと一緒に小さなデータセットをトレーニングすることは、前者の堅牢な学習を支援すると同時に、新しいおよび/またはより小さな標準データセットの顔ランドマークローカライゼーションのための普遍的なメカニズムを提供する。 そこで本研究では,複数のデータセットを同時にトレーニングすることにより,事前に構造化された共有ランドマーク型セマンティックグループの定義に依存しない,新しいデコーダを備えたビジョントランスフォーマーエンコーダを提案する。 我々の新しい定義により、データセットはランドマークの定義やドメインによって異なるかもしれない。 デコーダの段階では、クロスアテンションと自己アテンションを使用し、その出力は後にドメイン/定義固有のヘッドに供給され、ラプラシアンログのような損失を最小限にする。 我々は、より大きなデータセットでトレーニングした場合、COFWやWFLWといった標準的なランドマークローカライゼーションデータセットで最先端のパフォーマンスを達成する。 また,動物,似顔絵,顔絵などの様々な画像領域の小さなデータセットに対して,最先端の性能を示す。 また,本手法の有効性を示すため,小パレイドリアのデータセット(150画像)を寄贈した。 最後に、我々の主張を正当化するために、いくつかの分析およびアブレーション研究を行う。

We present a novel method for multi image domain and multi-landmark definition learning for small dataset facial localization. Training a small dataset alongside a large(r) dataset helps with robust learning for the former, and provides a universal mechanism for facial landmark localization for new and/or smaller standard datasets. To this end, we propose a Vision Transformer encoder with a novel decoder with a definition agnostic shared landmark semantic group structured prior, that is learnt, as we train on more than one dataset concurrently. Due to our novel definition agnostic group prior the datasets may vary in landmark definitions and domains. During the decoder stage we use cross- and self-attention, whose output is later fed into domain/definition specific heads that minimize a Laplacian-log-likeli hood loss. We achieve state-of-the-art performance on standard landmark localization datasets such as COFW and WFLW, when trained with a bigger dataset. We also show state-of-the-art performance on several varied image domain small datasets for animals, caricatures, and facial portrait paintings. Further, we contribute a small dataset (150 images) of pareidolias to show efficacy of our method. Finally, we provide several analysis and ablation studies to justify our claims.
翻訳日:2022-03-22 16:55:02 公開日:2022-03-19
# PressureVision: 単一のRGB画像から手圧力を推定する

PressureVision: Estimating Hand Pressure from a Single RGB Image ( http://arxiv.org/abs/2203.10385v1 )

ライセンス: Link先を確認
Patrick Grady, Chengcheng Tang, Samarth Brahmbhatt, Christopher D. Twigg, Chengde Wan, James Hays, Charles C. Kemp(参考訳) 人々はしばしば自分の手で圧力をかけることで周囲と対話する。 機械による手圧の知覚は、手と接触面の間にセンサーを置くという課題によって制限されている。 従来のRGBカメラを用いた手圧力推定の可能性を検討する。 中心的な洞察は、手による圧力の適用は情報的外観の変化をもたらすということである。 手は、軟部変形、血液分布、ポーズ、鋳型影など、同様の観測可能な現象をもたらす生体力学的特性を共有する。 計測された平面面に圧力を印加した多彩な肌色を有する36名の被験者のビデオを集めた。 次に,1枚のRGB画像から圧力像を推測する深層モデル(PressureVisionNet)を訓練した。 我々のモデルはトレーニングデータ以外の参加者の圧力を推測し、ベースラインを上回っます。 また,本モデルの出力は,接触領域近傍の手や鋳造影の外観に依存することを示した。 総じて,従来観察されていなかったヒトの手の出現は,応用圧を正確に推測するために有効であることが示唆された。

People often interact with their surroundings by applying pressure with their hands. Machine perception of hand pressure has been limited by the challenges of placing sensors between the hand and the contact surface. We explore the possibility of using a conventional RGB camera to infer hand pressure. The central insight is that the application of pressure by a hand results in informative appearance changes. Hands share biomechanical properties that result in similar observable phenomena, such as soft-tissue deformation, blood distribution, hand pose, and cast shadows. We collected videos of 36 participants with diverse skin tone applying pressure to an instrumented planar surface. We then trained a deep model (PressureVisionNet) to infer a pressure image from a single RGB image. Our model infers pressure for participants outside of the training data and outperforms baselines. We also show that the output of our model depends on the appearance of the hand and cast shadows near contact regions. Overall, our results suggest the appearance of a previously unobserved human hand can be used to accurately infer applied pressure.
翻訳日:2022-03-22 16:54:40 公開日:2022-03-19
# Relationformer: 画像からグラフ生成のための統一フレームワーク

Relationformer: A Unified Framework for Image-to-Graph Generation ( http://arxiv.org/abs/2203.10202v1 )

ライセンス: Link先を確認
Suprosanna Shit, Rajat Koner, Bastian Wittmann, Johannes Paetzold, Ivan Ezhov, Hongwei Li, Jiazhen Pan, Sahand Sharifzadeh, Georgios Kaissis, Volker Tresp, Bjoern Menze(参考訳) 画像の包括的表現は、特に道路網抽出、血管網抽出、シーングラフ生成などの画像-グラフ生成において、オブジェクトとその相互関係を理解する必要がある。 伝統的に、画像対グラフ生成はオブジェクト検出と独立した関係予測からなる2段階のアプローチで対処され、同時にオブジェクト-関係の相互作用が防止される。 本研究は,オブジェクトとその関係を共同で予測する一段階トランスフォーマフレームワークであるrelationformerを提案する。 我々は、直接セットベースのオブジェクト予測を活用し、オブジェクト間の相互作用を取り入れ、オブジェクト関係表現を共同で学習する。 既存の [obj]-token に加えて,新しい学習可能なトークン [rln]-token を提案する。 obj-tokensとともに、[rln]-tokenは、一連の相互関連を通じて画像内の局所的およびグローバルな意味推論を利用する。 対の[obj]-tokenと組み合わせることで、[rln]-tokenは計算的に効率的な関係予測に寄与する。 当社のアプローチの有効性と汎用性を示す複数の多種多様なマルチドメインデータセット上で,最先端のパフォーマンスを実現する。

A comprehensive representation of an image requires understanding objects and their mutual relationship, especially in image-to-graph generation, e.g., road network extraction, blood-vessel network extraction, or scene graph generation. Traditionally, image-to-graph generation is addressed with a two-stage approach consisting of object detection followed by a separate relation prediction, which prevents simultaneous object-relation interaction. This work proposes a unified one-stage transformer-based framework, namely Relationformer, that jointly predicts objects and their relations. We leverage direct set-based object prediction and incorporate the interaction among the objects to learn an object-relation representation jointly. In addition to existing [obj]-tokens, we propose a novel learnable token, namely [rln]-token. Together with [obj]-tokens, [rln]-token exploits local and global semantic reasoning in an image through a series of mutual associations. In combination with the pair-wise [obj]-token, the [rln]-token contributes to a computationally efficient relation prediction. We achieve state-of-the-art performance on multiple, diverse and multi-domain datasets that demonstrate our approach's effectiveness and generalizability.
翻訳日:2022-03-22 16:13:32 公開日:2022-03-19
# swintextspotter: テキスト検出とテキスト認識の相乗効果向上によるシーンテキストのスポッティング

SwinTextSpotter: Scene Text Spotting via Better Synergy between Text Detection and Text Recognition ( http://arxiv.org/abs/2203.10209v1 )

ライセンス: Link先を確認
Mingxin Huang, Yuliang Liu, Zhenghao Peng, Chongyu Liu, Dahua Lin, Shenggao Zhu, Nicholas Yuan, Kai Ding, Lianwen Jin(参考訳) 近年,シーンテキストの検出と認識の本質的な相乗効果の発掘に成功したことにより,エンド・ツー・エンドのシーンテキストスポッティングが注目されている。 しかし、最近の最先端の手法では、バックボーンを共有するだけで検出と認識を組み込むのが一般的である。 本稿では,SwinTextSpotter と呼ばれるシーン間テキストスポッティングフレームワークを提案する。 動的頭部を検出器とするトランスフォーマーエンコーダを用いて、認識損失によるテキストローカライゼーションを明示的にガイドする新しい認識変換機構により、2つのタスクを統一する。 単純な設計は、任意の字型テキストに対する追加の修正モジュールや文字レベルのアノテーションを必要としない簡潔なフレームワークをもたらす。 オブジェクト指向データセット RoIC13 と ICDAR 2015 の定性的かつ定量的な実験 トータルテキストとCTW1500 と多言語データセット ReCTS (中国語) と VinText (ベトナム語) は、SwinTextSpotter が既存の手法よりも大幅に優れていることを示した。 コードはhttps://github.com/m xin262/SwinTextSpott er.comで入手できる。

End-to-end scene text spotting has attracted great attention in recent years due to the success of excavating the intrinsic synergy of the scene text detection and recognition. However, recent state-of-the-art methods usually incorporate detection and recognition simply by sharing the backbone, which does not directly take advantage of the feature interaction between the two tasks. In this paper, we propose a new end-to-end scene text spotting framework termed SwinTextSpotter. Using a transformer encoder with dynamic head as the detector, we unify the two tasks with a novel Recognition Conversion mechanism to explicitly guide text localization through recognition loss. The straightforward design results in a concise framework that requires neither additional rectification module nor character-level annotation for the arbitrarily-shaped text. Qualitative and quantitative experiments on multi-oriented datasets RoIC13 and ICDAR 2015, arbitrarily-shaped datasets Total-Text and CTW1500, and multi-lingual datasets ReCTS (Chinese) and VinText (Vietnamese) demonstrate SwinTextSpotter significantly outperforms existing methods. Code is available at https://github.com/m xin262/SwinTextSpott er.
翻訳日:2022-03-22 16:13:02 公開日:2022-03-19
# 相互再構成による3次元意味的キーポイントの教師なし学習

Unsupervised Learning of 3D Semantic Keypoints with Mutual Reconstruction ( http://arxiv.org/abs/2203.10212v1 )

ライセンス: Link先を確認
Haocheng Yuan, Chen Zhao, Shichao Fan, Jiaxi Jiang and Jiaqi Yang(参考訳) セマンティック3Dキーポイントは、3Dオブジェクト上のカテゴリレベルのセマンティック一貫性ポイントである。 3dセマンティックキーポイントの検出は多くの3dビジョンタスクの基礎であるが、意味情報のあいまいさ、特にオブジェクトが無秩序な3dポイントクラウドで表現されている場合、依然として困難である。 既存の教師なしメソッドは暗黙の方法でカテゴリレベルのキーポイントを生成する傾向があり、意味ラベルやトポロジーのようなハイレベルな情報を抽出するのが困難である。 新たな相互再構成の観点から,ポイントクラウドから一貫した意味的キーポイントを明示的に生成するための教師なし手法を提案する。 これを実現するため、提案モデルは、オブジェクト自体を再構築するだけでなく、同じカテゴリの他のインスタンスを再構築するキーポイントを予測する。 我々の知る限り,提案手法は相互再構成の観点から初めて3次元意味的一貫したキーポイントを抽出するものである。 様々な評価指標に基づく実験と最新技術との比較により, 相互復元による意味的一貫性キーポイントのマイニングにおける新しい解の有効性が示された。

Semantic 3D keypoints are category-level semantic consistent points on 3D objects. Detecting 3D semantic keypoints is a foundation for a number of 3D vision tasks but remains challenging, due to the ambiguity of semantic information, especially when the objects are represented by unordered 3D point clouds. Existing unsupervised methods tend to generate category-level keypoints in implicit manners, making it difficult to extract high-level information, such as semantic labels and topology. From a novel mutual reconstruction perspective, we present an unsupervised method to generate consistent semantic keypoints from point clouds explicitly. To achieve this, the proposed model predicts keypoints that not only reconstruct the object itself but also reconstruct other instances in the same category. To the best of our knowledge, the proposed method is the first to mine 3D semantic consistent keypoints from a mutual reconstruction view. Experiments under various evaluation metrics as well as comparisons with the state-of-the-arts demonstrate the efficacy of our new solution to mining semantic consistent keypoints with mutual reconstruction.
翻訳日:2022-03-22 16:12:40 公開日:2022-03-19
# DirecFormer:ロバスト行動認識のためのトランスフォーマーアプローチにおける指示的注意

DirecFormer: A Directed Attention in Transformer Approach to Robust Action Recognition ( http://arxiv.org/abs/2203.10233v1 )

ライセンス: Link先を確認
Thanh-Dat Truong, Quoc-Huy Bui, Chi Nhan Duong, Han-Seok Seo, Son Lam Phung, Xin Li, Khoa Luu(参考訳) 人間の行動認識は近年、コンピュータビジョンコミュニティで人気のある研究トピックの1つになっている。 3D-CNNに基づく様々な手法が,映像行動認識の課題における空間次元と時間次元の両面に取り組むために提案されている。 しかし,ビデオフレームの時間順序付けは認識結果にどのように影響するかなど,ロバスト性や一般化の欠如といった基本的な制約を生んでいる。 本稿では,新しいエンド・ツー・エンドのトランスフォーマティブ・アテンション(direcformer)フレームワークによるロバストな動作認識を提案する。 この手法は、トランスフォーマティブベースアプローチの単純だが斬新な視点を用いて、シーケンスアクションの正しい順序を理解する。 したがって、この作品の貢献は3倍である。 まず,順序付けられた時間的学習問題の問題を行動認識問題に導入する。 第二に、人間の行動を正しい順番で理解し、注意を向けるために、新しい方向性注意機構が導入された。 第3に、注文とクラスを含むアクションシーケンスモデリングにおける条件依存性を導入する。 提案手法は,Jester, Kinetics-400, Some-Something-V2 という3つの標準的な大規模ベンチマークにおいて,最近の行動認識手法と比較して常に最先端のSOTA(State-of-the-ar t)結果を達成している。

Human action recognition has recently become one of the popular research topics in the computer vision community. Various 3D-CNN based methods have been presented to tackle both the spatial and temporal dimensions in the task of video action recognition with competitive results. However, these methods have suffered some fundamental limitations such as lack of robustness and generalization, e.g., how does the temporal ordering of video frames affect the recognition results? This work presents a novel end-to-end Transformer-based Directed Attention (DirecFormer) framework for robust action recognition. The method takes a simple but novel perspective of Transformer-based approach to understand the right order of sequence actions. Therefore, the contributions of this work are three-fold. Firstly, we introduce the problem of ordered temporal learning issues to the action recognition problem. Secondly, a new Directed Attention mechanism is introduced to understand and provide attentions to human actions in the right order. Thirdly, we introduce the conditional dependency in action sequence modeling that includes orders and classes. The proposed approach consistently achieves the state-of-the-art (SOTA) results compared with the recent action recognition methods, on three standard large-scale benchmarks, i.e. Jester, Kinetics-400 and Something-Something- V2.
翻訳日:2022-03-22 16:12:23 公開日:2022-03-19
# HIPA:単一画像超解像のための階層型パッチ変換器

HIPA: Hierarchical Patch Transformer for Single Image Super Resolution ( http://arxiv.org/abs/2203.10247v1 )

ライセンス: Link先を確認
Qing Cai, Yiming Qian, Jinxing Li, Jun Lv, Yee-Hong Yang, Feng Wu, David Zhang(参考訳) トランスフォーマーベースのアーキテクチャは、単一のイメージスーパー解像度(SISR)で登場し始め、有望なパフォーマンスを達成した。 既存のビジョントランスフォーマのほとんどは、イメージを一定のサイズで同じ数のパッチに分割するが、テクスチャのリッチさの異なるパッチの復元には最適ではない。 本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。 具体的には、入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズのトークンから始めて、徐々にフル解像度にマージします。 このような階層的パッチ機構は,複数の解像度でのフィーチャーアグリゲーションを明示的に可能にするだけでなく,詳細な部分に対する小さなパッチ,テクスチャレス領域に対するより大きなパッチなど,さまざまなイメージ領域に対するパッチアウェア機能を適応的に学習する。 一方,各トークンに異なる重みを割り当てることで,どのトークンに注意を払うべきかをネットワークがより重視できるように,トランスフォーマの注意に基づく位置符号化方式が提案されている。 さらに,異なるブランチから畳み込み受信フィールドを拡大するための,新しいマルチ受信フィールドアテンションモジュールを提案する。 いくつかの公開データセットに対する実験結果から,提案したHIPAの従来手法よりも定量的かつ定性的に優れた性能を示した。

Transformer-based architectures start to emerge in single image super resolution (SISR) and have achieved promising performance. Most existing Vision Transformers divide images into the same number of patches with a fixed size, which may not be optimal for restoring patches with different levels of texture richness. This paper presents HIPA, a novel Transformer architecture that progressively recovers the high resolution image using a hierarchical patch partition. Specifically, we build a cascaded model that processes an input image in multiple stages, where we start with tokens with small patch sizes and gradually merge to the full resolution. Such a hierarchical patch mechanism not only explicitly enables feature aggregation at multiple resolutions but also adaptively learns patch-aware features for different image regions, e.g., using a smaller patch for areas with fine details and a larger patch for textureless regions. Meanwhile, a new attention-based position encoding scheme for Transformer is proposed to let the network focus on which tokens should be paid more attention by assigning different weights to different tokens, which is the first time to our best knowledge. Furthermore, we also propose a new multi-reception field attention module to enlarge the convolution reception field from different branches. The experimental results on several public datasets demonstrate the superior performance of the proposed HIPA over previous methods quantitatively and qualitatively.
翻訳日:2022-03-22 16:12:01 公開日:2022-03-19
# シングルステージ弱弱半教師付きセマンティックセマンティックセグメンテーションのための自己教師付き低ランクネットワークの学習

Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2203.10278v1 )

ライセンス: Link先を確認
Junwen Pan, Pengfei Zhu, Kaihua Zhang, Bing Cao, Yu Wang, Dingwen Zhang, Junwei Han, Qinghua Hu(参考訳) 弱い教師付き意味セグメンテーション(wsss)や半教師付き意味セグメンテーション(ssss)のような限定的なアノテーションによる意味セグメンテーションは、近年注目を集めている課題である。 主要なWSSS手法のほとんどは、可能な限り正確な擬似ラベルを推定するために洗練された多段階トレーニング戦略を採用しているが、それらは高モデル複雑さに悩まされている。 対照的に、1つのトレーニングサイクルでイメージレベルのラベルで1つのネットワークをトレーニングする研究線が存在する。 しかし、そのような単段戦略は、しばしば不正確な擬似ラベル推定による複合効果のため、うまく機能しない。 本稿では,単一ステージWSSSとSSSSのための自己教師型低ランクネットワーク(SLRNet)を提案する。 SLRNetは、画像の異なるビューから複数の補完的なLR表現を同時に予測し、正確な擬似ラベルを学習する。 具体的には,LR表現学習を集合行列分解問題として再構成し,ネットワーク学習と協調してエンドツーエンドに最適化する。 その結果、LR表現は、異なるビューにわたって安定したセマンティクスをキャプチャしながらノイズ情報を非推奨にし、入力のバリエーションに頑丈になり、自己超過エラーへの過度な適合を減少させる。 SLRNetは、様々なラベル効率のセマンティックセグメンテーション設定のための統一された単一ステージフレームワークを提供することができる。 1)画像レベルのラベル付きデータによるWSSS 2)数ピクセル単位のラベル付きデータを持つsss,及び 3)数ピクセルレベルのラベル付きデータと多数の画像レベルのラベル付きデータを持つSSSS。 Pascal VOC 2012、COCO、L2IDデータセットの大規模な実験により、我々のSLRNetは最先端のWSSS法とSSSS法の両方を様々な設定で上回り、その優れた一般化性と有効性を証明した。

Semantic segmentation with limited annotations, such as weakly supervised semantic segmentation (WSSS) and semi-supervised semantic segmentation (SSSS), is a challenging task that has attracted much attention recently. Most leading WSSS methods employ a sophisticated multi-stage training strategy to estimate pseudo-labels as precise as possible, but they suffer from high model complexity. In contrast, there exists another research line that trains a single network with image-level labels in one training cycle. However, such a single-stage strategy often performs poorly because of the compounding effect caused by inaccurate pseudo-label estimation. To address this issue, this paper presents a Self-supervised Low-Rank Network (SLRNet) for single-stage WSSS and SSSS. The SLRNet uses cross-view self-supervision, that is, it simultaneously predicts several complementary attentive LR representations from different views of an image to learn precise pseudo-labels. Specifically, we reformulate the LR representation learning as a collective matrix factorization problem and optimize it jointly with the network learning in an end-to-end manner. The resulting LR representation deprecates noisy information while capturing stable semantics across different views, making it robust to the input variations, thereby reducing overfitting to self-supervision errors. The SLRNet can provide a unified single-stage framework for various label-efficient semantic segmentation settings: 1) WSSS with image-level labeled data, 2) SSSS with a few pixel-level labeled data, and 3) SSSS with a few pixel-level labeled data and many image-level labeled data. Extensive experiments on the Pascal VOC 2012, COCO, and L2ID datasets demonstrate that our SLRNet outperforms both state-of-the-art WSSS and SSSS methods with a variety of different settings, proving its good generalizability and efficacy.
翻訳日:2022-03-22 16:11:39 公開日:2022-03-19
# 挿入・圧縮によるインクリメンタルフットショット学習

Incremental Few-Shot Learning via Implanting and Compressing ( http://arxiv.org/abs/2203.10297v1 )

ライセンス: Link先を確認
Yiting Li, Haiyue Zhu, Xijia Feng, Zilong Cheng, Jun Ma, Cheng Xiang, Prahlad Vadakkepat, Tong Heng Lee(参考訳) この研究は、プレトレーニングされたベースクラスを忘れずに、少数の例から新しいクラスを継続的に学習するモデルを必要とする、インクリメンタルなマイナショット学習(ifsl)の、挑戦的で現実的なビジュアルタスクに取り組むことに焦点を当てている。 本研究により,IFSLの課題は,クラス間分離と新規クラス表現の両方にあることが明らかとなった。 クラス内変異の間、新しいクラスは、複数のベースクラスからの知識を暗黙的に活用して特徴表現を構築する。 したがって、事前訓練された埋め込み空間を単純に再利用すれば、分散した特徴分布となり、カテゴリー混乱をもたらす。 このような問題に対処するために,我々は,機能空間分割と新しいクラス再構築の両方を体系的に最適化する二段階学習戦略である \textbf{im}planting と \textbf{co}mpressing (\textbf{imco})を提案する。 具体的には,<textbf{Implanting} ステップにおいて,モデルがベースと他の未知のクラスを識別するのに有用な意味豊かな特徴を学習できるように,新しいクラスのデータ分布をデータ集合の助けを借りて模倣することを提案する。 このステップでは、クラス内コンパクト性を高めるための新しいクラスを正確に表現するために、特徴抽出器を適応させ、アグレッシブモデル更新を防止するための正規化パラメータ更新ルールと併用する。 最後に、画像分類タスクとより困難なオブジェクト検出タスクの両方において、IMCOが競合するベースラインをかなり上回っていることを示す。

This work focuses on tackling the challenging but realistic visual task of Incremental Few-Shot Learning (IFSL), which requires a model to continually learn novel classes from only a few examples while not forgetting the base classes on which it was pre-trained. Our study reveals that the challenges of IFSL lie in both inter-class separation and novel-class representation. Dur to intra-class variation, a novel class may implicitly leverage the knowledge from multiple base classes to construct its feature representation. Hence, simply reusing the pre-trained embedding space could lead to a scattered feature distribution and result in category confusion. To address such issues, we propose a two-step learning strategy referred to as \textbf{Im}planting and \textbf{Co}mpressing (\textbf{IMCO}), which optimizes both feature space partition and novel class reconstruction in a systematic manner. Specifically, in the \textbf{Implanting} step, we propose to mimic the data distribution of novel classes with the assistance of data-abundant base set, so that a model could learn semantically-rich features that are beneficial for discriminating between the base and other unseen classes. In the \textbf{Compressing} step, we adapt the feature extractor to precisely represent each novel class for enhancing intra-class compactness, together with a regularized parameter updating rule for preventing aggressive model updating. Finally, we demonstrate that IMCO outperforms competing baselines with a significant margin, both in image classification task and more challenging object detection task.
翻訳日:2022-03-22 16:11:04 公開日:2022-03-19
# ナレーションによる学習:ゼロショット対話理解のためのナラティブ事前学習

Learning-by-Narratin g: Narrative Pre-Training for Zero-Shot Dialogue Comprehension ( http://arxiv.org/abs/2203.10249v1 )

ライセンス: Link先を確認
Chao Zhao, Wenlin Yao, Dian Yu, Kaiqiang Song, Dong Yu, Jianshu Chen(参考訳) 対話を補完するには、発話中の様々なキー情報をキャプチャするモデルが必要である。 そのため、対話理解にはパラフレーズ化、要約、常識推論といった多様な機能が必要である。 ゼロショット対話理解モデルを事前学習する目的に向けて,対話入力から重要な情報をナレーションすることで学習する,新しい物語誘導事前学習戦略を開発する。 しかし、このような事前学習戦略のための対話音声並列コーパスは、現在利用できない。 そこで我々はまず,映画の字幕とそのシナプスを自動調整して対話型パラレルコーパスを構築する。 次に、データ上でBARTモデルを事前学習し、理解を必要とする4つの対話型タスクの性能を評価する。 実験の結果,ゼロショット性能が向上するだけでなく,より詳細な対話理解能力も発揮できることがわかった。 データとコードはhttps://github.com/z haochaocs/dianaで入手できる。

Comprehending a dialogue requires a model to capture diverse kinds of key information in the utterances, which are either scattered around or implicitly implied in different turns of conversations. Therefore, dialogue comprehension requires diverse capabilities such as paraphrasing, summarizing, and commonsense reasoning. Towards the objective of pre-training a zero-shot dialogue comprehension model, we develop a novel narrative-guided pre-training strategy that learns by narrating the key information from a dialogue input. However, the dialogue-narrative parallel corpus for such a pre-training strategy is currently unavailable. For this reason, we first construct a dialogue-narrative parallel corpus by automatically aligning movie subtitles and their synopses. We then pre-train a BART model on the data and evaluate its performance on four dialogue-based tasks that require comprehension. Experimental results show that our model not only achieves superior zero-shot performance but also exhibits stronger fine-grained dialogue comprehension capabilities. The data and code are available at https://github.com/z haochaocs/Diana
翻訳日:2022-03-22 16:00:57 公開日:2022-03-19
# Meta-X$_{NLG}$:ゼロショット言語間変換と生成のための言語クラスタリングに基づくメタラーニングアプローチ

Meta-X$_{NLG}$: A Meta-Learning Approach Based on Language Clustering for Zero-Shot Cross-Lingual Transfer and Generation ( http://arxiv.org/abs/2203.10250v1 )

ライセンス: Link先を確認
Kaushal Kumar Maurya and Maunendra Sankar Desarkar(参考訳) 近年,NLPコミュニティは多言語・多言語間移動研究の急速な進歩を目の当たりにしており,その監督は高リソース言語 (HRL) から低リソース言語 (LRL) へと移行している。 しかし、言語間移動は言語間、特にゼロショット設定では均一ではない。 この目標に向けて、有望な研究方向の1つは、注釈付きデータに制限のある複数のタスクで共有可能な構造を学習することである。 下流の多言語アプリケーションは、世界中のほとんどの言語が低リソースであり、他の言語といくつかの構造を共有しているため、このような学習セットアップの恩恵を受ける可能性がある。 本稿では,メタラーニングと言語クラスタリングをベースとした多種多様な言語から共有可能な構造を学習するためのメタラーニングフレームワーク(Meta-X$_{NLG}$)を提案する。 これは、未知言語に対する一様言語間変換への一歩である。 まず、言語表現に基づいて言語をクラスタ化し、各クラスタのcentroid言語を識別する。 そして、メタ学習アルゴリズムを全てのセントロイド言語で訓練し、ゼロショット設定で他の言語で評価する。 本研究では,2つのNLGタスク(抽象テキスト要約と質問生成),5つの人気データセット,30の類型的多言語に対して,このモデリングの有効性を示す。 強いベースラインに対する一貫性のある改善は、提案フレームワークの有効性を示す。 モデルの注意深い設計により、このエンドツーエンドのNLGセットアップは、偶発的な翻訳問題に対する脆弱性が軽減される。

Recently, the NLP community has witnessed a rapid advancement in multilingual and cross-lingual transfer research where the supervision is transferred from high-resource languages (HRLs) to low-resource languages (LRLs). However, the cross-lingual transfer is not uniform across languages, particularly in the zero-shot setting. Towards this goal, one promising research direction is to learn shareable structures across multiple tasks with limited annotated data. The downstream multilingual applications may benefit from such a learning setup as most of the languages across the globe are low-resource and share some structures with other languages. In this paper, we propose a novel meta-learning framework (called Meta-X$_{NLG}$) to learn shareable structures from typologically diverse languages based on meta-learning and language clustering. This is a step towards uniform cross-lingual transfer for unseen languages. We first cluster the languages based on language representations and identify the centroid language of each cluster. Then, a meta-learning algorithm is trained with all centroid languages and evaluated on the other languages in the zero-shot setting. We demonstrate the effectiveness of this modeling on two NLG tasks (Abstractive Text Summarization and Question Generation), 5 popular datasets and 30 typologically diverse languages. Consistent improvements over strong baselines demonstrate the efficacy of the proposed framework. The careful design of the model makes this end-to-end NLG setup less vulnerable to the accidental translation problem, which is a prominent concern in zero-shot cross-lingual NLG tasks.
翻訳日:2022-03-22 16:00:42 公開日:2022-03-19
# トップニュースを最初に読む:マルチドキュメントニュース要約のためのドキュメント再注文アプローチ

Read Top News First: A Document Reordering Approach for Multi-Document News Summarization ( http://arxiv.org/abs/2203.10254v1 )

ライセンス: Link先を確認
Chao Zhao, Tenghao Huang, Somnath Basu Roy Chowdhury, Muthu Kumar Chandrasekaran, Kathleen McKeown, Snigdha Chaturvedi(参考訳) 多文書ニュース要約の一般的な方法は、すべての文書を単一のメタ文書として結合することにより、それを単一文書要約問題として再フォーマットすることである。 しかし,本手法は文書の相対的重要性を無視する。 本稿では,文書を連結・要約する前に,文書の相対的重要性に応じて並べ替える簡単な手法を提案する。 再順序付けは、要約モデルによって、サルエントコンテンツの学習を容易にする。 実験によると、我々のアプローチはより複雑なアーキテクチャで従来の最先端のメソッドよりも優れています。

A common method for extractive multi-document news summarization is to re-formulate it as a single-document summarization problem by concatenating all documents as a single meta-document. However, this method neglects the relative importance of documents. We propose a simple approach to reorder the documents according to their relative importance before concatenating and summarizing them. The reordering makes the salient content easier to learn by the summarization model. Experiments show that our approach outperforms previous state-of-the-art methods with more complex architectures.
翻訳日:2022-03-22 16:00:16 公開日:2022-03-19
# 依存性に基づく混合言語モデル

Dependency-based Mixture Language Models ( http://arxiv.org/abs/2203.10256v1 )

ライセンス: Link先を確認
Zhixian Yang, Xiaojun Wan(参考訳) 構文構造の知識をニューラルネットワークモデルに組み込むために、様々なモデルが提案されている。 しかし、以前の研究は特定の言語モデル(通常はrecurrent neural network (rnn))のための精巧なコンポーネントに大きく依存しており、これは実際にはtransformerやgpt-2といった他のニューラルネットワークモデルに適合しない。 本稿では,依存性に基づく混合言語モデルを紹介する。 具体的には,新たな依存モデリング目標を用いてニューラルネットワークモデルを訓練し,コンテキストに応じた将来の依存トークンの確率分布を学習する。 次に, 先行する依存性モデリング確率分布と自己アテンションを混合することにより, 次の予測確率を定式化する。 広範囲な実験と人体評価により,本手法は様々なタスクにおけるニューラルテキスト生成を改善しつつ,異なるニューラル言語モデルに容易かつ効果的に適用可能であることが示された。

Various models have been proposed to incorporate knowledge of syntactic structures into neural language models. However, previous works have relied heavily on elaborate components for a specific language model, usually recurrent neural network (RNN), which makes themselves unwieldy in practice to fit into other neural language models, such as Transformer and GPT-2. In this paper, we introduce the Dependency-based Mixture Language Models. In detail, we first train neural language models with a novel dependency modeling objective to learn the probability distribution of future dependent tokens given context. We then formulate the next-token probability by mixing the previous dependency modeling probability distributions with self-attention. Extensive experiments and human evaluations show that our method can be easily and effectively applied to different neural language models while improving neural text generation on various tasks.
翻訳日:2022-03-22 16:00:08 公開日:2022-03-19
# 教師なしPOSタグ作成のための事前学習言語モデルと手作り特徴

Bridging Pre-trained Language Models and Hand-crafted Features for Unsupervised POS Tagging ( http://arxiv.org/abs/2203.10315v1 )

ライセンス: Link先を確認
Houquan Zhou, Yang Li, Zhenghua Li, Min Zhang(参考訳) 近年,大規模事前学習言語モデル (PLM) は,ほとんどのNLPタスクにおいて極めて進歩している。 しかし、教師なしPOSタグ付けタスクでは、PLMを利用する作業は少なく、最先端(SOTA)のパフォーマンスを達成できない。 最近のSOTAのパフォーマンスは He et al. (2018) によって提案されたGuussian HMM 変種によってもたらされる。 しかし、生成モデルとして、HMMは非常に強い独立性の仮定をしており、PLMからの同化語表現を組み込むことは非常に困難である。 本研究では,教師なしPOSタグ付けのためのニューラル条件付きランダムフィールドオートエンコーダ(CRF-AE)モデルを提案する。 CRF-AEの識別エンコーダはELMoワード表現を直接組み込むことができる。 さらに,機能豊富なHMMにヒントを得て,手作りの機能をCRF-AEデコーダに再導入する。 最後に,Penn Treebankと多言語Universal Dependencies Treebank v2.0において,我々のモデルが従来の最先端モデルよりも優れていることを示す。

In recent years, large-scale pre-trained language models (PLMs) have made extraordinary progress in most NLP tasks. But, in the unsupervised POS tagging task, works utilizing PLMs are few and fail to achieve state-of-the-art (SOTA) performance. The recent SOTA performance is yielded by a Guassian HMM variant proposed by He et al. (2018). However, as a generative model, HMM makes very strong independence assumptions, making it very challenging to incorporate contexualized word representations from PLMs. In this work, we for the first time propose a neural conditional random field autoencoder (CRF-AE) model for unsupervised POS tagging. The discriminative encoder of CRF-AE can straightforwardly incorporate ELMo word representations. Moreover, inspired by feature-rich HMM, we reintroduce hand-crafted features into the decoder of CRF-AE. Finally, experiments clearly show that our model outperforms previous state-of-the-art models by a large margin on Penn Treebank and multilingual Universal Dependencies treebank v2.0.
翻訳日:2022-03-22 15:59:54 公開日:2022-03-19
# 非対称{\alpha$-stable banditsのトンプソンサンプリング

Thompson Sampling on Asymmetric $\alpha$-Stable Bandits ( http://arxiv.org/abs/2203.10214v1 )

ライセンス: Link先を確認
Zhendong Shi(参考訳) 強化学習におけるアルゴリズム最適化では,探索探索ジレンマに対処する方法が特に重要である。 マルチアームバンディット問題は,探索と搾取のダイナミックバランスを実現するために報酬分布を変化させることで,提案手法を最適化することができる。 トンプソンサンプリング(Thompson Sampling)は、多武装バンディット問題を解決する一般的な方法であり、様々な法則に従うデータ探索に用いられている。 本稿では,非対称な$\alpha$-stable分布に報酬が適合するマルチアームバンディット問題に対するトンプソンサンプリング法を考察し,財務・無線データのモデル化におけるその応用を探る。

In algorithm optimization in reinforcement learning, how to deal with the exploration-exploita tion dilemma is particularly important. Multi-armed bandit problem can optimize the proposed solutions by changing the reward distribution to realize the dynamic balance between exploration and exploitation. Thompson Sampling is a common method for solving multi-armed bandit problem and has been used to explore data that conform to various laws. In this paper, we consider the Thompson Sampling approach for multi-armed bandit problem, in which rewards conform to unknown asymmetric $\alpha$-stable distributions and explore their applications in modelling financial and wireless data.
翻訳日:2022-03-22 15:04:06 公開日:2022-03-19
# ハイブリッド機能を用いたマルチチャンネルCNNによるNepali covid-19関連ツイートの分類

Multi-channel CNN to classify nepali covid-19 related tweets using hybrid features ( http://arxiv.org/abs/2203.10286v1 )

ライセンス: Link先を確認
Chiranjibi Sitaula, Tej Bahadur Shahi(参考訳) 現在の新型コロナウイルス(covid-19)のパンデミックで、不安が高まり、うつ病や不安などいくつかの健康上の合併症が引き起こされている。 このような合併症は先進国だけでなく、ネパールのような先進国にも影響を与えた。 これらの合併症は、適切な分析と感情分類の後、オンラインで投稿された人々のつぶやきから理解できる。 それでも、各ツイートのトークン/ワード数が限られているため、より理解を深めるためには、関連する複数の情報をキャプチャすることが常に重要です。 本研究では,まず,ハイブリッド機能と呼ばれる構文情報と意味情報を組み合わせることで,各ツイートを表現する。 構文情報は単語の袋から生成され、セマンティック情報は、fastTextベースの(ft)メソッドとドメイン固有の(ds)メソッドの組み合わせから生成される。 第二に、複数のCNNをアンサンブルする新しいマルチチャネル畳み込みニューラルネットワーク(MCNN)を設計し、より優れた分類のためにマルチスケール情報をキャプチャする。 最後に,提案した特徴抽出法とMCNNモデルの両方の有効性を評価し,ネパール語で唯一の公開ツイートデータセットであるNepCOV19Tweetsデータセット上で,ツイートを3つの感情クラス(肯定的,中立的,否定的)に分類する。 評価の結果,提案手法は分類精度が69.7%,MCNNモデルは分類精度が71.3%,個々の特徴抽出法が69.7%,既存手法が71.3%であった。

Because of the current COVID-19 pandemic with its increasing fears among people, it has triggered several health complications such as depression and anxiety. Such complications have not only affected the developed countries but also developing countries such as Nepal. These complications can be understood from peoples' tweets/comments posted online after their proper analysis and sentiment classification. Nevertheless, owing to the limited number of tokens/words in each tweet, it is always crucial to capture multiple information associated with them for their better understanding. In this study, we, first, represent each tweet by combining both syntactic and semantic information, called hybrid features. The syntactic information is generated from the bag of words method, whereas the semantic information is generated from the combination of the fastText-based (ft) and domain-specific (ds) methods. Second, we design a novel multi-channel convolutional neural network (MCNN), which ensembles the multiple CNNs, to capture multi-scale information for better classification. Last, we evaluate the efficacy of both the proposed feature extraction method and the MCNN model classifying tweets into three sentiment classes (positive, neutral and negative) on NepCOV19Tweets dataset, which is the only public COVID-19 tweets dataset in Nepali language. The evaluation results show that the proposed hybrid features outperform individual feature extraction methods with the highest classification accuracy of 69.7% and the MCNN model outperforms the existing methods with the highest classification accuracy of 71.3% during classification.
翻訳日:2022-03-22 14:58:37 公開日:2022-03-19
# 校正半監督セグメンテーションのための形態的特徴摂動の学習

Learning Morphological Feature Perturbations for Calibrated Semi-Supervised Segmentation ( http://arxiv.org/abs/2203.10196v1 )

ライセンス: Link先を確認
Mou-Cheng Xu, Yu-Kun Zhou, Chen Jin, Stefano B Blumberg, Frederick J Wilson, Marius deGroot, Daniel C. Alexander, Neil P. Oxtoby and Joseph Jacob(参考訳) 特徴摂動を学習するために不変な予測を生成する新しい一貫性駆動型半教師付きセグメンテーションフレームワークMisMatchを提案する。 MisMatchはエンコーダと2ヘッドデコーダで構成される。 1つのデコーダは、未ラベル画像のフォアグラウンド領域(RoI)に正の注意を払い、拡張された特徴を生成する。 他方のデコーダは、同じ未ラベル画像のフォアグラウンドに対して負の注意を学習し、浸食特徴を生成する。 次にペア化された予測に一貫性の規則化を適用する。 MisMatchは、CTベースの肺血管セグメンテーションタスクとMRIベースの脳腫瘍セグメンテーションタスクにおいて、最先端の半監督手法より優れている。 さらに,MisMatchの有効性は,教師付き学習方法よりもモデル校正が優れていることを示す。

We propose MisMatch, a novel consistency-driven semi-supervised segmentation framework which produces predictions that are invariant to learnt feature perturbations. MisMatch consists of an encoder and a two-head decoders. One decoder learns positive attention to the foreground regions of interest (RoI) on unlabelled images thereby generating dilated features. The other decoder learns negative attention to the foreground on the same unlabelled images thereby generating eroded features. We then apply a consistency regularisation on the paired predictions. MisMatch outperforms state-of-the-art semi-supervised methods on a CT-based pulmonary vessel segmentation task and a MRI-based brain tumour segmentation task. In addition, we show that the effectiveness of MisMatch comes from better model calibration than its supervised learning counterpart.
翻訳日:2022-03-22 14:13:09 公開日:2022-03-19
# (参考訳) テキスト分類のためのロバストプレフィックスチューニングについて

On Robust Prefix-Tuning for Text Classification ( http://arxiv.org/abs/2203.10378v1 )

ライセンス: CC BY 4.0
Zonghan Yang, Yang Liu(参考訳) 近年,大規模事前学習言語モデルのパラメータ効率向上手法としてプレフィックスチューニングが注目されている。 このメソッドは事前トレーニングされたモデルを固定し、ダウンストリームタスク毎にプレフィックストークンパラメータのみを更新する。 軽量でモジュール化されているにもかかわらず、プレフィックスチューニングはテキストの敵攻撃に対する堅牢性に欠ける。 しかし、現在開発されているほとんどの防衛技術は補助的なモデル更新と保存を必要としており、これは必然的にプレフィックスチューニングのモジュラリティと低ストレージを妨げている。 本稿では,プレフィックスチューニングの効率性とモジュール性を保持する堅牢なプレフィックスチューニングフレームワークを提案する。 フレームワークの中核となる考え方は、言語モデルの階層的アクティベーションを、追加の接頭辞微調整の標準として正しく分類されたトレーニングデータによって活用することである。 テストフェーズでは、バッチ毎に追加のバッチレベルプレフィックスをチューニングし、元のプレフィックスに追加して堅牢性を高める。 3つのテキスト分類ベンチマークにおいて、我々のフレームワークは、クリーンテキストに匹敵する精度を維持しつつ、異なるタイプに対する5つのテキスト攻撃に対して、いくつかの強いベースラインよりもロバスト性を大幅に向上することを示す。 また、最適制御の観点から頑健なプレフィックスチューニングフレームワークを解釈し、今後の研究の方向性を示す。

Recently, prefix-tuning has gained increasing attention as a parameter-efficient finetuning method for large-scale pretrained language models. The method keeps the pretrained models fixed and only updates the prefix token parameters for each downstream task. Despite being lightweight and modular, prefix-tuning still lacks robustness to textual adversarial attacks. However, most currently developed defense techniques necessitate auxiliary model update and storage, which inevitably hamper the modularity and low storage of prefix-tuning. In this work, we propose a robust prefix-tuning framework that preserves the efficiency and modularity of prefix-tuning. The core idea of our framework is leveraging the layerwise activations of the language model by correctly-classified training data as the standard for additional prefix finetuning. During the test phase, an extra batch-level prefix is tuned for each batch and added to the original prefix for robustness enhancement. Extensive experiments on three text classification benchmarks show that our framework substantially improves robustness over several strong baselines against five textual attacks of different types while maintaining comparable accuracy on clean texts. We also interpret our robust prefix-tuning framework from the optimal control perspective and pose several directions for future research.
翻訳日:2022-03-22 13:43:28 公開日:2022-03-19
# ai自律性: 自己開始、適応、継続的な学習

AI Autonomy: Self-Initiation, Adaptation and Continual Learning ( http://arxiv.org/abs/2203.08994v2 )

ライセンス: Link先を確認
Bing Liu, Sahisnu Mazumder, Eric Robertson and Scott Grigsby(参考訳) ますます多くのaiエージェントが使われるようになるにつれ、これらのエージェントを完全な自律性を持たせ、(1)人間エンジニアの開始に定期的にオフラインで再訓練されるのではなく、自己モチベーションと自己開始の方法で継続的に学習し、(2)予期せぬ状況や新しい状況に適応し適応させる方法を考える時が来ている。 現実世界は未知や新しさに満ちたオープン環境であり、新しさを検知し、特徴付け、それらに適応し、接地訓練データを集め、未知/ノベルティを段階的に学習することは、aiエージェントを時間とともにより知識豊かで強力にする上で重要である。 重要な課題は、エージェント自身のイニシアチブで継続的に実施し、人間、他のエージェント、そして人間のオンザジョブ学習と同じように環境との相互作用を通じてプロセスを自動化する方法である。 本稿では,この学習パラダイムのためのフレームワーク(SOLA)を提案する。 実現可能性を示すために、実装エージェントについても述べる。

As more and more AI agents are used in practice, it is time to think about how to make these agents fully autonomous so that they can (1) learn by themselves continually in a self-motivated and self-initiated manner rather than being retrained offline periodically on the initiation of human engineers and (2) accommodate or adapt to unexpected or novel circumstances. As the real-world is an open environment that is full of unknowns or novelties, detecting novelties, characterizing them, accommodating or adapting to them, and gathering ground-truth training data and incrementally learning the unknowns/novelties are critical to making the AI agent more and more knowledgeable and powerful over time. The key challenge is how to automate the process so that it is carried out continually on the agent's own initiative and through its own interactions with humans, other agents and the environment just like human on-the-job learning. This paper proposes a framework (called SOLA) for this learning paradigm to promote the research of building autonomous and continual learning enabled AI agents. To show feasibility, an implemented agent is also described.
翻訳日:2022-03-22 10:36:13 公開日:2022-03-19
# 知識グラフ埋め込みモデルを用いた文脈依存異常検出

Context-Dependent Anomaly Detection with Knowledge Graph Embedding Models ( http://arxiv.org/abs/2203.09354v2 )

ライセンス: Link先を確認
Nathan Vaska, Kevin Leahy, and Victoria Helus(参考訳) 機械学習モデルの意味理解と文脈認識の増大は、ロバスト性の向上とデータシフトに対する感受性の低減に重要である。 本研究では,異常検出問題に対して文脈認識を利用する。 グラフに基づく異常検出は広く研究されているが、文脈依存異常検出はオープンな問題であり、多くの研究がされていない。 本稿では,コンテキスト依存異常検出問題をリンク予測問題に変換する汎用フレームワークを開発し,この領域の確立した手法を適用することを可能にする。 我々は,知識グラフ埋め込みモデルを用いたフレームワークに基づくシステムを実装し,意味的知識ベースが提供するコンテキストを用いて,アウトリーチを検出する能力を示す。 提案手法は,精度の高いコンテキスト依存型異常を検出できることを示すとともに,現在のオブジェクト検出装置が,実例領域内での良好な性能を実現するために必要なクラスを検出可能であることを示す。

Increasing the semantic understanding and contextual awareness of machine learning models is important for improving robustness and reducing susceptibility to data shifts. In this work, we leverage contextual awareness for the anomaly detection problem. Although graphed-based anomaly detection has been widely studied, context-dependent anomaly detection is an open problem and without much current research. We develop a general framework for converting a context-dependent anomaly detection problem to a link prediction problem, allowing well-established techniques from this domain to be applied. We implement a system based on our framework that utilizes knowledge graph embedding models and demonstrates the ability to detect outliers using context provided by a semantic knowledge base. We show that our method can detect context-dependent anomalies with a high degree of accuracy and show that current object detectors can detect enough classes to provide the needed context for good performance within our example domain.
翻訳日:2022-03-22 10:35:51 公開日:2022-03-19