このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210920となっている論文です。

PDF登録状況(公開日: 20210920)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 長期追跡時間を有する動的治療体制に対するディープベイズ推定 [全文訳有]

Deep Bayesian Estimation for Dynamic Treatment Regimes with a Long Follow-up Time ( http://arxiv.org/abs/2109.11929v1 )

ライセンス: CC BY 4.0
Adi Lin and Jie Lu and Junyu Xuan and Fujin Zhu and Guangquan Zhang(参考訳) 動的治療体制(DTR)の因果効果推定は、シーケンシャルな意思決定に寄与する。 しかし, サンプルサイズが小さくなるにつれて観測データの量は減少するが, 時間とともに特徴量が増加するため, DTR下での検閲や時間依存性の共起は困難である。 長期的なフォローアップはこれらの課題を複雑にする。 もう1つの課題は、共同創設者、治療、成果の間の非常に複雑な関係であり、伝統的で一般的に使用される線形メソッドが失敗する。 結果回帰モデルと, サンプルサイズが小さい非検閲被験者を用いた高次元特徴の処理モデルを組み合わせて, 結果回帰モデルにディープベイズモデルを適用し, 共同創設者, 治療, 成果の複雑な関係を明らかにする。 また, 開発した深層ベイズモデルでは, 不確実性をモデル化し, 自動運転車や医療設計など, 安全対策に不可欠な予測分散を出力できる。 HIV治療の医療シミュレーション実験の結果,特に長期経過における観察データから安定かつ正確な動的因果効果を推定できる可能性が示唆された。 本手法は,逐次的意思決定と政策立案のための実践的なガイダンスを提供する。

Causal effect estimation for dynamic treatment regimes (DTRs) contributes to sequential decision making. However, censoring and time-dependent confounding under DTRs are challenging as the amount of observational data declines over time due to a reducing sample size but the feature dimension increases over time. Long-term follow-up compounds these challenges. Another challenge is the highly complex relationships between confounders, treatments, and outcomes, which causes the traditional and commonly used linear methods to fail. We combine outcome regression models with treatment models for high dimensional features using uncensored subjects that are small in sample size and we fit deep Bayesian models for outcome regression models to reveal the complex relationships between confounders, treatments, and outcomes. Also, the developed deep Bayesian models can model uncertainty and output the prediction variance which is essential for the safety-aware applications, such as self-driving cars and medical treatment design. The experimental results on medical simulations of HIV treatment show the ability of the proposed method to obtain stable and accurate dynamic causal effect estimation from observational data, especially with long-term follow-up. Our technique provides practical guidance for sequential decision making, and policy-making.
翻訳日:2021-10-03 11:22:05 公開日:2021-09-20
# (参考訳) aiによる動的対称性の破断: ダイマー自己トラップ遷移 [全文訳有]

Dynamical symmetry breaking through AI: The dimer self-trapping transition ( http://arxiv.org/abs/2109.15057v1 )

ライセンス: CC BY 4.0
G. P. Tsironis, G. D. Barmparis and D. K. Campbell(参考訳) 非線形schr{\"o}dinger方程式により得られた非線形ダイマーは、強相互作用系において非線形性が果たす役割を発見するためのワークホースである。 定常状態の解析は、ある程度の非線形性に対する対称性の破れ状態の開始を示すが、完全なダイナミクスはシステムを効果的な$\phi^4$モデルにマッピングする。 この後者の文脈では、自己トラッピング遷移は、非線形項によって設定された障壁上の古典粒子の初期条件依存移動である。 この遷移は解析的および数学的にジャコビアン楕円関数の双曲極限を通じて表される。 本研究の目的は、人工知能(AI)の手法を用いて、この移行を捉えることである。 具体的には,物理に動機づけられた機械学習モデルを用いて,動的自己トラップ遷移とその初期条件依存性を捉えることができた。 非退化非線形二量体の場合、この結果の爆発はより一般的なダイナミクスに関する追加情報を与え、非線形局所化から線形化を支援する。 この研究は、AIメソッドを物理学に組み込む方法を示し、発見に有用なツールを提供する。

The nonlinear dimer obtained through the nonlinear Schr{\"o}dinger equation has been a workhorse for the discovery the role nonlinearity plays in strongly interacting systems. While the analysis of the stationary states demonstrates the onset of a symmetry broken state for some degree of nonlinearity, the full dynamics maps the system into an effective $\phi^4$ model. In this latter context, the self-trapping transition is an initial condition dependent transfer of a classical particle over a barrier set by the nonlinear term. This transition has been investigated analytically and mathematically it is expressed through the hyperbolic limit of Jacobian elliptic functions. The aim of the present work is to recapture this transition through the use of methods of Artificial Intelligence (AI). Specifically, we used a physics motivated machine learning model that is shown to be able to capture the original dynamic self-trapping transition and its dependence on initial conditions. Exploitation of this result in the case of the non-degenerate nonlinear dimer gives additional information on the more general dynamics and helps delineate linear from nonlinear localization. This work shows how AI methods may be embedded in physics and provide useful tools for discovery.
翻訳日:2021-10-03 10:57:43 公開日:2021-09-20
# MFEViT:マルチモーダル2D+3D顔表情認識のためのロバスト軽量トランスフォーマーネットワーク

MFEViT: A Robust Lightweight Transformer-based Network for Multimodal 2D+3D Facial Expression Recognition ( http://arxiv.org/abs/2109.13086v1 )

ライセンス: Link先を確認
Hanting Li, Mingzhe Sui, Zhaoqing Zhu, Feng Zhao(参考訳) 視覚変換器(ViT)は、第1層から世界受容場を得るのに役立つ自己認識機構のため、多くの分野で広く応用されている。 いくつかのビジョンタスクでcnnを超える驚くべきパフォーマンスを達成している。 しかし、視覚変換器を2D+3D表情認識(FER)に活用する場合、すなわち、ViTトレーニングには質量データが必要である。 それでも、公開2D+3D FERデータセットのサンプル数は、評価に十分ではない。 rgbイメージで事前トレーニングされたvitを2d+3dデータを処理する方法が課題となる。 そこで本研究では,マルチモーダル2D+3D FER,すなわちMFEViTのための軽量なトランスフォーマーネットワークを提案する。 RGBとマルチモーダルデータのギャップを狭めるために、RGB画像の3つのチャネルそれぞれを深度マップチャネルに置き換えて、トランスフォーマーエンコーダに供給する前にそれらを融合する、代替の融合戦略を考案する。 さらに、設計されたサンプルフィルタリングモジュールは、各式にいくつかのサブクラスを追加し、ノイズの多いサンプルを対応するサブクラスに移動することで、トレーニング段階でネットワーク上の障害を取り除く。 我々のMFEViTは、BU-3DFEで90.83%、Bosphorusで90.28%の精度で最先端のアプローチより優れていることを示した。 具体的には、MFEViTは軽量モデルであり、マルチブランチCNNよりもはるかに少ないパラメータを必要とする。 我々の知る限り、これは視覚変換器をマルチモーダル2D+3D FERに導入する最初の試みである。 MFEViTのソースコードはオンラインで公開されます。

Vision transformer (ViT) has been widely applied in many areas due to its self-attention mechanism that help obtain the global receptive field since the first layer. It even achieves surprising performance exceeding CNN in some vision tasks. However, there exists an issue when leveraging vision transformer into 2D+3D facial expression recognition (FER), i.e., ViT training needs mass data. Nonetheless, the number of samples in public 2D+3D FER datasets is far from sufficient for evaluation. How to utilize the ViT pre-trained on RGB images to handle 2D+3D data becomes a challenge. To solve this problem, we propose a robust lightweight pure transformer-based network for multimodal 2D+3D FER, namely MFEViT. For narrowing the gap between RGB and multimodal data, we devise an alternative fusion strategy, which replaces each of the three channels of an RGB image with the depth-map channel and fuses them before feeding them into the transformer encoder. Moreover, the designed sample filtering module adds several subclasses for each expression and move the noisy samples to their corresponding subclasses, thus eliminating their disturbance on the network during the training stage. Extensive experiments demonstrate that our MFEViT outperforms state-of-the-art approaches with an accuracy of 90.83% on BU-3DFE and 90.28% on Bosphorus. Specifically, the proposed MFEViT is a lightweight model, requiring much fewer parameters than multi-branch CNNs. To the best of our knowledge, this is the first work to introduce vision transformer into multimodal 2D+3D FER. The source code of our MFEViT will be publicly available online.
翻訳日:2021-10-03 10:41:56 公開日:2021-09-20
# 本当の意味は? 言語クイズを用いた#BlackLivesMatter運動とそのカウンター抗議 : 2013年から2020年まで

What Truly Matters? Using Linguistic Cues for Analyzing the #BlackLivesMatter Movement and its Counter Protests: 2013 to 2020 ( http://arxiv.org/abs/2109.12192v1 )

ライセンス: Link先を確認
Jamell Dacon, Jiliang Tang(参考訳) 2012年2月、フロリダ州サンフォードの白人地区の監視人ジョージ・ジマーマン(George Zimmerman)によって17歳の黒人10代のトレイヴォン・マーティン(Tlayvon Martin)が致命傷を負って以来、米国では警察の残虐行為と人種的に動機づけられた事件に対処するデジタル活動が著しく増加した。 本研究では,ソーシャルメディアを権威的ツールとして活用し,これら3つのメディアにおける言語的手がかりと主題的関係を検証・分析することにより,デジタルアクティビズムの革新的な研究を行う。 本研究では,36,984,559ツイートの多レベルテキスト分析を行い,利用者の行動を調査し,各社会運動におけるソーシャルメディアに対するデジタルアクティビズムの影響を文レベル,単語レベル,話題レベルで把握した。 以上の結果から,人種的関連性や偏見的ハッシュタグの過剰使用は,差別傾向を示す反抗運動に有効であることが示唆された。 その結果,Black Lives Matter 活動家による社会活動主義は,ブラックライブ・マターの話題と直接関連している最も大きな話題や会話を囲む話題グラフの形状から,警察の残虐行為や人種的に動機づけられた黒人の殺害に関わる社会問題や話題から逸脱しないことが明らかとなった。 最後に、Blue Lives Matter と All Lives Matter のムーブメントは、Blue Lives Matter や All Lives Matter のトピックが中心に存在しないため、異なるディレクティブを描いている。 これらのことから、各社会運動における話題や会話は、歪んだり、ランダムだったり、人種的に関連づけられたりしており、社会的不公平な問題から逸脱していることが示唆された。

Since the fatal shooting of 17-year old Black teenager Trayvon Martin in February 2012 by a White neighborhood watchman, George Zimmerman in Sanford, Florida, there has been a significant increase in digital activism addressing police-brutality related and racially-motivated incidents in the United States. In this work, we administer an innovative study of digital activism by exploiting social media as an authoritative tool to examine and analyze the linguistic cues and thematic relationships in these three mediums. We conduct a multi-level text analysis on 36,984,559 tweets to investigate users' behaviors to examine the language used and understand the impact of digital activism on social media within each social movement on a sentence-level, word-level, and topic-level. Our results show that excessive use of racially-related or prejudicial hashtags were used by the counter protests which portray potential discriminatory tendencies. Consequently, our findings highlight that social activism done by Black Lives Matter activists does not diverge from the social issues and topics involving police-brutality related and racially-motivated killings of Black individuals due to the shape of its topical graph that topics and conversations encircling the largest component directly relate to the topic of Black Lives Matter. Finally, we see that both Blue Lives Matter and All Lives Matter movements depict a different directive, as the topics of Blue Lives Matter or All Lives Matter do not reside in the center. These findings suggest that topics and conversations within each social movement are skewed, random or possessed racially-related undertones, and thus, deviating from the prominent social injustice issues.
翻訳日:2021-10-03 10:41:03 公開日:2021-09-20
# カウンターストライクの最適チーム経済決定

Optimal Team Economic Decisions in Counter-Strike ( http://arxiv.org/abs/2109.12990v1 )

ライセンス: Link先を確認
Peter Xenopoulos, Bruno Coelho, Claudio Silva(参考訳) 勝利確率モデルの出力はしばしばプレイヤーの行動を評価するために使われる。 しかし、esportカウンターストライクのような一部のスポーツでは、重要なチームレベルの決定が存在する。 例えば、カウンターストライクゲームの各ラウンドの開始時に、チームは、ゲーム内資金のどれだけを機器に費やすかを決定する。 ドルはリソースが少ないため、チームが特定の状況に費やすべき方法に関して、さまざまな戦略が生まれています。 ゲーム内におけるチームの獲得決定を評価するため,ゲームレベルの勝利確率モデルを導入し,各ラウンドの開始時にチームが勝利する確率を予測する。 チームスコア、機器、お金、支出決定などの機能を検討します。 勝利確率モデルを用いて,重要なゲームシナリオに対する最適なチーム支出決定について検討する。 CSGOチームにおける準最適意思決定パターンを同定する。 最後に、最適な支出決定が予想される最適支出決定にどの程度近づいたかによってチームをランク付けするために、測定基準である"Optimal Spending Error"(OSE)を導入します。

The outputs of win probability models are often used to evaluate player actions. However, in some sports, such as the popular esport Counter-Strike, there exist important team-level decisions. For example, at the beginning of each round in a Counter-Strike game, teams decide how much of their in-game dollars to spend on equipment. Because the dollars are a scarce resource, different strategies have emerged concerning how teams should spend in particular situations. To assess team purchasing decisions in-game, we introduce a game-level win probability model to predict a team's chance of winning a game at the beginning of a given round. We consider features such as team scores, equipment, money, and spending decisions. Using our win probability model, we investigate optimal team spending decisions for important game scenarios. We identify a pattern of sub-optimal decision-making for CSGO teams. Finally, we introduce a metric, Optimal Spending Error (OSE), to rank teams by how closely their spending decisions follow our predicted optimal spending decisions.
翻訳日:2021-10-03 10:39:41 公開日:2021-09-20
# ネットワーク経済学における因果推論

Causal Inference in Network Economics ( http://arxiv.org/abs/2109.11344v1 )

ライセンス: Link先を確認
Sridhar Mahadevan(参考訳) ネットワーク・エコノミクス(Network Economics)は、交通管理からサプライチェーン、および双方向のオンラインマーケットプレースまで、現実世界で発生する豊富な均衡問題の研究である。 本稿では,古典最適化の一般化である変分不等式の数学的枠組みに基づくネットワーク経済学における因果推論について検討する。 我々の枠組みは、因果推論の広い原理でよく知られた変分不等式論の合成と見なすことができる。

Network economics is the study of a rich class of equilibrium problems that occur in the real world, from traffic management to supply chains and two-sided online marketplaces. In this paper we explore causal inference in network economics, building on the mathematical framework of variational inequalities, which is a generalization of classical optimization. Our framework can be viewed as a synthesis of the well-known variational inequality formalism with the broad principles of causal inference
翻訳日:2021-09-24 14:54:30 公開日:2021-09-20
# プログラムと訓練率非依存化学反応ネットワーク

Programming and Training Rate-Independent Chemical Reaction Networks ( http://arxiv.org/abs/2109.11422v1 )

ライセンス: Link先を確認
Marko Vasic, Cameron Chalk, Austin Luchsinger, Sarfraz Khurshid, and David Soloveichik(参考訳) 従来の電子工学と相容れない生体化学環境における埋め込み計算は, 合成生物学, 医薬, ナノファブリケーション, その他の分野に幅広い影響を与えることが期待されている。 天然生化学システムは典型的には化学反応ネットワーク(crns)によってモデル化され、crnは合成化学計算の仕様言語として使用できる。 本稿では,反応速度と運動速度法則に対して平衡が絶対的に堅牢である非競合性(NC)と呼ばれるCRNのクラスを同定する。 レート非依存のCRNに関する以前の作業とは異なり、非競合をチェックして設計基準として使用するのは簡単で、堅牢な出力を約束する。 また,直列線形ユニット(ReLU)ニューラルネットワークからNC-CRNへの変換手順を示す,よく構築されたディープラーニング手法を用いてNC-CRNをプログラムする手法を提案する。 2重ReLUネットワークの場合、単一の分子反応が1つのReLUノードに対応するという意味で、我々の翻訳手順は驚くほど厳密である。 このコンパクト性は、ニューラルネットワークがプログラム速度に依存しない化学計算に適したパラダイムであると主張する。 原理の証明として,従来の機械学習データセット(IRISとMNIST)でトレーニングされたニューラルネットワークから翻訳されたCRNの数値シミュレーションと,ウイルス検出や空間パターン形成などの潜在的な生物学的応用に適合したタスクを,本手法で実証する。

Embedding computation in biochemical environments incompatible with traditional electronics is expected to have wide-ranging impact in synthetic biology, medicine, nanofabrication and other fields. Natural biochemical systems are typically modeled by chemical reaction networks (CRNs), and CRNs can be used as a specification language for synthetic chemical computation. In this paper, we identify a class of CRNs called non-competitive (NC) whose equilibria are absolutely robust to reaction rates and kinetic rate law, because their behavior is captured solely by their stoichiometric structure. Unlike prior work on rate-independent CRNs, checking non-competition and using it as a design criterion is easy and promises robust output. We also present a technique to program NC-CRNs using well-founded deep learning methods, showing a translation procedure from rectified linear unit (ReLU) neural networks to NC-CRNs. In the case of binary weight ReLU networks, our translation procedure is surprisingly tight in the sense that a single bimolecular reaction corresponds to a single ReLU node and vice versa. This compactness argues that neural networks may be a fitting paradigm for programming rate-independent chemical computation. As proof of principle, we demonstrate our scheme with numerical simulations of CRNs translated from neural networks trained on traditional machine learning datasets (IRIS and MNIST), as well as tasks better aligned with potential biological applications including virus detection and spatial pattern formation.
翻訳日:2021-09-24 14:45:21 公開日:2021-09-20
# SoK: マシンラーニングガバナンス

SoK: Machine Learning Governance ( http://arxiv.org/abs/2109.10870v1 )

ライセンス: Link先を確認
Varun Chandrasekaran, Hengrui Jia, Anvith Thudi, Adelin Travers, Mohammad Yaghini, Nicolas Papernot(参考訳) コンピュータシステムにおける機械学習(ML)の適用は、多くの利益をもたらすだけでなく、社会にリスクをもたらす。 本稿では,このようなメリットとリスクのバランスをとるためのMLガバナンスの概念を,MLの責任ある応用を実現するために開発する。 当社のアプローチはまず,データとモデルのオーナシップを確認するための研究を体系化し,MLシステム固有のアイデンティティの概念を育む。 この基盤に基づいて、属性と監査の両方を通じて、mlシステムの障害に責任を持つプリンシパルを保持するためにidentityを使用します。 MLシステムの信頼性を高めるため、我々は保証を開発するための技術、すなわち、システムがそのセキュリティ要件を満たし、ある既知の失敗を示さないという自信を調査する。 これにより、モデルオーナがシステムのライフサイクル(例えば、mlシステムのパッチやリタイアなど)を管理するためのテクニックの必要性が浮き彫りになります。 総じて、知識の体系化は、MLのライフサイクルを通してのデプロイメントに関わるプリンシパル間のインタラクションを標準化します。 例えば、MLプリンシパル間のゲーム結果の形式化など、今後の作業の機会を強調します。

The application of machine learning (ML) in computer systems introduces not only many benefits but also risks to society. In this paper, we develop the concept of ML governance to balance such benefits and risks, with the aim of achieving responsible applications of ML. Our approach first systematizes research towards ascertaining ownership of data and models, thus fostering a notion of identity specific to ML systems. Building on this foundation, we use identities to hold principals accountable for failures of ML systems through both attribution and auditing. To increase trust in ML systems, we then survey techniques for developing assurance, i.e., confidence that the system meets its security requirements and does not exhibit certain known failures. This leads us to highlight the need for techniques that allow a model owner to manage the life cycle of their system, e.g., to patch or retire their ML system. Put altogether, our systematization of knowledge standardizes the interactions between principals involved in the deployment of ML throughout its life cycle. We highlight opportunities for future work, e.g., to formalize the resulting game between ML principals.
翻訳日:2021-09-23 13:31:20 公開日:2021-09-20
# (参考訳) コイル感度を伴わない同時並列MRI再構成のための最適制御フレームワーク [全文訳有]

An Optimal Control Framework for Joint-channel Parallel MRI Reconstruction without Coil Sensitivities ( http://arxiv.org/abs/2109.09738v1 )

ライセンス: CC BY 4.0
Wanyu Bian, Yunmei Chen and Xiaojing Ye(参考訳) Goal: 本研究の目的は, 離散時間最適制御フレームワークを組み込んだ新しいキャリブレーションフリー高速並列MRI(pMRI)再構成手法の開発である。 再構成モデルは,マルチコイル画像のチャネル間の情報共有を利用して,チャネルを組み合わせて特徴を抽出する正規化を学習するように設計されている。 本研究では,画像とフーリエ空間における構造化マルチプレイヤー畳み込みネットワークを活用し,マグニチュード情報と位相情報の両方を復元する。 方法: 適応型マルチコイル画像組合せ演算子と、画像とフーリエ空間の効率的な画像正規化を組み合わせた学習目的関数を持つ新しい変分モデルを開発する。 我々は,再構成ネットワークを構造化離散時間最適制御系としてキャストし,目的関数のパラメータが制御変数の役割を果たすパラメータ学習の最適制御を定式化した。 制御問題を解くためのラグランジアン法がバックプロパゲーションと等価であることを示し、トレーニングアルゴリズムの局所収束を保証する。 結果: 提案手法の数値実験を, 実pMRIデータセット上のいくつかの最先端pMRI再構成ネットワークとの比較により行った。 その結果,提案手法の有望な性能が明らかとなった。 結論: 提案手法は, 効率的なジョイントチャネルpmri再構成のための汎用的深層ネットワーク設計および訓練フレームワークを提供する。 意義:マルチコイル画像合成演算子を学習し,画像領域とk空間領域の両方で正規化を行うことにより,高効率なpmri画像再構成ネットワークを実現する。

Goal: This work aims at developing a novel calibration-free fast parallel MRI (pMRI) reconstruction method incorporate with discrete-time optimal control framework. The reconstruction model is designed to learn a regularization that combines channels and extracts features by leveraging the information sharing among channels of multi-coil images. We propose to recover both magnitude and phase information by taking advantage of structured multiplayer convolutional networks in image and Fourier spaces. Methods: We develop a novel variational model with a learnable objective function that integrates an adaptive multi-coil image combination operator and effective image regularization in the image and Fourier spaces. We cast the reconstruction network as a structured discrete-time optimal control system, resulting in an optimal control formulation of parameter training where the parameters of the objective function play the role of control variables. We demonstrate that the Lagrangian method for solving the control problem is equivalent to back-propagation, ensuring the local convergence of the training algorithm. Results: We conduct a large number of numerical experiments of the proposed method with comparisons to several state-of-the-art pMRI reconstruction networks on real pMRI datasets. The numerical results demonstrate the promising performance of the proposed method evidently. Conclusion: The proposed method provides a general deep network design and training framework for efficient joint-channel pMRI reconstruction. Significance: By learning multi-coil image combination operator and performing regularizations in both image domain and k-space domain, the proposed method achieves a highly efficient image reconstruction network for pMRI.
翻訳日:2021-09-23 06:11:12 公開日:2021-09-20
# (参考訳) 一般化最適化:カテゴリー論的学習理論への第一歩 [全文訳有]

Generalized Optimization: A First Step Towards Category Theoretic Learning Theory ( http://arxiv.org/abs/2109.10262v1 )

ライセンス: CC BY 4.0
Dan Shiebler(参考訳) カルテシアン逆微分(英: Cartesian reverse derivative)は、逆モード自動微分の分類的一般化である。 この演算子を用いて、勾配降下の単純一般化やニュートン法の新しい一般化など、いくつかの最適化アルゴリズムを一般化する。 次に、この一般化された設定において、これらのアルゴリズムのどの特性が保存されているかを調べる。 一般化ニュートン法はすべての可逆線型変換に対して不変であるが、一般化勾配降下は直交線型変換に対してのみ不変である。 次に,内積的表現を用いて一般化された勾配勾配の損失の変化を表現し,勾配勾配最適化流の非増加・収束特性を一般化することを示した。 最後に,本論文のアイデアを説明するためにいくつかの数値実験を行い,順序付き環上の多項式関数を最適化する方法を示す。

The Cartesian reverse derivative is a categorical generalization of reverse-mode automatic differentiation. We use this operator to generalize several optimization algorithms, including a straightforward generalization of gradient descent and a novel generalization of Newton's method. We then explore which properties of these algorithms are preserved in this generalized setting. First, we show that the transformation invariances of these algorithms are preserved: while generalized Newton's method is invariant to all invertible linear transformations, generalized gradient descent is invariant only to orthogonal linear transformations. Next, we show that we can express the change in loss of generalized gradient descent with an inner product-like expression, thereby generalizing the non-increasing and convergence properties of the gradient descent optimization flow. Finally, we include several numerical experiments to illustrate the ideas in the paper and demonstrate how we can use them to optimize polynomial functions over an ordered ring.
翻訳日:2021-09-23 05:36:10 公開日:2021-09-20
# (参考訳) カンファレンスピアレビュー: 2014年のNeurIPS実験を再考 [全文訳有]

Inconsistency in Conference Peer Review: Revisiting the 2014 NeurIPS Experiment ( http://arxiv.org/abs/2109.09774v1 )

ライセンス: CC BY 4.0
Corinna Cortes and Neil D. Lawrence(参考訳) 本稿では,カンファレンスピアレビューにおける一貫性を検証した2014 NeurIPS実験を再考する。 その結果,レビュアーの品質スコアの50 % が原点であることが判明した。 さらに,実験から7年経過した結果,<emph{accepted>論文では,引用回数の関数として測定された紙の品質スコアと紙の影響との間には相関性がないことがわかった。 却下された論文の運命をたどり、これらの論文が最終的に出版された場所を回復する。 これらの論文では、品質スコアと影響の相関を見出す。 2014年のカンファレンスのレビュープロセスは、貧弱な論文を特定するのに向いているが、良い論文を特定するのに貧弱だと結論づけた。 レビュープロセスを改善するための提案を行うとともに,主観的要素の削除を警告する。 最後に,この実験の真の結論は,個々の研究者の質を評価する際に,「トップレベル会議出版」という概念に,コミュニティがより少なすぎることを示唆する。 NeurIPS 2021のために、PCは実験を繰り返し、新しい実験を実行している。

In this paper we revisit the 2014 NeurIPS experiment that examined inconsistency in conference peer review. We determine that 50\% of the variation in reviewer quality scores was subjective in origin. Further, with seven years passing since the experiment we find that for \emph{accepted} papers, there is no correlation between quality scores and impact of the paper as measured as a function of citation count. We trace the fate of rejected papers, recovering where these papers were eventually published. For these papers we find a correlation between quality scores and impact. We conclude that the reviewing process for the 2014 conference was good for identifying poor papers, but poor for identifying good papers. We give some suggestions for improving the reviewing process but also warn against removing the subjective element. Finally, we suggest that the real conclusion of the experiment is that the community should place less onus on the notion of `top-tier conference publications' when assessing the quality of individual researchers. For NeurIPS 2021, the PCs are repeating the experiment, as well as conducting new ones.
翻訳日:2021-09-23 04:56:26 公開日:2021-09-20
# (参考訳) disrpt2021共有タスクにおけるdiscodisco : 談話のセグメンテーション、分類、コネクティブ検出のためのシステム [全文訳有]

DisCoDisCo at the DISRPT2021 Shared Task: A System for Discourse Segmentation, Classification, and Connective Detection ( http://arxiv.org/abs/2109.09777v1 )

ライセンス: CC BY 4.0
Luke Gessler, Shabnam Behzad, Yang Janet Liu, Siyao Peng, Yilun Zhu, Amir Zeldes(参考訳) 本稿では,DisRPT2021の談話単位分割,接続検出,関係分類に関するタスクについて述べる。 我々のシステムであるDisCoDisCoは、コンテクスト化された単語埋め込み(CWE)を強化したトランスフォーマーベースのニューラル分類器であり、談話セグメンテーションと接続検出のためのトークンワイドなシーケンスタグ、および関係分類のための機能豊富なエンコーダレス文ペア分類器である。 最初の2つのタスクの結果は、2019年の共有タスクのSOTAスコアよりも優れており、関係分類の結果は、新しい2021ベンチマークで強いパフォーマンスを示している。 アブレーションテストでは、CWE以外の機能を含めることが両方のタスクに役立つことが示され、複数の事前学習されたトランスフォーマーベース言語モデルの部分評価により、Next Sentence Prediction (NSP)タスクで事前学習されたモデルが関係分類に最適であることが示されている。

This paper describes our submission to the DISRPT2021 Shared Task on Discourse Unit Segmentation, Connective Detection, and Relation Classification. Our system, called DisCoDisCo, is a Transformer-based neural classifier which enhances contextualized word embeddings (CWEs) with hand-crafted features, relying on tokenwise sequence tagging for discourse segmentation and connective detection, and a feature-rich, encoder-less sentence pair classifier for relation classification. Our results for the first two tasks outperform SOTA scores from the previous 2019 shared task, and results on relation classification suggest strong performance on the new 2021 benchmark. Ablation tests show that including features beyond CWEs are helpful for both tasks, and a partial evaluation of multiple pre-trained Transformer-based language models indicates that models pre-trained on the Next Sentence Prediction (NSP) task are optimal for relation classification.
翻訳日:2021-09-23 04:35:37 公開日:2021-09-20
# (参考訳) bertは常識に乏しい:word sense bertologyの類似度ランキング [全文訳有]

BERT Has Uncommon Sense: Similarity Ranking for Word Sense BERTology ( http://arxiv.org/abs/2109.09780v1 )

ライセンス: CC BY 4.0
Luke Gessler, Nathan Schneider(参考訳) bertのような文脈化単語埋め込み(cwe)モデルに関する重要な質問は、異なる単語感覚、特に非常識の長い尾で表現できるかどうかである。 従来の作業のようにWSDシステムを構築するのではなく、コンテキスト化された埋め込み地区を直接調査し、近隣の検索タスクを探索し、異なる周波数帯域における単語や感覚のランク付け性能を調べる。 2つの英感覚注釈コーパスの評価において、いくつかの一般的なCWEモデルは、比例的に稀な感覚であっても、明示的な感覚監督なしで、ランダムなベースラインよりも優れていることがわかった。 しかし、類似したアーキテクチャや事前学習体制を持つモデルにおいても、性能は著しく異なり、特に稀な単語感覚では大きな違いがあり、CWEモデルは、その固有表現における単語感覚の近似に関して全て等しいものではないことが判明した。

An important question concerning contextualized word embedding (CWE) models like BERT is how well they can represent different word senses, especially those in the long tail of uncommon senses. Rather than build a WSD system as in previous work, we investigate contextualized embedding neighborhoods directly, formulating a query-by-example nearest neighbor retrieval task and examining ranking performance for words and senses in different frequency bands. In an evaluation on two English sense-annotated corpora, we find that several popular CWE models all outperform a random baseline even for proportionally rare senses, without explicit sense supervision. However, performance varies considerably even among models with similar architectures and pretraining regimes, with especially large differences for rare word senses, revealing that CWE models are not all created equal when it comes to approximating word senses in their native representations.
翻訳日:2021-09-23 04:15:21 公開日:2021-09-20
# (参考訳) 視覚知覚レンズによる依存性誘導 [全文訳有]

Dependency Induction Through the Lens of Visual Perception ( http://arxiv.org/abs/2109.09790v1 )

ライセンス: CC BY-SA 4.0
Ruisi Su, Shruti Rijhwani, Hao Zhu, Junxian He, Xinyu Wang, Yonatan Bisk, Graham Neubig(参考訳) 文法誘導に関するこれまでのほとんどの研究は、純粋にテキストからフレーズや依存構造を学ぶことに焦点を当てていた。 しかし、テキストのみで提供される信号は限られているため、最近導入された視覚的接地構文モデルはマルチモーダル情報を利用し、構成文法誘導の性能向上に繋がる。 しかし、依存文法と比較して、構成文法は言語固有のヒューリスティックを強制せずに視覚情報を組み込むための簡単な方法を提供していない。 本稿では,単語の具体性と構造的視覚に基づくヒューリスティックを活用し,構成構成構造と係り受け構造文法を共同で学習する教師なし文法誘導モデルを提案する。 実験の結果, 具体性は依存文法を学習するための強力な指標であり, 純文で訓練された最先端のモデルと比較して, 直接アタッチメントスコア(DAS)を50%以上向上させることがわかった。 次に,単語の具体性と視覚的意味的役割のラベルを,構成と依存関係のパースに活用するモデルの拡張を提案する。 実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。

Most previous work on grammar induction focuses on learning phrasal or dependency structure purely from text. However, because the signal provided by text alone is limited, recently introduced visually grounded syntax models make use of multimodal information leading to improved performance in constituency grammar induction. However, as compared to dependency grammars, constituency grammars do not provide a straightforward way to incorporate visual information without enforcing language-specific heuristics. In this paper, we propose an unsupervised grammar induction model that leverages word concreteness and a structural vision-based heuristic to jointly learn constituency-structu re and dependency-structure grammars. Our experiments find that concreteness is a strong indicator for learning dependency grammars, improving the direct attachment score (DAS) by over 50\% as compared to state-of-the-art models trained on pure text. Next, we propose an extension of our model that leverages both word concreteness and visual semantic role labels in constituency and dependency parsing. Our experiments show that the proposed extension outperforms the current state-of-the-art visually grounded models in constituency parsing even with a smaller grammar size.
翻訳日:2021-09-23 04:04:52 公開日:2021-09-20
# (参考訳) 効果的な回帰テストのための変成的関係優先化 [全文訳有]

Metamorphic Relation Prioritization for Effective Regression Testing ( http://arxiv.org/abs/2109.09798v1 )

ライセンス: CC BY 4.0
Madhusudan Srinivasan and Upulee Kanewala(参考訳) メタモルフィックテスト(MT)は、オラクル問題に直面するプログラムのテストに広く用いられている。 一連のメタモルフィック関係(MR)は複数の入力と対応する出力の間の関係であり、テスト中のプログラムが故障しているかどうかを決定する。 通常、MRはテスト中のプログラムの障害を検出する能力に変化があり、いくつかのMRは同じ障害を検知する傾向にある。 本稿では,回帰テストにおけるMTの効率と有効性を改善するため,MRの優先順位付け手法を提案する。 1)障害ベースと(2)カバレッジベースという2つのMR優先順位付け手法を提案する。 これらのMR優先順位付け手法を評価するため、3つの複雑なオープンソースソフトウェアシステムで実験を行った。 以上の結果から,本研究で開発されたMR優先化手法は, 異常検出の有効性の観点から, MRのソースおよびフォローアップテストケースの実行において, 従来よりも有意に優れていたことが示唆された。 さらに、フォールトベースmrの優先順位付けは、実行すべきソースとフォローアップのテストケースの数を削減し、障害検出に要する平均時間を削減すると同時に、テストプロセス中の時間とコストの削減につながる。

Metamorphic testing (MT) is widely used for testing programs that face the oracle problem. It uses a set of metamorphic relations (MRs), which are relations among multiple inputs and their corresponding outputs to determine whether the program under test is faulty. Typically, MRs vary in their ability to detect faults in the program under test, and some MRs tend to detect the same set of faults. In this paper, we propose approaches to prioritize MRs to improve the efficiency and effectiveness of MT for regression testing. We present two MR prioritization approaches: (1) fault-based and (2) coverage-based. To evaluate these MR prioritization approaches, we conduct experiments on three complex open-source software systems. Our results show that the MR prioritization approaches developed by us significantly outperform the current practice of executing the source and follow-up test cases of the MRs in an ad-hoc manner in terms of fault detection effectiveness. Further, fault-based MR prioritization leads to reducing the number of source and follow-up test cases that needs to be executed as well as reducing the average time taken to detect a fault, which would result in saving time and cost during the testing process.
翻訳日:2021-09-23 03:50:58 公開日:2021-09-20
# (参考訳) 事実上のインスタンスがほとんど説明できない [全文訳有]

Counterfactual Instances Explain Little ( http://arxiv.org/abs/2109.09809v1 )

ライセンス: CC BY 4.0
Adam White, Artur d'Avila Garcez(参考訳) 多くのアプリケーションにおいて、機械学習システムの決定を説明できることが重要である。 ますます人気のあるアプローチは、emph{counterfactual instance explains} を提供することであった。 これらは、事実とは対照的に、機械学習システムから所望の判断を受けることができる密接な世界を指定する。 本論では, 反実例と反実例を支持する因果方程式(あるいは方程式の体系)の両方から, 十分な説明をしなければならないと論じるために, 科学哲学からの文献を引用する。 反事実インスタンス自体が説明できないことを示します。 さらに、因果方程式と反実例の両方を提供する説明可能なAI手法が、機械学習予測をうまく説明できる方法について説明する。

In many applications, it is important to be able to explain the decisions of machine learning systems. An increasingly popular approach has been to seek to provide \emph{counterfactual instance explanations}. These specify close possible worlds in which, contrary to the facts, a person receives their desired decision from the machine learning system. This paper will draw on literature from the philosophy of science to argue that a satisfactory explanation must consist of both counterfactual instances and a causal equation (or system of equations) that support the counterfactual instances. We will show that counterfactual instances by themselves explain little. We will further illustrate how explainable AI methods that provide both causal equations and counterfactual instances can successfully explain machine learning predictions.
翻訳日:2021-09-23 03:32:25 公開日:2021-09-20
# (参考訳) ドメイン適応型参照解決のためのスパン表現の改善 [全文訳有]

Improving Span Representation for Domain-adapted Coreference Resolution ( http://arxiv.org/abs/2109.09811v1 )

ライセンス: CC BY 4.0
Nupoor Gandhi, Anjalie Field, Yulia Tsvetkov(参考訳) 近年の研究では、微調整されたニューラルネットワークコリファレンスモデルが、異なるドメインに適応する際に強いパフォーマンスをもたらすことが示されている。 しかし、同時に、これは大量の注釈付き対象例を必要とする可能性がある。 そこで本研究では,新たなドメインにコア推論モデルをより効率的に適用するための概念知識の利用を提案する。 1) 知識に基づく距離関数を満たすためにスパン表現をインセンティブ化するためのレトロフィッティング損失と, (2)スパン表現から知識の回復を導く足場損失とを用いてスパン表現を改善する手法を開発した。 これらの損失を統合することで、ベースライン精度とF-1スコアを改善することができる。 特に、エンド・ツー・エンドのコリファレンスモデルに知識を組み込むことで、最も挑戦的なドメイン固有スパンのパフォーマンスが向上することを示す。

Recent work has shown fine-tuning neural coreference models can produce strong performance when adapting to different domains. However, at the same time, this can require a large amount of annotated target examples. In this work, we focus on supervised domain adaptation for clinical notes, proposing the use of concept knowledge to more efficiently adapt coreference models to a new domain. We develop methods to improve the span representations via (1) a retrofitting loss to incentivize span representations to satisfy a knowledge-based distance function and (2) a scaffolding loss to guide the recovery of knowledge from the span representation. By integrating these losses, our model is able to improve our baseline precision and F-1 score. In particular, we show that incorporating knowledge with end-to-end coreference models results in better performance on the most challenging, domain-specific spans.
翻訳日:2021-09-23 03:24:26 公開日:2021-09-20
# (参考訳) アナフォリックゼロ代名詞に対するデータ拡張法 [全文訳有]

Data Augmentation Methods for Anaphoric Zero Pronouns ( http://arxiv.org/abs/2109.09825v1 )

ライセンス: CC BY 4.0
Abdulrahman Aloraini and Massimo Poesio(参考訳) アラビア語、中国語、イタリア語、日本語、スペイン語などのプロドロップ言語では、ある構文的位置における非現実的(null)引数は以前に導入された実体を参照することができ、したがってアナフォリックゼロ代名詞と呼ばれる。 しかし、アナフォリックゼロ代名詞解釈を研究するための既存のリソースはまだ限られている。 本稿では,5つのデータ拡張手法を用いて,アナフォリックゼロ代名詞の自動生成と検出を行う。 アラビア語に対する2つのアナフォリックゼロ代名詞システムのための追加のトレーニング材料として、拡張データを使用する。 実験の結果,データ拡張により2つのシステムの性能が向上し,最新結果を上回った。

In pro-drop language like Arabic, Chinese, Italian, Japanese, Spanish, and many others, unrealized (null) arguments in certain syntactic positions can refer to a previously introduced entity, and are thus called anaphoric zero pronouns. The existing resources for studying anaphoric zero pronoun interpretation are however still limited. In this paper, we use five data augmentation methods to generate and detect anaphoric zero pronouns automatically. We use the augmented data as additional training materials for two anaphoric zero pronoun systems for Arabic. Our experimental results show that data augmentation improves the performance of the two systems, surpassing the state-of-the-art results.
翻訳日:2021-09-23 03:10:37 公開日:2021-09-20
# (参考訳) iRNN:整数のみのリカレントニューラルネットワーク [全文訳有]

iRNN: Integer-only Recurrent Neural Network ( http://arxiv.org/abs/2109.09828v1 )

ライセンス: CC BY 4.0
Eyy\"ub Sari, Vanessa Courville, Vahid Partovi Nia(参考訳) recurrent neural networks (rnn)は多くの現実世界のテキストや音声アプリケーションで使われている。 それらは、繰り返し、指数的ベースのアクティベーション、ゲート相互作用、展開不能な正規化、双方向依存、注意などの複雑なモジュールを含む。 これらの要素間の相互作用は、大きなパフォーマンス低下なしに整数のみの操作で実行するのを防ぐ。 レイヤ正規化や整数専用算術への注意を含むrnnのデプロイは、まだ未解決の問題である。 精度の高い整数専用リカレントニューラルネットワーク(iRNN)を得るための量子化学習法を提案する。 本手法は, 層正規化, 注意, アクティベーションの適応的部分線形近似をサポートし, 様々なアプリケーションにおいて広範囲の RNN を提供する。 提案手法はRNNに基づく言語モデルと音声認識に有効であることが証明された。 当社のiRNNは、フル精度のものと同等のパフォーマンスを維持しており、スマートフォンへの展開により、ランタイムのパフォーマンスが2ドル、モデルサイズが4ドルに向上しています。

Recurrent neural networks (RNN) are used in many real-world text and speech applications. They include complex modules such as recurrence, exponential-based activation, gate interaction, unfoldable normalization, bi-directional dependence, and attention. The interaction between these elements prevents running them on integer-only operations without a significant performance drop. Deploying RNNs that include layer normalization and attention on integer-only arithmetic is still an open problem. We present a quantization-aware training method for obtaining a highly accurate integer-only recurrent neural network (iRNN). Our approach supports layer normalization, attention, and an adaptive piecewise linear approximation of activations, to serve a wide range of RNNs on various applications. The proposed method is proven to work on RNN-based language models and automatic speech recognition. Our iRNN maintains similar performance as its full-precision counterpart, their deployment on smartphones improves the runtime performance by $2\times$, and reduces the model size by $4\times$.
翻訳日:2021-09-23 02:54:42 公開日:2021-09-20
# (参考訳) モビリティ・ランドスケープにおける弱いシグナル--欧州10都市におけるカーシェアリング [全文訳有]

Weak Signals in the Mobility Landscape: Car Sharing in Ten European Cities ( http://arxiv.org/abs/2109.09832v1 )

ライセンス: CC BY 4.0
Chiara Boldrini, Raffaele Bruno, Haitam Laarabi(参考訳) 自動車のシェアリングはスマートな交通インフラの柱の一つであり、交通渋滞や駐車需要、都市汚染を減らすことが期待されている。 需要モデリングの観点からは、カーシェアリングは都市の景観において弱いシグナルであり、人口のごく一部しか利用していないため、家庭旅行日記のような伝統的な手法で確実に研究することは困難である。 本研究では、これらの従来のアプローチから離れ、主要なアクティブカーシェアリングオペレーターの1つとして、欧州10都市における車両利用率に関するWebベースのデジタル記録を活用する。 社会デモグラフィと都市活動指標がカーシェアリング需要の変動にどのような関連があるか,その予測手法(関連する文献でもっとも一般的なもの)がピックアップとドロップオフのイベントの予測に適しているか,また,都市内の異なるゾーンがどのように使われているかを予測するために,車両の可用性に関する時空間的情報をどのように利用できるか,について検討する。 本論文は,カーシェアリング作業エリア内の保守施設の場所を特定することを目的とした,データセット分析の直接的な応用について述べる。

Car sharing is one the pillars of a smart transportation infrastructure, as it is expected to reduce traffic congestion, parking demands and pollution in our cities. From the point of view of demand modelling, car sharing is a weak signal in the city landscape: only a small percentage of the population uses it, and thus it is difficult to study reliably with traditional techniques such as households travel diaries. In this work, we depart from these traditional approaches and we leverage web-based, digital records about vehicle availability in 10 European cities for one of the major active car sharing operators. We discuss which sociodemographic and urban activity indicators are associated with variations in car sharing demand, which forecasting approach (among the most popular in the related literature) is better suited to predict pickup and drop-off events, and how the spatio-temporal information about vehicle availability can be used to infer how different zones in a city are used by customers. We conclude the paper by presenting a direct application of the analysis of the dataset, aimed at identifying where to locate maintenance facilities within the car sharing operation area.
翻訳日:2021-09-23 02:30:48 公開日:2021-09-20
# (参考訳) fast treeshap: ツリーのシェープ値計算の高速化 [全文訳有]

Fast TreeSHAP: Accelerating SHAP Value Computation for Trees ( http://arxiv.org/abs/2109.09847v1 )

ライセンス: CC BY 4.0
Jilei Yang(参考訳) SHAP(SHapley Additive exPlanation)値は、強力な理論的保証(一貫性、局所精度)と実装とユースケースの広範な可用性を備えた、機械学習モデルを解釈するための主要なツールの1つである。 SHAPの計算には通常指数時間を要するが、TreeSHAPは木モデル上で多項式時間を取る。 スピードアップは重要であるが、TreeSHAPは数百万以上のエントリを持つデータセット上の業界レベルの機械学習ソリューションの計算時間を支配し、ポストホックモデル診断と解釈サービスの遅延を引き起こす。 本稿では,大規模データセットに対するFast TreeSHAP v1とFast TreeSHAP v2という2つの新しいアルゴリズムを提案する。 経験的に、fast treeshap v1はtreeshapより1.5倍高速であるが、メモリコストは変わらない。 同様に、Fast TreeSHAP v2はTreeSHAPよりも2.5倍高速で、高価なTreeSHAPステップの事前計算のおかげで、メモリ使用量が少し高くなる。 また、fast treeshap v2はマルチタイムモデル解釈に適しており、新たなサンプルを最大3倍高速に説明できることを示した。

SHAP (SHapley Additive exPlanation) values are one of the leading tools for interpreting machine learning models, with strong theoretical guarantees (consistency, local accuracy) and a wide availability of implementations and use cases. Even though computing SHAP values takes exponential time in general, TreeSHAP takes polynomial time on tree-based models. While the speedup is significant, TreeSHAP can still dominate the computation time of industry-level machine learning solutions on datasets with millions or more entries, causing delays in post-hoc model diagnosis and interpretation service. In this paper we present two new algorithms, Fast TreeSHAP v1 and v2, designed to improve the computational efficiency of TreeSHAP for large datasets. We empirically find that Fast TreeSHAP v1 is 1.5x faster than TreeSHAP while keeping the memory cost unchanged. Similarly, Fast TreeSHAP v2 is 2.5x faster than TreeSHAP, at the cost of a slightly higher memory usage, thanks to the pre-computation of expensive TreeSHAP steps. We also show that Fast TreeSHAP v2 is well-suited for multi-time model interpretations, resulting in as high as 3x faster explanation of newly incoming samples.
翻訳日:2021-09-23 02:07:01 公開日:2021-09-20
# (参考訳) 高バランス医用画像分類のためのバランスドミックスアップ [全文訳有]

Balanced-MixUp for Highly Imbalanced Medical Image Classification ( http://arxiv.org/abs/2109.09850v1 )

ライセンス: CC BY 4.0
Adrian Galdran, Gustavo Carneiro, Miguel A. Gonz\'alez Ballester(参考訳) 高不均衡データセットは、医療画像分類問題においてユビキタスである。 このような問題では、あまり普及しない病気に関連する稀なクラスがラベル付きデータベースでは著しく低表現であり、学習プロセスの過度な適合によって機械学習アルゴリズムの性能が低下することが多い。 本稿では,一般的なミックスアップ正規化手法であるバランスドミックスアップを用いて,トレーニングデータをサンプリングする新しいメカニズムを提案する。 要するに、 balanced-mixupはトレーニングデータの正規化(インスタンスベース)と均衡化(クラスベース)を同時に行う。 結果として得られた2つのサンプルセットが混合され、よりバランスのとれたトレーニングディストリビューションが作成されます。 我々は,高バランスな網膜画像データセット(55Kサンプル,5クラス)と胃腸内ビデオフレームの長いテールデータセット(10K画像,23クラス)を,表現能力の異なる2つのCNNを用いて実験した。 Balanced-MixUpの適用は、不均衡なデータを扱うように設計された従来のサンプリング手法や損失関数よりも優れていることを示す。 コードはhttps://github.com/a galdran/balanced_mix upでリリースされる。

Highly imbalanced datasets are ubiquitous in medical image classification problems. In such problems, it is often the case that rare classes associated to less prevalent diseases are severely under-represented in labeled databases, typically resulting in poor performance of machine learning algorithms due to overfitting in the learning process. In this paper, we propose a novel mechanism for sampling training data based on the popular MixUp regularization technique, which we refer to as Balanced-MixUp. In short, Balanced-MixUp simultaneously performs regular (i.e., instance-based) and balanced (i.e., class-based) sampling of the training data. The resulting two sets of samples are then mixed-up to create a more balanced training distribution from which a neural network can effectively learn without incurring in heavily under-fitting the minority classes. We experiment with a highly imbalanced dataset of retinal images (55K samples, 5 classes) and a long-tail dataset of gastro-intestinal video frames (10K images, 23 classes), using two CNNs of varying representation capabilities. Experimental results demonstrate that applying Balanced-MixUp outperforms other conventional sampling schemes and loss functions specifically designed to deal with imbalanced data. Code is released at https://github.com/a galdran/balanced_mix up .
翻訳日:2021-09-23 01:38:08 公開日:2021-09-20
# (参考訳) StreamSide: 意味表現の効率的なアノテーションのための、完全にカスタマイズ可能なオープンソースツールキット [全文訳有]

StreamSide: A Fully-Customizable Open-Source Toolkit for Efficient Annotation of Meaning Representations ( http://arxiv.org/abs/2109.09853v1 )

ライセンス: CC BY 4.0
Jinho D. Choi and Gregor Williamson(参考訳) 本稿では,複数種類の意味表現をアノテートするオープンソースのツールキットStreamSideを提案する。 StreamSideは、AMR(Abstract Meaning Representation)やWISeR(Widely Interpretable Semantic Representation)といったフレームベースのアノテーションスキームをサポートしている。 さらに、アノテータが入力テキスト用のマルチルートグラフを作成することで、文レベルと文書レベルのアノテーションの両方をサポートする。 プレーンテキスト、ペンマン表記、そしてよりリッチなアノテーションを可能にする独自のjsonフォーマットを含む、いくつかの入力形式をオープンかつ自動的に変換できる。 AMR述語引数構造のための参照フレームと、概念とテキストのアライメントを備えている。 StreamSideはApache 2.0ライセンスでリリースされており、完全にオープンソースであるため、様々な言語(例えば、Uniform Meaning Representations)でアノテーションを付けるようにカスタマイズできる。 ストリームサイドのリソースはすべて,オープンソースプロジェクトを通じて公開されています。 https://github.com/e morynlp/streamside.c om/。

This demonstration paper presents StreamSide, an open-source toolkit for annotating multiple kinds of meaning representations. StreamSide supports frame-based annotation schemes e.g., Abstract Meaning Representation (AMR) and frameless annotation schemes e.g., Widely Interpretable Semantic Representation (WISeR). Moreover, it supports both sentence-level and document-level annotation by allowing annotators to create multi-rooted graphs for input text. It can open and automatically convert between several types of input formats including plain text, Penman notation, and its own JSON format enabling richer annotation. It features reference frames for AMR predicate argument structures, and also concept-to-text alignment. StreamSide is released under the Apache 2.0 license, and is completely open-source so that it can be customized to annotate enriched meaning representations in different languages (e.g., Uniform Meaning Representations). All StreamSide resources are publicly distributed through our open source project at: https://github.com/e morynlp/StreamSide.
翻訳日:2021-09-23 01:26:27 公開日:2021-09-20
# (参考訳) 強調的抽象的表現:非検証性とスコープ [全文訳有]

Intensionalizing Abstract Meaning Representations: Non-Veridicality and Scope ( http://arxiv.org/abs/2109.09858v1 )

ライセンス: CC BY 4.0
Gregor Williamson, Patrick Elliott, Yuxin Ji and Jinho D. Choi(参考訳) 抽象意味表現 (abstract meaning representation, amr) は、引数構造に関する命題情報を表現するために設計されたグラフィカル意味表現言語である。 しかし、現時点では、非veridical intensional contextsを満足させることができず、しばしば不適切な推論をライセンスしている。 本稿では,AMR から Simply-Typed Lambda Calculus (STLC) へのマッピングを通じて,階層グラフに訴えることなく,非バリダリティの問題を解決する方法を示す。 少なくともいくつかのケースでは、インテンション演算子として機能する新しいロール:contentの導入が必要である。 提案した翻訳は、態度報告の事象意味論に関する形式言語学の文献から着想を得たものである。 次に、いわゆるde re/de dicto ambiguitiesにおける量子化器スコープとインテンショナル演算子の相互作用について述べる。 文献からスコープノードを採用し,de reおよびdeディクトスコープ読み出しを導出できるcooperストレージを利用した明示的な多次元セマンティクスと,スコープノードを使わずにアカウントにとって困難な中間スコープ読み出しを提供する。

Abstract Meaning Representation (AMR) is a graphical meaning representation language designed to represent propositional information about argument structure. However, at present it is unable to satisfyingly represent non-veridical intensional contexts, often licensing inappropriate inferences. In this paper, we show how to resolve the problem of non-veridicality without appealing to layered graphs through a mapping from AMRs into Simply-Typed Lambda Calculus (STLC). At least for some cases, this requires the introduction of a new role :content which functions as an intensional operator. The translation proposed is inspired by the formal linguistics literature on the event semantics of attitude reports. Next, we address the interaction of quantifier scope and intensional operators in so-called de re/de dicto ambiguities. We adopt a scope node from the literature and provide an explicit multidimensional semantics utilizing Cooper storage which allows us to derive the de re and de dicto scope readings as well as intermediate scope readings which prove difficult for accounts without a scope node.
翻訳日:2021-09-23 01:18:43 公開日:2021-09-20
# (参考訳) モバイルプラットフォームにおけるディープラーニングフレームワークのロバストネス解析 [全文訳有]

Robustness Analysis of Deep Learning Frameworks on Mobile Platforms ( http://arxiv.org/abs/2109.09869v1 )

ライセンス: CC BY 4.0
Amin Eslami Abyane, Hadi Hemmati(参考訳) 近年のモバイル機器の計算能力の増大に伴い、顔認識や音声認識といった機械学習に基づく重タスクがこれらの機器の不可欠な部分となっている。 これにより、モバイルデバイス上で機械学習モデル(Deep Neural Networksなど)を実行するためのフレームワークが必要になる。 これらのフレームワークの精度と性能に関する研究は存在するが、デバイス上でのディープラーニングフレームワークの品質は、堅牢性の観点からはまだ体系的に研究されていない。 本稿では、2つのデバイス上のディープラーニングフレームワークと3つの異なるモデルアーキテクチャに対する3つの逆攻撃を経験的に比較する。 また、各アーキテクチャに量子化と非量子化の両方を使用します。 その結果、一般に、どちらのディープラーニングフレームワークも堅牢性という点ではどちらよりも優れておらず、PCとモバイルフレームワークの間にも大きな違いはないことがわかった。 しかし、Boundary攻撃のような場合、モバイルバージョンはPCよりも堅牢だ。 さらに、量子化はPCからモバイルへの移行時の全てのケースにおいて堅牢性を改善する。

With the recent increase in the computational power of modern mobile devices, machine learning-based heavy tasks such as face detection and speech recognition are now integral parts of such devices. This requires frameworks to execute machine learning models (e.g., Deep Neural Networks) on mobile devices. Although there exist studies on the accuracy and performance of these frameworks, the quality of on-device deep learning frameworks, in terms of their robustness, has not been systematically studied yet. In this paper, we empirically compare two on-device deep learning frameworks with three adversarial attacks on three different model architectures. We also use both the quantized and unquantized variants for each architecture. The results show that, in general, neither of the deep learning frameworks is better than the other in terms of robustness, and there is not a significant difference between the PC and mobile frameworks either. However, in cases like Boundary attack, mobile version is more robust than PC. In addition, quantization improves robustness in all cases when moving from PC to mobile.
翻訳日:2021-09-23 01:02:32 公開日:2021-09-20
# 相互ランク分類器を用いた言語識別

Language Identification with a Reciprocal Rank Classifier ( http://arxiv.org/abs/2109.09862v1 )

ライセンス: Link先を確認
Dominic Widdows and Chris Brew(参考訳) 言語識別は言語処理パイプライン(Jauhiainen et al.,2019)の重要なコンポーネントであり、現実世界の設定では解決されていない。 ドメインの変更や不適切なトレーニングデータの欠如に対して堅牢な,軽量で効果的な言語識別子を提案する。 分類の鍵となる考え方は、周波数表におけるランクの相互関係が効果的な付加的特徴点スコア(英語版)(reciprocal rank classificationifier, rrc)となることである。 言語分類の鍵となる発見は、単語のランク付けされたリストと文字の頻度が、キー言語とその正書法の規則性の十分かつ堅牢な表現を形成することである。 2つの22言語データセットでこれをテストし、wikipediaトレーニングセットからtwitterテストセットへのゼロエフォートドメイン適応を示す。 wikipediaでトレーニングしながらtwitterに適用すると、従来訓練されたsvm分類器のマクロ平均f1-scoreは90.9%から77.7%に低下する。 対照的に、RCのマクロF1スコアは93.1%から90.6%に低下する。 これらの分類器はfastTextやlangidと比較される。 RRCは、ほとんどの実験において、特にウィキペディアの短いテキストやTwitterにおいて、これらの確立されたシステムよりも優れた性能を発揮する。 RRC分類器は、ランクリストに単語を追加することにより、特定のドメインや会話状況を改善することができる。 このような会話から学習した新しい用語を用いて、サンプルメッセージ分類の精度が7.9%向上し、会話分類の1.7%向上した。 驚くべきことに、twitterのデータの結果はやや悪化した。 RRC分類器はオープンソースPythonパッケージ(https://github.com/ LivePersonInc/lplang id)として利用できる。

Language identification is a critical component of language processing pipelines (Jauhiainen et al.,2019) and is not a solved problem in real-world settings. We present a lightweight and effective language identifier that is robust to changes of domain and to the absence of copious training data. The key idea for classification is that the reciprocal of the rank in a frequency table makes an effective additive feature score, hence the term Reciprocal Rank Classifier (RRC). The key finding for language classification is that ranked lists of words and frequencies of characters form a sufficient and robust representation of the regularities of key languages and their orthographies. We test this on two 22-language data sets and demonstrate zero-effort domain adaptation from a Wikipedia training set to a Twitter test set. When trained on Wikipedia but applied to Twitter the macro-averaged F1-score of a conventionally trained SVM classifier drops from 90.9% to 77.7%. By contrast, the macro F1-score of RRC drops only from 93.1% to 90.6%. These classifiers are compared with those from fastText and langid. The RRC performs better than these established systems in most experiments, especially on short Wikipedia texts and Twitter. The RRC classifier can be improved for particular domains and conversational situations by adding words to the ranked lists. Using new terms learned from such conversations, we demonstrate a further 7.9% increase in accuracy of sample message classification, and 1.7% increase for conversation classification. Surprisingly, this made results on Twitter data slightly worse. The RRC classifier is available as an open source Python package (https://github.com/ LivePersonInc/lplang id).
翻訳日:2021-09-22 14:38:04 公開日:2021-09-20
# アンサンブル深層学習とレーダデータによる激しい雷雨の予測

Prediction of severe thunderstorm events with ensemble deep learning and radar data ( http://arxiv.org/abs/2109.09791v1 )

ライセンス: Link先を確認
Sabrina Guastavino, Michele Piana, Marco Tizzi, Federico Cassola, Antonio Iengo, Davide Sacchetti, Enrico Solazzo, Federico Benvenuto(参考訳) 極端な気象イベントを放送する問題は、動的モデル方程式の解法に数値的手法を適用するか、データ駆動人工知能アルゴリズムを適用することで解決できる。 後者の枠組みでは,レーダー反射率フレームの映像を入力として活用する深層学習手法を用いて,激しい雷雨の予報をタイムリーに鳴らすことができる警告機を実現する方法について述べる。 技術的な観点からは、このアプローチの計算コアは、ディープニューラルネットワークの確率的成果をバイナリ分類に変換し、予測性能を評価するために、価値重み付けスキルスコアを使用することである。 この警報装置はイタリアのリグリア地方で記録された気象レーダーデータに対して検証されている。

The problem of nowcasting extreme weather events can be addressed by applying either numerical methods for the solution of dynamic model equations or data-driven artificial intelligence algorithms. Within this latter framework, the present paper illustrates how a deep learning method, exploiting videos of radar reflectivity frames as input, can be used to realize a warning machine able to sound timely alarms of possible severe thunderstorm events. From a technical viewpoint, the computational core of this approach is the use of a value-weighted skill score for both transforming the probabilistic outcomes of the deep neural network into binary classification and assessing the forecasting performances. The warning machine has been validated against weather radar data recorded in the Liguria region, in Italy,
翻訳日:2021-09-22 14:35:21 公開日:2021-09-20
# 確率的勾配雑音と力学特性の再検討

Revisiting the Characteristics of Stochastic Gradient Noise and Dynamics ( http://arxiv.org/abs/2109.09833v1 )

ライセンス: Link先を確認
Yixin Wu and Rui Luo and Chen Zhang and Jun Wang and Yaodong Yang(参考訳) 本稿では,確率的勾配の雑音を特徴付け,勾配に基づくオプティマイザによる深層ニューラルネットワークの訓練中に発生する雑音誘起ダイナミクスを解析する。 具体的には、まず確率的勾配ノイズが有限分散を持つことを示すため、古典的中心極限定理(clt)が適用される。 このような漸近的な結果はガウス雑音の広義の仮定を検証する。 勾配雑音における最近観測された重尾の現象は本質的性質ではないが,小バッチサイズが不十分な結果であり,限定されたi.i.d.確率変数の和である勾配雑音はcltの漸近的構造に達しず,ガウス型から逸脱していることが明らかとなった。 ガウス近似(gaussian approximation of the noise)の良否を定量的に測定し,結論を裏付ける。 次に、Langevin方程式を用いて確率勾配降下の雑音誘起力学を解析し、物理解釈によるオプティマイザの運動量ハイパーパラメーターを与える。 次に,確率勾配降下の定常分布の存在を実証し,小さな学習率で分布を近似する。

In this paper, we characterize the noise of stochastic gradients and analyze the noise-induced dynamics during training deep neural networks by gradient-based optimizers. Specifically, we firstly show that the stochastic gradient noise possesses finite variance, and therefore the classical Central Limit Theorem (CLT) applies; this indicates that the gradient noise is asymptotically Gaussian. Such an asymptotic result validates the wide-accepted assumption of Gaussian noise. We clarify that the recently observed phenomenon of heavy tails within gradient noise may not be intrinsic properties, but the consequence of insufficient mini-batch size; the gradient noise, which is a sum of limited i.i.d. random variables, has not reached the asymptotic regime of CLT, thus deviates from Gaussian. We quantitatively measure the goodness of Gaussian approximation of the noise, which supports our conclusion. Secondly, we analyze the noise-induced dynamics of stochastic gradient descent using the Langevin equation, granting for momentum hyperparameter in the optimizer with a physical interpretation. We then proceed to demonstrate the existence of the steady-state distribution of stochastic gradient descent and approximate the distribution at a small learning rate.
翻訳日:2021-09-22 14:35:09 公開日:2021-09-20
# 深層学習のための文脈特化表現抽象化

Context-Specific Representation Abstraction for Deep Option Learning ( http://arxiv.org/abs/2109.09876v1 )

ライセンス: Link先を確認
Marwa Abdulhai, Dong-Ki Kim, Matthew Riemer, Miao Liu, Gerald Tesauro, Jonathan P. How(参考訳) 階層的強化学習は、広範囲な探索を必要とする問題に利益をもたらすオプションのような時間的に拡張された行動を発見することに焦点を当てている。 これらのオプションをエンドツーエンドで学ぶ有望なアプローチのひとつは、option-critic (oc)フレームワークである。 本稿では,ocが問題をより単純なサブプロブレムに分解するのではなく,学習中の状態空間全体を考慮し,それぞれの選択肢でポリシー空間を探索するサイズを増加させることを示す。 この問題は、サンプル非効率学習を含む、この手法の実践的な限界をもたらす可能性がある。 この問題に対処するために,時間的抽象化と文脈特異的表現の抽象化を両立させる新しいフレームワークであるCRADOL(Context-Speci fic Representation Abstraction for Deep Option Learning)を導入する。 具体的には、各オプションが状態空間のサブセクションのみを越えてポリシーを学習することのできる、ファクタードな信念状態表現を学習する。 本手法は階層的,非階層的,モジュール的リカレントニューラルネットワークベースラインに対してテストを行い,部分的に観察可能な環境に挑戦した場合のサンプル効率の改善を示す。

Hierarchical reinforcement learning has focused on discovering temporally extended actions, such as options, that can provide benefits in problems requiring extensive exploration. One promising approach that learns these options end-to-end is the option-critic (OC) framework. We examine and show in this paper that OC does not decompose a problem into simpler sub-problems, but instead increases the size of the search over policy space with each option considering the entire state space during learning. This issue can result in practical limitations of this method, including sample inefficient learning. To address this problem, we introduce Context-Specific Representation Abstraction for Deep Option Learning (CRADOL), a new framework that considers both temporal abstraction and context-specific representation abstraction to effectively reduce the size of the search over policy space. Specifically, our method learns a factored belief state representation that enables each option to learn a policy over only a subsection of the state space. We test our method against hierarchical, non-hierarchical, and modular recurrent neural network baselines, demonstrating significant sample efficiency improvements in challenging partially observable environments.
翻訳日:2021-09-22 14:34:48 公開日:2021-09-20
# SMAC3:ハイパーパラメータ最適化のためのVersatile Bayesian Optimization Package

SMAC3: A Versatile Bayesian Optimization Package for Hyperparameter Optimization ( http://arxiv.org/abs/2109.09831v1 )

ライセンス: Link先を確認
Marius Lindauer, Katharina Eggensperger, Matthias Feurer, Andr\'e Biedenkapp, Difan Deng, Carolin Benjamins, Ren\'e Sass, Frank Hutter(参考訳) アルゴリズムパラメータ、特に機械学習アルゴリズムのハイパーパラメータは、その性能に大きな影響を与える。 アルゴリズム、データセット、手元にあるアプリケーションの高パフォーマンスなハイパーパラメータ設定を決定するユーザをサポートするため、smac3はベイズ最適化のための堅牢で柔軟なフレームワークを提供する。 ハイパーパラメータの最適化、低次元連続(人工的な)グローバル最適化問題の解法、複数の問題インスタンスをまたいだアルゴリズムの構成など、典型的なユースケースのためのファサードとプリセットを提供する。 SMAC3パッケージはBSDライセンスでhttps://github.com/a utoml/SMAC3で入手できる。

Algorithm parameters, in particular hyperparameters of machine learning algorithms, can substantially impact their performance. To support users in determining well-performing hyperparameter configurations for their algorithms, datasets and applications at hand, SMAC3 offers a robust and flexible framework for Bayesian Optimization, which can improve performance within a few evaluations. It offers several facades and pre-sets for typical use cases, such as optimizing hyperparameters, solving low dimensional continuous (artificial) global optimization problems and configuring algorithms to perform well across multiple problem instances. The SMAC3 package is available under a permissive BSD-license at https://github.com/a utoml/SMAC3.
翻訳日:2021-09-22 14:33:08 公開日:2021-09-20
# SFFDD: 故障予測のための豊富な特徴を持つディープニューラルネットワークとそのコンピュータディスクドライバへの応用

SFFDD: Deep Neural Network with Enriched Features for Failure Prediction with Its Application to Computer Disk Driver ( http://arxiv.org/abs/2109.09856v1 )

ライセンス: Link先を確認
Lanfa Frank Wang and Danjue Li(参考訳) 多変量時系列センサデータを用いたシステムやデバイスの故障を予測するため,新しい特徴導出法を組み込んだ分類手法を提案する。 多変量時系列センサデータを可視化と計算の両方のための画像として扱う。 失敗は根本原因と密接に関連する様々なパターンに従う。 異なる事前定義された変換を元のセンサデータに適用し、障害パターンをより正確に特徴付ける。 特徴の導出に加えて、さらに性能を向上させるためにアンサンブル法が用いられる。 さらに,手作業による特徴量の少ない複数種類のデータを扱うために,ディープニューラルネットワークの汎用アルゴリズムアーキテクチャを提案する。 提案手法をコンピュータディスクドライブの早期予測障害に適用し,ストレージシステムの可用性の向上とデータ損失の回避を図る。 分類精度は、スマート機能と呼ばれる豊富な機能によって大幅に改善されている。

A classification technique incorporating a novel feature derivation method is proposed for predicting failure of a system or device with multivariate time series sensor data. We treat the multivariate time series sensor data as images for both visualization and computation. Failure follows various patterns which are closely related to the root causes. Different predefined transformations are applied on the original sensors data to better characterize the failure patterns. In addition to feature derivation, ensemble method is used to further improve the performance. In addition, a general algorithm architecture of deep neural network is proposed to handle multiple types of data with less manual feature engineering. We apply the proposed method on the early predict failure of computer disk drive in order to improve storage systems availability and avoid data loss. The classification accuracy is largely improved with the enriched features, named smart features.
翻訳日:2021-09-22 14:32:56 公開日:2021-09-20
# Googleは、画像ベースのGoogleトレンドで新しいファッション製品の売上をマルチモーダル予測

Well Googled is Half Done: Multimodal Forecasting of New Fashion Product Sales with Image-based Google Trends ( http://arxiv.org/abs/2109.09824v1 )

ライセンス: Link先を確認
Geri Skenderi, Christian Joppi, Matteo Denitto, Marco Cristani(参考訳) 本稿では,過去の販売データがないが,画像とメタデータの少ない新しいファッションアイテムの売れ行きを予測するために,視覚面のテキスト翻訳を外生的知識として体系的にgoogle trendsagainstに検索することの有効性について検討する。 特に,Google Trends Multimodal Transformer(GTM-Tran sformer)を提案する。エンコーダは外因性時系列の表現に取り組んでおり,デコーダはGoogle Trendsエンコーディングと利用可能なビジュアルおよびメタデータ情報を用いて販売を予測している。 我々のモデルは非自己回帰的に機能し、最初のステップエラーの複合効果を避ける。 第2の貢献として,イタリアのファシコン企業であるnunalieの履歴データから,2016年から2019年にかけて販売された5577台の新製品を含む,新ファッション製品販売予測タスクのための最初の公開データセットであるvisuelleデータセットを提案する。 当社のデータセットには、製品イメージ、メタデータ、関連する販売、関連するgoogle trendsが含まれています。 我々はVISUELLEを用いて、最先端の代替品や多数のベースラインに対するアプローチを比較し、GTM-Transformerがパーセンテージと絶対誤差の両面で最も正確であることを示す。 外部知識の追加によって予測精度が1.5%向上し、google trendsを悪用する重要性が示されたことは注目に値する。 コードとデータセットはhttps://github.com/H umaticsLAB/GTM-Trans former.comで公開されている。

This paper investigates the effectiveness of systematically probing Google Trendsagainst textual translations of visual aspects as exogenous knowledge to predict the sales of brand-new fashion items, where past sales data is not available, but only an image and few metadata are available. In particular, we propose GTM-Transformer, standing for Google Trends Multimodal Transformer, whose encoder works on the representation of the exogenous time series, while the decoder forecasts the sales using the Google Trends encoding, and the available visual and metadata information. Our model works in a non-autoregressive manner, avoiding the compounding effect of the first-step errors. As a second contribution, we present the VISUELLE dataset, which is the first publicly available dataset for the task of new fashion product sales forecasting, containing the sales of 5577 new products sold between 2016-2019, derived from genuine historical data ofNunalie, an Italian fast-fashion company. Our dataset is equipped with images of products, metadata, related sales, and associated Google Trends. We use VISUELLE to compare our approach against state-of-the-art alternatives and numerous baselines, showing that GTM-Transformer is the most accurate in terms of both percentage and absolute error. It is worth noting that the addition of exogenous knowledge boosts the forecasting accuracy by 1.5% WAPE wise, showing the importance of exploiting Google Trends. The code and dataset are both available at https://github.com/H umaticsLAB/GTM-Trans former.
翻訳日:2021-09-22 14:32:09 公開日:2021-09-20
# 有限ホリゾンレストレストレスマルチアームマルチアクションバンディットの強化学習

Reinforcement Learning for Finite-Horizon Restless Multi-Armed Multi-Action Bandits ( http://arxiv.org/abs/2109.09855v1 )

ライセンス: Link先を確認
Guojun Xiong, Jian Li, Rahul Singh(参考訳) 我々は、R(MA)^2Bと呼ばれる複数の動作を持つ有限ホライゾンレス・マルチアームバンディット問題を研究する。 各腕の状態は、制御されたマルコフ決定プロセス(MDP)に従って進化し、腕を引く報酬は、対応するMDPの現在の状態と取られた動作の両方に依存する。 目標は、収集した累積報酬の期待値を最大化するために、武器のアクションを順次選択することである。 最適政策の発見は典型的には難解であるため,我々はOccupancy-Measured-R eward Index Policyと呼ぶ,計算に訴える指標ポリシーを提案する。 私たちの政策は、基礎となるMDPがインデックス化できない場合でも明確に定義されています。 我々は、アクティベーション予算と腕の数を増加させながら、その比率を一定に保ちながら漸近的に最適であることを示す。 システムパラメータが未知の場合、学習アルゴリズムを開発する。 本学習アルゴリズムは,不確実性に直面した楽観主義の原理を用い,さらに生成モデルを用いて,占有度測定指標ポリシの構造を十分に活用する。 R(MA)^2B-UCBアルゴリズムと呼ぶ。 既存のアルゴリズムと比較して、R(MA)^2B-UCBはオフラインの最適ポリシーに近く、計算複雑性の低いサブ線形後悔を実現する。 実験の結果, R(MA)^2B-UCBは, 後悔と実行の両方で既存アルゴリズムよりも優れていた。

We study a finite-horizon restless multi-armed bandit problem with multiple actions, dubbed R(MA)^2B. The state of each arm evolves according to a controlled Markov decision process (MDP), and the reward of pulling an arm depends on both the current state of the corresponding MDP and the action taken. The goal is to sequentially choose actions for arms so as to maximize the expected value of the cumulative rewards collected. Since finding the optimal policy is typically intractable, we propose a computationally appealing index policy which we call Occupancy-Measured-R eward Index Policy. Our policy is well-defined even if the underlying MDPs are not indexable. We prove that it is asymptotically optimal when the activation budget and number of arms are scaled up, while keeping their ratio as a constant. For the case when the system parameters are unknown, we develop a learning algorithm. Our learning algorithm uses the principle of optimism in the face of uncertainty and further uses a generative model in order to fully exploit the structure of Occupancy-Measured-R eward Index Policy. We call it the R(MA)^2B-UCB algorithm. As compared with the existing algorithms, R(MA)^2B-UCB performs close to an offline optimum policy, and also achieves a sub-linear regret with a low computational complexity. Experimental results show that R(MA)^2B-UCB outperforms the existing algorithms in both regret and run time.
翻訳日:2021-09-22 14:30:20 公開日:2021-09-20
# エネルギー効率とセキュアなエッジAIを目指す - クロスレイヤフレームワーク

Towards Energy-Efficient and Secure Edge AI: A Cross-Layer Framework ( http://arxiv.org/abs/2109.09829v1 )

ライセンス: Link先を確認
Muhammad Shafique, Alberto Marchisio, Rachmad Vidya Wicaksana Putra, Muhammad Abdullah Hanif(参考訳) セキュリティとプライバシに関する懸念と、定期的に処理しなければならないデータ量が、コンピューティングシステムのエッジに処理をプッシュしている。 リソース制約のあるエッジデバイスに最先端の成果を提供するディープニューラルネットワーク(DNN)やスパイクニューラルネットワーク(SNN)などの先進ニューラルネットワーク(NN)のデプロイは、メモリと電力/エネルギーの制約が厳しいため、難しい。 さらに、これらのシステムは様々なセキュリティと信頼性の脅威の下で正しい機能を維持する必要がある。 本稿ではまず,異なるシステム層,すなわちハードウェア(hw)とソフトウェア(sw)におけるエネルギー効率,信頼性,セキュリティ問題に対処する既存のアプローチについて述べる。 その後、プルーニング、量子化、近似などのHW/SWレベルの最適化により、エッジAIシステムの性能(レイテンシ)とエネルギー効率をさらに向上する方法について議論する。 信頼性の脅威(永久障害や一時的な障害など)に対処するため、我々は、フォールトアウェアトレーニングやマッピングのようなコスト効率の高い緩和技術を強調します。 さらに,セキュリティの脅威(モデルやデータ破損など)に対処するための効果的な検出と保護手法について簡単に論じる。 最終的には、ロバストでエネルギー効率のよいエッジAIシステムを実現するために、これらの技術が統合されたクロスレイヤフレームワークにどのように組み合わせられるかについて議論する。

The security and privacy concerns along with the amount of data that is required to be processed on regular basis has pushed processing to the edge of the computing systems. Deploying advanced Neural Networks (NN), such as deep neural networks (DNNs) and spiking neural networks (SNNs), that offer state-of-the-art results on resource-constrained edge devices is challenging due to the stringent memory and power/energy constraints. Moreover, these systems are required to maintain correct functionality under diverse security and reliability threats. This paper first discusses existing approaches to address energy efficiency, reliability, and security issues at different system layers, i.e., hardware (HW) and software (SW). Afterward, we discuss how to further improve the performance (latency) and the energy efficiency of Edge AI systems through HW/SW-level optimizations, such as pruning, quantization, and approximation. To address reliability threats (like permanent and transient faults), we highlight cost-effective mitigation techniques, like fault-aware training and mapping. Moreover, we briefly discuss effective detection and protection techniques to address security threats (like model and data corruption). Towards the end, we discuss how these techniques can be combined in an integrated cross-layer framework for realizing robust and energy-efficient Edge AI systems.
翻訳日:2021-09-22 14:27:08 公開日:2021-09-20
# 人工知能を用いた多分野宇宙論

Multifield Cosmology with Artificial Intelligence ( http://arxiv.org/abs/2109.09747v1 )

ライセンス: Link先を確認
Francisco Villaescusa-Navarro, Daniel Angl\'es-Alc\'azar, Shy Genel, David N. Spergel, Yin Li, Benjamin Wandelt, Andrina Nicola, Leander Thiele, Sultan Hassan, Jose Manuel Zorrilla Matilla, Desika Narayanan, Romeel Dave, Mark Vogelsberger(参考訳) 超新星からのフィードバックや活動銀河核からのフィードバックのような天体物理過程は、ダークマター、ガス、銀河の性質と空間分布をよく理解されていない方法で修正する。 この不確実性は、宇宙探査から情報を抽出する主要な理論上の障害の1つである。 我々は、CAMELSプロジェクトから2000の最先端の流体力学シミュレーションを用いて、様々な宇宙物理モデルと天体物理学モデルにまたがり、暗黒物質からガス、恒星の性質まで、13の分野の数十万の2次元マップを生成する。 我々はこれらの地図を用いて畳み込みニューラルネットワークを訓練し、宇宙情報の最大量を抽出し、フィールドレベルでの天体物理学的効果を過小評価する。 我々の写像は、(25~h^{-1}{\rm Mpc})^2$の小さな領域のみをカバーし、異なるフィールドは、非常に異なる方法で天体物理学的な効果によって汚染されるが、我々のネットワークは、ほとんどのフィールドに対して数パーセントの精度で$\Omega_{\rm m}$と$\sigma_8$の値を推測することができる。 宇宙物理効果によって汚染されない重力のみのN体シミュレーションから学習したモデルと比較して,ネットワークによる余剰化は宇宙情報の豊富さを保っていることがわかった。 最後に、マルチフィールド(異なる色やチャネルを含む複数のフィールドを含む2dマップ)でネットワークをトレーニングし、個々のフィールドでトレーニングされたネットワークよりも高い精度ですべてのパラメータの値を推測できるだけでなく、n体シミュレーションのマップよりも高い精度で$\omega_{\rm m}$の値を制限できることを見出します。

Astrophysical processes such as feedback from supernovae and active galactic nuclei modify the properties and spatial distribution of dark matter, gas, and galaxies in a poorly understood way. This uncertainty is one of the main theoretical obstacles to extract information from cosmological surveys. We use 2,000 state-of-the-art hydrodynamic simulations from the CAMELS project spanning a wide variety of cosmological and astrophysical models and generate hundreds of thousands of 2-dimensional maps for 13 different fields: from dark matter to gas and stellar properties. We use these maps to train convolutional neural networks to extract the maximum amount of cosmological information while marginalizing over astrophysical effects at the field level. Although our maps only cover a small area of $(25~h^{-1}{\rm Mpc})^2$, and the different fields are contaminated by astrophysical effects in very different ways, our networks can infer the values of $\Omega_{\rm m}$ and $\sigma_8$ with a few percent level precision for most of the fields. We find that the marginalization performed by the network retains a wealth of cosmological information compared to a model trained on maps from gravity-only N-body simulations that are not contaminated by astrophysical effects. Finally, we train our networks on multifields -- 2D maps that contain several fields as different colors or channels -- and find that not only they can infer the value of all parameters with higher accuracy than networks trained on individual fields, but they can constrain the value of $\Omega_{\rm m}$ with higher accuracy than the maps from the N-body simulations.
翻訳日:2021-09-22 14:26:18 公開日:2021-09-20
# Transforming Fake News: Transformer を用いたロバストな一般ニュース分類

Transforming Fake News: Robust Generalisable News Classification Using Transformers ( http://arxiv.org/abs/2109.09796v1 )

ライセンス: Link先を確認
Ciara Blackledge and Amir Atapour-Abarghouei(参考訳) オンラインニュースの人気が高まり、偽ニュースが普及するにつれ、オンラインニュースコンテンツの検証能力がこれまで以上に重要になっている。 そのようなタスクは、変圧器が最先端の結果を得られるバイナリ分類チャレンジを表している。 本研究では,公開のisotデータセットと組み合わせたコーパスデータセットを用いて偽ニュースを識別するトランスフォーマーの能力について検討する。 さらに,その主観的性質とセンセーショナルな言語によって,意見に基づくニュース記事が現実あるいは偽物と分類できないという考え方を探求し,モデルトレーニングと最終展開型推論システムの両方からその記事を削除する新たな2段階分類パイプラインを提案する。 isotと組み合わせたコーパスデータセットに関する実験により、トランスフォーマは、ベースラインのアプローチと比較して、分布の一般化のうち最大4.9%のf1スコアの上昇を達成し、さらに10.1%の上昇を示した。 私たちの知る限りでは、この文脈でトランスフォーマーの一般化を研究するのは、この研究が初めてです。

As online news has become increasingly popular and fake news increasingly prevalent, the ability to audit the veracity of online news content has become more important than ever. Such a task represents a binary classification challenge, for which transformers have achieved state-of-the-art results. Using the publicly available ISOT and Combined Corpus datasets, this study explores transformers' abilities to identify fake news, with particular attention given to investigating generalisation to unseen datasets with varying styles, topics and class distributions. Moreover, we explore the idea that opinion-based news articles cannot be classified as real or fake due to their subjective nature and often sensationalised language, and propose a novel two-step classification pipeline to remove such articles from both model training and the final deployed inference system. Experiments over the ISOT and Combined Corpus datasets show that transformers achieve an increase in F1 scores of up to 4.9% for out of distribution generalisation compared to baseline approaches, with a further increase of 10.1% following the implementation of our two-step classification pipeline. To the best of our knowledge, this study is the first to investigate generalisation of transformers in this context.
翻訳日:2021-09-22 14:25:47 公開日:2021-09-20
# リーマン計量空間における構造コネクトームを用いた多モードアトラスの統合的構成

Integrated Construction of Multimodal Atlases with Structural Connectomes in the Space of Riemannian Metrics ( http://arxiv.org/abs/2109.09808v1 )

ライセンス: Link先を確認
Kristen M. Campbell, Haocheng Dai, Zhe Su, Martin Bauer, P. Thomas Fletcher, Sarang C. Joshi(参考訳) 脳の構造的ネットワーク(または構造的コネクトーム)は、様々な経路図法によって生成される繊維束によって表される。 このような手法は脳の構造に定性的な洞察を与えるが、特に人口レベルで定量的な情報を提供できるかどうかについては議論がある。 構造コネクトームの集団レベルの統計解析を可能にするために,無限次元多様体上の点であるリーマン計量としてコネクトームを表現することを提案する。 この多様体に、この空間の自然な計量構造であるエビン計量を同値とし、リーマン多様体とその関連する幾何学的性質を得る。 次に、このリーマン的フレームワークを用いてオブジェクト指向統計解析を適用して、アトラスをリーマン計量の集団の Fr\'echet 平均として定義する。 この定式化は,DWMRIとT1強調MRIの皮質像の相補的な白質構造を同時に統合することにより,画像アトラスの微分型構築のための既存の枠組みと結びついている。 我々は,コネクトーム登録とアトラス形成の2次元データ例を用いて,本フレームワークについて解説する。 最後に,Human Connectome Projectのサブセットから推定した拡散テンソルから得られたT1画像とコネクトームを用いた3次元マルチモーダルアトラスの例を構築した。

The structural network of the brain, or structural connectome, can be represented by fiber bundles generated by a variety of tractography methods. While such methods give qualitative insights into brain structure, there is controversy over whether they can provide quantitative information, especially at the population level. In order to enable population-level statistical analysis of the structural connectome, we propose representing a connectome as a Riemannian metric, which is a point on an infinite-dimensional manifold. We equip this manifold with the Ebin metric, a natural metric structure for this space, to get a Riemannian manifold along with its associated geometric properties. We then use this Riemannian framework to apply object-oriented statistical analysis to define an atlas as the Fr\'echet mean of a population of Riemannian metrics. This formulation ties into the existing framework for diffeomorphic construction of image atlases, allowing us to construct a multimodal atlas by simultaneously integrating complementary white matter structure details from DWMRI and cortical details from T1-weighted MRI. We illustrate our framework with 2D data examples of connectome registration and atlas formation. Finally, we build an example 3D multimodal atlas using T1 images and connectomes derived from diffusion tensors estimated from a subset of subjects from the Human Connectome Project.
翻訳日:2021-09-22 14:22:31 公開日:2021-09-20
# 皮膚深部学習 : メラノーマ分類における人工物と楽器のデバイアス

Skin Deep Unlearning: Artefact and Instrument Debiasing in the Context of Melanoma Classification ( http://arxiv.org/abs/2109.09818v1 )

ライセンス: Link先を確認
Peter Bevan and Amir Atapour-Abarghouei(参考訳) 畳み込みニューラルネットワークは、メラノーマやその他の皮膚病変の分類において皮膚科レベルの性能を示すが、トレーニングデータに見られるバイアスによる予測の不規則性は、広く展開される前に対処すべき問題である。 本研究では,2つの主要なバイアスアンラーニング手法を用いて,自動メラノーマ分類パイプラインからバイアスと急激な変動を確実に除去する。 これらの偏り除去法を用いて,従来研究で提示された外科的マーキングや定規によるバイアスを合理的に緩和できることを示す。 また,病変画像の撮影に用いられる撮像装置に関する無学習スプリアス変動の一般化効果を示す。 この研究の貢献は、人工物バイアス除去のための異なるデバイアス技術の適用と、メラノーマ検出におけるドメイン一般化のための計測バイアスアンラーニングの概念を含む。 実験の結果,各バイアスの影響が顕著に減少し,異なるデバイアス技術が異なるタスクに優れていることが明らかとなった。

Convolutional Neural Networks have demonstrated dermatologist-level performance in the classification of melanoma and other skin lesions, but prediction irregularities due to biases seen within the training data are an issue that should be addressed before widespread deployment is possible. In this work, we robustly remove bias and spurious variation from an automated melanoma classification pipeline using two leading bias unlearning techniques. We show that the biases introduced by surgical markings and rulers presented in previous studies can be reasonably mitigated using these bias removal methods. We also demonstrate the generalisation benefits of unlearning spurious variation relating to the imaging instrument used to capture lesion images. Contributions of this work include the application of different debiasing techniques for artefact bias removal and the concept of instrument bias unlearning for domain generalisation in melanoma detection. Our experimental results provide evidence that the effects of each of the aforementioned biases are notably reduced, with different debiasing techniques excelling at different tasks.
翻訳日:2021-09-22 14:22:07 公開日:2021-09-20
# 視覚的局所化のための視点不変密度マッチング

Viewpoint Invariant Dense Matching for Visual Geolocalization ( http://arxiv.org/abs/2109.09827v1 )

ライセンス: Link先を確認
Gabriele Berton, Carlo Masone, Valerio Paolicelli and Barbara Caputo(参考訳) 本稿では,密度の高い局所特徴に基づく画像マッチング手法を提案する。 濃密な局所的特徴のマッチングは、照明や咬合の変化に対して頑健であるが、地理的局所化の基本的な側面である視点シフトには耐えられない。 我々の手法はGeoWarpと呼ばれ、密度のある特徴を抽出する過程において、視点シフトへの不変性を直接埋め込む。 これは、データから場所を認識するタスクに意味のある不変性を学ぶトレーニング可能なモジュールによって達成される。 また、ラベルのないデータと弱いラベルのみを使用して、新しい自己教師付き損失と2つの弱い教師付き損失を考案する。 geowarpは、既存のビジュアルジオローカライズパイプラインに簡単に組み込むことのできる再ランキングメソッドとして効率的に実装されている。 標準ジオローカライゼーションベンチマークの実験により、GeoWarpは最先端の検索アーキテクチャの精度を高めることを示した。 コードとトレーニングされたモデルはhttps://github.com/g mberton/geo_warpで入手できる。

In this paper we propose a novel method for image matching based on dense local features and tailored for visual geolocalization. Dense local features matching is robust against changes in illumination and occlusions, but not against viewpoint shifts which are a fundamental aspect of geolocalization. Our method, called GeoWarp, directly embeds invariance to viewpoint shifts in the process of extracting dense features. This is achieved via a trainable module which learns from the data an invariance that is meaningful for the task of recognizing places. We also devise a new self-supervised loss and two new weakly supervised losses to train this module using only unlabeled data and weak labels. GeoWarp is implemented efficiently as a re-ranking method that can be easily embedded into pre-existing visual geolocalization pipelines. Experimental validation on standard geolocalization benchmarks demonstrates that GeoWarp boosts the accuracy of state-of-the-art retrieval architectures. The code and trained models are available at https://github.com/g mberton/geo_warp
翻訳日:2021-09-22 14:21:49 公開日:2021-09-20
# 高度運転支援システム(ADAS)のサーマルスペクトルにおける物体検出

Object Detection in Thermal Spectrum for Advanced Driver-Assistance Systems (ADAS) ( http://arxiv.org/abs/2109.09854v1 )

ライセンス: Link先を確認
Muhammad Ali Farooq, Peter Corcoran, Cosmin Rotariu(参考訳) 熱赤外スペクトルにおける物体検出は、歩行者、動物、車両の検知だけでなく、道路標識や照明ポールの検出にも有用であるため、低照度条件と異なる気象条件においてより信頼性の高いデータソースを提供する。 本稿では,先進運転支援システム(ADAS)の7つの異なるクラスを用いて,サーマルビジョンにおける最先端物体検出および分類器フレームワークの探索と適用について述べる。 パブリックデータセット上でトレーニングされたネットワーク変種は、3つの異なるテストアプローチでテストデータ上で検証される。 さらに,未冷却のlwirプロトタイプサーマルカメラを用いてローカルに収集した新しいテストデータを用いて,気象・環境シナリオに挑戦する訓練ネットワークの有効性を検証した。 トレーニングモデルの性能解析は,計算精度,リコール,平均平均精度スコア(mAP)を用いて検討した。 さらに、トレーニングされたモデルアーキテクチャは、TensorRT推論アクセラレータを使用して最適化され、リソース制約のあるエッジハードウェアであるNvidia Jetson Nanoにデプロイされる。

Object detection in thermal infrared spectrum provides more reliable data source in low-lighting conditions and different weather conditions, as it is useful both in-cabin and outside for pedestrian, animal, and vehicular detection as well as for detecting street-signs & lighting poles. This paper is about exploring and adapting state-of-the-art object detection and classifier framework on thermal vision with seven distinct classes for advanced driver-assistance systems (ADAS). The trained network variants on public datasets are validated on test data with three different test approaches which include test-time with no augmentation, test-time augmentation, and test-time with model ensembling. Additionally, the efficacy of trained networks is tested on locally gathered novel test-data captured with an uncooled LWIR prototype thermal camera in challenging weather and environmental scenarios. The performance analysis of trained models is investigated by computing precision, recall, and mean average precision scores (mAP). Furthermore, the trained model architecture is optimized using TensorRT inference accelerator and deployed on resource-constrained edge hardware Nvidia Jetson Nano to explicitly reduce the inference time on GPU as well as edge devices for further real-time onboard installations.
翻訳日:2021-09-22 14:21:32 公開日:2021-09-20
# 地理空間文脈による深度推定の強化

Augmenting Depth Estimation with Geospatial Context ( http://arxiv.org/abs/2109.09879v1 )

ライセンス: Link先を確認
Scott Workman, Hunter Blanton(参考訳) 現代のカメラは広い範囲のセンサーを備えており、画像の地理空間的コンテキストを記録できる。 この利点を生かして,カメラがジオキャリケートされているという前提下での深度推定について検討する。 我々の重要な洞察は、撮影位置が分かっていれば、対応するオーバーヘッド視点は、シーンの規模を理解するための貴重なリソースとなることである。 本研究では,測地空間的コンテキストを用いて,同一位置の頭上画像から合成された地中深度マップを推定し,エンコーダ/デコーダ方式のセグメンテーションネットワーク内で融合する,深度推定のためのエンド・ツー・エンドアーキテクチャを提案する。 提案手法の評価支援のために,最近リリースされたデータ集合を,頭上画像と対応する高さマップで拡張した。 その結果、地理空間コンテキストの統合は、既存のベンチマークが考えるよりもはるかに大きな距離で評価した場合、ベースラインよりも誤差を著しく低減することが示された。

Modern cameras are equipped with a wide array of sensors that enable recording the geospatial context of an image. Taking advantage of this, we explore depth estimation under the assumption that the camera is geocalibrated, a problem we refer to as geo-enabled depth estimation. Our key insight is that if capture location is known, the corresponding overhead viewpoint offers a valuable resource for understanding the scale of the scene. We propose an end-to-end architecture for depth estimation that uses geospatial context to infer a synthetic ground-level depth map from a co-located overhead image, then fuses it inside of an encoder/decoder style segmentation network. To support evaluation of our methods, we extend a recently released dataset with overhead imagery and corresponding height maps. Results demonstrate that integrating geospatial context significantly reduces error compared to baselines, both at close ranges and when evaluating at much larger distances than existing benchmarks consider.
翻訳日:2021-09-22 14:21:09 公開日:2021-09-20
# 表面正規化推定におけるアレタリック不確かさの推定と展開

Estimating and Exploiting the Aleatoric Uncertainty in Surface Normal Estimation ( http://arxiv.org/abs/2109.09881v1 )

ライセンス: Link先を確認
Gwangbin Bae, Ignas Budvytis, Roberto Cipolla(参考訳) 単一画像からの表面正規化は3次元シーン理解において重要な課題である。 本稿では,既存手法で共有されている2つの制約,すなわち,アレータリック不確実性を推定できないこと,予測における詳細性の欠如に対処する。 提案ネットワークはピクセル単位の表面正規確率分布を推定する。 本稿では, 学習減衰による負の対数類似度が角損失であるような分布の新しいパラメータ化を提案する。 角誤差の期待値は、アレエータの不確かさの尺度として用いられる。 また,推定不確実性に基づいてサンプリングされた画素のサブセット上で画素単位の多層パーセプトロンを訓練する新しいデコーダフレームワークを提案する。 提案する不確実性誘導サンプリングは,大規模平面面へのトレーニングのバイアスを防止し,特に物体境界付近や小構造物の予測精度を向上させる。 実験の結果,提案手法はscannetとnyuv2の最先端技術よりも優れており,推定不確かさは予測誤差とよく相関することがわかった。 コードはhttps://github.com/b aegwangbin/surface_n ormal_uncertaintyで入手できる。

Surface normal estimation from a single image is an important task in 3D scene understanding. In this paper, we address two limitations shared by the existing methods: the inability to estimate the aleatoric uncertainty and lack of detail in the prediction. The proposed network estimates the per-pixel surface normal probability distribution. We introduce a new parameterization for the distribution, such that its negative log-likelihood is the angular loss with learned attenuation. The expected value of the angular error is then used as a measure of the aleatoric uncertainty. We also present a novel decoder framework where pixel-wise multi-layer perceptrons are trained on a subset of pixels sampled based on the estimated uncertainty. The proposed uncertainty-guided sampling prevents the bias in training towards large planar surfaces and improves the quality of prediction, especially near object boundaries and on small structures. Experimental results show that the proposed method outperforms the state-of-the-art in ScanNet and NYUv2, and that the estimated uncertainty correlates well with the prediction error. Code is available at https://github.com/b aegwangbin/surface_n ormal_uncertainty.
翻訳日:2021-09-22 14:20:54 公開日:2021-09-20
# ファウショット分類におけるディトラクタの重要性について

On the Importance of Distractors for Few-Shot Classification ( http://arxiv.org/abs/2109.09883v1 )

ライセンス: Link先を確認
Rajshekhar Das, Yu-Xiong Wang, Jos\'eM.F. Moura(参考訳) 少数(典型的には1対5)のラベル付き例から学習することで、新規タスクのカテゴリを分類することを目的とする。 少数ショット分類への効果的なアプローチは、大きなサンプルベースドメインでトレーニングされた事前モデルで、新しい少数ショットタスク上で微調整され、一般化可能な表現が得られる。 しかし、十分なトレーニング例がないため、タスク固有の微調整は過剰に働きがちである。 この問題を軽減するために,基本領域から乱れのない例をインタプリタの形で再利用する,コントラスト学習に基づく新たな微調整手法を提案する。 以前の作品で使われている非競合データとは異なり、トラクタは新しいカテゴリーと重複しないクラスに属している。 このような注意散らしを組み込むことで、数発の一般化を著しく促進できることを示すのが初めてである。 我々の技術的新奇性には、数発のタスクで同じカテゴリを共有する確率論的ペアリングと、タスク固有のネガティブとイントラクタの相対的影響を制御する重み付け項が含まれる。 ファインタニングの目的の重要な側面は、ラベルを混乱させることなく、様々なベースドメイン設定に適用できることです。 最先端のアプローチと比較すると,クロスドメインでは最大12\%$,教師なし事前学習では最大5\%$の精度向上を示す。

Few-shot classification aims at classifying categories of a novel task by learning from just a few (typically, 1 to 5) labelled examples. An effective approach to few-shot classification involves a prior model trained on a large-sample base domain, which is then finetuned over the novel few-shot task to yield generalizable representations. However, task-specific finetuning is prone to overfitting due to the lack of enough training examples. To alleviate this issue, we propose a new finetuning approach based on contrastive learning that reuses unlabelled examples from the base domain in the form of distractors. Unlike the nature of unlabelled data used in prior works, distractors belong to classes that do not overlap with the novel categories. We demonstrate for the first time that inclusion of such distractors can significantly boost few-shot generalization. Our technical novelty includes a stochastic pairing of examples sharing the same category in the few-shot task and a weighting term that controls the relative influence of task-specific negatives and distractors. An important aspect of our finetuning objective is that it is agnostic to distractor labels and hence applicable to various base domain settings. Compared to state-of-the-art approaches, our method shows accuracy gains of up to $12\%$ in cross-domain and up to $5\%$ in unsupervised prior-learning settings.
翻訳日:2021-09-22 14:20:37 公開日:2021-09-20
# ダイナミック・オクルージョン・アウェアによるハイパーゲームを用いた自動運転車用戦略的プランナーの安全性検証

I Know You Can't See Me: Dynamic Occlusion-Aware Safety Validation of Strategic Planners for Autonomous Vehicles Using Hypergames ( http://arxiv.org/abs/2109.09807v1 )

ライセンス: Link先を確認
Maximilian Kahn, Atrisha Sarkar and Krzysztof Czarnecki(参考訳) 自律運転と人間運転の両方において特に課題となるのは、交通中の他の車両によって引き起こされる動的な閉塞に関連するリスクを扱うことである。 ハイパーゲーム理論に基づき,動的咬合シナリオにおける状況リスクを評価するための新しい多エージェント動的咬合リスク(dor)尺度を開発した。 さらに,avにおける戦略的プランナーの安全性を評価するためのホワイトボックス,シナリオベース,迅速安全性検証フレームワークを提案する。 提案手法は, 大規模自然主義データベースに対する評価に基づいて, 自然主義データに対する直接検証よりも4000%の高速化を実現し, より多様なカバレッジと, データセットを超えて一般化し, 交通のダイナミック・オクルージョン・クラッシュを自動生成する能力を実現する。

A particular challenge for both autonomous and human driving is dealing with risk associated with dynamic occlusion, i.e., occlusion caused by other vehicles in traffic. Based on the theory of hypergames, we develop a novel multi-agent dynamic occlusion risk (DOR) measure for assessing situational risk in dynamic occlusion scenarios. Furthermore, we present a white-box, scenario-based, accelerated safety validation framework for assessing safety of strategic planners in AV. Based on evaluation over a large naturalistic database, our proposed validation method achieves a 4000% speedup compared to direct validation on naturalistic data, a more diverse coverage, and ability to generalize beyond the dataset and generate commonly observed dynamic occlusion crashes in traffic in an automated manner.
翻訳日:2021-09-22 14:12:40 公開日:2021-09-20
# 多発性硬化症における音声記録分析における機械学習と人工知能の臨床的有用性の検討

Assessing clinical utility of Machine Learning and Artificial Intelligence approaches to analyze speech recordings in Multiple Sclerosis: A Pilot Study ( http://arxiv.org/abs/2109.09844v1 )

ライセンス: Link先を確認
Emil Svoboda, Tom\'a\v{s} Bo\v{r}il, Jan Rusz, Tereza Tykalov\'a, Dana Hor\'akov\'a, Charles R.G. Guttman, Krastan B. Blagoev, Hiroto Hatabu, Vlad I. Valtchinov(参考訳) 背景: 早期診断と、多発性硬化症の正確な疾患進行モニタリングは、疾患管理を成功させる上で重要な要素である。 先行研究により、多発性硬化症は発話の不一致と相関していることが判明した。 客観的音響測定を用いた初期の研究で計測可能な変形が発見された。 目的: 音声記録を用いた多発性硬化症の診断・バイオマーカー抽出・進行モニタリングにおける機械学習と深層学習/AIアプローチの有用性を明らかにする。 方法: 自動音素セグメンテーションを用いたターゲット音響特徴抽出には, 65名のMS陽性者, 66名の健常者を用いたコーパスを用いた。 一連のバイナリ分類モデルをトレーニングし,調整し,その精度と面積について評価した。 結果: ランダムフォレストモデルは, 検証データセット上で 0.82 の精度と, 訓練データセット上で 5 k 倍のサイクルで 0.76 の面積を達成できた。 5の音響特性が統計的に有意であった。 結論:ms診断と進行追跡を支援する音声記録の自動分析における機械学習と人工知能は有望である。 これらの方法のさらなる臨床的検証と多発性硬化症進行へのマッピング、および英語話者に対する有効性が必要である。

Background: An early diagnosis together with an accurate disease progression monitoring of multiple sclerosis is an important component of successful disease management. Prior studies have established that multiple sclerosis is correlated with speech discrepancies. Early research using objective acoustic measurements has discovered measurable dysarthria. Objective: To determine the potential clinical utility of machine learning and deep learning/AI approaches for the aiding of diagnosis, biomarker extraction and progression monitoring of multiple sclerosis using speech recordings. Methods: A corpus of 65 MS-positive and 66 healthy individuals reading the same text aloud was used for targeted acoustic feature extraction utilizing automatic phoneme segmentation. A series of binary classification models was trained, tuned, and evaluated regarding their Accuracy and area-under-curve. Results: The Random Forest model performed best, achieving an Accuracy of 0.82 on the validation dataset and an area-under-curve of 0.76 across 5 k-fold cycles on the training dataset. 5 out of 7 acoustic features were statistically significant. Conclusion: Machine learning and artificial intelligence in automatic analyses of voice recordings for aiding MS diagnosis and progression tracking seems promising. Further clinical validation of these methods and their mapping onto multiple sclerosis progression is needed, as well as a validating utility for English-speaking populations.
翻訳日:2021-09-22 14:12:25 公開日:2021-09-20
# 戦略的駆動行動のための一般化された動的認知階層モデル

Generalized dynamic cognitive hierarchy models for strategic driving behavior ( http://arxiv.org/abs/2109.09861v1 )

ライセンス: Link先を確認
Atrisha Sarkar, Kate Larson, Krzysztof Czarnecki(参考訳) 自律運転におけるゲーム理論モデルの使用に焦点が当てられているが、実証的な証拠は、共通知識仮定の課題への対処や有界な合理性をモデル化することに関して、まだオープンな疑問が存在することを示している。 これらの課題に対処するために,自然主義的人間運転行動と自律走行車(AV)の行動計画の両方をモデル化するための,一般化された動的認知階層の枠組みを開発する。 このフレームワークは、オートマタ戦略の使用によるレベル-0の振る舞いの豊富なモデル、安全性と操作の満足度による境界的合理性の解釈可能な概念、計画に対する堅牢な反応に基づいている。 2つの大きな自然主義的データセットの評価と重要な交通シナリオのシミュレーションに基づいて、そのことを示す。 i) オートマトン戦略は、動的レベルkフレームワークにおけるレベル-0の振る舞いに適しており、また、 二 戦略的・非戦略的推論者の異種集団に対する頑健な対応は、AVにおけるゲーム理論計画に有効なアプローチである。

While there has been an increasing focus on the use of game theoretic models for autonomous driving, empirical evidence shows that there are still open questions around dealing with the challenges of common knowledge assumptions as well as modeling bounded rationality. To address some of these practical challenges, we develop a framework of generalized dynamic cognitive hierarchy for both modelling naturalistic human driving behavior as well as behavior planning for autonomous vehicles (AV). This framework is built upon a rich model of level-0 behavior through the use of automata strategies, an interpretable notion of bounded rationality through safety and maneuver satisficing, and a robust response for planning. Based on evaluation on two large naturalistic datasets as well as simulation of critical traffic scenarios, we show that i) automata strategies are well suited for level-0 behavior in a dynamic level-k framework, and ii) the proposed robust response to a heterogeneous population of strategic and non-strategic reasoners can be an effective approach for game theoretic planning in AV.
翻訳日:2021-09-22 14:12:06 公開日:2021-09-20
# 逸脱に基づく学習

Deviation-Based Learning ( http://arxiv.org/abs/2109.09816v1 )

ライセンス: Link先を確認
Junpei Komiyama and Shunya Noda(参考訳) 本稿では,レコメンダシステムの学習のための新しいアプローチである偏差ベース学習を提案する。 当初、レコメンデーターと合理的なユーザは異なる知識を持っているが、レコメンデーターはより良いレコメンデーションを行うために、ユーザの知識を学ぶ必要がある。 レコメンダは、各ユーザが彼女のレコメンデーションに従っているか、あるいは外れているかを観察することによって、ユーザの知識を学習する。 ユーザが推奨を盲目的にフォローする傾向があり、その選択は彼らの知識を反映しない。 社会福祉と学習率は、レコメンデーターが選択を推奨しない場合に、複数の腕が同様の報酬を生み出すと予測した場合に劇的に改善される。

We propose deviation-based learning, a new approach to training recommender systems. In the beginning, the recommender and rational users have different pieces of knowledge, and the recommender needs to learn the users' knowledge to make better recommendations. The recommender learns users' knowledge by observing whether each user followed or deviated from her recommendations. We show that learning frequently stalls if the recommender always recommends a choice: users tend to follow the recommendation blindly, and their choices do not reflect their knowledge. Social welfare and the learning rate are improved drastically if the recommender abstains from recommending a choice when she predicts that multiple arms will produce a similar payoff.
翻訳日:2021-09-22 14:11:09 公開日:2021-09-20
# 生物配列のための神経距離埋め込み

Neural Distance Embeddings for Biological Sequences ( http://arxiv.org/abs/2109.09740v1 )

ライセンス: Link先を確認
Gabriele Corso, Rex Ying, Michal P\'andy, Petar Veli\v{c}kovi\'c, Jure Leskovec, Pietro Li\`o(参考訳) データ依存的ヒューリスティックの開発と進化距離を反映する生物学的配列の表現は、大規模な生物学的研究において重要である。 しかしながら、連続ユークリッド空間に基づく一般的な機械学習アプローチは、モデルの進化と現実世界のデータセットを特徴づける階層的関係をモデルとする編集距離の離散的な組合せ定式化に苦慮している。 本稿では,幾何学的ベクトル空間にシーケンスを埋め込む汎用フレームワークであるニューラル距離埋め込み(neuroseed)を提案し,階層構造をキャプチャする双曲空間の有効性を示し,最良な空間に対して平均22%のrmse埋め込み削減を提供する。 このフレームワークの能力とこれらの改善の意義は、バイオインフォマティクスにおける複数のコアタスクに対する教師付きおよび教師なしのNeuroSEEDアプローチを考案した。 一般的なベースラインとベンチマークして、提案手法は現実世界のデータセットに対して、大幅な精度と実行時の改善を示す。 階層的クラスタリングの例として,提案手法は,30倍,15倍のランタイム削減と競合するベースラインの品質に適合する。

The development of data-dependent heuristics and representations for biological sequences that reflect their evolutionary distance is critical for large-scale biological research. However, popular machine learning approaches, based on continuous Euclidean spaces, have struggled with the discrete combinatorial formulation of the edit distance that models evolution and the hierarchical relationship that characterises real-world datasets. We present Neural Distance Embeddings (NeuroSEED), a general framework to embed sequences in geometric vector spaces, and illustrate the effectiveness of the hyperbolic space that captures the hierarchical structure and provides an average 22% reduction in embedding RMSE against the best competing geometry. The capacity of the framework and the significance of these improvements are then demonstrated devising supervised and unsupervised NeuroSEED approaches to multiple core tasks in bioinformatics. Benchmarked with common baselines, the proposed approaches display significant accuracy and/or runtime improvements on real-world datasets. As an example for hierarchical clustering, the proposed pretrained and from-scratch methods match the quality of competing baselines with 30x and 15x runtime reduction, respectively.
翻訳日:2021-09-22 14:10:57 公開日:2021-09-20
# ApproxIFER: レジリエントおよびロバスト予測サービングシステムに対するモデルに依存しないアプローチ

ApproxIFER: A Model-Agnostic Approach to Resilient and Robust Prediction Serving Systems ( http://arxiv.org/abs/2109.09868v1 )

ライセンス: Link先を確認
Mahdi Soleymani, Ramy E. Ali, Hessam Mahdavifar, A. Salman Avestimehr(参考訳) クラウド支援型AIサービスの急増により、ストラグラー/障害に効果的に対処し、応答遅延を最小限に抑えるレジリエントな予測サービスシステムの設計が課題となっている。 この問題に対処する一般的なアプローチは、複数のワーカーに同じ予測タスクを割り当てるレプリケーションである。 しかし、このアプローチは非常に非効率であり、リソースのオーバーヘッドを負う。 したがって、parity model(parm)と呼ばれる学習ベースのアプローチが最近提案されており、遅滞する労働者の予測を再構築するために、一連の予測に対してパリティを生成できるモデルを学習している。 この学習ベースのアプローチは、レプリケーションよりもリソース効率がよいが、クラウドがホストする特定のモデルに合わせて設計されており、特に少数のクエリ(通常4つ未満)に適しており、ごく少数のストラグラー(ほとんど1つ)に制限されている。 さらに、ParMはビザンツの敵の労働者を扱わない。 我々は,任意のパリティモデルのトレーニングを必要とせず,クラウドがホストするモデルに依存せず,異なるデータドメインやモデルアーキテクチャに容易に適用可能な,近似符号推論(approxifer)という別のアプローチを提案する。 以前の作業と比較すると、ApproxIFERは一般的なストラグラーの数を処理でき、クエリの数をはるかに改善できる。 さらに、ApproxIFERはビザンツの労働者に対して堅牢である。 多数のデータセットとモデルアーキテクチャに関する広範な実験では、パリティモデルアプローチに対して、精度が最大58%向上しています。

Due to the surge of cloud-assisted AI services, the problem of designing resilient prediction serving systems that can effectively cope with stragglers/failures and minimize response delays has attracted much interest. The common approach for tackling this problem is replication which assigns the same prediction task to multiple workers. This approach, however, is very inefficient and incurs significant resource overheads. Hence, a learning-based approach known as parity model (ParM) has been recently proposed which learns models that can generate parities for a group of predictions in order to reconstruct the predictions of the slow/failed workers. While this learning-based approach is more resource-efficient than replication, it is tailored to the specific model hosted by the cloud and is particularly suitable for a small number of queries (typically less than four) and tolerating very few (mostly one) number of stragglers. Moreover, ParM does not handle Byzantine adversarial workers. We propose a different approach, named Approximate Coded Inference (ApproxIFER), that does not require training of any parity models, hence it is agnostic to the model hosted by the cloud and can be readily applied to different data domains and model architectures. Compared with earlier works, ApproxIFER can handle a general number of stragglers and scales significantly better with the number of queries. Furthermore, ApproxIFER is robust against Byzantine workers. Our extensive experiments on a large number of datasets and model architectures also show significant accuracy improvement by up to 58% over the parity model approaches.
翻訳日:2021-09-22 14:10:37 公開日:2021-09-20
# シャープ大域収束保証による反復非凸最適化:ガウス過程の観点から

Sharp global convergence guarantees for iterative nonconvex optimization: A Gaussian process perspective ( http://arxiv.org/abs/2109.09859v1 )

ライセンス: Link先を確認
Kabir Aladin Chandrasekher, Ashwin Pananjady, Christos Thrampoulidis(参考訳) 正規分布共変量を持つ回帰モデルの一般的なクラスと、これらのモデルをデータから適合させる非凸問題を考える。 ランダム初期化から反復アルゴリズムの収束を解析するための一般的な手法を開発した。 特に、各反復がいくつかの自然条件を満たす凸最適化問題の解として書けることを条件として、ガウス比較定理を利用して、サンプル分割によるアルゴリズムの誤差に鋭い上下境界を与える決定論的列を導出する。 この決定論的シーケンスは、有限サンプルレジームにおけるアルゴリズムの収束率と結果誤差階の両方を正確に捉え、無限サンプルリミットを取ることによって得られる一般的な「人口」列とは区別される。 本手法は, 位相検索や回帰の混合など, 一般的な統計モデルにおけるパラメータ推定の具体的結果の導出に応用する。 サンプルサイズスケールを次元で近似すると,交互更新に基づく高次アルゴリズムと下位降下に基づく一階アルゴリズムの両方に対して,鋭い大域収束率を示す。 これらの系図は、次を含む複数の結果をもたらす。 (a)高次アルゴリズムが1次アルゴリズムよりもはるかに早く収束できること(時として超直線的に)は、たとえ2つのアルゴリズムが同じ人口の更新を共有しているとしても証明する。 (b)高次アルゴリズムにおける超線形収束挙動の複雑さは、非標準(指数 3/2 の場合など)であり、問題のノイズレベルに敏感である。 これらの結果を広範な数値実験で補完し,理論的な予測とよく一致した。

We consider a general class of regression models with normally distributed covariates, and the associated nonconvex problem of fitting these models from data. We develop a general recipe for analyzing the convergence of iterative algorithms for this task from a random initialization. In particular, provided each iteration can be written as the solution to a convex optimization problem satisfying some natural conditions, we leverage Gaussian comparison theorems to derive a deterministic sequence that provides sharp upper and lower bounds on the error of the algorithm with sample-splitting. Crucially, this deterministic sequence accurately captures both the convergence rate of the algorithm and the eventual error floor in the finite-sample regime, and is distinct from the commonly used "population" sequence that results from taking the infinite-sample limit. We apply our general framework to derive several concrete consequences for parameter estimation in popular statistical models including phase retrieval and mixtures of regressions. Provided the sample size scales near-linearly in the dimension, we show sharp global convergence rates for both higher-order algorithms based on alternating updates and first-order algorithms based on subgradient descent. These corollaries, in turn, yield multiple consequences, including: (a) Proof that higher-order algorithms can converge significantly faster than their first-order counterparts (and sometimes super-linearly), even if the two share the same population update and (b) Intricacies in super-linear convergence behavior for higher-order algorithms, which can be nonstandard (e.g., with exponent 3/2) and sensitive to the noise level in the problem. We complement these results with extensive numerical experiments, which show excellent agreement with our theoretical predictions.
翻訳日:2021-09-22 14:08:24 公開日:2021-09-20
# 代替ブラックボックス行列行列乗算アルゴリズムによる特殊ガウス過程の分子エネルギー学習

Molecular Energy Learning Using Alternative Blackbox Matrix-Matrix Multiplication Algorithm for Exact Gaussian Process ( http://arxiv.org/abs/2109.09817v1 )

ライセンス: Link先を確認
Jiace Sun, Lixue Cheng, Thomas F. Miller III(参考訳) 分子軌道ベース機械学習(MOB-ML)フレームワークにおける分子エネルギーのガウス過程(GP)トレーニングのスケールアップに,ブラックボックス行列行列行列行列乗法(BBMM)アルゴリズムを適用した。 BBMM(AltBBMM)の代替実装は、元のBBMM実装と同じ精度で(4倍のスピードアップで)より効率的に訓練するためにも提案されている。 MOB-MLのトレーニングは220分子に制限され、BBMMとAltBBMMはMOB-MLのトレーニングを30倍から6500分子(100万組のエネルギー)に拡張した。 両アルゴリズムの精度と伝達性について, 重原子7と重原子13の有機分子のベンチマークデータセットを用いて検討した。 GPのこれらの低スケールの実装は、低データ状態における最先端の学習効率を保ちながら、分子エネルギーに関する他の機械学習よりも精度良く大規模データ状態に拡張する。

We present an application of the blackbox matrix-matrix multiplication (BBMM) algorithm to scale up the Gaussian Process (GP) training of molecular energies in the molecular-orbital based machine learning (MOB-ML) framework. An alternative implementation of BBMM (AltBBMM) is also proposed to train more efficiently (over four-fold speedup) with the same accuracy and transferability as the original BBMM implementation. The training of MOB-ML was limited to 220 molecules, and BBMM and AltBBMM scale the training of MOB-ML up by over 30 times to 6500 molecules (more than a million pair energies). The accuracy and transferability of both algorithms are examined on the benchmark datasets of organic molecules with 7 and 13 heavy atoms. These lower-scaling implementations of the GP preserve the state-of-the-art learning efficiency in the low-data regime while extending it to the large-data regime with better accuracy than other available machine learning works on molecular energies.
翻訳日:2021-09-22 14:07:57 公開日:2021-09-20
# (参考訳) Merlion: 時系列のための機械学習ライブラリ [全文訳有]

Merlion: A Machine Learning Library for Time Series ( http://arxiv.org/abs/2109.09265v1 )

ライセンス: CC BY 4.0
Aadyot Bhatnagar, Paul Kassianik, Chenghao Liu, Tian Lan, Wenzhuo Yang, Rowan Cassius, Doyen Sahoo, Devansh Arpit, Sri Subramanian, Gerald Woo, Amrita Saha, Arun Kumar Jagota, Gokulakrishnan Gopalakrishnan, Manpreet Singh, K C Krithika, Sukumar Maddineni, Daeki Cho, Bo Zong, Yingbo Zhou, Caiming Xiong, Silvio Savarese, Steven Hoi, Huan Wang(参考訳) 時系列のためのオープンソースの機械学習ライブラリMerlionを紹介する。 多くの一般的なモデルとデータセットのための統一インターフェースを備えており、不平等時系列と多変量時系列の両方の異常検出と予測と標準前/後処理層での予測を行う。 視覚化、相互運用性を改善するための異常スコアキャリブレーション、ハイパーパラメータチューニングとモデル選択のためのAutoML、モデルアンサンブルなど、使いやすさを改善するためのモジュールがいくつかある。 merlionはまた、実運用環境でのモデルのライブデプロイメントと再トレーニングをシミュレートするユニークな評価フレームワークを提供する。 このライブラリは、エンジニアと研究者に、特定の時系列ニーズのモデルを迅速に開発し、それらを複数の時系列データセットでベンチマークするためのワンストップソリューションを提供することを目的としている。 本報告では,merlionのアーキテクチャと主要な機能に注目し,様々なベースラインモデルとアンサンブルのベンチマーク結果を報告する。

We introduce Merlion, an open-source machine learning library for time series. It features a unified interface for many commonly used models and datasets for anomaly detection and forecasting on both univariate and multivariate time series, along with standard pre/post-processing layers. It has several modules to improve ease-of-use, including visualization, anomaly score calibration to improve interpetability, AutoML for hyperparameter tuning and model selection, and model ensembling. Merlion also provides a unique evaluation framework that simulates the live deployment and re-training of a model in production. This library aims to provide engineers and researchers a one-stop solution to rapidly develop models for their specific time series needs and benchmark them across multiple time series datasets. In this technical report, we highlight Merlion's architecture and major functionalities, and we report benchmark numbers across different baseline models and ensembles.
翻訳日:2021-09-22 06:01:49 公開日:2021-09-20
# (参考訳) DeepStationing:解剖学的文脈エンコーディングとキーオーガナイズドオートサーチを用いたCTスキャンにおける胸部リンパ節郭清 [全文訳有]

DeepStationing: Thoracic Lymph Node Station Parsing in CT Scans using Anatomical Context Encoding and Key Organ Auto-Search ( http://arxiv.org/abs/2109.09271v1 )

ライセンス: CC BY 4.0
Dazhou Guo, Xianghua Ye, Jia Ge, Xing Di, Le Lu, Lingyun Huang, Guotong Xie, Jing Xiao, Zhongjie Liu, Ling Peng, Senxiang Yan, Dakai Jin(参考訳) CTスキャンからのLymph node station (LNS) delineationは放射線腫瘍学のワークフローにおいて必須のステップである。 ユーザ間の高い多様性と禁止労働コストは、自動化アプローチの動機となった。 以前の研究では、事前定義されたad-hocマージンに基づいてlsnを推論するために解剖学的前処理を利用する。 しかし、ボクセルレベルの監督がなければ、性能は極めて制限される。 LNSは、高度に文脈依存的であり、LSS境界は解剖学的臓器によって制約されている。 これにより、深層ネットワークは、CTの外観と臓器コンテキストの両方からより良く学習することができる。 我々は,臓器をアンカーと非アンカーのカテゴリに分割し,前者の予測を用いて後続のセグメンテーションを導く階層的参照臓器セグメンテーションプロトコルを開発した。 さらに,最適なLSS解析性能を選択する重要な臓器を同定する自動探索モジュールを開発した。 食道癌患者98名(胸部領域に12個のLSS+22臓器の包括的セットを含む)のデータセットの4倍のクロスバリデーション実験を行った。 私たちのlns解析モデルは、平均siceスコアが81.1%+/- 6.1%で、純粋なctベースのディープモデルよりも5.%、以前の代表的アプローチよりも19.2%高かった。

Lymph node station (LNS) delineation from computed tomography (CT) scans is an indispensable step in radiation oncology workflow. High inter-user variabilities across oncologists and prohibitive laboring costs motivated the automated approach. Previous works exploit anatomical priors to infer LNS based on predefined ad-hoc margins. However, without voxel-level supervision, the performance is severely limited. LNS is highly context-dependent - LNS boundaries are constrained by anatomical organs - we formulate it as a deep spatial and contextual parsing problem via encoded anatomical organs. This permits the deep network to better learn from both CT appearance and organ context. We develop a stratified referencing organ segmentation protocol that divides the organs into anchor and non-anchor categories and uses the former's predictions to guide the later segmentation. We further develop an auto-search module to identify the key organs that opt for the optimal LNS parsing performance. Extensive four-fold cross-validation experiments on a dataset of 98 esophageal cancer patients (with the most comprehensive set of 12 LNSs + 22 organs in thoracic region to date) are conducted. Our LNS parsing model produces significant performance improvements, with an average Dice score of 81.1% +/- 6.1%, which is 5.0% and 19.2% higher over the pure CT-based deep model and the previous representative approach, respectively.
翻訳日:2021-09-22 05:41:07 公開日:2021-09-20
# (参考訳) 補間可変レート画像圧縮 [全文訳有]

Interpolation variable rate image compression ( http://arxiv.org/abs/2109.09280v1 )

ライセンス: CC BY 4.0
Zhenhong Sun, Zhiyu Tan, Xiuyu Sun, Fangyi Zhang, Yichen Qian, Dongyang Li, Hao Li(参考訳) 圧縮標準は、画像記憶と伝送のコストを何十年も削減するために使われてきた。 近年、学習した画像圧縮手法が提案され、従来の標準に説得力のある性能を達成している。 しかし、これらの手法では、様々な圧縮レートのために複数の異なるネットワークが使われ、モデルストレージとトレーニングに高いコストがかかる。 可変レートのアプローチは、単一ネットワークを使用することでコストを削減するために提案されているが、そのほとんどは、微調整による性能劣化をもたらした。 性能を犠牲にすることなく可変レート制御を実現するため、圧縮ネットワークに便利な補間チャネルアテンション(InterpCA)モジュールを導入し、効率的な補間可変レート(IVR)ネットワークを提案する。 速度制御と線形補間に2つのハイパーパラメータを用い、InterpCAは細かなPSNR間隔0.001dBと、IVRネットワークで9000レートの0.0001 Bits-Per-Pixel (BPP)の微細レート間隔を達成する。 実験結果から,PSNRにおけるVTM 9.0(intra)とMS-SSIM(Multiscale Structure similarity)を比較検討した。

Compression standards have been used to reduce the cost of image storage and transmission for decades. In recent years, learned image compression methods have been proposed and achieved compelling performance to the traditional standards. However, in these methods, a set of different networks are used for various compression rates, resulting in a high cost in model storage and training. Although some variable-rate approaches have been proposed to reduce the cost by using a single network, most of them brought some performance degradation when applying fine rate control. To enable variable-rate control without sacrificing the performance, we propose an efficient Interpolation Variable-Rate (IVR) network, by introducing a handy Interpolation Channel Attention (InterpCA) module in the compression network. With the use of two hyperparameters for rate control and linear interpolation, the InterpCA achieves a fine PSNR interval of 0.001 dB and a fine rate interval of 0.0001 Bits-Per-Pixel (BPP) with 9000 rates in the IVR network. Experimental results demonstrate that the IVR network is the first variable-rate learned method that outperforms VTM 9.0 (intra) in PSNR and Multiscale Structural Similarity (MS-SSIM).
翻訳日:2021-09-22 05:29:06 公開日:2021-09-20
# (参考訳) 超広義ニューラルネットワークにおける変形半円法則と非線形ランダム行列の濃度

Deformed semicircle law and concentration of nonlinear random matrices for ultra-wide neural networks ( http://arxiv.org/abs/2109.09304v1 )

ライセンス: CC BY 4.0
Zhichao Wang and Yizhe Zhu(参考訳) 本稿では,$f(x)=\frac{1}{\sqrt{d_1}}\boldsymbol{a}^\top\sigma\left(wx\r ight)$,ただし$x\in\mathbb{r}^{d_0\times n}$は決定論的データ行列であり,$w\in\mathbb{r}^{d_1\times d_0}$および$\boldsymbol{a}\in\mathbb{r}^{d_1}$はランダムガウス重であり、$\sigma$は非線形活性化関数である。 経験的共役カーネル (CK) とニューラルタンジェントカーネル (NTK) の2つのカーネル行列のスペクトル分布を線形幅レジーム (d_1\asymp n$) を超えて制限する。 超幅の体制では、$d_1/n\to\infty$、$X$と$\sigma$の適切な仮定により、変形半円法則が現れる。 このような制限則は、相関を持つ一般集中型サンプル共分散行列に対して初めて証明され、その後ニューラルネットワークモデルに規定される。 また、スペクトルノルムにおける制限核の周囲の経験的 CK と NTK の非漸近的な濃度、および最小固有値上の下限も証明する。 アプリケーションとして,超幅制限下でのカーネル回帰の制限と同じ漸近性能を達成するランダムな特徴回帰を検証する。 ランダムな特徴回帰に対する制限トレーニングとテストエラーは、対応するカーネル回帰によって計算される。 また、ランダムウェイトとリプシッツ活性化関数を有するニューラルネットワークに適した非線形ハンソンライト不等式を提供する。

In this paper, we study the two-layer fully connected neural network given by $f(X)=\frac{1}{\sqrt{d_1}}\boldsymbol{a}^\top\sigma\left(WX\r ight)$, where $X\in\mathbb{R}^{d_0\times n}$ is a deterministic data matrix, $W\in\mathbb{R}^{d_1\times d_0}$ and $\boldsymbol{a}\in\mathbb{R}^{d_1}$ are random Gaussian weights, and $\sigma$ is a nonlinear activation function. We obtain the limiting spectral distributions of two kernel matrices related to $f(X)$: the empirical conjugate kernel (CK) and neural tangent kernel (NTK), beyond the linear-width regime ($d_1\asymp n$). Under the ultra-width regime $d_1/n\to\infty$, with proper assumptions on $X$ and $\sigma$, a deformed semicircle law appears. Such limiting law is first proved for general centered sample covariance matrices with correlation and then specified for our neural network model. We also prove non-asymptotic concentrations of empirical CK and NTK around their limiting kernel in the spectral norm, and lower bounds on their smallest eigenvalues. As an application, we verify the random feature regression achieves the same asymptotic performance as its limiting kernel regression in ultra-width limit. The limiting training and test errors for random feature regression are calculated by corresponding kernel regression. We also provide a nonlinear Hanson-Wright inequality suitable for neural networks with random weights and Lipschitz activation functions.
翻訳日:2021-09-22 05:08:20 公開日:2021-09-20
# (参考訳) 心電導におけるトレンド予測と異常検出のための深部時空間スパース分解法

Deep Spatio-temporal Sparse Decomposition for Trend Prediction and Anomaly Detection in Cardiac Electrical Conduction ( http://arxiv.org/abs/2109.09317v1 )

ライセンス: CC BY 4.0
Xinyu Zhao, Hao Yan, Zhiyong Hu, Dongping Du(参考訳) 心臓組織間の電気伝導は、通常、部分微分方程式、すなわち、反応項が細胞刺激、拡散項が電気伝播を記述する反応拡散方程式でモデル化される。 このような非線形力学系における異常な電気的衝動を生じる心臓細胞の検出と同定は、効率的な治療と計画に重要である。 非線形力学をモデル化するために、心疾患のメカニズムを解明し、新しい治療設計を開発するために、心臓研究と臨床研究の両方でシミュレーションが広く用いられている。 しかし、既存の心臓モデルは非常に複雑であり、シミュレーションには時間がかかることが多い。 本研究では, 時間を要する心部分微分方程式を深部時空間モデルで回避し, 異常の時間と位置を検出するために, 深部時空間分解法(DSTSD)を提案する。 このアプローチはcourtemanche-ramirez -nattel(crn)モデルから生成されたデータセットから検証される。 提案したDSTSDは時空間平均トレンド予測と異常検出で最高の精度を達成した。

Electrical conduction among cardiac tissue is commonly modeled with partial differential equations, i.e., reaction-diffusion equation, where the reaction term describes cellular stimulation and diffusion term describes electrical propagation. Detecting and identifying of cardiac cells that produce abnormal electrical impulses in such nonlinear dynamic systems are important for efficient treatment and planning. To model the nonlinear dynamics, simulation has been widely used in both cardiac research and clinical study to investigate cardiac disease mechanisms and develop new treatment designs. However, existing cardiac models have a great level of complexity, and the simulation is often time-consuming. We propose a deep spatio-temporal sparse decomposition (DSTSD) approach to bypass the time-consuming cardiac partial differential equations with the deep spatio-temporal model and detect the time and location of the anomaly (i.e., malfunctioning cardiac cells). This approach is validated from the data set generated from the Courtemanche-Ramirez -Nattel (CRN) model, which is widely used to model the propagation of the transmembrane potential across the cross neuron membrane. The proposed DSTSD achieved the best accuracy in terms of spatio-temporal mean trend prediction and anomaly detection.
翻訳日:2021-09-22 05:06:46 公開日:2021-09-20
# (参考訳) ハイブリッドアクターのためのモジュラーデザインパターン [全文訳有]

Modular Design Patterns for Hybrid Actors ( http://arxiv.org/abs/2109.09331v1 )

ライセンス: CC BY 4.0
Andr\'e Meyer-Vitali, Wico Mulder, Maaike H.T. de Boer(参考訳) 近年,記号的および準記号的学習と推論を組み合わせたハイブリッドAIの設計パターンを用いたボックスロジー(図形言語)が提案されている。 本稿では,このボックスロジーをアクタとその相互作用に拡張する。 本論文の主な貢献は次のとおりである。 1) アクターと相互作用を伴う分散ハイブリッドAIシステムを記述するための分類の延長 2) マルチエージェントシステムおよびヒューマンエージェントインタラクションに関するいくつかのデザインパターンの使用例、特に製造領域における例を示す。

Recently, a boxology (graphical language) with design patterns for hybrid AI was proposed, combining symbolic and sub-symbolic learning and reasoning. In this paper, we extend this boxology with actors and their interactions. The main contributions of this paper are: 1) an extension of the taxonomy to describe distributed hybrid AI systems with actors and interactions; and 2) showing examples using a few design patterns relevant in multi-agent systems and human-agent interaction in general and, specifically, in the manufacturing domain.
翻訳日:2021-09-22 05:05:43 公開日:2021-09-20
# (参考訳) 物理インフォームドニューラルネットワークによる正弦波空間の学習 [全文訳有]

Learning in Sinusoidal Spaces with Physics-Informed Neural Networks ( http://arxiv.org/abs/2109.09338v1 )

ライセンス: CC BY 4.0
Jian Cheng Wong, Chinchun Ooi, Abhishek Gupta, Yew-Soon Ong(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、物理増分損失関数(例えば、制御微分方程式から残留項を組み込んで、その出力が基本的な物理法則と整合していることを保証する。 しかし、実際の多くの問題に対して正確なPINNモデルをトレーニングすることは困難であることが判明した。 本稿では, PINNを用いた正弦波空間における学習のメリットについて, 新たな視点から考察する。 モデル初期化時の漸近挙動を解析することにより、サイズ(幅と深さ)が大きくなるPINNが平坦な出力に偏りを生じさせることを示す。 特に、平坦函数は、多くの物理微分方程式に対する自明な解であり、したがって、真の解からは程遠いが、拡張損失の残余項を欺いて最小化する。 次に、sf-PINNとラベル付けしたアーキテクチャにおいて、入力の正弦波写像は出力の変動を増大させることができることを示し、それ故に知覚的局所最小値に閉じ込められることを避ける。 さらに、変動のレベルを効果的に変調して、目の前の問題における高周波パターンを一致させることができる。 本稿では, PINNを用いた正弦波空間における学習の有効性を, 複数の物理領域にまたがる幅広い前方・逆モデリング問題に対する包括的実験により検証した。

A physics-informed neural network (PINN) uses physics-augmented loss functions, e.g., incorporating the residual term from governing differential equations, to ensure its output is consistent with fundamental physics laws. However, it turns out to be difficult to train an accurate PINN model for many problems in practice. In this paper, we address this issue through a novel perspective on the merits of learning in sinusoidal spaces with PINNs. By analyzing asymptotic behavior at model initialization, we first prove that a PINN of increasing size (i.e., width and depth) induces a bias towards flat outputs. Notably, a flat function is a trivial solution to many physics differential equations, hence, deceptively minimizing the residual term of the augmented loss while being far from the true solution. We then show that the sinusoidal mapping of inputs, in an architecture we label as sf-PINN, is able to elevate output variability, thus avoiding being trapped in the deceptive local minimum. In addition, the level of variability can be effectively modulated to match high-frequency patterns in the problem at hand. A key facet of this paper is the comprehensive empirical study that demonstrates the efficacy of learning in sinusoidal spaces with PINNs for a wide range of forward and inverse modelling problems spanning multiple physics domains.
翻訳日:2021-09-22 04:56:25 公開日:2021-09-20
# (参考訳) Eコマースプラットフォームにおける製品グラフを用いたグループ検索 [全文訳有]

Grouping Search Results with Product Graphs in E-commerce Platforms ( http://arxiv.org/abs/2109.09349v1 )

ライセンス: CC BY 4.0
Suhas Ranganath, Shibsankar Das, Sanjay Thilaivasan, Shipra Agarwal, Varun Shrivastava(参考訳) ユーザに対して関連する検索結果を表示することが,検索システムにとって最大の課題である。 walmart eコマースは、顧客に何百万もの製品から検索するためのomnichannel検索プラットフォームを提供している。 この検索プラットフォームは、テキストクエリを入力として、カタログから関連する項目を表示する。 主な課題の1つは、多くのケースで複数のインテントが含まれているため、このクエリが複雑であることです。 本稿では,検索結果を複数のランクリストに分類し,より優れたユーザインテントを提供するフレームワークを提案する。 フレームワークは、製品エンティティ間の関係を持つ製品グラフを作成し、それを利用して検索結果を一連のスタックにグループ化し、各スタックが正確な意図に基づいてアイテムのグループを提供する。 例えば、クエリ"milk"では、結果は"white milk"、"low-fat milk"、"almond milk"、"flavored milk"の複数のスタックにグループ化できる。 本稿では,検索品質の関連性とAdd-To-Cartのようなユーザ行動信号の両方の観点から,ユーザエクスペリエンスの向上方法を評価することで,アルゴリズムの効果を測定する。

Showing relevant search results to the user is the primary challenge for any search system. Walmart e-commerce provides an omnichannel search platform to its customers to search from millions of products. This search platform takes a textual query as input and shows relevant items from the catalog. One of the primary challenges is that this queries are complex to understand as it contains multiple intent in many cases. This paper proposes a framework to group search results into multiple ranked lists intending to provide better user intent. The framework is to create a product graph having relations between product entities and utilize it to group search results into a series of stacks where each stack provides a group of items based on a precise intent. As an example, for a query "milk," the results can be grouped into multiple stacks of "white milk", "low-fat milk", "almond milk", "flavored milk". We measure the impact of our algorithm by evaluating how it improves the user experience both in terms of search quality relevance and user behavioral signals like Add-To-Cart.
翻訳日:2021-09-22 04:29:49 公開日:2021-09-20
# (参考訳) テキスト類似性モデルによるユーザ項目グラフの拡張 [全文訳有]

Augmenting the User-Item Graph with Textual Similarity Models ( http://arxiv.org/abs/2109.09358v1 )

ライセンス: CC BY 4.0
Federico L\'opez and Martin Scholz and Jessica Yung and Marie Pellat and Michael Strube and Lucas Dixon(参考訳) 本稿では,レコメンダシステムのための簡易かつ効果的なデータ拡張方式を提案する。 パラフレーズ類似性モデルは、レビューや製品記述など、広く利用可能なテキストデータに適用され、ユーザ-テムグラフに追加される新しい意味関係が得られる。 これにより、さらなるラベル付きデータを必要とせずに、グラフの密度が増加する。 データ拡張は、ユークリッド空間、双曲空間、複素空間、および異なる特性を持つamazon製品レビューの3つのカテゴリを用いて、様々な推奨アルゴリズムで評価される。 その結果、データ拡張技術は、知識グラフベースのレコメンデータ、特にコールドスタート設定において最も顕著な利益をもたらし、あらゆる種類のモデルに大幅な改善をもたらすことが示された。

This paper introduces a simple and effective form of data augmentation for recommender systems. A paraphrase similarity model is applied to widely available textual data, such as reviews and product descriptions, yielding new semantic relations that are added to the user-item graph. This increases the density of the graph without needing further labeled data. The data augmentation is evaluated on a variety of recommendation algorithms, using Euclidean, hyperbolic, and complex spaces, and over three categories of Amazon product reviews with differing characteristics. Results show that the data augmentation technique provides significant improvements to all types of models, with the most pronounced gains for knowledge graph-based recommenders, particularly in cold-start settings, leading to state-of-the-art performance.
翻訳日:2021-09-22 04:18:32 公開日:2021-09-20
# (参考訳) 属性グラフの埋め込みによるネットワーククラスタリング [全文訳有]

Network Clustering by Embedding of Attribute-augmented Graphs ( http://arxiv.org/abs/2109.09367v1 )

ライセンス: CC BY 4.0
Pasqua D'Ambra, Clara De Santis, Panayot S. Vassilevski, and Luisa Cutillo(参考訳) 本稿では,属性付き頂点を持つ非方向グラフのクラスタを検出する新しい手法を提案する。 目的は、構造接続の点だけでなく属性値の点でも類似した頂点をグループ化することである。 5, 27] で提案されているような追加の頂点と辺を作成することにより、拡張グラフに頂点間の構造的および属性的類似性を取り入れた。 グラフはラプラシアンに関連するユークリッド空間に埋め込まれ、クラスターを識別するために改良K平均アルゴリズムを適用する。 修正されたk-平均は、各元の頂点に対して構造的接続性と属性の類似性の両方に応じてベクトル値の座標の集合を割り当てるベクトル距離測度を用いる。 座標ベクトルを定義するために、アダプティブ amg (algebraic multigrid) 法を用いて埋め込みユークリッド空間における座標方向を同定し、属性のないグラフに対する前結果を拡張する。 提案手法の有効性を,合成グラフと実世界の属性グラフの両方に示す。

In this paper we propose a new approach to detect clusters in undirected graphs with attributed vertices. The aim is to group vertices which are similar not only in terms of structural connectivity but also in terms of attribute values. We incorporate structural and attribute similarities between the vertices in an augmented graph by creating additional vertices and edges as proposed in [5, 27]. The augmented graph is embedded in a Euclidean space associated to its Laplacian and apply a modified K-means algorithm to identify clusters. The modified K-means uses a vector distance measure where to each original vertex is assigned a vector-valued set of coordinates depending on both structural connectivity and attribute similarities. To define the coordinate vectors we employ an adaptive AMG (Algebraic MultiGrid) method to identify the coordinate directions in the embedding Euclidean space extending our previous result for graphs without attributes. We demonstrate the effectiveness of our proposed clustering method on both synthetic and real-world attributed graphs.
翻訳日:2021-09-22 03:52:59 公開日:2021-09-20
# (参考訳) FreeStyleGAN:カメラマニフォールドでフリービュー編集可能なポートレートレンダリング [全文訳有]

FreeStyleGAN: Free-view Editable Portrait Rendering with the Camera Manifold ( http://arxiv.org/abs/2109.09378v1 )

ライセンス: CC BY 4.0
Thomas Leimk\"uhler, George Drettakis(参考訳) 現在のGAN(Generative Adversarial Networks)は、ポートレート画像のフォトリアリスティックレンダリングを生成する。 このようなモデルの潜在空間に実画像を埋め込むことで、高レベルの画像編集が可能になる。 最近の手法は(再生成された)画像に対してかなりの意味的制御を提供するが、それらは限られた視点しか生成できず、カメラを明示的に制御できない。 このような3Dカメラ制御は、3Dバーチャルおよび混合現実アプリケーションに必要である。 提案手法では,顔の画像を数枚使用して3次元再構成を行い,ganカメラ多様体の概念を導入することで,ganが安定的に再現できる画像の範囲を正確に定義することができる。 我々は,この多様体に捕獲された顔をマッピングし,自由視点のノベルビュー合成を得るためにワープスキームで補完する,小さな顔特異的な暗黙表現ネットワークを訓練する。 その正確なカメラ制御によって、私たちのアプローチは、トレーニング済みのstyleganを標準的な3dレンダリングパイプラインに統合し、例えば、ステレオレンダリングや合成3d環境での顔の一貫した挿入を可能にする方法を示しています。 提案手法は,ごく少数のカジュアルな写真のみを入力として,対話的なレートでリアルな顔の真の自由視点レンダリングを実現すると同時に,表情や照明変更などのセマンティックな編集機能を実現する。

Current Generative Adversarial Networks (GANs) produce photorealistic renderings of portrait images. Embedding real images into the latent space of such models enables high-level image editing. While recent methods provide considerable semantic control over the (re-)generated images, they can only generate a limited set of viewpoints and cannot explicitly control the camera. Such 3D camera control is required for 3D virtual and mixed reality applications. In our solution, we use a few images of a face to perform 3D reconstruction, and we introduce the notion of the GAN camera manifold, the key element allowing us to precisely define the range of images that the GAN can reproduce in a stable manner. We train a small face-specific neural implicit representation network to map a captured face to this manifold and complement it with a warping scheme to obtain free-viewpoint novel-view synthesis. We show how our approach - due to its precise camera control - enables the integration of a pre-trained StyleGAN into standard 3D rendering pipelines, allowing e.g., stereo rendering or consistent insertion of faces in synthetic 3D environments. Our solution proposes the first truly free-viewpoint rendering of realistic faces at interactive rates, using only a small number of casual photos as input, while simultaneously allowing semantic editing capabilities, such as facial expression or lighting changes.
翻訳日:2021-09-22 03:27:03 公開日:2021-09-20
# (参考訳) タグ付きフィルタによる畳み込みニューラルネットワークの説明 [全文訳有]

Explaining Convolutional Neural Networks by Tagging Filters ( http://arxiv.org/abs/2109.09389v1 )

ライセンス: CC BY 4.0
Anna Nguyen, Daniel Hagenmayer, Tobias Weller, Michael F\"arber(参考訳) 畳み込みニューラルネットワーク(cnns)は,様々な画像分類タスクにおいて驚くべき性能を達成しているが,分類の仕組みを理解することは困難である。 近年の文献では、分類過程を人間に説明する方法が提案されている。 これらは主に機能マップの可視化とフィルター重みに焦点を合わせており、cnn分類の分析において非専門家にとってあまり直感的ではない。 本稿では,非専門家に対しても効果的にCNNを説明するFilTagを提案する。 クラスのイメージが畳み込みフィルタを頻繁に起動すると、そのフィルタはそのクラスでタグ付けされる。 これらのタグは、フィルタによって検出されたクラス固有の特徴の参照の説明を提供する。 タグ付けに基づいて、個々の画像分類を、入力イメージが起動するフィルタのタグの観点から直感的に説明することができる。 最後に,ノイズ入力画像による分類誤差の解析にタグが有用であることを示すとともに,タグを機械で処理可能であることを示す。

Convolutional neural networks (CNNs) have achieved astonishing performance on various image classification tasks, but it is difficult for humans to understand how a classification comes about. Recent literature proposes methods to explain the classification process to humans. These focus mostly on visualizing feature maps and filter weights, which are not very intuitive for non-experts in analyzing a CNN classification. In this paper, we propose FilTag, an approach to effectively explain CNNs even to non-experts. The idea is that when images of a class frequently activate a convolutional filter, then that filter is tagged with that class. These tags provide an explanation to a reference of a class-specific feature detected by the filter. Based on the tagging, individual image classifications can then be intuitively explained in terms of the tags of the filters that the input image activates. Finally, we show that the tags are helpful in analyzing classification errors caused by noisy input images and that the tags can be further processed by machines.
翻訳日:2021-09-22 02:57:02 公開日:2021-09-20
# (参考訳) 視点をコミュニケーションして表現を改善するための学習 [全文訳有]

Learning to Improve Representations by Communicating About Perspectives ( http://arxiv.org/abs/2109.09390v1 )

ライセンス: CC BY 4.0
Julius Taylor, Eleni Nisioti, Cl\'ement Moulin-Frier(参考訳) 効果的な潜在表現は、外部世界の抽象的な特徴を捉える必要がある。 エージェント群が共有環境状態の帰納的解釈を和らげる必要性は、この特性に影響を与える必須の要因であると仮定する。 この仮説を検証するために,人口の個人的エージェントが同一の下位状態の異なる観察を受信し,互いに通信する潜在表現を学習するアーキテクチャを提案する。 創発的なコミュニケーションと表現学習の基本的な関係は、認知ツールとしての言語の役割と、ほとんどのマルチエージェントシステムの固有の特性である主観性によって与えられる機会である。 本稿では,関数を定義し,効果的なコミュニケーションの異なる側面を捉え,学習した表現に対する効果を調べる,オートエンコーダの集団からなる最小アーキテクチャを提案する。 提案したアーキテクチャは整列表現の出現を許容することを示す。 The subjectivity introduced bypresenting agents with distinct perspectives of the environment state contributes tolearning abstract representations that outperform those learned by both a single au-toencoder and a population of autoencoders, presented with identical perspectives.Altoget her, our results demonstrate how communication from subjective perspec-tives can lead to the acquisition of more abstract representations in multi-agentsystems, opening promising perspectives for future research at the intersection ofrepresentation learning and emergent communication.

Effective latent representations need to capture abstract features of the externalworld. We hypothesise that the necessity for a group of agents to reconcile theirsubjective interpretations of a shared environment state is an essential factor in-fluencing this property. To test this hypothesis, we propose an architecture whereindividual agents in a population receive different observations of the same under-lying state and learn latent representations that they communicate to each other. Wehighlight a fundamental link between emergent communication and representationlearni ng: the role of language as a cognitive tool and the opportunities conferredby subjectivity, an inherent property of most multi-agent systems. We present aminimal architecture comprised of a population of autoencoders, where we defineloss functions, capturing different aspects of effective communication, and examinetheir effect on the learned representations. We show that our proposed architectureallows the emergence of aligned representations. The subjectivity introduced bypresenting agents with distinct perspectives of the environment state contributes tolearning abstract representations that outperform those learned by both a single au-toencoder and a population of autoencoders, presented with identical perspectives.Altoget her, our results demonstrate how communication from subjective perspec-tives can lead to the acquisition of more abstract representations in multi-agentsystems, opening promising perspectives for future research at the intersection ofrepresentation learning and emergent communication.
翻訳日:2021-09-22 02:50:48 公開日:2021-09-20
# (参考訳) イベント抽出におけるモダリティと否定 [全文訳有]

Modality and Negation in Event Extraction ( http://arxiv.org/abs/2109.09393v1 )

ライセンス: CC BY-SA 4.0
Sander Bijl de Vroe, Liane Guillou, Milo\v{s} Stanojevi\'c, Nick McKenna, Mark Steedman(参考訳) 言語は、実際の出来事にコミットすることなく、イベントについての考えを表現するための豊富なモダリティシステムを提供する。 モダリティ(Modality)は、実際の出来事と可能な出来事の両方が議論される政治ニュースドメインで一般的に使用される。 NLPシステムはこれらのセマンティックな現象に苦しむが、しばしば起こらなかった事象を誤って抽出し、下流のアプリケーションで問題を引き起こす。 様々な種類のモダリティをキャプチャする,オープンドメインのレキシコンに基づくイベント抽出システムを提案する。 この情報は,質問応答,ナレッジグラフ構築,ファクトチェックタスクに有用であり,評価の結果,下流アプリケーションで使用するには十分に強力なシステムであることが判明した。

Language provides speakers with a rich system of modality for expressing thoughts about events, without being committed to their actual occurrence. Modality is commonly used in the political news domain, where both actual and possible courses of events are discussed. NLP systems struggle with these semantic phenomena, often incorrectly extracting events which did not happen, which can lead to issues in downstream applications. We present an open-domain, lexicon-based event extraction system that captures various types of modality. This information is valuable for Question Answering, Knowledge Graph construction and Fact-checking tasks, and our evaluation shows that the system is sufficiently strong to be used in downstream applications.
翻訳日:2021-09-22 02:35:10 公開日:2021-09-20
# (参考訳) 動的ジェスチャー認識 [全文訳有]

Dynamic Gesture Recognition ( http://arxiv.org/abs/2109.09396v1 )

ライセンス: CC BY 4.0
Jonas Bokstaller and Costanza Maria Improta(参考訳) ヒューマン・マシン・インタラクション(hmi)研究分野は機械学習の重要なトピックであり、近年のコンピューティングパワーの高まりによって深く研究されている。 機械学習を使って従来のコンピュータビジョンアルゴリズムの代わりに、画像や動画を分類することができる。 本研究の目的は、コンボリューショナルニューラルネットワーク(CNN)[1]とリカレントニューラルネットワーク(RNN)[2]間の共生を構築し、ビデオからの文化的・人類学的イタリア手話のジェスチャーを認識することである。 CNNは後にRNNによって使用される重要な特徴を抽出する。 RNNでは、時間情報をモデル内に格納して、以前のフレームからコンテキスト情報を提供し、予測精度を高めることができます。 Ournovelアプローチでは、RGBフレームのみから異なるデータ拡張手法と正規化手法を使用してオーバーフィッティングを回避し、小さな一般化誤差を提供する。

The Human-Machine Interaction (HMI) researchfield is an important topic in machine learning that has beendeeply investigated thanks to the rise of computing power in thelast years. The first time, it is possible to use machine learningto classify images and/or videos instead of the traditionalcomputer vision algorithms. The aim of this project is to builda symbiosis between a convolutional neural network (CNN)[1] and a recurrent neural network (RNN) [2] to recognizecultural/an thropological Italian sign language gestures fromvideos. The CNN extracts important features that later areused by the RNN. With RNNs we are able to store temporalinformation inside the model to provide contextual informationfrom previous frames to enhance the prediction accuracy. Ournovel approach uses different data augmentation techniquesand regularization methods from only RGB frames to avoidoverfitting and provide a small generalization error.
翻訳日:2021-09-22 02:19:14 公開日:2021-09-20
# (参考訳) ウィキデータにおける言語間のソースの品質評価 : ハイブリッドアプローチ [全文訳有]

Assessing the quality of sources in Wikidata across languages: a hybrid approach ( http://arxiv.org/abs/2109.09405v1 )

ライセンス: CC BY 4.0
Gabriel Amaral, Alessandro Piscopo, Lucie-Aim\'ee Kaffee, Odinaldo Rodrigues and Elena Simperl(参考訳) Wikidataは、世界中のボランティアコミュニティによって構築された、ウェブ上の構造化されたデータの最も重要な情報源の1つである。 Wikidataが特に重要であるのは、Wikidataが参照によって裏付けられている限り、広範囲のコンセンサスがないクレームを追加するよう、編集者に強く促すためである。 にもかかわらず、コンテンツと参照の間の本質的なリンクにもかかわらず、wikidataはその参照の質を体系的に評価し保証する能力は限られている。 この目的のために、オンラインのクラウドソーシング、記述統計、機械学習を用いて、Wikidata参照の関連性、アクセスの容易性、信頼性について、大規模および異なる言語で調査する。 従来の研究に基づいて,いくつかの言語でラベル付きWikidataのトリプルからサンプル化した,参照の大規模なコーパスを評価するための,一連のマイクロタスク実験を実施している。 クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。 この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する上で共通の課題を特定するのに役立つ。 また、より迅速な方法で高品質な参照の使用を促進することができる編集プラクティスについても議論する。 この研究で使われているすべてのデータとコードは、研究コミュニティによるフィードバックとさらなる改善とデプロイのためにgithubで入手できる。

Wikidata is one of the most important sources of structured data on the web, built by a worldwide community of volunteers. As a secondary source, its contents must be backed by credible references; this is particularly important as Wikidata explicitly encourages editors to add claims for which there is no broad consensus, as long as they are corroborated by references. Nevertheless, despite this essential link between content and references, Wikidata's ability to systematically assess and assure the quality of its references remains limited. To this end, we carry out a mixed-methods study to determine the relevance, ease of access, and authoritativeness of Wikidata references, at scale and in different languages, using online crowdsourcing, descriptive statistics, and machine learning. Building on previous work of ours, we run a series of microtasks experiments to evaluate a large corpus of references, sampled from Wikidata triples with labels in several languages. We use a consolidated, curated version of the crowdsourced assessments to train several machine learning models to scale up the analysis to the whole of Wikidata. The findings help us ascertain the quality of references in Wikidata, and identify common challenges in defining and capturing the quality of user-generated multilingual structured data on the web. We also discuss ongoing editorial practices, which could encourage the use of higher-quality references in a more immediate way. All data and code used in the study are available on GitHub for feedback and further improvement and deployment by the research community.
翻訳日:2021-09-22 02:14:38 公開日:2021-09-20
# (参考訳) 補足グラフマイニングにおける時間情報の導入 [全文訳有]

Incorporating Temporal Information in Entailment Graph Mining ( http://arxiv.org/abs/2109.09412v1 )

ライセンス: CC BY-SA 4.0
Liane Guillou, Sander Bijl de Vroe, Mohammad Javad Hosseini, Mark Johnson, Mark Steedman(参考訳) そこで本稿では,同一の実体を含む類似するが時間的に異なる事象から発生する散発的な連関問題に対処するために,連帯グラフに時間的関係を注入する新しい手法を提案する。 同じペアのチームが異なる機会に,異なる結果でプレーする,スポーツ領域に重点を置いています。 我々は、win/lose $\rightarrow$ playのような補足を学ぶことを目的とした教師なしモデルを提示し、win$\not\rightarrow$ lostのような非補足学習の落とし穴を避ける。 我々は,手動で構築したデータセット上で,時間間隔を組み込んで時間窓を配置することが効果的な戦略であることを示す。

We present a novel method for injecting temporality into entailment graphs to address the problem of spurious entailments, which may arise from similar but temporally distinct events involving the same pair of entities. We focus on the sports domain in which the same pairs of teams play on different occasions, with different outcomes. We present an unsupervised model that aims to learn entailments such as win/lose $\rightarrow$ play, while avoiding the pitfall of learning non-entailments such as win $\not\rightarrow$ lose. We evaluate our model on a manually constructed dataset, showing that incorporating time intervals and applying a temporal window around them, are effective strategies.
翻訳日:2021-09-22 01:39:15 公開日:2021-09-20
# (参考訳) スペンディングパーソナリティを用いたマイクロセグメンテーションのための繰り返しニューラルネットワークのクラスタリング [全文訳有]

Clustering in Recurrent Neural Networks for Micro-Segmentation using Spending Personality ( http://arxiv.org/abs/2109.09425v1 )

ライセンス: CC BY 4.0
Charl Maree, Christian W. Omlin(参考訳) 顧客セグメンテーションは長い間、銀行業において生産的な分野だった。 しかし、従来の問題に対する新しいアプローチによって、新たな機会が生まれる。 きめ細かい顧客セグメントはよく知られ、それらを得る一つの方法は特徴抽出である。 時間とともに集約された金融取引クラスに標準的な性格特性の係数を割り当てることが可能である。 しかし, マイクロセグメンテーションでは, クラスターが十分に識別できないことがわかった。 本研究では,ニューラルネットワークの隠れ状態から時間的特徴を連続的に抽出し,財務取引から顧客の個性を予測する。 長短期記憶(LSTM)とフィードフォワードニューラルネットワークを用いて、時間モデルと非シーケンスモデルの両方を考察する。 繰り返しニューラルネットワークは、フィードフォワードネットワークがコースセグメントのみを生成するマイクロセグメントを生成することがわかった。 最後に,これらの抽出された特徴を用いた分類は,ローンデフォルト率と顧客流動性指標という2つの共通指標に基づいて,少なくとも個別モデルとして機能することを示す。

Customer segmentation has long been a productive field in banking. However, with new approaches to traditional problems come new opportunities. Fine-grained customer segments are notoriously elusive and one method of obtaining them is through feature extraction. It is possible to assign coefficients of standard personality traits to financial transaction classes aggregated over time. However, we have found that the clusters formed are not sufficiently discriminatory for micro-segmentation. In this study, we extract temporal features with continuous values from the hidden states of neural networks predicting customers' spending personality from their financial transactions. We consider both temporal and non-sequential models, using long short-term memory (LSTM) and feed-forward neural networks, respectively. We found that recurrent neural networks produce micro-segments where feed-forward networks produce only course segments. Finally, we show that classification using these extracted features performs at least as well as bespoke models on two common metrics, namely loan default rate and customer liquidity index.
翻訳日:2021-09-22 01:25:26 公開日:2021-09-20
# (参考訳) 説明可能なグラフニューラルネットワークの学習のためのメタラーニング手法 [全文訳有]

A Meta-Learning Approach for Training Explainable Graph Neural Networks ( http://arxiv.org/abs/2109.09426v1 )

ライセンス: CC BY 4.0
Indro Spinelli, Simone Scardapane, Aurelio Uncini(参考訳) 本稿では,グラフニューラルネットワーク(gnns)の説明可能性の程度について検討する。 既存の説明者は、予測を説明するグローバル/ローカルのサブグラフを見つけることで機能するが、GNNがすでに訓練された後に適用される。 本稿では,「解釈可能なミニマ」と呼ばれるものに最適化手順を操ることで,学習時間に直接gnnの説明可能性を向上させるメタラーニングフレームワークを提案する。 我々のフレームワーク(mate、meta-train to explain)は、ノード分類のような元のタスクを解決するためにモデルを訓練し、人間にやさしい方法でモデルの決定を説明する下流アルゴリズムの処理可能なアウトプットを提供する。 特に、ランダムにサンプリングされたノード上で訓練されたインスタンスレベルのGNNExplainerのエラーを迅速に最小化するために、モデルのパラメータをメタトレーニングする。 最後の内部表現は、GNNExplainerの別の例のように、説明アルゴリズムによって理解される'better'の一連の機能に依存している。 我々のモデルに依存しないアプローチは、異なるGNNアーキテクチャで生成された説明を改善し、このプロセスを駆動するためにインスタンスベースの説明器を使用することができます。 ノードとグラフの分類のための合成および実世界のデータセットの実験は、異なるアルゴリズムによって一貫して説明しやすいモデルを作ることができることを示している。 さらに、この説明可能性の増大はモデルの正確性に何のコストもかからない。

In this paper, we investigate the degree of explainability of graph neural networks (GNNs). Existing explainers work by finding global/local subgraphs to explain a prediction, but they are applied after a GNN has already been trained. Here, we propose a meta-learning framework for improving the level of explainability of a GNN directly at training time, by steering the optimization procedure towards what we call `interpretable minima'. Our framework (called MATE, MetA-Train to Explain) jointly trains a model to solve the original task, e.g., node classification, and to provide easily processable outputs for downstream algorithms that explain the model's decisions in a human-friendly way. In particular, we meta-train the model's parameters to quickly minimize the error of an instance-level GNNExplainer trained on-the-fly on randomly sampled nodes. The final internal representation relies upon a set of features that can be `better' understood by an explanation algorithm, e.g., another instance of GNNExplainer. Our model-agnostic approach can improve the explanations produced for different GNN architectures and use any instance-based explainer to drive this process. Experiments on synthetic and real-world datasets for node and graph classification show that we can produce models that are consistently easier to explain by different algorithms. Furthermore, this increase in explainability comes at no cost for the accuracy of the model.
翻訳日:2021-09-22 01:17:28 公開日:2021-09-20
# (参考訳) 分散バンディットの漸近的最適性 [全文訳有]

Asymptotic Optimality for Decentralised Bandits ( http://arxiv.org/abs/2109.09427v1 )

ライセンス: CC BY 4.0
Conor Newton, Ayalvadi Ganesh and Henry W. J. Reeve(参考訳) 我々は,複数腕のバンディット問題に対して多数のエージェントが協力し,多数の腕を持つエージェントについて検討する。 目的は、コミュニケーションに制約のある設定で各エージェントの後悔を最小限にすることである。 本稿では,Chawla et al. arxiv:2001.05452のGossip-Insert-Elimin ate法に基づく分散アルゴリズムを提案する。 我々は,本アルゴリズムが漸近的に最適であることを示す後悔を理論的に解析する。 実際、我々の後悔の保証は、完全なコミュニケーション設定で達成可能な漸近的に最適なレートと一致します。 最後に、結論を支持する経験的結果を示す。

We consider a large number of agents collaborating on a multi-armed bandit problem with a large number of arms. The goal is to minimise the regret of each agent in a communication-constr ained setting. We present a decentralised algorithm which builds upon and improves the Gossip-Insert-Elimin ate method of Chawla et al. arxiv:2001.05452. We provide a theoretical analysis of the regret incurred which shows that our algorithm is asymptotically optimal. In fact, our regret guarantee matches the asymptotically optimal rate achievable in the full communication setting. Finally, we present empirical results which support our conclusions
翻訳日:2021-09-22 01:06:22 公開日:2021-09-20
# (参考訳) オンラインアクティビティ認識のためのインクリメンタル学習手法 [全文訳有]

Incremental Learning Techniques for Online Human Activity Recognition ( http://arxiv.org/abs/2109.09435v1 )

ライセンス: CC BY 4.0
Meysam Vakili, Masoumeh Rezaei(参考訳) スマートフォン慣性センサーを用いた人間の活動の目立たない、スマートな認識は、人工知能の分野で、特に近年、研究者の間で大きな人気を得た興味深いトピックである。 健康モニタリングや高齢者介護といった実世界の多くのアプリケーションでは、個人の健康に深刻なダメージを与えるのを防ぐために直ちにユーザーの活動を認識する必要があるため、より注意を要する課題は身体活動のリアルタイム検出である。 本稿では,インクリメンタル学習アルゴリズムの能力を利用して,身体運動のオンライン予測のためのヒューマンアクティビティ認識(HAR)アプローチを提案する。 我々は,監視ソフトウェアを含むHARシステムと,加速度計とジャイロスコープデータを収集してインターネット経由で遠隔サーバに送信し,分類・認識操作を行うモバイルアプリケーションを開発した。 この研究で6つの漸進的学習アルゴリズムが採用され、オフラインHARシステムの開発によく使用されるバッチ学習アルゴリズムと比較される。 最終結果は,すべての性能評価指標を考慮すると,インクリメンタルk-ネアレスト近傍とインクリメンタルナイーブベイジアンが他のアルゴリズムよりも優れており,その認識精度は95%以上であった。

Unobtrusive and smart recognition of human activities using smartphones inertial sensors is an interesting topic in the field of artificial intelligence acquired tremendous popularity among researchers, especially in recent years. A considerable challenge that needs more attention is the real-time detection of physical activities, since for many real-world applications such as health monitoring and elderly care, it is required to recognize users' activities immediately to prevent severe damages to individuals' wellness. In this paper, we propose a human activity recognition (HAR) approach for the online prediction of physical movements, benefiting from the capabilities of incremental learning algorithms. We develop a HAR system containing monitoring software and a mobile application that collects accelerometer and gyroscope data and send them to a remote server via the Internet for classification and recognition operations. Six incremental learning algorithms are employed and evaluated in this work and compared with several batch learning algorithms commonly used for developing offline HAR systems. The Final results indicated that considering all performance evaluation metrics, Incremental K-Nearest Neighbors and Incremental Naive Bayesian outperformed other algorithms, exceeding a recognition accuracy of 95% in real-time.
翻訳日:2021-09-22 00:49:15 公開日:2021-09-20
# (参考訳) ユビキタス屋内測位に向けて:異種データセット間の比較 [全文訳有]

Towards Ubiquitous Indoor Positioning: Comparing Systems across Heterogeneous Datasets ( http://arxiv.org/abs/2109.09436v1 )

ライセンス: CC BY 4.0
Joaqu\'in Torres-Sospedra, Ivo Silva, Lucie Klus, Darwin Quezada-Gaibor, Antonino Crivello, Paolo Barsocchi, Cristiano Pend\~ao, Elena Simona Lohan, Jari Nurmi and Adriano Moreira(参考訳) IPS(Indoor Positioning Systems)の評価は、主に研究者やパートナーの施設におけるローカルな配置に依存している。 総合的な実験を作成し、データを収集し、複数のシナリオを考慮する複雑さは、通常、評価範囲を制限し、提案システムの評価を行う。 制御された実験の要求と特徴は、同じセンサーやアンカー密度の使用を保証できないため、一般化できない。 データセットの夜明けは、IPS評価を機械学習モデルと同じレベルに押し上げ、多くの異種データセットに対して新しい提案が評価されている。 本稿では,複数のシナリオにおけるIPSの評価方法を提案する。 その結果,提案した評価基準値の集約はIPSの高レベル比較に有用であることが証明された。

The evaluation of Indoor Positioning Systems (IPS) mostly relies on local deployments in the researchers' or partners' facilities. The complexity of preparing comprehensive experiments, collecting data, and considering multiple scenarios usually limits the evaluation area and, therefore, the assessment of the proposed systems. The requirements and features of controlled experiments cannot be generalized since the use of the same sensors or anchors density cannot be guaranteed. The dawn of datasets is pushing IPS evaluation to a similar level as machine-learning models, where new proposals are evaluated over many heterogeneous datasets. This paper proposes a way to evaluate IPSs in multiple scenarios, that is validated with three use cases. The results prove that the proposed aggregation of the evaluation metric values is a useful tool for high-level comparison of IPSs.
翻訳日:2021-09-22 00:28:59 公開日:2021-09-20
# (参考訳) 拡張物理形ニューラルネットワーク(xpinns)は一般化をいつ改善するのか?

When Do Extended Physics-Informed Neural Networks (XPINNs) Improve Generalization? ( http://arxiv.org/abs/2109.09444v1 )

ライセンス: CC BY 4.0
Zheyuan Hu, Ameya D. Jagtap, George Em Karniadakis, Kenji Kawaguchi(参考訳) 高次元偏微分方程式 (high-dimensional partial differential equation, pdes) の解法として、物理学に変形したニューラルネットワーク (pinns) が一般的である。 近年,領域分解法に基づく拡張PINN (XPINNs) が注目されている。 しかし、それらの収束と一般化性に関する理論的理解は未定である。 そこで本研究では,XPINNがPINNより優れていることの理解に向けて,最初の一歩を踏み出した。 具体的には, pde問題における対象関数の複雑性を通じて束縛された事前一般化と, 最適化後のネットワークの後方行列ノルムを介して束縛された後方一般化を提案する。 さらに,この境界に基づいて,XPINNが一般化を改善する条件を解析する。 具体的には、XPINNの鍵となる構成ブロック、すなわち領域分解が一般化のトレードオフをもたらすことを示す。 一方、XPINNは複素PDE解をいくつかの単純な部分に分解し、各部分の学習に必要な複雑さを減らし、一般化を促進する。 一方、分解は各サブドメインで利用可能なトレーニングデータを減らすことにつながるため、そのようなモデルは一般的に過度に適合する傾向があり、一般化しにくくなる。 実証的に、5つのPDEを選択して、XPINNsがPINNsとよく似ているか悪いかを示し、その結果、新しい理論を実証し正当化する。

Physics-informed neural networks (PINNs) have become a popular choice for solving high-dimensional partial differential equations (PDEs) due to their excellent approximation power and generalization ability. Recently, Extended PINNs (XPINNs) based on domain decomposition methods have attracted considerable attention due to their effectiveness in modeling multiscale and multiphysics problems and their parallelization. However, theoretical understanding on their convergence and generalization properties remains unexplored. In this study, we take an initial step towards understanding how and when XPINNs outperform PINNs. Specifically, for general multi-layer PINNs and XPINNs, we first provide a prior generalization bound via the complexity of the target functions in the PDE problem, and a posterior generalization bound via the posterior matrix norms of the networks after optimization. Moreover, based on our bounds, we analyze the conditions under which XPINNs improve generalization. Concretely, our theory shows that the key building block of XPINN, namely the domain decomposition, introduces a tradeoff for generalization. On the one hand, XPINNs decompose the complex PDE solution into several simple parts, which decreases the complexity needed to learn each part and boosts generalization. On the other hand, decomposition leads to less training data being available in each subdomain, and hence such model is typically prone to overfitting and may become less generalizable. Empirically, we choose five PDEs to show when XPINNs perform better than, similar to, or worse than PINNs, hence demonstrating and justifying our new theory.
翻訳日:2021-09-22 00:11:46 公開日:2021-09-20
# (参考訳) 図形モデルを用いたアルゴリズムフェアネス検証 [全文訳有]

Algorithmic Fairness Verification with Graphical Models ( http://arxiv.org/abs/2109.09447v1 )

ライセンス: CC BY 4.0
Bishwamittra Ghosh, Debabrota Basu, Kuldeep S. Meel(参考訳) 近年、機械学習(ml)アルゴリズムは、アルゴリズムの公平性が最重要視される安全クリティカルかつ高リスクな意思決定に展開されている。 MLの公平性は、ML分類器によって誘導される特定の人口集団に対するバイアスを検出することに集中し、異なる公平性の定義に対するバイアスを軽減するアルゴリズム的解を提案する。 この目的のために、入力特徴の確率分布を考慮し、ML分類器の予測におけるバイアスを計算するフェアネス検証器がいくつか提案されている。 線形分類器の検証の文脈では、既存の公正検証器は、SSATやSMTの式やサンプリングによる分類器の制限的な定式化による特徴とスケーラビリティの相関の不正確なモデリングによって、精度によって制限される。 本稿では,ベイズネットワークとしての特徴間の相関を符号化する,FVGMと呼ばれる効率の良いフェアネス検証器を提案する。 既存の検証器とは対照的に、FVGMは線形分類器を検証するための確率的部分集合-sumに基づくアプローチを提案する。 実験により,fvgmは,公平度向上アルゴリズム,公平性攻撃,グループ/causalフェアネス指標の多種多様なファミリーに対して,最先端よりも正確かつスケーラブルな評価を行うことができることを示した。 また,FVGMは,特徴のサブセットによって引き起こされるバイアス源を検出するためのステップストーンとして,公正影響関数の計算を容易にすることを実証した。

In recent years, machine learning (ML) algorithms have been deployed in safety-critical and high-stake decision-making, where the fairness of algorithms is of paramount importance. Fairness in ML centers on detecting bias towards certain demographic populations induced by an ML classifier and proposes algorithmic solutions to mitigate the bias with respect to different fairness definitions. To this end, several fairness verifiers have been proposed that compute the bias in the prediction of an ML classifier -- essentially beyond a finite dataset -- given the probability distribution of input features. In the context of verifying linear classifiers, existing fairness verifiers are limited by accuracy due to imprecise modelling of correlations among features and scalability due to restrictive formulations of the classifiers as SSAT or SMT formulas or by sampling. In this paper, we propose an efficient fairness verifier, called FVGM, that encodes the correlations among features as a Bayesian network. In contrast to existing verifiers, FVGM proposes a stochastic subset-sum based approach for verifying linear classifiers. Experimentally, we show that FVGM leads to an accurate and scalable assessment for more diverse families of fairness-enhancing algorithms, fairness attacks, and group/causal fairness metrics than the state-of-the-art. We also demonstrate that FVGM facilitates the computation of fairness influence functions as a stepping stone to detect the source of bias induced by subsets of features.
翻訳日:2021-09-22 00:10:19 公開日:2021-09-20
# (参考訳) 黄斑円孔手術後の視力改善予測 : 極めて限られたデータを用いた深層学習の注意点 [全文訳有]

Predicting Visual Improvement after Macular Hole Surgery: a Cautionary Tale on Deep Learning with Very Limited Data ( http://arxiv.org/abs/2109.09463v1 )

ライセンス: CC BY 4.0
M. Godbout, A. Lachance, F. Antaki, A. Dirani, A. Durand(参考訳) 術前データ(網膜画像および臨床特徴)から黄斑円孔手術後の視覚改善予測のための機械学習モデルの可能性について検討した。 タスクのために独自のデータを集めると、最終的には合計121のサンプルしか得られなくなり、非常に限られたデータレジームになります。 深部コンピュータビジョンモデルを訓練するための限られたデータのための様々な深部学習法を探索し、テストされた深部視覚モデルは、臨床機能に関する単純な回帰モデルによって圧倒されていることを見出した。 これは非常に限られたデータでディープラーニングを使うのが極めて難しいという、説得力のある証拠だと考えています。

We investigate the potential of machine learning models for the prediction of visual improvement after macular hole surgery from preoperative data (retinal images and clinical features). Collecting our own data for the task, we end up with only 121 total samples, putting our work in the very limited data regime. We explore a variety of deep learning methods for limited data to train deep computer vision models, finding that all tested deep vision models are outperformed by a simple regression model on the clinical features. We believe this is compelling evidence of the extreme difficulty of using deep learning on very limited data.
翻訳日:2021-09-21 23:40:52 公開日:2021-09-20
# (参考訳) CARL:条件-値-リスク-リスク強化学習 [全文訳有]

CARL: Conditional-value-at -risk Adversarial Reinforcement Learning ( http://arxiv.org/abs/2109.09470v1 )

ライセンス: CC BY 4.0
M. Godbout, M. Heuillet, S. Chandra, R. Bhati, A. Durand(参考訳) 本稿では,CARL(Conditional value-at-risk Adversarial Reinforcement Learning)と呼ばれるリスク回避強化学習手法を提案する。 我々の知る限りでは、CARLは条件付きバリュー・アット・リスク(CVaR)RLの最初のゲーム定式化である。 ゲームは、ポリシープレイヤーと敵の間で行われ、有限の予算でポリシープレイヤーの状態遷移を妨害する。 我々は、最大均衡点において、学習方針がCVaR最適であり、敵の予算に明示的に関連していることを証明した。 カールをゼロサム・スタックルバーグゲームとして定式化し,深層強化学習アーキテクチャと学習アルゴリズムの利用を可能にし,グラデーションに基づく学習手順を提案する。 最後に,CARLゲームを解くことで,玩具グリッド環境におけるリスク回避行動がもたらされることを示した。

In this paper we present a risk-averse reinforcement learning (RL) method called Conditional value-at-risk Adversarial Reinforcement Learning (CARL). To the best of our knowledge, CARL is the first game formulation for Conditional Value-at-Risk (CVaR) RL. The game takes place between a policy player and an adversary that perturbs the policy player's state transitions given a finite budget. We prove that, at the maximin equilibrium point, the learned policy is CVaR optimal with a risk tolerance explicitly related to the adversary's budget. We provide a gradient-based training procedure to solve CARL by formulating it as a zero-sum Stackelberg Game, enabling the use of deep reinforcement learning architectures and training algorithms. Finally, we show that solving the CARL game does lead to risk-averse behaviour in a toy grid environment, also confirming that an increased adversary produces increasingly cautious policies.
翻訳日:2021-09-21 23:31:00 公開日:2021-09-20
# (参考訳) counterbalance modeling に基づく反比例型ウェブブラウジングの制御 [全文訳有]

Regulating Ruminative Web-browsing Based on the Counterbalance Modeling Approach ( http://arxiv.org/abs/2109.09476v1 )

ライセンス: CC BY 4.0
Junya Morita, Thanakit Pitakchokchai, Giri Basanta Raj, Yusuke Yamamoto, Hiroyasu Yuhashi and Teppei Koguchi(参考訳) ウェブ環境は日々の生活を促進するが、人間の認知と相容れないことから生じる感情問題はますます深刻化しつつある。 ウェブ利用時のネガティブ感情を軽減するために,ユーザに対して記憶された製品イメージをWeb広告形式で提示するブラウザエクステンションを開発した。 本システムは、記憶と感情のモデルとして、思考の適応制御(ACT-R)を利用する。 心拍センサーはACT-Rモデルパラメータを変調する: モデルの感情状態は、ユーザーの生理状態と同期または相反する。 ある実験は、カウンターバランスモデルが負のルミナティブwebブラウジングを抑制することを実証する。 著者らは、このアプローチは説明可能性の点で有利であると主張している。

Even though the web environment facilitates daily life, emotional problems caused by its incompatibility with human cognition are becoming increasingly serious. To alleviate negative emotions during web use, we developed a browser extension that presents memorized product images to users, in the form of web advertisements. This system utilizes the cognitive architecture Adaptive Control of Thought-Rational (ACT-R) as a model of memory and emotion. A heart rate sensor modulates the ACT-R model parameters: The emotional states of the model are synchronized or counterbalanced with the physiological state of the user. An experiment demonstrates that the counterbalance model suppresses negative ruminative web browsing. The authors claim that this approach is advantageous in terms of explainability.
翻訳日:2021-09-21 23:24:53 公開日:2021-09-20
# (参考訳) 自然言語による強化学習のためのテキストゲームに関する調査 [全文訳有]

A Survey of Text Games for Reinforcement Learning informed by Natural Language ( http://arxiv.org/abs/2109.09478v1 )

ライセンス: CC BY 4.0
Philip Osborne, Heido N\~omm and Andre Freitas(参考訳) 強化学習は多くの複雑な仮想環境で成功している。 しかしながら、自然言語の問題をコアコンポーネントとして解決する上で、多くの課題が存在する。 インタラクティブフィクションゲーム(英: Interactive Fiction Games, Text Games)は、自然言語が強化学習ソリューションの一部として必要とされる部分観測可能な環境のセットを提供する問題の一種である。 そこで本調査の目的は,自然言語による強化学習のための新しいテキストゲーム問題設定とソリューションの開発を支援することである。 特にこの調査は下記のとおりである。 1)テキストゲーム強化学習問題における課題 2)テキストゲームとその後の環境を評価するための生成ツール 3)現在適用されているエージェントアーキテクチャを比較して,ベンチマーク手法と今後の研究者の機会を体系的に検討する。

Reinforcement Learning has shown success in a number of complex virtual environments. However, many challenges still exist towards solving problems with natural language as a core component. Interactive Fiction Games (or Text Games) are one such problem type that offer a set of partially observable environments where natural language is required as part of the reinforcement learning solutions. Therefore, this survey's aim is to assist in the development of new Text Game problem settings and solutions for Reinforcement Learning informed by natural language. Specifically, this survey summarises: 1) the challenges introduced in Text Game Reinforcement Learning problems, 2) the generation tools for evaluating Text Games and the subsequent environments generated and, 3) the agent architectures currently applied are compared to provide a systematic review of benchmark methodologies and opportunities for future researchers.
翻訳日:2021-09-21 23:10:49 公開日:2021-09-20
# (参考訳) 大規模確認項目因子分析のための機械学習に基づく推定と適合性

Machine Learning-Based Estimation and Goodness-of-Fit for Large-Scale Confirmatory Item Factor Analysis ( http://arxiv.org/abs/2109.09500v1 )

ライセンス: CC BY-SA 4.0
Christopher J. Urban and Daniel J. Bauer(参考訳) 大規模確認項目因子分析(IFA)のための新しいパラメータ推定法と適合度評価法について,多くの回答者,項目,潜伏因子を用いた検討を行った。 パラメータ推定のために,探索的ifaのためのurban and bauer (2021) 深層学習アルゴリズムを拡張し,負荷と因子相関に対するユーザ定義制約の扱い方を示す。 GOF評価のための新しいシミュレーションベーステストと指標について検討する。 特に、機械学習の分類器が観測データと適合するifaモデルからサンプリングされた合成データとを区別できるかどうかをテストするc2st(classifier two-sample test)の拡張を検討する。 C2STは、全体的なモデル適合、ピースワイド適合、人体適合を統合するフレキシブルなフレームワークを提供する。 提案された拡張には、ユーザが合成データと区別できる観測データの割合を特定するC2STベースの近似適合試験と、構造方程式モデリングで使用される相対適合指標と精神的に類似したC2STベースの相対適合指数が含まれる。 シミュレーション研究により,Urban and Bauer's (2021)アルゴリズムの検証拡張により,サンプルサイズが大きくなるにつれて,より正確なパラメータ推定が得られ,より少ない時間で最先端のIFA推定手法に匹敵する推定値が得られることを示した。 次に,c2stに基づく近似適合テストが経験的i型誤差率を制御し,潜在因子数の誤特定を検知することを示す。 最後に,c2st-based relative fit indexのサンプリング分布がサンプルサイズにどのように依存するかを実験的に検討した。

We investigate novel parameter estimation and goodness-of-fit (GOF) assessment methods for large-scale confirmatory item factor analysis (IFA) with many respondents, items, and latent factors. For parameter estimation, we extend Urban and Bauer's (2021) deep learning algorithm for exploratory IFA to the confirmatory setting by showing how to handle user-defined constraints on loadings and factor correlations. For GOF assessment, we explore new simulation-based tests and indices. In particular, we consider extensions of the classifier two-sample test (C2ST), a method that tests whether a machine learning classifier can distinguish between observed data and synthetic data sampled from a fitted IFA model. The C2ST provides a flexible framework that integrates overall model fit, piece-wise fit, and person fit. Proposed extensions include a C2ST-based test of approximate fit in which the user specifies what percentage of observed data can be distinguished from synthetic data as well as a C2ST-based relative fit index that is similar in spirit to the relative fit indices used in structural equation modeling. Via simulation studies, we first show that the confirmatory extension of Urban and Bauer's (2021) algorithm produces more accurate parameter estimates as the sample size increases and obtains comparable estimates to a state-of-the-art confirmatory IFA estimation procedure in less time. We next show that the C2ST-based test of approximate fit controls the empirical type I error rate and detects when the number of latent factors is misspecified. Finally, we empirically investigate how the sampling distribution of the C2ST-based relative fit index depends on the sample size.
翻訳日:2021-09-21 22:52:58 公開日:2021-09-20
# (参考訳) gaussian heatmapsを用いたランドマーク定位におけるアノテーションの不確かさのモデル化 [全文訳有]

Modeling Annotation Uncertainty with Gaussian Heatmaps in Landmark Localization ( http://arxiv.org/abs/2109.09533v1 )

ライセンス: CC BY-SA 4.0
Franz Thaler, Christian Payer, Martin Urschler and Darko Stern(参考訳) ランドマークのローカライゼーションでは、正確な位置を定義するあいまいさのために、ランドマークのアノテーションは大きなオブザーバーの変動に苦しむ可能性がある。 トレーニングデータセットのアノテーションあいまいさをモデル化するために,対象ヒートマップの形状をモデル化した異方性ガウスパラメータを最適化中に学習する。 さらに,提案手法は,推定熱マップに異方性ガウス関数を組み込むことにより,個々のサンプルの予測不確かさをモデル化する。 以上の結果に加えて,手動X線写真と側頭蓋像のデータセットを用いた実験により,ガウス関数が局所化精度と観測変数の相関関係があることが示唆された。 最終実験として,予測位置の不確実性が側頭蓋骨の解剖学的異常の分類に与える影響を計測し,不確実性を意思決定に組み込むことの重要性を示す。

In landmark localization, due to ambiguities in defining their exact position, landmark annotations may suffer from large observer variabilities, which result in uncertain annotations. To model the annotation ambiguities of the training dataset, we propose to learn anisotropic Gaussian parameters modeling the shape of the target heatmap during optimization. Furthermore, our method models the prediction uncertainty of individual samples by fitting anisotropic Gaussian functions to the predicted heatmaps during inference. Besides state-of-the-art results, our experiments on datasets of hand radiographs and lateral cephalograms also show that Gaussian functions are correlated with both localization accuracy and observer variability. As a final experiment, we show the importance of integrating the uncertainty into decision making by measuring the influence of the predicted location uncertainty on the classification of anatomical abnormalities in lateral cephalograms.
翻訳日:2021-09-21 22:51:14 公開日:2021-09-20
# (参考訳) 音声・視覚音声認識は32$\times$32$\times$ 8voxels [全文訳有]

Audio-Visual Speech Recognition is Worth 32$\times$32$\times$ 8 Voxels ( http://arxiv.org/abs/2109.09536v1 )

ライセンス: CC BY 4.0
Dmitriy Serdyuk, Otavio Braga and Olivier Siohan(参考訳) 音声視覚自動音声認識(AV-ASR)は、しばしば話者の口の動きによって伝達される情報に依存して、音声認識プロセスにビデオモダリティを導入する。 ビデオ信号の使用には視覚的特徴の抽出が必要であり、音響的特徴と組み合わせてAV-ASRシステム [1] を構築する。 これは伝統的にコンピュータビジョンコミュニティで広く使われているある種の3d畳み込みネットワーク(例えばvgg)で行われている。 近年,画像分類タスクに有用な視覚特徴を抽出するために画像変換器[2]が導入された。 本研究では,3次元畳み込み視覚フロントエンドをビデオトランスフォーマーフロントエンドに置き換えることを提案する。 当社のシステムは、YouTubeビデオからなる大規模なデータセットに基づいてトレーニングし、公開されているLSS3-TEDセットおよびYouTubeビデオの大規模なセットのパフォーマンスを評価する。 リップ読み取りタスクでは、トランスベースのフロントエンドは強い畳み込みベースラインよりも優れたパフォーマンスを示す。 AV-ASRタスクでは、トランスフォーマーのフロントエンドは畳み込みベースラインと同様に(あるいはそれ以上)機能する。 LRS3-TEDトレーニングセットのモデルを微調整することは、過去の技術と一致する。 そこで我々は,AV-ASRにおける畳み込みのないモデルの有効性を実験的に示す。

Audio-visual automatic speech recognition (AV-ASR) introduces the video modality into the speech recognition process, often by relying on information conveyed by the motion of the speaker's mouth. The use of the video signal requires extracting visual features, which are then combined with the acoustic features to build an AV-ASR system [1]. This is traditionally done with some form of 3D convolutional network (e.g. VGG) as widely used in the computer vision community. Recently, image transformers [2] have been introduced to extract visual features useful for image classification tasks. In this work, we propose to replace the 3D convolutional visual front-end with a video transformer front-end. We train our systems on a large-scale dataset composed of YouTube videos and evaluate performance on the publicly available LRS3-TED set, as well as on a large set of YouTube videos. On a lip-reading task, the transformer-based front-end shows superior performance compared to a strong convolutional baseline. On an AV-ASR task, the transformer front-end performs as well as (or better than) the convolutional baseline. Fine-tuning our model on the LRS3-TED training set matches previous state of the art. Thus, we experimentally show the viability of the convolution-free model for AV-ASR.
翻訳日:2021-09-21 22:21:27 公開日:2021-09-20
# (参考訳) TensorFlowを毎秒3億の予測にスケールアップ [全文訳有]

Scaling TensorFlow to 300 million predictions per second ( http://arxiv.org/abs/2109.09541v1 )

ライセンス: CC BY 4.0
Jan Hartman, Davorin Kopi\v{c}(参考訳) 我々は、オンライン広告エコシステムにおいて、機械学習モデルをTensorFlowフレームワークに大規模に移行する過程を提示する。 この講演では、私たちが直面した重要な課題に対処し、それらにどう対処したかを説明します。特に、TFでモデルを実装し、様々な最適化手法を使用して、低レイテンシで効率的にそれらを提供する。

We present the process of transitioning machine learning models to the TensorFlow framework at a large scale in an online advertising ecosystem. In this talk we address the key challenges we faced and describe how we successfully tackled them; notably, implementing the models in TF and serving them efficiently with low latency using various optimization techniques.
翻訳日:2021-09-21 22:11:03 公開日:2021-09-20
# (参考訳) MeetDot:ライブ翻訳機能付きビデオ会議 [全文訳有]

MeetDot: Videoconferencing with Live Translation Captions ( http://arxiv.org/abs/2109.09577v1 )

ライセンス: CC BY 4.0
Arkady Arkhangorodsky, Christopher Chu, Scot Fang, Yiqi Huang, Denglin Jiang, Ajay Nagesh, Boliang Zhang, Kevin Knight(参考訳) 我々は,ライブ翻訳キャプションを画面上にオーバーレイするビデオ会議システムであるmeetdotを提案する。 本システムは,多言語話者間のコミュニケーション障壁を低減することを目的としている。 現在,本システムは4言語で音声とキャプションをサポートし,自動音声認識(ASR)と機械翻訳(MT)をカスケードで組み合わせている。 ストリーム音声の翻訳には再翻訳戦略を用い,キャプションフリック化を実現した。 さらに,システムには非常に厳格なレイテンシ要件があり,呼び出し品質が許容できる。 我々は,スムーズなスクロールキャプションやキャプションフリックの削減など,ユーザエクスペリエンスの向上と認知負荷の低減のために,いくつかの機能を実装した。 モジュールアーキテクチャにより、バックエンドにさまざまなasrとmtサービスを統合できます。 本システムでは,精度,レイテンシ,消去といった重要な固有評価指標を最適化する統合評価スイートを提供する。 最後に,エンド・ツー・エンドのシステム性能を計測するための超臨場感評価指標として,革新的な言語間対話ゲームを提案する。 我々は研究目的でシステムをオープンソース化する予定です。

We present MeetDot, a videoconferencing system with live translation captions overlaid on screen. The system aims to facilitate conversation between people who speak different languages, thereby reducing communication barriers between multilingual participants. Currently, our system supports speech and captions in 4 languages and combines automatic speech recognition (ASR) and machine translation (MT) in a cascade. We use the re-translation strategy to translate the streamed speech, resulting in caption flicker. Additionally, our system has very strict latency requirements to have acceptable call quality. We implement several features to enhance user experience and reduce their cognitive load, such as smooth scrolling captions and reducing caption flicker. The modular architecture allows us to integrate different ASR and MT services in our backend. Our system provides an integrated evaluation suite to optimize key intrinsic evaluation metrics such as accuracy, latency and erasure. Finally, we present an innovative cross-lingual word-guessing game as an extrinsic evaluation metric to measure end-to-end system performance. We plan to make our system open-source for research purposes.
翻訳日:2021-09-21 22:06:38 公開日:2021-09-20
# (参考訳) 半教師付き3次元左房セグメンテーションのパラメータデカップリング戦略 [全文訳有]

Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium Segmentation ( http://arxiv.org/abs/2109.09596v1 )

ライセンス: CC BY 4.0
Xuanting Hao, Shengbo Gao, Lijie Sheng, Jicong Zhang(参考訳) 整合性トレーニングは高度な半教師付きフレームワークであることが証明されており、入力の異なるビューに対する予測のばらつきを強制することにより、医用画像分割タスクにおいて有望な結果を達成している。 しかし、モデルパラメータの反復的な更新では、モデルは結合状態に達し、最終的にはラベルのないデータを利用する能力を失う傾向にある。 この問題に対処するために,パラメータ分離戦略に基づくセミ教師付きセグメンテーションモデルを提案する。 具体的には,まず2分岐ネットワークを採用し,画像毎に予測を同時生成する。 学習中, 2つの予測分岐パラメータを二次コサイン距離で分離し, 潜在空間における異なる視点を構築する。 これに基づいて、特徴抽出器は、多様化した特徴の下で分類器によって生成される確率写像の整合性を促進するために制約される。 全体トレーニングプロセスにおいて、整合正則化演算と疎結合演算により特徴抽出器と分類器のパラメータを交互に更新し、モデルの一般化性能を徐々に改善する。 提案手法は, Atrial Segmentation Challenge データセットにおける最先端の半教師付き手法に対する競合的な結果を得た。 コードはhttps://github.com/B X0903/PDCで入手できる。

Consistency training has proven to be an advanced semi-supervised framework and achieved promising results in medical image segmentation tasks through enforcing an invariance of the predictions over different views of the inputs. However, with the iterative updating of model parameters, the models would tend to reach a coupled state and eventually lose the ability to exploit unlabeled data. To address the issue, we present a novel semi-supervised segmentation model based on parameter decoupling strategy to encourage consistent predictions from diverse views. Specifically, we first adopt a two-branch network to simultaneously produce predictions for each image. During the training process, we decouple the two prediction branch parameters by quadratic cosine distance to construct different views in latent space. Based on this, the feature extractor is constrained to encourage the consistency of probability maps generated by classifiers under diversified features. In the overall training process, the parameters of feature extractor and classifiers are updated alternately by consistency regularization operation and decoupling operation to gradually improve the generalization performance of the model. Our method has achieved a competitive result over the state-of-the-art semi-supervised methods on the Atrial Segmentation Challenge dataset, demonstrating the effectiveness of our framework. Code is available at https://github.com/B X0903/PDC.
翻訳日:2021-09-21 21:58:22 公開日:2021-09-20
# (参考訳) セルフプレイによる協調型タスク指向対話エージェント構築のための2つのアプローチ [全文訳有]

Two Approaches to Building Collaborative, Task-Oriented Dialog Agents through Self-Play ( http://arxiv.org/abs/2109.09597v1 )

ライセンス: CC BY 4.0
Arkady Arkhangorodsky, Scot Fang, Victoria Knight, Ajay Nagesh, Maria Ryskina, Kevin Knight(参考訳) タスク指向のダイアログシステムは、ウィザード・オブ・ozインターフェースから収集されるような、人間/人間のダイアログで訓練されることが多い。 しかし、人間/人間のコーパスはしばしば小さすぎて指導された訓練が効果的ではない。 本稿では,エージェントボットとユーザボットをセルフプレイで学習し,API環境を自律的に探索し,タスクの解決を可能にするコミュニケーション戦略を発見するための2つのアプローチについて検討する。 我々は、強化学習とゲーム理論平衡探索の両方に経験的な結果を与える。

Task-oriented dialog systems are often trained on human/human dialogs, such as collected from Wizard-of-Oz interfaces. However, human/human corpora are frequently too small for supervised training to be effective. This paper investigates two approaches to training agent-bots and user-bots through self-play, in which they autonomously explore an API environment, discovering communication strategies that enable them to solve the task. We give empirical results for both reinforcement learning and game-theoretic equilibrium finding.
翻訳日:2021-09-21 21:49:18 公開日:2021-09-20
# (参考訳) 「Hello, It's Me」:現実世界における深層学習型音声合成攻撃 [全文訳有]

"Hello, It's Me": Deep Learning-based Speech Synthesis Attacks in the Real World ( http://arxiv.org/abs/2109.09598v1 )

ライセンス: CC BY 4.0
Emily Wenger, Max Bronckers, Christian Cianfarani, Jenna Cryan, Angela Sha, Haitao Zheng, Ben Y. Zhao(参考訳) ディープラーニングの進歩により、ターゲットスピーカーが話すような音声を生成できる音声合成ツールの新たな波が導入された。 うまくいけば、このようなツールを間違った手で使用すれば、人間とソフトウェアシステム(別名マシン)の両方に対する強力な攻撃が可能になる。 本稿では,学習に基づく音声合成攻撃が話者認識や音声信号システムなどの人間と機械の両方に与える影響に関する包括的実験研究の成果と成果について述べる。 人間と機械の両方が、合成音声によって確実に騙され、既存の合成音声に対する防御が不足していることがわかりました。 これらの知見は、認識を高め、人間と機械の両方の合成音声に対する新しい保護を開発する必要性を強調している。

Advances in deep learning have introduced a new wave of voice synthesis tools, capable of producing audio that sounds as if spoken by a target speaker. If successful, such tools in the wrong hands will enable a range of powerful attacks against both humans and software systems (aka machines). This paper documents efforts and findings from a comprehensive experimental study on the impact of deep-learning based speech synthesis attacks on both human listeners and machines such as speaker recognition and voice-signin systems. We find that both humans and machines can be reliably fooled by synthetic speech and that existing defenses against synthesized speech fall short. These findings highlight the need to raise awareness and develop new protections against synthetic speech for both humans and machines.
翻訳日:2021-09-21 21:43:19 公開日:2021-09-20
# (参考訳) 動的ニューラルネットワークの多様化: 計算可能なニューラルネットワークへの道 [全文訳有]

Dynamic Neural Diversification: Path to Computationally Sustainable Neural Networks ( http://arxiv.org/abs/2109.09612v1 )

ライセンス: CC BY 4.0
Alexander Kovalenko, Pavel Kord\'ik, Magda Friedjungov\'a(参考訳) 訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率のよい候補となり得る。 しかし、これらのモデルは学習過程においていくつかの問題に直面しており、主に個々のニューロンの冗長性により、最適以下の精度や追加のトレーニングステップの必要性が生じる。 ここでは学習過程における隠れた層内のニューロンの多様性を調べ,モデルの予測にニューロンの多様性がどのように影響するかを分析する。 訓練中,ニューロン間の多様性を動的に強化する手法をいくつか紹介する。 これらのデコレーション技術は早期の学習を改善し、時には局所的なミニマを早く克服するのに役立つ。 さらに,新しい重み初期化法を用いて,高速かつ効率的なニューラルネットワークトレーニングのためのデコリニアだが確率的重み初期化について述べる。 本症例の体重初期化は,第5期における検査精度の約40%向上を示した。

Small neural networks with a constrained number of trainable parameters, can be suitable resource-efficient candidates for many simple tasks, where now excessively large models are used. However, such models face several problems during the learning process, mainly due to the redundancy of the individual neurons, which results in sub-optimal accuracy or the need for additional training steps. Here, we explore the diversity of the neurons within the hidden layer during the learning process, and analyze how the diversity of the neurons affects predictions of the model. As following, we introduce several techniques to dynamically reinforce diversity between neurons during the training. These decorrelation techniques improve learning at early stages and occasionally help to overcome local minima faster. Additionally, we describe novel weight initialization method to obtain decorrelated, yet stochastic weight initialization for a fast and efficient neural network training. Decorrelated weight initialization in our case shows about 40% relative increase in test accuracy during the first 5 epochs.
翻訳日:2021-09-21 21:11:21 公開日:2021-09-20
# (参考訳) 最適化に基づく意味的SLAMのためのスーパークワッドリックオブジェクト表現 [全文訳有]

Superquadric Object Representation for Optimization-based Semantic SLAM ( http://arxiv.org/abs/2109.09627v1 )

ライセンス: CC BY 4.0
Florian Tschopp, Juan Nieto, Roland Siegwart, Cesar Cadena(参考訳) 意味的に意味のあるオブジェクトを視覚的局所化とマッピング(SLAM)に導入することは、ポーズ推定の正確性と信頼性の両方を改善する可能性がある。 しかしながら、最適化ベースのslamフレームワークにおける効率的な包含のためにセマンティックオブジェクトをどのように表現すべきかは、まだ疑問の余地がある。 スーパークワッドリック(SQ)は効率的でコンパクトなオブジェクト表現であり、ほとんどの一般的なオブジェクトの型を高いレベルで表現することができ、典型的には3Dポイントクラウドデータから取得される。 しかし、正確な3Dポイントクラウドデータは、すべてのアプリケーションで利用できないかもしれない。 機械学習の最近の進歩は、多くの異なる外観条件下でのカメラ画像からの堅牢な物体認識とセマンティックマスク計測を可能にした。 本研究では,SQパラメータを多段階初期化と最適化手法を用いて,多視点カメラ観測に適合させるパイプラインを提案する。 予備シミュレーション実験において,マルチビューマスク観測からランダムに生成したSQパラメータを抽出し,初期化段階とコスト関数の差異を評価する。

Introducing semantically meaningful objects to visual Simultaneous Localization And Mapping (SLAM) has the potential to improve both the accuracy and reliability of pose estimates, especially in challenging scenarios with significant view-point and appearance changes. However, how semantic objects should be represented for an efficient inclusion in optimization-based SLAM frameworks is still an open question. Superquadrics(SQs) are an efficient and compact object representation, able to represent most common object types to a high degree, and typically retrieved from 3D point-cloud data. However, accurate 3D point-cloud data might not be available in all applications. Recent advancements in machine learning enabled robust object recognition and semantic mask measurements from camera images under many different appearance conditions. We propose a pipeline to leverage such semantic mask measurements to fit SQ parameters to multi-view camera observations using a multi-stage initialization and optimization procedure. We demonstrate the system's ability to retrieve randomly generated SQ parameters from multi-view mask observations in preliminary simulation experiments and evaluate different initialization stages and cost functions.
翻訳日:2021-09-21 21:01:04 公開日:2021-09-20
# (参考訳) 周波数表の適合性に関する個人確率比試験のパワー

The power of private likelihood-ratio tests for goodness-of-fit in frequency tables ( http://arxiv.org/abs/2109.09630v1 )

ライセンス: CC BY 4.0
Emanuele Dolera, Stefano Favaro(参考訳) プライバシー保護データ分析は、プライバシー制約の下で統計手法を調査する。 データの適切な摂動によって発生する機密性保証の達成は、データの統計的有用性の損失を決定する可能性があるため、これは現代の統計学における増大する課題である。 本稿では、データ公開の最も一般的な形態である周波数表のプライバシー保護テストについて考察する。 ゆらぎのあるデータに対する$(\varepsilon,\delta )$-differential privacyという一般的な枠組みの下で、我々は、適合性の良さのためのプライベート・ラバース・レイショ(lr)テストを導入し、その大きなサンプル特性を調査し、テストの統計的重要性の損失を避けるために摂動を考慮に入れることの重要性を示した。 私たちの主な貢献は、差分プライバシーパラメータ$\varepsilon$と$\delta$で測定された機密性と、テストのパワーで測定されたユーティリティとの間のトレードオフを定量的に評価することです。 特に,プライベートlrテストのパワーに対して,バハドゥル・ラオ型大偏差展開を精度良く確立し,以下の結果が得られる。 i) プライベートlrテストのパワーの損失を決定する、サンプルサイズと$(\varepsilon,\delta )$の関数として臨界量を特定すること。 二 プライベートLRテストにおいて、サンプルコストを$(\varepsilon,\delta )$-differential privacy、すなわち摂動がない場合にLRテストの電力を回復するために必要となる追加のサンプルサイズを定量化する。 このような結果は、独立な興味を持つランダムベクトルの和に対する新しい多次元の大偏差原理に依存している。 本研究は,プライバシ保護型LRテストの周波数表における適合性向上のための厳密な対策として,秘密性と実用性の間のトレードオフを定量化するために,テストのパワーを利用する。

Privacy-protecting data analysis investigates statistical methods under privacy constraints. This is a rising challenge in modern statistics, as the achievement of confidentiality guarantees, which typically occurs through suitable perturbations of the data, may determine a loss in the statistical utility of the data. In this paper, we consider privacy-protecting tests for goodness-of-fit in frequency tables, this being arguably the most common form of releasing data. Under the popular framework of $(\varepsilon,\delta )$-differential privacy for perturbed data, we introduce a private likelihood-ratio (LR) test for goodness-of-fit and we study its large sample properties, showing the importance of taking the perturbation into account to avoid a loss in the statistical significance of the test. Our main contribution provides a quantitative characterization of the trade-off between confidentiality, measured via differential privacy parameters $\varepsilon$ and $\delta$, and utility, measured via the power of the test. In particular, we establish a precise Bahadur-Rao type large deviation expansion for the power of the private LR test, which leads to: i) identify a critical quantity, as a function of the sample size and $(\varepsilon,\delta )$, which determines a loss in the power of the private LR test; ii) quantify the sample cost of $(\varepsilon,\delta )$-differential privacy in the private LR test, namely the additional sample size that is required to recover the power of the LR test in the absence of perturbation. Such a result relies on a novel multidimensional large deviation principle for sum of i.i.d. random vectors, which is of independent interest. Our work presents the first rigorous treatment of privacy-protecting LR tests for goodness-of-fit in frequency tables, making use of the power of the test to quantify the trade-off between confidentiality and utility.
翻訳日:2021-09-21 20:41:28 公開日:2021-09-20
# (参考訳) モンテカルロ算術によるデータ拡張はコネクトミクスの分類をより一般化させる [全文訳有]

Data Augmentation Through Monte Carlo Arithmetic Leads to More Generalizable Classification in Connectomics ( http://arxiv.org/abs/2109.09649v1 )

ライセンス: CC BY 4.0
Gregory Kiar, Yohan Chatelain, Ali Salari, Alan C. Evans, Tristan Glatard(参考訳) 機械学習モデルは、人間の脳画像データセットに一般的に適用され、機能や構造を行動、健康、その他の個々の表現型に関連付ける。 このようなモデルは、複雑な処理パイプラインによって生成される低次元マップに依存することが多い。 しかし、パイプライン固有の数値不安定性はこれらの写像の忠実さを制限し、計算バイアスを導入する。 モンテカルロ・アリストメティクス(Monte Carlo Arithmetic)は、制御された数値ノイズを導入する手法で、構造的コネクトーム推定パイプラインを摂動させ、最終的に各サンプルに対して様々な可塑性ネットワークを生成する。 摂動ネットワークの変動性は拡張データセットで捉えられ、年齢分類タスクに使用された。 その結果,脳ネットワークを数値的に乱れた結果に再サンプリングすることで,テスト済みの分類器,前処理戦略,次元減少技術の性能が向上することがわかった。 重要なのは、この利点が多くの摂動にかかっていないことであり、データセットを最小に摂動しても、その後の設計モデルで捉えられる有意義な分散が生じることを示唆している。

Machine learning models are commonly applied to human brain imaging datasets in an effort to associate function or structure with behaviour, health, or other individual phenotypes. Such models often rely on low-dimensional maps generated by complex processing pipelines. However, the numerical instabilities inherent to pipelines limit the fidelity of these maps and introduce computational bias. Monte Carlo Arithmetic, a technique for introducing controlled amounts of numerical noise, was used to perturb a structural connectome estimation pipeline, ultimately producing a range of plausible networks for each sample. The variability in the perturbed networks was captured in an augmented dataset, which was then used for an age classification task. We found that resampling brain networks across a series of such numerically perturbed outcomes led to improved performance in all tested classifiers, preprocessing strategies, and dimensionality reduction techniques. Importantly, we find that this benefit does not hinge on a large number of perturbations, suggesting that even minimally perturbing a dataset adds meaningful variance which can be captured in the subsequently designed models.
翻訳日:2021-09-21 20:39:27 公開日:2021-09-20
# (参考訳) 集約型EV電力需要応答プログラムにおける共有施設における車両駐車行動予測 [全文訳有]

Predicting vehicles parking behaviour in shared premises for aggregated EV electricity demand response programs ( http://arxiv.org/abs/2109.09666v1 )

ライセンス: CC BY 4.0
Vinicius Monteiro de Lira, Fabiano Pallonetto, Lorenzo Gabrielli, Chiara Renso(参考訳) 2020年の世界の電気自動車販売は、予想を上回って300万台を突破し、市場シェアは4%を超えた。 しかし、再生可能エネルギーの普及による発電の不確実性や電力需要の増加による電気自動車(EV)の出現は、配電・送電ともに電力系統に歪みをもたらす可能性がある。 需要応答集約と負荷制御により、グリッドの安定性が向上し、再生可能エネルギーがグリッドに浸透する。 本研究は,既存のEVの普及を前提として,駐車場におけるEVの充電最適化支援に適合する。 本稿では,特定の駐車場のエネルギー要件を推定し,最適なEV充電スケジュールを評価し,スマートコントローラにスケジューリングを統合することを目的とした,共有駐車場における駐車時間推定手法を提案する。 予測問題を教師付き機械学習タスクとして定式化し,車両がスロットを離れる前に駐車イベントの継続時間を予測する。 この予測期間は、ピーク時の電力需要を減少させる期間にわたって電力を割り当てるエネルギー管理システムに供給される。 提案手法の精度と予測モデルに最も関連する特徴を明らかにすることを目的とした2つの研究課題に触発された実験を構造化した。 イタリアとブラジルの2つのキャンパス施設の4つのデータセットの異なるアルゴリズムと特徴の組み合わせを実験した。 状況的・時間的特徴を両立させて, モデル全体の結果は, 頻度に基づく統計解析と比較して高い精度を示し, 駐車場エネルギー管理システム共有のための正確な予測器の開発に有効な経路を示す。

The global electric car sales in 2020 continued to exceed the expectations climbing to over 3 millions and reaching a market share of over 4%. However, uncertainty of generation caused by higher penetration of renewable energies and the advent of Electrical Vehicles (EV) with their additional electricity demand could cause strains to the power system, both at distribution and transmission levels. Demand response aggregation and load control will enable greater grid stability and greater penetration of renewable energies into the grid. The present work fits this context in supporting charging optimization for EV in parking premises assuming a incumbent high penetration of EVs in the system. We propose a methodology to predict an estimation of the parking duration in shared parking premises with the objective of estimating the energy requirement of a specific parking lot, evaluate optimal EVs charging schedule and integrate the scheduling into a smart controller. We formalize the prediction problem as a supervised machine learning task to predict the duration of the parking event before the car leaves the slot. This predicted duration feeds the energy management system that will allocate the power over the duration reducing the overall peak electricity demand. We structure our experiments inspired by two research questions aiming to discover the accuracy of the proposed machine learning approach and the most relevant features for the prediction models. We experiment different algorithms and features combination for 4 datasets from 2 different campus facilities in Italy and Brazil. Using both contextual and time of the day features, the overall results of the models shows an higher accuracy compared to a statistical analysis based on frequency, indicating a viable route for the development of accurate predictors for sharing parking premises energy management systems
翻訳日:2021-09-21 20:15:36 公開日:2021-09-20
# (参考訳) 共参照分解における一般化について [全文訳有]

On Generalization in Coreference Resolution ( http://arxiv.org/abs/2109.09667v1 )

ライセンス: CC BY 4.0
Shubham Toshniwal, Patrick Xia, Sam Wiseman, Karen Livescu, Kevin Gimpel(参考訳) coreference resolutionはデータセットドメインとは独立に定義されているが、coreference resolutionを実行するほとんどのモデルは、見当たらないドメインにうまく転送されない。 モデルの市販性能を評価するために,異なるドメインを対象とした8つのコア参照解決データセットを統合する。 次に, 3つのデータセットを訓練用に混合し, それらのドメイン, アノテーションガイドライン, メタデータが異なるにもかかわらず, アノテーションの差異を考慮し, サンプリングしてデータ量のバランスをとることで, この不均質なデータ混合上で単一モデルを協調的にトレーニングする方法を提案する。 ゼロショット設定では、単一のデータセット転送でトレーニングされたモデルが貧弱であり、ジョイントトレーニングによって全体的なパフォーマンスが向上し、コリファレンス解像度モデルの一般化が向上することが分かりました。 この研究は、堅牢なコア参照解決のための新しいベンチマークと、新しい最先端の結果に寄与する。

While coreference resolution is defined independently of dataset domain, most models for performing coreference resolution do not transfer well to unseen domains. We consolidate a set of 8 coreference resolution datasets targeting different domains to evaluate the off-the-shelf performance of models. We then mix three datasets for training; even though their domain, annotation guidelines, and metadata differ, we propose a method for jointly training a single model on this heterogeneous data mixture by using data augmentation to account for annotation differences and sampling to balance the data quantities. We find that in a zero-shot setting, models trained on a single dataset transfer poorly while joint training yields improved overall performance, leading to better generalization in coreference resolution models. This work contributes a new benchmark for robust coreference resolution and multiple new state-of-the-art results.
翻訳日:2021-09-21 19:57:12 公開日:2021-09-20
# (参考訳) 残留U-Netを用いた音響エコーキャンセラ [全文訳有]

Acoustic Echo Cancellation using Residual U-Nets ( http://arxiv.org/abs/2109.09686v1 )

ライセンス: CC BY 4.0
J. Silva-Rodr\'iguez and M.F. Dolz and M. Ferrer and A. Castell\'o and V. Naranjo and G. Pi\~nero(参考訳) 本稿では,u-net畳み込みニューラルネットワークを用いた単発・二重発シナリオのための音響エコーキャンセラを提案する。 U-Netネットワークは、オーディオ信号の細部を再現できるため、ソース分離問題のために、これまでオーディオ処理領域で使われてきたが、我々の知る限り、音響エコーキャンセリング(AEC)に使用されるのは今回が初めてである。 U-Netハイパーパラメータは、最高のAEC性能を得るために最適化されているが、40msの遅延制限を満たすためにパラメータを減らし、Microsoftが主催する 'ICASSP 2021 AEC Challenge' のフレームワーク内でモデルのトレーニングとテストが行われた。 我々は、最適化されたu-netモデルを合成データセット(s-u-net)と合成データセット(sr-u-net)でトレーニングし、両方のデータセットをチャレンジ用にリリースした。 s-u-netモデルは、ダブルトークシナリオのより良い結果を示し、ブラインドテストセットから推定された近距離信号が課題に提出された。 キャンセルチームは17チーム中12位、学歴10チーム中5位にランクインし、全体の平均スコアは3.57だった。

This paper presents an acoustic echo canceler based on a U-Net convolutional neural network for single-talk and double-talk scenarios. U-Net networks have previously been used in the audio processing area for source separation problems because of their ability to reproduce the finest details of audio signals, but to our knowledge, this is the first time they have been used for acoustic echo cancellation (AEC). The U-Net hyperparameters have been optimized to obtain the best AEC performance, but using a reduced number of parameters to meet a latency restriction of 40 ms. The training and testing of our model have been carried out within the framework of the 'ICASSP 2021 AEC Challenge' organized by Microsoft. We have trained the optimized U-Net model with a synthetic dataset only (S-U-Net) and with a synthetic dataset and the single-talk set of a real dataset (SR-U-Net), both datasets were released for the challenge. The S-U-Net model presented better results for double-talk scenarios, thus their inferred near-end signals from the blind testset were submitted to the challenge. Our canceler ranked 12th among 17 teams, and 5th among 10 academia teams, obtaining an overall mean opinion score of 3.57.
翻訳日:2021-09-21 19:46:48 公開日:2021-09-20
# (参考訳) 自動事実チェックにおけるクレーム難易度評価の事例 [全文訳有]

The Case for Claim Difficulty Assessment in Automatic Fact Checking ( http://arxiv.org/abs/2109.09689v1 )

ライセンス: CC BY 4.0
Prakhar Singh and Anubrata Das and Junyi Jessy Li and Matthew Lease(参考訳) ファクトチェック(英: fact-checking)とは、クレーム(すなわち事実)が検証性によって評価されるプロセス(人間、自動化、ハイブリッド)である。 この記事では、以前の作業でほとんど注目を集めていない問題を挙げます。いくつかの主張は、他のものよりも事実チェックがはるかに難しいものです。 タスクの定式化やデータセット設計を含む,ファクトチェックの実践と自動ファクトチェックの研究の両方において,これがもたらす意味について論じる。 本報告では,請求の難易度を規定する要因について手動で分析し,異なる種類の難易度を分類する。 クレームの難しさの予測は、今日の自動化されたファクトチェックアーキテクチャの欠如要素であり、この難易度予測タスクが、どのようにして異なるサブタスクに分割されるかを説明する。

Fact-checking is the process (human, automated, or hybrid) by which claims (i.e., purported facts) are evaluated for veracity. In this article, we raise an issue that has received little attention in prior work - that some claims are far more difficult to fact-check than others. We discuss the implications this has for both practical fact-checking and research on automated fact-checking, including task formulation and dataset design. We report a manual analysis undertaken to explore factors underlying varying claim difficulty and categorize several distinct types of difficulty. We argue that prediction of claim difficulty is a missing component of today's automated fact-checking architectures, and we describe how this difficulty prediction task might be split into a set of distinct subtasks.
翻訳日:2021-09-21 19:34:34 公開日:2021-09-20
# (参考訳) ロボットを信じて! スパースガウス過程を用いたニューラルネットワークの予測不確かさ推定 [全文訳有]

Trust Your Robots! Predictive Uncertainty Estimation of Neural Networks with Sparse Gaussian Processes ( http://arxiv.org/abs/2109.09690v1 )

ライセンス: CC BY 4.0
Jongseok Lee, Jianxiang Feng, Matthias Humt, Marcus M\"uller, Rudolph Triebel(参考訳) 本稿では,Deep Neural Networks (DNN) を用いた予測において,信頼性と高速不確実性の両方を推定する確率的枠組みを提案する。 我々の主な貢献は、DNNとスパースガウスプロセス(GP)の実用的で原則化された組み合わせである。 我々は,DNNが,GPエキスパート(MoE-GP)の混合であるスパースGPの特殊な場合と見なせることを理論的に証明し,その導出理論を実践する学習アルゴリズムを考案する。 小型航空機(MAV)におけるマニピュレータの逆ダイナミクスと物体検出の2つの異なるロボットタスクによる実験において,Jetson TX2における予測不確実性,スケーラビリティの向上,実行時の効率性の観点から,我々のアプローチの有効性を示す。 したがって、このアプローチは、不確実性を意識した信頼性が高く高速なロボット学習システムへの道を開くことができると論じている。

This paper presents a probabilistic framework to obtain both reliable and fast uncertainty estimates for predictions with Deep Neural Networks (DNNs). Our main contribution is a practical and principled combination of DNNs with sparse Gaussian Processes (GPs). We prove theoretically that DNNs can be seen as a special case of sparse GPs, namely mixtures of GP experts (MoE-GP), and we devise a learning algorithm that brings the derived theory into practice. In experiments from two different robotic tasks -- inverse dynamics of a manipulator and object detection on a micro-aerial vehicle (MAV) -- we show the effectiveness of our approach in terms of predictive uncertainty, improved scalability, and run-time efficiency on a Jetson TX2. We thus argue that our approach can pave the way towards reliable and fast robot learning systems with uncertainty awareness.
翻訳日:2021-09-21 19:20:52 公開日:2021-09-20
# (参考訳) 複数の時系列におけるモデリングレジームシフト

Modeling Regime Shifts in Multiple Time Series ( http://arxiv.org/abs/2109.09692v1 )

ライセンス: CC0 1.0
Etienne Gael Tajeuna and Mohamed Bouguessa and Shengrui Wang(参考訳) 本研究では,共進化時系列として知られる複数時系列からなる生態系における状態変化の発見とモデル化の課題について検討する。 レジームシフトは、異なる時間間隔で時系列によって示される変化行動を指す。 これらの変化の振る舞いを学ぶことは、時系列予測への重要なステップである。 1) 時系列間の関係を複数の時系列におけるレジームの発見に考慮しないこと,(2) 時系列によって示される時間依存行動をモデル化する効果的なアプローチの欠如,(3) 有益なデータ不連続を扱うことの難しさである。 既存のメソッドのほとんどは、これら3つの問題を統一フレームワークで処理できない。 そのため、共進化する時系列における相互作用と時間依存をモデル化するための原則的なアプローチを考案する努力を動機付けています。 具体的には、時系列の重アンサンブルを、より軽量で意味のある構造である \textit{mapping grid} にまとめることで、複数の時系列のエコシステムをモデル化する。 マッピンググリッドを用いることで、まず動的ネットワーク表現を通じて時系列の挙動依存を学習し、次に完全な時間依存のCox回帰モデルを用いて状態遷移機構を学習する。 私たちのアプローチの独創性は、レジーム識別における時系列間の相互作用のモデリングと、通常既存の作業において静的であると仮定される時間依存レジーム遷移確率のモデリングにあります。

We investigate the problem of discovering and modeling regime shifts in an ecosystem comprising multiple time series known as co-evolving time series. Regime shifts refer to the changing behaviors exhibited by series at different time intervals. Learning these changing behaviors is a key step toward time series forecasting. While advances have been made, existing methods suffer from one or more of the following shortcomings: (1) failure to take relationships between time series into consideration for discovering regimes in multiple time series; (2) lack of an effective approach that models time-dependent behaviors exhibited by series; (3) difficulties in handling data discontinuities which may be informative. Most of the existing methods are unable to handle all of these three issues in a unified framework. This, therefore, motivates our effort to devise a principled approach for modeling interactions and time-dependency in co-evolving time series. Specifically, we model an ecosystem of multiple time series by summarizing the heavy ensemble of time series into a lighter and more meaningful structure called a \textit{mapping grid}. By using the mapping grid, our model first learns time series behavioral dependencies through a dynamic network representation, then learns the regime transition mechanism via a full time-dependent Cox regression model. The originality of our approach lies in modeling interactions between time series in regime identification and in modeling time-dependent regime transition probabilities, usually assumed to be static in existing work.
翻訳日:2021-09-21 19:02:58 公開日:2021-09-20
# (参考訳) BERTは文字を指定できない [全文訳有]

BERT Cannot Align Characters ( http://arxiv.org/abs/2109.09700v1 )

ライセンス: CC BY-SA 4.0
Antonis Maronikolakis, Philipp Dufter, Hinrich Sch\"utze(参考訳) 従来の研究では、BERTは単語レベルで言語間文を適切にアライメントできることが示されている。 ここでは,BERTがチャレベル整合器としても機能するかどうかを検討する。 調査された言語は英語、偽英語、ドイツ語、ギリシャ語である。 より近い2つの言語は、より優れたBERTが文字レベルに調整できることを示します。 BERTはFake- Englishアライメントと同様に英語でもうまく機能するが、これは自然言語にも同様に一般化しない。 それでも、2つの言語が近接していることは要因である。 英語はギリシア語よりもドイツ語に深く関連しており、バートがそれらとどのように一致しているかに反映されている。 自然言語における類似度行列はより弱い関係を示し、さらに2つの言語が分離されていることを示す。

In previous work, it has been shown that BERT can adequately align cross-lingual sentences on the word level. Here we investigate whether BERT can also operate as a char-level aligner. The languages examined are English, Fake-English, German and Greek. We show that the closer two languages are, the better BERT can align them on the character level. BERT indeed works well in English to Fake-English alignment, but this does not generalize to natural languages to the same extent. Nevertheless, the proximity of two languages does seem to be a factor. English is more related to German than to Greek and this is reflected in how well BERT aligns them; English to German is better than English to Greek. We examine multiple setups and show that the similarity matrices for natural languages show weaker relations the further apart two languages are.
翻訳日:2021-09-21 19:01:49 公開日:2021-09-20
# (参考訳) ストリーミングデータから動的システムを予測する学習 [全文訳有]

Learning to Forecast Dynamical Systems from Streaming Data ( http://arxiv.org/abs/2109.09703v1 )

ライセンス: CC BY 4.0
Dimitris Giannakis, Amelia Henriksen, Joel A. Tropp, and Rachel Ward(参考訳) カーネルアナログ予測 (kernel analog forecasting, kaf) は、動的に生成された時系列データのデータ駆動、非パラメトリック予測のための強力な手法である。 このアプローチはクープマン作用素理論において厳密な基礎を持ち、実際には良好な予測を生成するが、カーネル法に共通する計算コストに苦しむ。 本稿では,訓練データに対する単一パスのみを必要とするkafのストリーミングアルゴリズムを提案する。 このアルゴリズムは、予測スキルを犠牲にすることなく、トレーニングと予測のコストを劇的に削減する。 計算実験により、ストリーミングKAF法は、データスカースとデータリッチレジームの両方において、数種類の動的システム(周期性、準周期性、カオス性)を予測できることを示した。 全体的な方法論は、ストリーミングカーネル回帰の新しいテンプレートとして、より広い関心を持っているかもしれない。

Kernel analog forecasting (KAF) is a powerful methodology for data-driven, non-parametric forecasting of dynamically generated time series data. This approach has a rigorous foundation in Koopman operator theory and it produces good forecasts in practice, but it suffers from the heavy computational costs common to kernel methods. This paper proposes a streaming algorithm for KAF that only requires a single pass over the training data. This algorithm dramatically reduces the costs of training and prediction without sacrificing forecasting skill. Computational experiments demonstrate that the streaming KAF method can successfully forecast several classes of dynamical systems (periodic, quasi-periodic, and chaotic) in both data-scarce and data-rich regimes. The overall methodology may have wider interest as a new template for streaming kernel regression.
翻訳日:2021-09-21 18:53:39 公開日:2021-09-20
# (参考訳) 制御されたテキスト生成のためのプラグアンドプレイ法 [全文訳有]

A Plug-and-Play Method for Controlled Text Generation ( http://arxiv.org/abs/2109.09707v1 )

ライセンス: CC BY 4.0
Damian Pascual, Beni Egressy, Clara Meister, Ryan Cotterell, Roger Wattenhofer(参考訳) 大規模な事前訓練された言語モデルは、流線型テキストを生成する能力を繰り返し示してきた。 しかし、プロンプトから始めると、生成は多くの可能な方向に進むことができる。 現在の復号法は、例えば、特定の単語を含むことを保証するために、追加のモデルや微調整を必要とするか、手作業が意味的に制約されていない場合、例えばストーリー生成など、うまく機能しない。 本稿では,制御された言語生成のためのプラグ・アンド・プレイ復号法を提案する。この手法は非常に単純で直感的であり,単一文で記述することができる。 我々は,この分布のアニーリングが言語生成に厳しい制約を課すことができることを示す。 GPT-2からの復号は、与えられたガイド語の出現を保証しながら、多様で流動的な文を生み出す。 本研究では,(1) 提案手法が人間の評価において競合する手法より優れていること,(2) 生成したテキストにガイド語を強制することは,生成したテキストの流布に影響を与えないことを明らかにする。

Large pre-trained language models have repeatedly shown their ability to produce fluent text. Yet even when starting from a prompt, generation can continue in many plausible directions. Current decoding methods with the goal of controlling generation, e.g., to ensure specific words are included, either require additional models or fine-tuning, or work poorly when the task at hand is semantically unconstrained, e.g., story generation. In this work, we present a plug-and-play decoding method for controlled language generation that is so simple and intuitive, it can be described in a single sentence: given a topic or keyword, we add a shift to the probability distribution over our vocabulary towards semantically similar words. We show how annealing this distribution can be used to impose hard constraints on language generation, something no other plug-and-play method is currently able to do with SOTA language generators. Despite the simplicity of this approach, we see it works incredibly well in practice: decoding from GPT-2 leads to diverse and fluent sentences while guaranteeing the appearance of given guide words. We perform two user studies, revealing that (1) our method outperforms competing methods in human evaluations; and (2) forcing the guide words to appear in the generated text has no impact on the fluency of the generated text.
翻訳日:2021-09-21 18:15:42 公開日:2021-09-20
# (参考訳) nlpにおけるモデルバイアス -ヘイトスピーチ分類への応用- [全文訳有]

Model Bias in NLP - Application to Hate Speech Classification ( http://arxiv.org/abs/2109.09725v1 )

ライセンス: CC BY 4.0
Jonas Bokstaller, Georgios Patoulidis and Aygul Zagidullina(参考訳) 本論文は2021年春季のETHにおけるNLP講義の結果をまとめたものである。 本研究では、JIGSAWデータセット(Jigsaw/Conversation AI, 2019)にBERTベースのニューラルネットワークモデル(Devlin et al.,2018)を適用し、オンライン社会プラットフォーム(英語)におけるヘイトフルで有毒なコメント(厳密には攻撃的な言語とは分離)を識別するモデルを作成する。 他の3つのニューラルネットワークアーキテクチャとGPT-2(Radfordet al., 2019)モデルも、これらの異なるモデルをまとめるために提供されるデータセットに適用される。 The trainedBERT model is then applied on two dif-ferent data sets to evaluate its generali-sation power, namely on another Twitterdata set (Tom Davidson, 2017) (Davidsonet al., 2017) and the data set HASOC 2019(Thomas Mandl, 2019) (Mandl et al.,2019) which includes Twitter and alsoFacebook comments; we focus on the En-glish HASOC 2019 data.In addition,it can be shown that by fine-tuning thetrained BERT model on these two datasets by applying different transfer learn-ing scenarios via retraining partial or alllayers the predictive scores improve com-pared to simply applying the model pre-trained on the JIGSAW data set. その結果,64%から90%程度まで精度が向上する一方で,少なくとも60%以下では許容可能なリコール値が達成でき,BERTがソーシャルプラットフォームにおける実際のユースケースに適していることが証明された。

This document sums up our results forthe NLP lecture at ETH in the springsemester 2021. In this work, a BERTbased neural network model (Devlin et al.,2018) is applied to the JIGSAW dataset (Jigsaw/Conversation AI, 2019) in or-der to create a model identifying hate-ful and toxic comments (strictly seper-ated from offensive language) in onlinesocial platforms (English language), inthis case Twitter. Three other neural net-work architectures and a GPT-2 (Radfordet al., 2019) model are also applied onthe provided data set in order to com-pare these different models. The trainedBERT model is then applied on two dif-ferent data sets to evaluate its generali-sation power, namely on another Twitterdata set (Tom Davidson, 2017) (Davidsonet al., 2017) and the data set HASOC 2019(Thomas Mandl, 2019) (Mandl et al.,2019) which includes Twitter and alsoFacebook comments; we focus on the En-glish HASOC 2019 data.In addition,it can be shown that by fine-tuning thetrained BERT model on these two datasets by applying different transfer learn-ing scenarios via retraining partial or alllayers the predictive scores improve com-pared to simply applying the model pre-trained on the JIGSAW data set. Withour results, we get precisions from 64% toaround 90% while still achieving accept-able recall values of at least lower 60s%, proving that BERT is suitable for real usecases in social platforms.
翻訳日:2021-09-21 17:40:00 公開日:2021-09-20
# 自然言語生成をスクラッチから学ぶ

Learning Natural Language Generation from Scratch ( http://arxiv.org/abs/2109.09371v1 )

ライセンス: Link先を確認
Alice Martin Donati (X-DEP-MATHAPP), Guillaume Quispe, Charles Ollion, Sylvain Le Corff, Florian Strub, Olivier Pietquin(参考訳) 本稿では,強化学習(rl)のみを用いて条件付き言語モデルをスクラッチから学習するためのap-proachであるtrufll(trufll)について述べる。 AsRL法は大きな行動空間に拡張できず、汎用言語モデルを用いて語彙空間を動的に切り離す。 これによってtrufllは,タスク固有の事前知識を必要とせずに,withits環境とのみインタラクションすることで,言語エージェントのトレーニングを可能にする。 興味深いことに、このアプローチはラベル付きデータセットへの依存を回避し、言語や露出バイアスといったトレーニング済みのポリシー欠陥を本質的に低減する。 我々はTrufLLを2つの視覚的質問生成タスクで評価し、人間の評価と相関する性能と言語指標に対して肯定的な結果を報告した。 私たちの知る限りでは、言語生成ポリシーを(ほとんど)スクラッチからうまく導く最初のアプローチです。

This paper introduces TRUncated ReinForcement Learning for Language (TrufLL), an original ap-proach to train conditional language models from scratch by only using reinforcement learning (RL). AsRL methods unsuccessfully scale to large action spaces, we dynamically truncate the vocabulary spaceusing a generic language model. TrufLL thus enables to train a language agent by solely interacting withits environment without any task-specific prior knowledge; it is only guided with a task-agnostic languagemodel. Interestingly, this approach avoids the dependency to labelled datasets and inherently reduces pre-trained policy flaws such as language or exposure biases. We evaluate TrufLL on two visual questiongeneration tasks, for which we report positive results over performance and language metrics, which wethen corroborate with a human evaluation. To our knowledge, it is the first approach that successfullylearns a language generation policy (almost) from scratch.
翻訳日:2021-09-21 17:00:43 公開日:2021-09-20
# 教師なし・監督された病変検出における不確かさ推定のための深部量子回帰

Deep Quantile Regression for Uncertainty Estimation in Unsupervised and Supervised Lesion Detection ( http://arxiv.org/abs/2109.09374v1 )

ライセンス: Link先を確認
Haleh Akrami, Anand Joshi, Sergul Aydore, Richard Leahy(参考訳) 複数のアプリケーションにおける幅広い機械学習タスクにおける最先端のパフォーマンスは印象的だが、ディープラーニングメソッドは、特に限られたトレーニングデータにおいて、過信の予測を生成することができる。 したがって、不確かさの定量化は、異常や病変の検出、臨床診断などの重要な応用において特に重要であり、手術の限界、疾患の状態、適切な治療を決定する上で不確実性の現実的な評価が不可欠である。 そこで本研究では,量子レグレッション(quantile regression)を用いてアレータ性不確かさを推定し,教師付き病変検出と教師なし病変検出の両問題における不確かさを推定する。 教師なし設定では、変分オートエンコーダ(VAE)を用いた病変検出タスクに量子回帰を適用する。 VAEは出力を、各出力次元の手段と分散によって特徴づけられる条件独立ガウスとしてモデル化する。 残念なことに、VAEにおける平均値と分散量の共同最適化は、分散の縮小や過小評価というよく知られた問題につながる。 本稿では,与えられた入力画像の条件量子化を推定することにより,この分散縮小問題を回避するための代替VAEモデルQuantile-Regression VAE(QR-VAE)について述べる。 推定定量値を用いて、条件付きガウスモデルの下で入力画像の条件平均と分散を計算する。 次に, このモデルを用いて, 異常検出や異常検出の原理的手法として再構成確率を計算する。 教師あり設定では,教師付き病変分割タスクのための二分性分位回帰(bqr)を開発する。 bqrセグメンテーションはラベル境界の不確かさを捉えることができる。 我々は, 病変境界の位置における専門家の不一致を特徴付けるために, 量的回帰がいかに用いられるかを示す。

Despite impressive state-of-the-art performance on a wide variety of machine learning tasks in multiple applications, deep learning methods can produce over-confident predictions, particularly with limited training data. Therefore, quantifying uncertainty is particularly important in critical applications such as anomaly or lesion detection and clinical diagnosis, where a realistic assessment of uncertainty is essential in determining surgical margins, disease status and appropriate treatment. In this work, we focus on using quantile regression to estimate aleatoric uncertainty and use it for estimating uncertainty in both supervised and unsupervised lesion detection problems. In the unsupervised settings, we apply quantile regression to a lesion detection task using Variational AutoEncoder (VAE). The VAE models the output as a conditionally independent Gaussian characterized by means and variances for each output dimension. Unfortunately, joint optimization of both mean and variance in the VAE leads to the well-known problem of shrinkage or underestimation of variance. We describe an alternative VAE model, Quantile-Regression VAE (QR-VAE), that avoids this variance shrinkage problem by estimating conditional quantiles for the given input image. Using the estimated quantiles, we compute the conditional mean and variance for input images under the conditionally Gaussian model. We then compute reconstruction probability using this model as a principled approach to outlier or anomaly detection applications. In the supervised setting, we develop binary quantile regression (BQR) for the supervised lesion segmentation task. BQR segmentation can capture uncertainty in label boundaries. We show how quantile regression can be used to characterize expert disagreement in the location of lesion boundaries.
翻訳日:2021-09-21 17:00:10 公開日:2021-09-20
# 未来AI : 将来医療画像における信頼できる人工知能の原則とコンセンサス勧告

FUTURE-AI: Guiding Principles and Consensus Recommendations for Trustworthy Artificial Intelligence in Future Medical Imaging ( http://arxiv.org/abs/2109.09658v1 )

ライセンス: Link先を確認
Karim Lekadira, Richard Osuala, Catherine Gallin, Noussair Lazrak, Kaisar Kushibar, Gianna Tsakou, Susanna Auss\'o, Leonor Cerd\'a Alberich, Konstantinos Marias, Manolis Tskinakis, Sara Colantonio, Nickolas Papanikolaou, Zohaib Salahuddin, Henry C Woodruff, Philippe Lambin, Luis Mart\'i-Bonmat\'i(参考訳) 人工知能(AI)の最近の進歩は、今日の臨床システムによって生成される膨大なデータと相まって、画像再構成、医用画像分割、画像ベースの診断、治療計画を含む、医療画像のバリューチェーン全体にわたる画像AIソリューションの開発につながっている。 医療画像におけるaiの成功と将来の可能性にかかわらず、多くの利害関係者は、複雑で不透明で、重要な臨床応用に対する理解、利用、信頼が難しいと認識されるaiソリューションの潜在的なリスクと倫理的意味を懸念している。 これらの懸念とリスクにもかかわらず、医療画像における将来のAI開発を信頼、安全性、採用を高めるための具体的なガイドラインやベストプラクティスは今のところ存在しない。 このギャップを埋めるため,本稿では,欧州の5つの大規模健康イメージングプロジェクトから蓄積された経験,コンセンサス,ベストプラクティスから導かれた指針の慎重に選択する。 これらの指針はfuture-aiと呼ばれ、その構成要素は (i)公平さ。 (ii)普遍性 (iii)トレーサビリティ (4)ユーザビリティ (v)堅牢性と (vi)説明可能。 ステップバイステップアプローチでは、これらのガイドラインは、技術的、臨床的、倫理的に信頼できるAIソリューションを臨床実践に特定、開発、評価、デプロイするための具体的な勧告のフレームワークにさらに変換される。

The recent advancements in artificial intelligence (AI) combined with the extensive amount of data generated by today's clinical systems, has led to the development of imaging AI solutions across the whole value chain of medical imaging, including image reconstruction, medical image segmentation, image-based diagnosis and treatment planning. Notwithstanding the successes and future potential of AI in medical imaging, many stakeholders are concerned of the potential risks and ethical implications of imaging AI solutions, which are perceived as complex, opaque, and difficult to comprehend, utilise, and trust in critical clinical applications. Despite these concerns and risks, there are currently no concrete guidelines and best practices for guiding future AI developments in medical imaging towards increased trust, safety and adoption. To bridge this gap, this paper introduces a careful selection of guiding principles drawn from the accumulated experiences, consensus, and best practices from five large European projects on AI in Health Imaging. These guiding principles are named FUTURE-AI and its building blocks consist of (i) Fairness, (ii) Universality, (iii) Traceability, (iv) Usability, (v) Robustness and (vi) Explainability. In a step-by-step approach, these guidelines are further translated into a framework of concrete recommendations for specifying, developing, evaluating, and deploying technically, clinically and ethically trustworthy AI solutions into clinical practice.
翻訳日:2021-09-21 16:59:01 公開日:2021-09-20
# dyadformer:dyadic相互作用の長距離モデリングのためのマルチモーダルトランスフォーマー

Dyadformer: A Multi-modal Transformer for Long-Range Modeling of Dyadic Interactions ( http://arxiv.org/abs/2109.09487v1 )

ライセンス: Link先を確認
David Curto, Albert Clap\'es, Javier Selva, Sorina Smeureanu, Julio C. S. Jacques Junior, David Gallardo-Pujol, Georgina Guilera, David Leiva, Thomas B. Moeslund, Sergio Escalera and Cristina Palmero(参考訳) パーソナリティコンピューティングは、コンピュータビジョンにおいて、その用途が幅広いため、新たな話題となっている。 しかしながら、このトピックに関するほとんどの研究は、相互作用シナリオに適用された場合でも、短時間で個人を分析することに重点を置いている。 これらの制約に対処するために,可変時間窓を用いたディヤド相互作用における個人的・対人的特徴をモデル化するマルチモーダルマルチサブジェクトトランスフォーマアーキテクチャであるdyadformerを提案する。 提案するクロスサブジェクト層により,ネットワークは注意操作を通じて対象間のインタラクションを明示的にモデル化できる。 この概念実証アプローチは、長期にわたって相互作用する両者のマルチモダリティとジョイントモデリングが個々の属性の予測にどのように役立つかを示している。 Dyadformerでは, UDIVA v0.5データセットを用いて, 個人に対する自己申告人格推定結果を改善する。

Personality computing has become an emerging topic in computer vision, due to the wide range of applications it can be used for. However, most works on the topic have focused on analyzing the individual, even when applied to interaction scenarios, and for short periods of time. To address these limitations, we present the Dyadformer, a novel multi-modal multi-subject Transformer architecture to model individual and interpersonal features in dyadic interactions using variable time windows, thus allowing the capture of long-term interdependencies. Our proposed cross-subject layer allows the network to explicitly model interactions among subjects through attentional operations. This proof-of-concept approach shows how multi-modality and joint modeling of both interactants for longer periods of time helps to predict individual attributes. With Dyadformer, we improve state-of-the-art self-reported personality inference results on individual subjects on the UDIVA v0.5 dataset.
翻訳日:2021-09-21 16:57:08 公開日:2021-09-20
# 逐次プロトタイプネットワークとの対話におけるFew-Shot感情認識

Few-Shot Emotion Recognition in Conversation with Sequential Prototypical Networks ( http://arxiv.org/abs/2109.09366v1 )

ライセンス: Link先を確認
Ga\"el Guibon (LTCI, IP Paris), Matthieu Labeau (LTCI, IP Paris), H\'el\`ene Flamein, Luce Lefeuvre, Chlo\'e Clavel (LTCI, IP Paris)(参考訳) dyadic human-human interaction(dyadic human-human interaction)に関する最近の研究は、特定のビジネス目的を持たない会話で行われている。 しかし、多くの企業は、営業サービス後や顧客満足度調査など、より正確な環境に関する研究の恩恵を受けるかもしれない。 この作業では、私たちは、会話フローにおける感情とその進化を検知したい、ライブチャットのカスタマーサービスのスコープに自分自身を置きます。 この文脈は、制限された、小さく、ラベルが付けられていないデータセットの活用から、そのようなコンテキストに対するメソッドの発見と適応に至るまで、さまざまな課題を招き、異なる言語やスパースラベルの会話感情分類に役立てることができる仮説を定めながら、Few-Shot Learningを用いてこれらの課題に取り組む。 本稿では,ProtoSeqと命名した会話におけるシーケンスラベリングのためのプロトタイプネットワークのバリエーションを提案する。 英語での日常会話とフランス語のカスタマサービスチャット会話の2つのデータセットでこの手法をテストした。 会話における感情分類に適用すると,他の会話と比較しても,この手法は競争力があることが判明した。

Several recent studies on dyadic human-human interactions have been done on conversations without specific business objectives. However, many companies might benefit from studies dedicated to more precise environments such as after sales services or customer satisfaction surveys. In this work, we place ourselves in the scope of a live chat customer service in which we want to detect emotions and their evolution in the conversation flow. This context leads to multiple challenges that range from exploiting restricted, small and mostly unlabeled datasets to finding and adapting methods for such context.We tackle these challenges by using Few-Shot Learning while making the hypothesis it can serve conversational emotion classification for different languages and sparse labels. We contribute by proposing a variation of Prototypical Networks for sequence labeling in conversation that we name ProtoSeq. We test this method on two datasets with different languages: daily conversations in English and customer service chat conversations in French. When applied to emotion classification in conversations, our method proved to be competitive even when compared to other ones.
翻訳日:2021-09-21 16:53:41 公開日:2021-09-20
# ストリーミング環境における教師なし連続学習

Unsupervised Continual Learning in Streaming Environments ( http://arxiv.org/abs/2109.09282v1 )

ライセンス: Link先を確認
Andri Ashfahani, Mahardhika Pratama(参考訳) 深層クラスタリングネットワークは、自然の特徴を抽出する能力からデータストリームに望ましいため、退屈な機能エンジニアリングステップを回避できる。 ストリーミング環境におけるディープネットワークの自動構築は依然として未解決の課題であるが、データストリームの高価なラベル付けコストが、教師なしアプローチの需要の増加を妨げている。 本稿では,ADCN(Autonomous Deep Clustering Network)と呼ばれる,同時深層学習とクラスタリングによる深層クラスタリングネットワーク構築の教師なしアプローチを提案する。 特徴抽出層と、再構成損失のバイアス分散分解に基づいて、ネットワーク幅と深さの両方がデータストリームから自己進化する自律的完全連結層を組み合わせる。 自己クラスタ化機構は、全連結層の深い埋め込み空間で実行され、最終的な出力はクラスタ予測スコアの和によって推測される。 さらに、破滅的な忘れ方問題を解決するために潜在性に基づく正規化が組み込まれている。 厳密な数値的な研究により、ADCNはストリーミング環境でADCN構造を完全に自律的に構築する一方で、モデル更新のためのラベル付きサンプルが存在しない。 再現可能な研究イニシアチブをサポートするために、コード、補足材料、およびADCNの生結果が \url{https://tinyurl.com/ AutonomousDCN} で公開されている。

A deep clustering network is desired for data streams because of its aptitude in extracting natural features thus bypassing the laborious feature engineering step. While automatic construction of the deep networks in streaming environments remains an open issue, it is also hindered by the expensive labeling cost of data streams rendering the increasing demand for unsupervised approaches. This paper presents an unsupervised approach of deep clustering network construction on the fly via simultaneous deep learning and clustering termed Autonomous Deep Clustering Network (ADCN). It combines the feature extraction layer and autonomous fully connected layer in which both network width and depth are self-evolved from data streams based on the bias-variance decomposition of reconstruction loss. The self-clustering mechanism is performed in the deep embedding space of every fully connected layer while the final output is inferred via the summation of cluster prediction score. Further, a latent-based regularization is incorporated to resolve the catastrophic forgetting issue. A rigorous numerical study has shown that ADCN produces better performance compared to its counterparts while offering fully autonomous construction of ADCN structure in streaming environments with the absence of any labeled samples for model updates. To support the reproducible research initiative, codes, supplementary material, and raw results of ADCN are made available in \url{https://tinyurl.com/ AutonomousDCN}.
翻訳日:2021-09-21 16:52:43 公開日:2021-09-20
# コリージョン化のニューラル埋め込みによるスケーラブル多タスクガウス過程

Scalable Multi-Task Gaussian Processes with Neural Embedding of Coregionalization ( http://arxiv.org/abs/2109.09261v1 )

ライセンス: Link先を確認
Haitao Liu, Jiaqi Ding, Xinyu Xie, Xiaomo Jiang, Yusong Zhao, Xiaofang Wang(参考訳) マルチタスク回帰は,タスク間の知識伝達を実現するために,タスク類似性を活用しようとする。 このシナリオにおけるガウス過程(GP)の応用は、非パラメトリックで情報的ベイズ的マルチタスク回帰パラダイムをもたらす。 MTGP(Multi-task GP)は、予測平均だけでなく、不確実性を定量化するための関連する予測分散も提供する。 コリージョン化の線形モデル(英: linear model of co Regionalalization, LMC)は、複数の独立かつ多様なGPの線形結合によってタスクの依存性を利用する、よく知られたMTGPパラダイムである。 しかし、lmcは複雑なマルチタスクケースを扱う際に高いモデルの複雑さと限定的なモデル能力に苦しむ。 この目的のために,我々は,潜在gpsを高次元の潜在空間に変換し,豊かで多様な行動を誘発する共領域化の神経組込みを開発した。 さらに,高度な変分推論とスパース近似を用いて,より高品質なスケーラブルなモデル推論のために,厳密でコンパクトなエビデンス下限 (elbo) を考案する。 各種実世界のマルチタスク・データセット上での予測精度の向上とNSVLMCと呼ばれるモデルの一般化,および非定常流動床のクロス流体モデリングの検証を行った。

Multi-task regression attempts to exploit the task similarity in order to achieve knowledge transfer across related tasks for performance improvement. The application of Gaussian process (GP) in this scenario yields the non-parametric yet informative Bayesian multi-task regression paradigm. Multi-task GP (MTGP) provides not only the prediction mean but also the associated prediction variance to quantify uncertainty, thus gaining popularity in various scenarios. The linear model of coregionalization (LMC) is a well-known MTGP paradigm which exploits the dependency of tasks through linear combination of several independent and diverse GPs. The LMC however suffers from high model complexity and limited model capability when handling complicated multi-task cases. To this end, we develop the neural embedding of coregionalization that transforms the latent GPs into a high-dimensional latent space to induce rich yet diverse behaviors. Furthermore, we use advanced variational inference as well as sparse approximation to devise a tight and compact evidence lower bound (ELBO) for higher quality of scalable model inference. Extensive numerical experiments have been conducted to verify the higher prediction quality and better generalization of our model, named NSVLMC, on various real-world multi-task datasets and the cross-fluid modeling of unsteady fluidized bed.
翻訳日:2021-09-21 16:50:45 公開日:2021-09-20
# 可変選択による計算効率の良い高次元ベイズ最適化

Computationally Efficient High-Dimensional Bayesian Optimization via Variable Selection ( http://arxiv.org/abs/2109.09264v1 )

ライセンス: Link先を確認
Yihang Shen and Carl Kingsford(参考訳) ベイズ最適化 (bayesian optimization, bo) は、ブラックボックス関数をグローバルに最適化する手法である。 BOは多くのシナリオに適用されているが、高次元領域を持つ関数にスケールする効果的なBOアルゴリズムの開発は依然として課題である。 バニラBOによるそのような機能の最適化は非常に時間がかかる。 高次元の空間を低次元の空間に埋め込むという考え方に基づく高次元のboの代替戦略は、予め特定する必要がある埋め込み次元の選択に敏感である。 変数選択を利用した計算効率の高い高次元BO法を開発した。 提案手法は,選択変数を含む空間を予め指定したハイパーパラメータを必要とせずに,軸整列部分空間を自動的に学習することができる。 アルゴリズムの計算複雑性を理論的に解析し,後悔の束縛を導出する。 我々は,いくつかの合成および実問題に対する本手法の有効性を実証的に示す。

Bayesian Optimization (BO) is a method for globally optimizing black-box functions. While BO has been successfully applied to many scenarios, developing effective BO algorithms that scale to functions with high-dimensional domains is still a challenge. Optimizing such functions by vanilla BO is extremely time-consuming. Alternative strategies for high-dimensional BO that are based on the idea of embedding the high-dimensional space to the one with low dimension are sensitive to the choice of the embedding dimension, which needs to be pre-specified. We develop a new computationally efficient high-dimensional BO method that exploits variable selection. Our method is able to automatically learn axis-aligned sub-spaces, i.e. spaces containing selected variables, without the demand of any pre-specified hyperparameters. We theoretically analyze the computational complexity of our algorithm and derive the regret bound. We empirically show the efficacy of our method on several synthetic and real problems.
翻訳日:2021-09-21 16:50:23 公開日:2021-09-20
# ガウス過程回帰のためのベーシックバイアス学習

Barely Biased Learning for Gaussian Process Regression ( http://arxiv.org/abs/2109.09417v1 )

ライセンス: Link先を確認
David R. Burt, Artem Artemev, Mark van der Wilk(参考訳) スケーラブルな近似ガウス過程回帰における最近の研究は、ログ限界確率を推定する際のバイアス分散計算トレードオフについて議論している。 目的関数のバイアスが小さいことを保証するために,ログ限界確率を推定する際に使用する計算量を適応的に選択する手法を提案する。 原理的には単純だが,本手法の現在の実装は既存の近似値と競合しない。

Recent work in scalable approximate Gaussian process regression has discussed a bias-variance-comput ation trade-off when estimating the log marginal likelihood. We suggest a method that adaptively selects the amount of computation to use when estimating the log marginal likelihood so that the bias of the objective function is guaranteed to be small. While simple in principle, our current implementation of the method is not competitive computationally with existing approximations.
翻訳日:2021-09-21 16:50:12 公開日:2021-09-20
# エッジ相似性アウェアグラフニューラルネットワーク

Edge-similarity-awar e Graph Neural Networks ( http://arxiv.org/abs/2109.09432v1 )

ライセンス: Link先を確認
Vincent Mallet, Carlos G. Oliver and William L. Hamilton(参考訳) グラフはフレキシブルでコンパクトな表現であるため、ユビキタスなデータ表現である。 例えば、RNAの3D構造は$\textit{2.5D graphs}$、ノードがヌクレオチドでエッジが化学相互作用を表すグラフとして効率的に表現できる。 この環境では、化学相互作用が他のものとより似ているため、エッジタイプ間の類似性が生物学的に証明される。 グラフ上の機械学習は最近、グラフニューラルネットワークの導入でブレークスルーを経験した。 このアルゴリズムはグラフエッジ上のグラフノード間のメッセージパッシングアルゴリズムとしてフレーム化することができる。 これらのメッセージは、送信されるエッジタイプに依存することができるが、エッジタイプが変更されたときにメッセージがどう変更されたかを制限するメソッドはない。 RNAのユースケースによって動機づけられたこのプロジェクトでは、エッジ間の類似性に関する事前情報を活用するグラフニューラルネットワークレイヤを導入します。 この類似性を先に含めるという理論的魅力にもかかわらず、経験的性能は、ここで含めるタスクやデータセットでは向上しない。

Graph are a ubiquitous data representation, as they represent a flexible and compact representation. For instance, the 3D structure of RNA can be efficiently represented as $\textit{2.5D graphs}$, graphs whose nodes are nucleotides and edges represent chemical interactions. In this setting, we have biological evidence of the similarity between the edge types, as some chemical interactions are more similar than others. Machine learning on graphs have recently experienced a breakthrough with the introduction of Graph Neural Networks. This algorithm can be framed as a message passing algorithm between graph nodes over graph edges. These messages can depend on the edge type they are transmitted through, but no method currently constrains how a message is altered when the edge type changes. Motivated by the RNA use case, in this project we introduce a graph neural network layer which can leverage prior information about similarities between edges. We show that despite the theoretical appeal of including this similarity prior, the empirical performance is not enhanced on the tasks and datasets we include here.
翻訳日:2021-09-21 16:50:05 公開日:2021-09-20
# レーダー降雨製品のcnnによる時間分解能

CNN-based Temporal Super Resolution of Radar Rainfall Products ( http://arxiv.org/abs/2109.09289v1 )

ライセンス: Link先を確認
Muhammed Sit, Bong-Chul Seo and Ibrahim Demir(参考訳) 降雨データの時間的・空間的解像度は、その空間的・時間的変動を主要因とする気候変動モデリング研究において重要である。 異なるリモートセンシング機器(レーダーや衛星など)からの降雨物は、そのセンシング能力が異なるため、異なる時空間解像度を提供する。 比較的低い解像度の製品を補完するために,降雨データを時間分解能で拡張する手法を開発した。 本研究では,レーダーによる降雨量の時間分解能を向上させるために,畳み込みニューラルネットワーク(CNN)に基づくニューラルネットワークアーキテクチャを提案する。

The temporal and spatial resolution of rainfall data is crucial for climate change modeling studies in which its variability in space and time is considered as a primary factor. Rainfall products from different remote sensing instruments (e.g., radar or satellite) provide different space-time resolutions because of the differences in their sensing capabilities. We developed an approach that augments rainfall data with increased time resolutions to complement relatively lower resolution products. This study proposes a neural network architecture based on Convolutional Neural Networks (CNNs) to improve temporal resolution of radar-based rainfall products and compares the proposed model with an optical flow-based interpolation method.
翻訳日:2021-09-21 16:49:26 公開日:2021-09-20
# 自動車産業における室内センシングの背景-フォアグラウンドセグメンテーション

Background-Foregroun d Segmentation for Interior Sensing in Automotive Industry ( http://arxiv.org/abs/2109.09410v1 )

ライセンス: Link先を確認
Claudia Drygala, Matthias Rottmann, Hanno Gottschalk, Klaus Friedrichs and Thomas Kurbiel(参考訳) 自動走行の安全性を確保するため、車内状況の正しい認識はその環境と同様に重要である。 したがって、座席の占有状況の検出と検出されたインスタンスの分類は、室内センシングにおいて重要な役割を果たす。 座席占有状況の知識により、例えばエアバッグ配置制御の自動化が可能である。 さらに、自動化レベル2〜4の部分自動化運転車に必要な運転者の存在を確認することができる。 本研究では,画像セグメンテーションの分野と異なる統計手法を比較し,カメラを用いたインテリアセンシングにおける背景セグメンテーションの問題にアプローチする。 近年,様々な技術に基づく手法が開発され,様々なアプリケーションからの画像やビデオに応用されている。 与えられた内部センシングのシナリオの特異性は、前景インスタンスと背景の両方が静的および動的要素を含むことである。 この研究で考慮されたデータでは、カメラの位置も完全に固定されていない。 本稿では,Gaussian Mixture Models(GMM),Morpholo gical Snakes,Deep Neural Network(Mask R-CNN)の3つの異なる手法をレビューし,ベンチマークする。 特に、内部センシングのための古典的手法であるgmmと形態的ヘビの限界が示されている。 さらに、Mask R-CNNのような深層学習によってこれらの制限を克服することが可能である。 トレーニングには少量の真実データしか利用できなかったが、我々はMask R-CNNがトランスファーラーニングにより高品質な背景マスクを作成できるようになった。 さらに,前処理法と後処理法を併用することで,さらなる性能向上が期待できることを示した。

To ensure safety in automated driving, the correct perception of the situation inside the car is as important as its environment. Thus, seat occupancy detection and classification of detected instances play an important role in interior sensing. By the knowledge of the seat occupancy status, it is possible to, e.g., automate the airbag deployment control. Furthermore, the presence of a driver, which is necessary for partially automated driving cars at the automation levels two to four can be verified. In this work, we compare different statistical methods from the field of image segmentation to approach the problem of background-foregroun d segmentation in camera based interior sensing. In the recent years, several methods based on different techniques have been developed and applied to images or videos from different applications. The peculiarity of the given scenarios of interior sensing is, that the foreground instances and the background both contain static as well as dynamic elements. In data considered in this work, even the camera position is not completely fixed. We review and benchmark three different methods ranging, i.e., Gaussian Mixture Models (GMM), Morphological Snakes and a deep neural network, namely a Mask R-CNN. In particular, the limitations of the classical methods, GMM and Morphological Snakes, for interior sensing are shown. Furthermore, it turns, that it is possible to overcome these limitations by deep learning, e.g.\ using a Mask R-CNN. Although only a small amount of ground truth data was available for training, we enabled the Mask R-CNN to produce high quality background-foregroun d masks via transfer learning. Moreover, we demonstrate that certain augmentation as well as pre- and post-processing methods further enhance the performance of the investigated methods.
翻訳日:2021-09-21 16:49:14 公開日:2021-09-20
# スパースLiDARによる自己教師付き単眼深度学習の促進

Advancing Self-supervised Monocular Depth Learning with Sparse LiDAR ( http://arxiv.org/abs/2109.09628v1 )

ライセンス: Link先を確認
Ziyue Feng, Longlong Jing, Peng Yin, Yingli Tian, Bing Li(参考訳) 自己教師付き単眼深度予測は、各ピクセルの3D位置を求めるためのコスト効率の良いソリューションを提供する。 しかし、既存のアプローチは一般的には不十分な精度につながり、自律ロボットにとって重要である。 本稿では,低コストスパース(例えば4ビーム)LiDARを利用して,自己教師付き単分子深度学習を進めるための2段階ネットワークを提案する。 スパースLiDARを主に時間を要する反復的後処理で使用する既存の手法とは異なり,本モデルは単眼画像特徴とスパースLiDAR特徴を融合させて初期深度マップを推定する。 さらに, 擬似3次元空間における初期深度マップの誤りをリアルタイムに補正するために, 効率的なフィードフォワード精細ネットワークを設計する。 大規模実験により,提案手法は, 自己教師付き単分子深度予測および完了タスクにおけるスパース-LiDAR法と同様に, 最先端の自己教師付き手法を著しく上回ることがわかった。 精度の高い深度予測を行うことで,KITTIリーダボード上の下流タスク単眼3Dオブジェクト検出において,最先端のスパース-LiDAR法(Pseudo-LiDAR++)を68%以上向上させる。

Self-supervised monocular depth prediction provides a cost-effective solution to obtain the 3D location of each pixel. However, the existing approaches usually lead to unsatisfactory accuracy, which is critical for autonomous robots. In this paper, we propose a novel two-stage network to advance the self-supervised monocular dense depth learning by leveraging low-cost sparse (e.g. 4-beam) LiDAR. Unlike the existing methods that use sparse LiDAR mainly in a manner of time-consuming iterative post-processing, our model fuses monocular image features and sparse LiDAR features to predict initial depth maps. Then, an efficient feed-forward refine network is further designed to correct the errors in these initial depth maps in pseudo-3D space with real-time performance. Extensive experiments show that our proposed model significantly outperforms all the state-of-the-art self-supervised methods, as well as the sparse-LiDAR-based methods on both self-supervised monocular depth prediction and completion tasks. With the accurate dense depth prediction, our model outperforms the state-of-the-art sparse-LiDAR-based method (Pseudo-LiDAR++) by more than 68% for the downstream task monocular 3D object detection on the KITTI Leaderboard.
翻訳日:2021-09-21 16:48:45 公開日:2021-09-20
# TeleMelody:テンプレートベース2段階法によるLyric-to-Melody生成

TeleMelody: Lyric-to-Melody Generation with a Template-Based Two-Stage Method ( http://arxiv.org/abs/2109.09617v1 )

ライセンス: Link先を確認
Zeqian Ju, Peiling Lu, Xu Tan, Rui Wang, Chen Zhang, Songruoyao Wu, Kejun Zhang, Xiangyang Li, Tao Qin, Tie-Yan Liu(参考訳) 歌詞からメロディへの生成は自動作曲において重要な課題である。 以前の歌詞からメロディ生成システムは通常、歌詞から直接メロディを生成するエンド・ツー・エンドのモデルを採用する。 1) 合音・旋律訓練データの欠如 2) 発生した旋律の制御の欠如。 本稿では,歌詞と旋律のギャップを埋めるために,音楽テンプレート(調性,和音進行,リズムパターン,ケイデンスなど)を備えた2段階の歌詞からメロディへの生成システムであるtelemelodyを開発した。 TeleMelodyには2つの利点がある。 第一に、それはデータ効率です。 template-to-melodyモジュールは、lyric-melodyペアデータを必要としない、自己教師ありの方法でトレーニングされる(すなわち、ソーステンプレートはターゲットメロディから抽出される)。 lyric-to-templateモジュールはいくつかのルールとlyric-to-rhythmモデルで構成されており、これはペアのlyric-melodyデータよりも取得しやすいペアのlyric-rhythmデータで訓練されている。 第二に、制御可能である。 テンプレートの設計により、生成されたメロディはテンプレートの音楽要素を調整することで制御できる。 主観的および客観的な実験的評価は、TeleMelodyが、より高品質で制御性に優れたメロディを生成することを示す。

Lyric-to-melody generation is an important task in automatic songwriting. Previous lyric-to-melody generation systems usually adopt end-to-end models that directly generate melodies from lyrics, which suffer from several issues: 1) lack of paired lyric-melody training data; 2) lack of control on generated melodies. In this paper, we develop TeleMelody, a two-stage lyric-to-melody generation system with music template (e.g., tonality, chord progression, rhythm pattern, and cadence) to bridge the gap between lyrics and melodies (i.e., the system consists of a lyric-to-template module and a template-to-melody module). TeleMelody has two advantages. First, it is data efficient. The template-to-melody module is trained in a self-supervised way (i.e., the source template is extracted from the target melody) that does not need any lyric-melody paired data. The lyric-to-template module is made up of some rules and a lyric-to-rhythm model, which is trained with paired lyric-rhythm data that is easier to obtain than paired lyric-melody data. Second, it is controllable. The design of template ensures that the generated melodies can be controlled by adjusting the musical elements in template. Both subjective and objective experimental evaluations demonstrate that TeleMelody generates melodies with higher quality, better controllability, and less requirement on paired lyric-melody data than previous generation systems.
翻訳日:2021-09-21 16:48:25 公開日:2021-09-20
# ResUNet-CMBによる宇宙偏光回転の再構成

Reconstructing Cosmic Polarization Rotation with ResUNet-CMB ( http://arxiv.org/abs/2109.09715v1 )

ライセンス: Link先を確認
Eric Guzman and Joel Meyers(参考訳) 宇宙偏光回転はパリティに反する新しい物理学や原始磁場の存在によって生じる可能性があるが、宇宙マイクロ波背景(CMB)のE$モード偏光をB$モード偏光に変換する。 異方性宇宙偏光回転はCMB偏光の統計的異方性をもたらし、CMBの重力レンズ用に設計されたものと似た2次推定器技術で再構成することができる。 今後のcmb調査の感度において、レンズリングによって引き起こされる$b$-mode偏光は、異方性宇宙偏光回転の探索の制限因子となり、将来の調査で効果の制約を改善するために何らかのデレンスを組み込んだ分析が必要となる。 本稿では,ResUNet-CMB畳み込みニューラルネットワークを拡張して,重力レンズやパッチ状再イオン化の存在下での異方性宇宙偏光回転を再構築する。

Cosmic polarization rotation, which may result from parity-violating new physics or the presence of primordial magnetic fields, converts $E$-mode polarization of the cosmic microwave background (CMB) into $B$-mode polarization. Anisotropic cosmic polarization rotation leads to statistical anisotropy in CMB polarization and can be reconstructed with quadratic estimator techniques similar to those designed for gravitational lensing of the CMB. At the sensitivity of upcoming CMB surveys, lensing-induced $B$-mode polarization will act as a limiting factor in the search for anisotropic cosmic polarization rotation, meaning that an analysis which incorporates some form of delensing will be required to improve constraints on the effect with future surveys. In this paper we extend the ResUNet-CMB convolutional neural network to reconstruct anisotropic cosmic polarization rotation in the presence of gravitational lensing and patchy reionization, and we show that the network simultaneously reconstructs all three effects with variance that is lower than that from the standard quadratic estimator nearly matching the performance of an iterative reconstruction method.
翻訳日:2021-09-21 16:46:26 公開日:2021-09-20
# sum-of-normsクラスタリングのローカルバージョン

Local versions of sum-of-norms clustering ( http://arxiv.org/abs/2109.09589v1 )

ライセンス: Link先を確認
Alexander Dunlap and Jean-Christophe Mourrat(参考訳) sum-of-normsクラスタリングは、多変量データのクラスタリングにソリューションが使用できる凸最適化問題である。 本手法の局所化バージョンを提案・検討し,特に確率球モデルにおいて任意に近接した球を分離できることを示す。 より正確には、不随伴連結集合のクラスタリングで生じる誤差に定量的な境界が証明される。 我々の境界は、データポイントの数と関数の局所化長で表される。

Sum-of-norms clustering is a convex optimization problem whose solution can be used for the clustering of multivariate data. We propose and study a localized version of this method, and show in particular that it can separate arbitrarily close balls in the stochastic ball model. More precisely, we prove a quantitative bound on the error incurred in the clustering of disjoint connected sets. Our bound is expressed in terms of the number of datapoints and the localization length of the functional.
翻訳日:2021-09-21 16:42:33 公開日:2021-09-20
# スケールでのニューラル予測

Neural forecasting at scale ( http://arxiv.org/abs/2109.09705v1 )

ライセンス: Link先を確認
Philippe Chatigny, Boris N. Oreshkin, Jean-Marc Patenaude and, Shengrui Wang(参考訳) 本研究では,時系列予測のためのアンサンブル型深層ニューラルネットワークの効率良くスケーリングする問題について検討する。 現在の最先端のディープアンサンブルモデルでは、メモリと計算の要求が高く、現実的なシナリオでは数百万のTSを予測できない。 N-BEATS(P)は、複数の単変量TS予測モデルの同時学習を可能にするために設計されたN-BEATSモデルのグローバル多変量変種である。 本モデルでは,学習時間を半減し,メモリ要件を5倍に抑えるとともに,同一レベルの精度を維持しながら,関連モデルの実用的限界に対処する。 我々は、モデルをトレーニングする方法を詳細に説明した複数の実験を行い、ゼロショットTS予測をサポートする能力、すなわち、ソースTSデータセット上でニューラルネットワークをトレーニングし、リトレーニングなしで異なるターゲットTSデータセットにデプロイする能力を示す結果を得た。

We study the problem of efficiently scaling ensemble-based deep neural networks for time series (TS) forecasting on a large set of time series. Current state-of-the-art deep ensemble models have high memory and computational requirements, hampering their use to forecast millions of TS in practical scenarios. We propose N-BEATS(P), a global multivariate variant of the N-BEATS model designed to allow simultaneous training of multiple univariate TS forecasting models. Our model addresses the practical limitations of related models, reducing the training time by half and memory requirement by a factor of 5, while keeping the same level of accuracy. We have performed multiple experiments detailing the various ways to train our model and have obtained results that demonstrate its capacity to support zero-shot TS forecasting, i.e., to train a neural network on a source TS dataset and deploy it on a different target TS dataset without retraining, which provides an efficient and reliable solution to forecast at scale even in difficult forecasting conditions.
翻訳日:2021-09-21 16:42:25 公開日:2021-09-20
# 再生カーネルバナッハ空間を用いたニューラルネットワークの理解

Understanding neural networks with reproducing kernel Banach spaces ( http://arxiv.org/abs/2109.09710v1 )

ライセンス: Link先を確認
Francesca Bartolucci, Ernesto De Vito, Lorenzo Rosasco, Stefano Vigogna(参考訳) ニューラルネットワークに対応する関数空間の特徴付けは、その特性を理解する方法を提供する。 本稿では,カーネルバナッハ空間を再生する理論を用いて,この課題に取り組む方法について述べる。 特に、適切な積分表現を許容し、潜在的に無限幅の隠れ層ニューラルネットワークを含む、幅広い種類の再生核バナッハ空間に対する表現者定理を証明した。 さらに、ReLU活性化関数の適切なクラスに対して、対応する再生カーネルバナッハ空間のノルムは、その測度の全変動ノルムによって与えられる有界実測度の逆ラドン変換によって特徴づけられることを示す。 我々の分析は[34,29,30]の最近の結果を単純化し、拡張する。

Characterizing the function spaces corresponding to neural networks can provide a way to understand their properties. In this paper we discuss how the theory of reproducing kernel Banach spaces can be used to tackle this challenge. In particular, we prove a representer theorem for a wide class of reproducing kernel Banach spaces that admit a suitable integral representation and include one hidden layer neural networks of possibly infinite width. Further, we show that, for a suitable class of ReLU activation functions, the norm in the corresponding reproducing kernel Banach space can be characterized in terms of the inverse Radon transform of a bounded real measure, with norm given by the total variation norm of the measure. Our analysis simplifies and extends recent results in [34,29,30].
翻訳日:2021-09-21 16:42:09 公開日:2021-09-20
# 深層学習による子宮の3次元超音波分割

Automatic 3D Ultrasound Segmentation of Uterus Using Deep Learning ( http://arxiv.org/abs/2109.09283v1 )

ライセンス: Link先を確認
Bahareh Behboodi, Hassan Rivaz, Susan Lalondrelle, and Emma Harris(参考訳) 子宮のオンラインセグメンテーションは、子宮頸癌放射線治療中の標的組織(子宮頸管)への正確な投与を効果的にイメージベースで誘導するのに役立つ。 3D超音波(US)は子宮の画像化に利用することができるが, 子宮の位置や形状が大きく変化したこと, 膀胱充填量が大きく変化したこと, 高度方向の低分解能や画像収差などの3DUS画像の限界により, 子宮内の子宮境界の位置の特定は難しい課題である。 子宮セグメンテーションに関するこれまでの研究は、専門医が手動初期化を必要とする半自動アルゴリズムの開発に主眼を置いていた。 本研究の目的は,近年の深層学習に基づくアルゴリズムを用いた半自動アルゴリズムにおいて,手動初期化の必要性を克服することであった。 そこで我々は2つのシナリオに基づいてトレーニングされた2次元UNetネットワークを開発した。 最初のシナリオでは、各平面上の3つの異なるネットワーク(矢状、コロナ、軸)を個別に訓練した。 第2のシナリオでは、提案するネットワークは、各3次元体積のすべての平面を用いて訓練された。 提案手法は,先行する半自動アルゴリズムの手動選択を克服できる。

On-line segmentation of the uterus can aid effective image-based guidance for precise delivery of dose to the target tissue (the uterocervix) during cervix cancer radiotherapy. 3D ultrasound (US) can be used to image the uterus, however, finding the position of uterine boundary in US images is a challenging task due to large daily positional and shape changes in the uterus, large variation in bladder filling, and the limitations of 3D US images such as low resolution in the elevational direction and imaging aberrations. Previous studies on uterus segmentation mainly focused on developing semi-automatic algorithms where require manual initialization to be done by an expert clinician. Due to limited studies on the automatic 3D uterus segmentation, the aim of the current study was to overcome the need for manual initialization in the semi-automatic algorithms using the recent deep learning-based algorithms. Therefore, we developed 2D UNet-based networks that are trained based on two scenarios. In the first scenario, we trained 3 different networks on each plane (i.e., sagittal, coronal, axial) individually. In the second scenario, our proposed network was trained using all the planes of each 3D volume. Our proposed schematic can overcome the initial manual selection of previous semi-automatic algorithm.
翻訳日:2021-09-21 16:40:59 公開日:2021-09-20
# PointNets を用いたレーダデータの異常検出

Anomaly Detection in Radar Data Using PointNets ( http://arxiv.org/abs/2109.09401v1 )

ライセンス: Link先を確認
Thomas Griebel, Dominik Authaler, Markus Horn, Matti Henning, Michael Buchholz, and Klaus Dietmayer(参考訳) 自動運転では、レーダーは重要なセンサータイプである。 一方、レーダーは、環境中のターゲットの放射速度を直接測定する。 一方、文献では、レーダーセンサーは様々な悪天候に対して頑健であることが知られている。 しかし、マイナス面として、レーダーはゴーストターゲットや、環境中の反射面など、いくつかの異なる原因によって引き起こされるクラッタの影響を受けやすい。 例えばゴーストターゲットは、誤ったオブジェクト検出につながる可能性がある。 この目的のために、レーダーデータにおいて、できるだけ早く異常目標を特定することが望ましい。 本研究では,PointNetsをベースとした異常なレーダーターゲット検出手法を提案する。 タスクによって駆動される PointNet-architectur e を改良し,マルチフォームグルーピングモジュールに寄与する新しいグルーピング変種を開発した。 本手法は,都市シナリオにおける実世界のデータセット上で評価され,異常レーダ目標の検出に有望な結果を示す。

For autonomous driving, radar is an important sensor type. On the one hand, radar offers a direct measurement of the radial velocity of targets in the environment. On the other hand, in literature, radar sensors are known for their robustness against several kinds of adverse weather conditions. However, on the downside, radar is susceptible to ghost targets or clutter which can be caused by several different causes, e.g., reflective surfaces in the environment. Ghost targets, for instance, can result in erroneous object detections. To this end, it is desirable to identify anomalous targets as early as possible in radar data. In this work, we present an approach based on PointNets to detect anomalous radar targets. Modifying the PointNet-architectur e driven by our task, we developed a novel grouping variant which contributes to a multi-form grouping module. Our method is evaluated on a real-world dataset in urban scenarios and shows promising results for the detection of anomalous radar targets.
翻訳日:2021-09-21 16:40:40 公開日:2021-09-20
# 映画脚本の重大さを予言する「None to Severe」

From None to Severe: Predicting Severity in Movie Scripts ( http://arxiv.org/abs/2109.09276v1 )

ライセンス: Link先を確認
Yigeng Zhang, Mahsa Shafaei, Fabio Gonzalez, Thamar Solorio(参考訳) 本稿では,対話スクリプトのみに基づいて,映画コンテンツの年齢制限面の重大さを予測するタスクを紹介する。 まず, 性, 暴力, 狂気, 物質消費, 恐怖場面の5つの側面から, 映画の順序的重大さを分類した。 この問題は、予測の解釈性を同時に改善するシアムネットワークベースのマルチタスクフレームワークを用いて処理される。 実験の結果,提案手法は従来の最先端モデルよりも優れており,モデル予測の解釈に有用な情報を提供することがわかった。 提案されたデータセットとソースコードは、GitHubリポジトリで公開されています。

In this paper, we introduce the task of predicting severity of age-restricted aspects of movie content based solely on the dialogue script. We first investigate categorizing the ordinal severity of movies on 5 aspects: Sex, Violence, Profanity, Substance consumption, and Frightening scenes. The problem is handled using a siamese network-based multitask framework which concurrently improves the interpretability of the predictions. The experimental results show that our method outperforms the previous state-of-the-art model and provides useful information to interpret model predictions. The proposed dataset and source code are publicly available at our GitHub repository.
翻訳日:2021-09-21 16:36:54 公開日:2021-09-20
# 単語連想と概念ネットにおける常識知識

Commonsense Knowledge in Word Associations and ConceptNet ( http://arxiv.org/abs/2109.09309v1 )

ライセンス: Link先を確認
Chunhua Liu and Trevor Cohn and Lea Frermann(参考訳) 人間は、世界に関する無数の基本的な共有事実を使って、環境を効率的にナビゲートします。 このコモンセンス知識は明確に伝達されることはめったにないが、人間の認識の深い理解と自動推論システムの拡張には、コモンセンス知識が異なるパラダイムでどのように表現されるかを理解することが重要である。 本稿では,クラウドソース型単語関連データベースConcpetNetと,クラウドソース型単語関連から派生した知識グラフSWOWの2つの大規模知識資源の詳細な比較を行った。 本研究では,2つのグラフの構造,重なり,差異,状況の共通性に関する知識をエンコードする程度について検討する。 最後に,テキストのみのベースラインよりも,共通意味推論ベンチマークのダウンストリームタスクパフォーマンスが両リソースとも向上することを示すとともに,クラウドソーシングによって複数の言語で得られた大規模単語連想データが,キュレーションされたナレッジグラフを補完する価値ある補完となることを示唆する。

Humans use countless basic, shared facts about the world to efficiently navigate in their environment. This commonsense knowledge is rarely communicated explicitly, however, understanding how commonsense knowledge is represented in different paradigms is important for both deeper understanding of human cognition and for augmenting automatic reasoning systems. This paper presents an in-depth comparison of two large-scale resources of general knowledge: ConcpetNet, an engineered relational database, and SWOW a knowledge graph derived from crowd-sourced word associations. We examine the structure, overlap and differences between the two graphs, as well as the extent to which they encode situational commonsense knowledge. We finally show empirically that both resources improve downstream task performance on commonsense reasoning benchmarks over text-only baselines, suggesting that large-scale word association data, which have been obtained for several languages through crowd-sourcing, can be a valuable complement to curated knowledge graphs
翻訳日:2021-09-21 16:36:42 公開日:2021-09-20
# WMT21のためのCUNIシステム:ターミノロジー変換共有タスク

CUNI systems for WMT21: Terminology translation Shared Task ( http://arxiv.org/abs/2109.09350v1 )

ライセンス: Link先を確認
Josef Jon, Michal Nov\'ak, Jo\~ao Paulo Aires, Du\v{s}an Vari\v{s} and Ond\v{r}ej Bojar(参考訳) 本稿では,チャールズ大学がWMT21で行ったターミノロジー翻訳作業について述べる。 このタスクの目的は、提供された用語データベースに基づいて特定の用語を翻訳し、高い全体的な翻訳品質を維持するシステムを設計することである。 私たちは英語とフランス語のペアで競った。 提案手法は,入力文とともに所望の翻訳を提供し,提案した用語を使用するようにモデルを訓練することに基づいている。 用語データベースで提供される形式と異なる場合, モデルが単語の表面形状を正しく生成する方法を学習できるように, トレーニング中と推論中の両方で用語を補足する。 提案手法は,翻訳において所望の語を生成できるモデルの有効性を評価する,エクサクソンマッチングの2位にランク付けした。

This paper describes Charles University submission for Terminology translation Shared Task at WMT21. The objective of this task is to design a system which translates certain terms based on a provided terminology database, while preserving high overall translation quality. We competed in English-French language pair. Our approach is based on providing the desired translations alongside the input sentence and training the model to use these provided terms. We lemmatize the terms both during the training and inference, to allow the model to learn how to produce correct surface forms of the words, when they differ from the forms provided in the terminology database. Our submission ranked second in Exact Match metric which evaluates the ability of the model to produce desired terms in the translation.
翻訳日:2021-09-21 16:36:22 公開日:2021-09-20
# wmt21用cuniシステム:インド・ヨーロッパ言語共用タスクのための多言語低リソース翻訳

CUNI systems for WMT21: Multilingual Low-Resource Translation for Indo-European Languages Shared Task ( http://arxiv.org/abs/2109.09354v1 )

ライセンス: Link先を確認
Josef Jon, Michal Nov\'ak, Jo\~ao Paulo Aires, Du\v{s}an Vari\v{s} and Ond\v{r}ej Bojar(参考訳) 本稿では,チャールズ大学がWMT21で行った多言語低リソース翻訳の課題について述べる。 我々はカタルーニャ語からルーマニア語、イタリア語、オチタン語への翻訳を競った。 我々のシステムは共有多言語モデルに基づいている。 複数の類似言語ペアに対するジョイントモデルを用いることで,各ペアの翻訳品質が向上することを示す。 また,キャララクタレベルのバイリンガルモデルは,非常に類似した言語対(カタルーニャ語-オクシタン)に対して競争的であるが,より遠い言語対ではそうではないことを実証した。 また,テキスト翻訳以外では,グラファイムから音素への変換を行うためにモデルも訓練されているマルチタスク学習の実験について述べる。

This paper describes Charles University submission for Multilingual Low-Resource Translation for Indo-European Languages shared task at WMT21. We competed in translation from Catalan into Romanian, Italian and Occitan. Our systems are based on shared multilingual model. We show that using joint model for multiple similar language pairs improves upon translation quality in each pair. We also demonstrate that chararacter-level bilingual models are competitive for very similar language pairs (Catalan-Occitan) but less so for more distant pairs. We also describe our experiments with multi-task learning, where aside from a textual translation, the models are also trained to perform grapheme-to-phoneme conversion.
翻訳日:2021-09-21 16:36:10 公開日:2021-09-20
# タスク指向ボットのトレーニングのためのクラウドソーシング

Crowdsourcing Diverse Paraphrases for Training Task-oriented Bots ( http://arxiv.org/abs/2109.09420v1 )

ライセンス: Link先を確認
Jorge Ram\'irez, Auday Berro, Marcos Baez, Boualem Benatallah, Fabio Casati(参考訳) タスク指向のボットをトレーニングするためのデータセットを構築するための顕著なアプローチは、クラウドベースのパラフレーズである。 しかし、現在のアプローチでは、群衆は自然に多様なパラフレーズを提供し、語彙の多様性にのみ焦点をあてている。 このWiPでは、多様性の見過ごされた側面に対処し、シンタクティックに多様性のあるパラフレーズへのクラウドソーシングプロセスを導くアプローチを導入しました。

A prominent approach to build datasets for training task-oriented bots is crowd-based paraphrasing. Current approaches, however, assume the crowd would naturally provide diverse paraphrases or focus only on lexical diversity. In this WiP we addressed an overlooked aspect of diversity, introducing an approach for guiding the crowdsourcing process towards paraphrases that are syntactically diverse.
翻訳日:2021-09-21 16:35:57 公開日:2021-09-20
# PLATO-XL:対話生成の大規模事前学習を探る

PLATO-XL: Exploring the Large-scale Pre-training of Dialogue Generation ( http://arxiv.org/abs/2109.09519v1 )

ライセンス: Link先を確認
Siqi Bao, Huang He, Fan Wang, Hua Wu, Haifeng Wang, Wenquan Wu, Zhihua Wu, Zhen Guo, Hua Lu, Xinxian Huang, Xin Tian, Xinchao Xu, Yingzhan Lin, Zhengyu Niu(参考訳) 対話生成の事前学習の限界を探るために,中国語と英語のソーシャルメディア会話で訓練された最大11億パラメータのplato-xlモデルを提示する。 このような大規模モデルのトレーニングには,高い計算とパラメータ効率で統一変換器のアーキテクチャを採用する。 さらに,ソーシャルメディアの会話における特徴情報をよりよく識別するために,複数政党による事前学習を実施している。 このような設計により、PLATO-XLは、中国語と英語のchitchatの他のアプローチと比較して、優れたパフォーマンスを実現している。 さらに,知識基盤対話やタスク指向会話など,他の会話課題におけるPLATO-XLの能力についても検討する。 実験結果から,PLATO-XLは対話型AIの基礎モデルとしての可能性を検証し,複数の対話型タスクにまたがる最先端の成果が得られることが示された。

To explore the limit of dialogue generation pre-training, we present the models of PLATO-XL with up to 11 billion parameters, trained on both Chinese and English social media conversations. To train such large models, we adopt the architecture of unified transformer with high computation and parameter efficiency. In addition, we carry out multi-party aware pre-training to better distinguish the characteristic information in social media conversations. With such designs, PLATO-XL successfully achieves superior performances as compared to other approaches in both Chinese and English chitchat. We further explore the capacity of PLATO-XL on other conversational tasks, such as knowledge grounded dialogue and task-oriented conversation. The experimental results indicate that PLATO-XL obtains state-of-the-art results across multiple conversational tasks, verifying its potential as a foundation model of conversational AI.
翻訳日:2021-09-21 16:35:50 公開日:2021-09-20
# JobBERT: スキルによる仕事のタイトル理解

JobBERT: Understanding Job Titles through Skills ( http://arxiv.org/abs/2109.09605v1 )

ライセンス: Link先を確認
Jens-Joris Decorte, Jeroen Van Hautte, Thomas Demeester, Chris Develder(参考訳) ジョブタイトルは、今日の人事(人事)プロセスの基盤を形成します。 オンラインリクルートでは、候補者は空席の内容を一目で理解できるが、社内人事部はそれらを使って多くのプロセスを整理し構成する。 ジョブタイトルはコンパクトで便利で手軽に利用できるデータソースであるため、高い精度でそれらをモデリングすることは、多くの人事技術アプリケーションにとって大きな恩恵となる。 本稿では,空き地から抽出したスキルラベルからの共起情報を用いて,事前学習した言語モデルを拡張した求職者のニューラル表現モデルを提案する。 ジョブBERT法は,ジョブタイトル正規化のタスクにおいて汎用文エンコーダを使用する場合に比べて大幅に改善され,新たな評価ベンチマークがリリースされた。

Job titles form a cornerstone of today's human resources (HR) processes. Within online recruitment, they allow candidates to understand the contents of a vacancy at a glance, while internal HR departments use them to organize and structure many of their processes. As job titles are a compact, convenient, and readily available data source, modeling them with high accuracy can greatly benefit many HR tech applications. In this paper, we propose a neural representation model for job titles, by augmenting a pre-trained language model with co-occurrence information from skill labels extracted from vacancies. Our JobBERT method leads to considerable improvements compared to using generic sentence encoders, for the task of job title normalization, for which we release a new evaluation benchmark.
翻訳日:2021-09-21 16:35:35 公開日:2021-09-20
# BARTpho:ベトナムの事前訓練シーケンスモデル

BARTpho: Pre-trained Sequence-to-Sequence Models for Vietnamese ( http://arxiv.org/abs/2109.09701v1 )

ライセンス: Link先を確認
Nguyen Luong Tran, Duong Minh Le and Dat Quoc Nguyen(参考訳) BARTpho_word と BARTpho_syllable はベトナムで事前訓練された最初の大規模モノリンガルシーケンス列列モデルである。 我々のBARTphoは、シーケンス・ツー・シーケンス・デノナイズ・モデルであるBARTの「大規模」アーキテクチャと事前学習方式を用いており、生成NLPタスクに特に適している。 ベトナム語テキスト要約の下流タスクの実験では、自動評価と人的評価の両方において、BARTphoは強いベースラインmBARTを上回り、最先端技術を改善している。 ベトナムのNLPタスクの今後の研究と応用を促進するため,BARTphoをリリースする。 私たちのBARTphoモデルは、https://github.com/V inAIResearch/BARTpho で利用可能です。

We present BARTpho with two versions -- BARTpho_word and BARTpho_syllable -- the first public large-scale monolingual sequence-to-sequence models pre-trained for Vietnamese. Our BARTpho uses the "large" architecture and pre-training scheme of the sequence-to-sequence denoising model BART, thus especially suitable for generative NLP tasks. Experiments on a downstream task of Vietnamese text summarization show that in both automatic and human evaluations, our BARTpho outperforms the strong baseline mBART and improves the state-of-the-art. We release BARTpho to facilitate future research and applications of generative Vietnamese NLP tasks. Our BARTpho models are available at: https://github.com/V inAIResearch/BARTpho
翻訳日:2021-09-21 16:35:23 公開日:2021-09-20
# ボードゲームマニュアルの自動生成

Automatic Generation of Board Game Manuals ( http://arxiv.org/abs/2109.09507v1 )

ライセンス: Link先を確認
Matthew Stephenson, Eric Piette, Dennis J. N. J. Soemers, Cameron Browne(参考訳) 本稿では,Ludiiの汎用ゲームシステム内でボードゲーム用のマニュアルを自動的に生成するプロセスを提案する。 このプロセスでは、ludiiゲーム記述の英訳、動きの可視化、勝利のハイライト、戦略説明など、多くの異なるサブタスクに対処する必要がある。 これらの側面が組み合わされて、任意のゲーム用の完全なマニュアルが作成されます。 このマニュアルは、ゲームのルールとメカニックをより直感的に説明することを目的としており、特にルディイのゲーム記述言語や文法に詳しくないプレイヤー向けにいる。

In this paper we present a process for automatically generating manuals for board games within the Ludii general game system. This process requires many different sub-tasks to be addressed, such as English translation of Ludii game descriptions, move visualisation, highlighting winning moves, strategy explanation, among others. These aspects are then combined to create a full manual for any given game. This manual is intended to provide a more intuitive explanation of a game's rules and mechanics, particularly for players who are less familiar with the Ludii game description language and grammar.
翻訳日:2021-09-21 16:34:06 公開日:2021-09-20
# シーン事前知識を用いたマルチエージェント型視覚セマンティックナビゲーション

Multi-Agent Embodied Visual Semantic Navigation with Scene Prior Knowledge ( http://arxiv.org/abs/2109.09531v1 )

ライセンス: Link先を確認
Xinzhu Liu, Di Guo, Huaping Liu, and Fuchun Sun(参考訳) 視覚意味ナビゲーションでは、ロボットはエゴセントリックな視覚観察で対象オブジェクトにナビゲートし、対象のクラスラベルが与えられる。 関連する研究の急増を刺激する有意義なタスクである。 しかし、既存のモデルのほとんどは単一エージェントナビゲーションにのみ有効であり、より複雑なタスクを完了すると、単一のエージェントは低効率で耐障害性が低い。 マルチエージェントコラボレーションは効率を向上し、強い応用可能性を持つ。 本稿では,複数のエージェントが協調して複数の対象オブジェクトを探索するマルチエージェント視覚意味ナビゲーションを提案する。 コミュニケーション帯域の制限の下で効率的な探索を行うためには,エージェントが合理的なコラボレーション戦略を学ぶ必要がある。 この課題を解決するために, 意味マッピング, シーン先行知識, コミュニケーション機構に基づく階層的決定フレームワークを開発した。 未知の物体と未知の物体の両方を含む未発見のシーンにおけるテスト実験の結果は、単一エージェントモデルと比較して提案モデルの精度と効率が高かったことを示している。

In visual semantic navigation, the robot navigates to a target object with egocentric visual observations and the class label of the target is given. It is a meaningful task inspiring a surge of relevant research. However, most of the existing models are only effective for single-agent navigation, and a single agent has low efficiency and poor fault tolerance when completing more complicated tasks. Multi-agent collaboration can improve the efficiency and has strong application potentials. In this paper, we propose the multi-agent visual semantic navigation, in which multiple agents collaborate with others to find multiple target objects. It is a challenging task that requires agents to learn reasonable collaboration strategies to perform efficient exploration under the restrictions of communication bandwidth. We develop a hierarchical decision framework based on semantic mapping, scene prior knowledge, and communication mechanism to solve this task. The results of testing experiments in unseen scenes with both known objects and unknown objects illustrate the higher accuracy and efficiency of the proposed model compared with the single-agent model.
翻訳日:2021-09-21 16:33:57 公開日:2021-09-20
# 漸近因果推論

Asymptotic Causal Inference ( http://arxiv.org/abs/2109.09653v1 )

ライセンス: Link先を確認
Sridhar Mahadevan(参考訳) 情報理論の枠組みを用いて,変数数が無限に近づいた漸近的体系における因果推論について検討する。 我々は, エッジ密度dでパラメータ化されたすべての有向非巡回グラフ (DAG) の対数的成長速度によって測定される記述複雑性の観点から, 因果モデルの構造エントロピーを定義する。 構造エントロピーは直観的でない予測をもたらす。 すべてのモデルの空間から、d = (0, 1/8) の範囲でDAGをランダムにサンプリングすると、ほぼ確実に2層DAGとなる。 セマンティックエントロピーは、エッジが因果介入によって除去されるエントロピーの減少を定量化する。 セマンティック因果エントロピーは、観察分布と介入分布P'の間のf分割として定義され、エッジのサブセットSが介在して因果的影響を決定する。 kl-divergence, squared hellinger distance, total variation distanceなどf-divergencesの異なる選択に対する意味エントロピーの分解性の比較を行った。 提案手法を応用して, 大規模データセットにおける因果推論の研究に応用し, 1つの変数(例えば, 発電所, オンライン店舗のアイテム)に対して介入を行うが, 解離した変数(電力工場, 買い物客付近の居住者, あるいは買い物客)に対して結果を測定する。 両部設計をk-部分設計に一般化し、d \in (0, 1/2) の任意の値に対して最適なkレベルDAGアーキテクチャを求めるための最適化フレームワークを記述する。 エッジ密度が増加すると、dの非連結区間で相転移が連続し、より深いdagアーキテクチャがdのより大きな値に出現する。 また,k成分設計における平均因果影響の検証に必要な試料数を定量的に評価した。

We investigate causal inference in the asymptotic regime as the number of variables approaches infinity using an information-theoreti c framework. We define structural entropy of a causal model in terms of its description complexity measured by the logarithmic growth rate, measured in bits, of all directed acyclic graphs (DAGs), parameterized by the edge density d. Structural entropy yields non-intuitive predictions. If we randomly sample a DAG from the space of all models, in the range d = (0, 1/8), almost surely the model is a two-layer DAG! Semantic entropy quantifies the reduction in entropy where edges are removed by causal intervention. Semantic causal entropy is defined as the f-divergence between the observational distribution and the interventional distribution P', where a subset S of edges are intervened on to determine their causal influence. We compare the decomposability properties of semantic entropy for different choices of f-divergences, including KL-divergence, squared Hellinger distance, and total variation distance. We apply our framework to generalize a recently popular bipartite experimental design for studying causal inference on large datasets, where interventions are carried out on one set of variables (e.g., power plants, items in an online store), but outcomes are measured on a disjoint set of variables (residents near power plants, or shoppers). We generalize bipartite designs to k-partite designs, and describe an optimization framework for finding the optimal k-level DAG architecture for any value of d \in (0, 1/2). As edge density increases, a sequence of phase transitions occur over disjoint intervals of d, with deeper DAG architectures emerging for larger values of d. We also give a quantitative bound on the number of samples needed to reliably test for average causal influence for a k-partite design.
翻訳日:2021-09-21 16:33:41 公開日:2021-09-20
# 複数インスタンスを複数構成で構成する

Configuring Multiple Instances with Multi-Configuration ( http://arxiv.org/abs/2109.09696v1 )

ライセンス: Link先を確認
Alexander Felfernig, Andrei Popescu, Mathias Uta, Viet-Man Le, Seda Polat-Erdeniz, Martin Stettinger, M\"usl\"um Atas, and Thi Ngoc Trang Tran(参考訳) 構成は人工知能の応用分野として成功している。 ほとんどの場合、構成システムは、単一のユーザまたはユーザグループの好みを満たす1つのソリューション(構成)を設定することに重点を置いています。 本稿では,構成プロセスの結果が構成の集合であるシナリオに焦点を当てた,新しい構成アプローチであるmulti-configurationを導入する。 その例として、個々の学生の個別試験の設定、プロジェクトチームの構成、レビュアーとペーパーの割り当て、観光団体の個別都市旅行を含むホテルルームの割り当てがある。 マルチコンフィグレーションシナリオでは,テスト設定のコンテキストにおける制約満足度問題表現を例示する。 この論文は、今後の作業に対するオープンイシューに関する議論で締めくくられている。

Configuration is a successful application area of Artificial Intelligence. In the majority of the cases, configuration systems focus on configuring one solution (configuration) that satisfies the preferences of a single user or a group of users. In this paper, we introduce a new configuration approach - multi-configuration - that focuses on scenarios where the outcome of a configuration process is a set of configurations. Example applications thereof are the configuration of personalized exams for individual students, the configuration of project teams, reviewer-to-paper assignment, and hotel room assignments including individualized city trips for tourist groups. For multi-configuration scenarios, we exemplify a constraint satisfaction problem representation in the context of configuring exams. The paper is concluded with a discussion of open issues for future work.
翻訳日:2021-09-21 16:33:08 公開日:2021-09-20
# ラベルなしマルチビュー画像を用いた半教師付き高密度キーポイント

Semi-supervised Dense Keypointsusing Unlabeled Multiview Images ( http://arxiv.org/abs/2109.09299v1 )

ライセンス: Link先を確認
Zhixuan Yu, Haozheng Yu, Long Sha, Sujoy Ganguly, Hyun Soo Park(参考訳) 本稿では,ラベルのないマルチビュー画像を用いて高密度なキーポイント検出器を学習するための,エンドツーエンドの半教師付きフレームワークを提案する。 キーポイントマッピングの逆は解析的に導出も微分もできないため、キーポイントの密接な対応を複数の視点で見つけることが重要な課題である。 この制限は、正確な対応に依存するスパースキーポイント検出に対する既存のマルチビュー監視アプローチの適用を制限する。 この課題に対処するために、2つの望ましい性質を符号化する新しい確率的極性制約を導出する。 1) ソフト対応性: 他の画像の対応する点と一致する点の確率を計測し, 正確な対応の要求を緩和するマッチング性を定義する。 (2) 幾何学的整合性: 連続対応体のすべての点は、総合的にマルチビュー整合性を満たす必要がある。 一致性により重み付き平均のエピポーラ誤差を用いて確率的エピポーラ制約を定式化し、点対点幾何学誤差をフィールド対フィールド幾何学誤差に一般化する。 この一般化により、多数のラベルのないマルチビュー画像を利用することで、幾何的コヒーレントな高密度キーポイント検出モデルの学習が容易になる。 また, 減数化防止のため, あらかじめ訓練したモデルを用いて蒸留による正則化を行う。 最後に,2つのビュー画像間の対応の確率的エピポーラエラーを,アフィニティ行列の構築によって効果的に最小化する,ツインネットワークによるニューラルネットワークアーキテクチャを設計した。 提案手法は,キーポイント精度,マルチビュー整合性,3次元再構成精度など,従来の方法と比較して優れた性能を示す。

This paper presents a new end-to-end semi-supervised framework to learn a dense keypoint detector using unlabeled multiview images. A key challenge lies in finding the exact correspondences between the dense keypoints in multiple views since the inverse of keypoint mapping can be neither analytically derived nor differentiated. This limits applying existing multiview supervision approaches on sparse keypoint detection that rely on the exact correspondences. To address this challenge, we derive a new probabilistic epipolar constraint that encodes the two desired properties. (1) Soft correspondence: we define a matchability, which measures a likelihood of a point matching to the other image's corresponding point, thus relaxing the exact correspondences' ; requirement. (2) Geometric consistency: every point in the continuous correspondence fields must satisfy the multiview consistency collectively. We formulate a probabilistic epipolar constraint using a weighted average of epipolar errors through the matchability thereby generalizing the point-to-point geometric error to the field-to-field geometric error. This generalization facilitates learning a geometrically coherent dense keypoint detection model by utilizing a large number of unlabeled multiview images. Additionally, to prevent degenerative cases, we employ a distillation-based regularization by using a pretrained model. Finally, we design a new neural network architecture, made of twin networks, that effectively minimizes the probabilistic epipolar errors of all possible correspondences between two view images by building affinity matrices. Our method shows superior performance compared to existing methods, including non-differentiable bootstrapping in terms of keypoint accuracy, multiview consistency, and 3D reconstruction accuracy.
翻訳日:2021-09-21 16:27:34 公開日:2021-09-20
# 効率的な視覚認識のための可変畳み込みフィルタの学習

Learning Versatile Convolution Filters for Efficient Visual Recognition ( http://arxiv.org/abs/2109.09310v1 )

ライセンス: Link先を確認
Kai Han, Yunhe Wang, Chang Xu, Chunjing Xu, Enhua Wu, Dacheng Tao(参考訳) 本稿では,様々な視覚認識タスクで広く使用される効率的な畳み込みニューラルネットワークを構築するための汎用フィルタを提案する。 コスト効率のよいハードウェア上で動作する効率的なディープラーニング技術の要求を踏まえ、コンパクトニューラルネットワークを学習するための多くの方法が開発されている。 これらの研究の多くは、フィルタをさまざまな方法でスリム化することを目的としている。 対照的に、付加的な観点からフィルタを扱う。 一連の二次フィルタは、二項マスクの助けを借りて一次フィルタから導出することができる。 これらの二次フィルタはすべて、より多くのストレージを占有することなく一次フィルタを継承するが、計算で展開されると、異なる受容フィールドから抽出された情報を統合することにより、フィルターの能力を大幅に向上させることができる。 空間多目的フィルタに加えて,チャネルの観点から多目的フィルタについても検討する。 二項マスクは直交制約の下で異なる一次フィルタのためにさらにカスタマイズできる。 ネットワークの複雑性に関する理論的解析を行い,効率的な畳み込み方式を提案する。 ベンチマークデータセットとニューラルネットワークの実験結果は、我々の汎用フィルタはオリジナルのフィルタと同等の精度を達成できるが、メモリと計算コストは少ないことを示している。

This paper introduces versatile filters to construct efficient convolutional neural networks that are widely used in various visual recognition tasks. Considering the demands of efficient deep learning techniques running on cost-effective hardware, a number of methods have been developed to learn compact neural networks. Most of these works aim to slim down filters in different ways, \eg,~investigating small, sparse or quantized filters. In contrast, we treat filters from an additive perspective. A series of secondary filters can be derived from a primary filter with the help of binary masks. These secondary filters all inherit in the primary filter without occupying more storage, but once been unfolded in computation they could significantly enhance the capability of the filter by integrating information extracted from different receptive fields. Besides spatial versatile filters, we additionally investigate versatile filters from the channel perspective. Binary masks can be further customized for different primary filters under orthogonal constraints. We conduct theoretical analysis on network complexity and an efficient convolution scheme is introduced. Experimental results on benchmark datasets and neural networks demonstrate that our versatile filters are able to achieve comparable accuracy as that of original filters, but require less memory and computation cost.
翻訳日:2021-09-21 16:27:07 公開日:2021-09-20
# 顔認識におけるロバストな物理世界攻撃

Robust Physical-World Attacks on Face Recognition ( http://arxiv.org/abs/2109.09320v1 )

ライセンス: Link先を確認
Xin Zheng, Yanbo Fan, Baoyuan Wu, Yong Zhang, Jue Wang, Shirui Pan(参考訳) 顔認識はディープニューラルネットワーク(DNN)の開発によって大幅に促進され、多くの安全クリティカルなアプリケーションに広く適用されてきた。 しかし、最近の研究では、DNNは敵の例に非常に弱いことが示されており、現実世界の顔認識の安全性に対する深刻な懸念が提起されている。 本研究では,ステッカーによる顔認識に対する物理的攻撃について検討し,その対向的堅牢性をよりよく理解する。 そこで,我々はまず,ステッカーや顔,環境条件など,顔認識を攻撃して直面する複雑な物理環境について詳細に分析する。 そこで我々は,これらの難易度を特にモデル化するために,PadvFaceと呼ばれる新しい堅牢な物理攻撃フレームワークを提案する。 さらに,攻撃複雑性の違いを考慮し,より容易から複雑まで環境変動に徐々に適応する効率的なCAAアルゴリズムを提案する。 最後に,顔認識における物理的攻撃の公平な評価を容易にするための標準テストプロトコルを構築し,提案手法の優れた性能を示すドッジアタックと偽装アタックの両方に関する広範な実験を行った。

Face recognition has been greatly facilitated by the development of deep neural networks (DNNs) and has been widely applied to many safety-critical applications. However, recent studies have shown that DNNs are very vulnerable to adversarial examples, raising serious concerns on the security of real-world face recognition. In this work, we study sticker-based physical attacks on face recognition for better understanding its adversarial robustness. To this end, we first analyze in-depth the complicated physical-world conditions confronted by attacking face recognition, including the different variations of stickers, faces, and environmental conditions. Then, we propose a novel robust physical attack framework, dubbed PadvFace, to model these challenging variations specifically. Furthermore, considering the difference in attack complexity, we propose an efficient Curriculum Adversarial Attack (CAA) algorithm that gradually adapts adversarial stickers to environmental variations from easy to complex. Finally, we construct a standardized testing protocol to facilitate the fair evaluation of physical attacks on face recognition, and extensive experiments on both dodging and impersonation attacks demonstrate the superior performance of the proposed method.
翻訳日:2021-09-21 16:26:49 公開日:2021-09-20
# pc2-pu:効果的なポイントクラウドアップサンプリングのためのパッチ相関と位置補正

PC2-PU: Patch Correlation and Position Correction for Effective Point Cloud Upsampling ( http://arxiv.org/abs/2109.09337v1 )

ライセンス: Link先を確認
Chen Long, Wenxiao Zhang, Ruihui Li, Hao Wang, Zhen Dong, Bisheng Yang(参考訳) ポイントクラウドアップサンプリング(point cloud upsampling)は、3dセンサーから取得したスパースポイントセットを密度化し、基礎となる表面のより密な表現を提供する。 しかし、既存の方法は単一のパッチでアップサンプリングを行い、コヒーレンスや表面全体の関係を無視し、アップサンプリング能力を制限する。 また、主にクリーンな入力に重点を置いているため、余分なノイズを伴うシナリオを扱う場合、パフォーマンスが著しく損なわれる。 本稿では,より堅牢で優れた性能を実現するために,より効率的な点群アップサンプリング法を提案する。 この目的のために、我々は2つの徹底的な考察を取り入れた。 一 従来の作業と独立して各小パッチをアップサンプリングする代わりに、隣接パッチを入力とし、パッチ相関ユニットを導入し、それらの間の形状対応を調べて効果的なアップサンプリングを行う。 ii)外乱点と雑音点の効果を緩和する位置補正ユニットを提案する。 距離対応エンコーダを備えており、生成した点を下地表面に近いように動的に調整する。 提案手法は, クリーン入力とノイズ入力の両方において, 従来のアップサンプリング手法より優れていることを示す。

Point cloud upsampling is to densify a sparse point set acquired from 3D sensors, providing a denser representation for underlying surface. However, existing methods perform upsampling on a single patch, ignoring the coherence and relation of the entire surface, thus limiting the upsampled capability. Also, they mainly focus on a clean input, thus the performance is severely compromised when handling scenarios with extra noises. In this paper, we present a novel method for more effective point cloud upsampling, achieving a more robust and improved performance. To this end, we incorporate two thorough considerations. i) Instead of upsampling each small patch independently as previous works, we take adjacent patches as input and introduce a Patch Correlation Unit to explore the shape correspondence between them for effective upsampling. ii)We propose a Position Correction Unit to mitigate the effects of outliers and noisy points. It contains a distance-aware encoder to dynamically adjust the generated points to be close to the underlying surface. Extensive experiments demonstrate that our proposed method surpasses previous upsampling methods on both clean and noisy inputs.
翻訳日:2021-09-21 16:26:30 公開日:2021-09-20
# ElasticFace: ディープ顔認識のためのElastic Margin Loss

ElasticFace: Elastic Margin Loss for Deep Face Recognition ( http://arxiv.org/abs/2109.09416v1 )

ライセンス: Link先を確認
Fadi Boutros, Naser Damer, Florian Kirchbuchner, Arjan Kuijper(参考訳) 識別的特徴の学習は、ハイパフォーマンスな顔認識モデルを構築する上で重要な役割を果たす。 最近の最先端の顔認識ソリューションでは、クラス内変動を最小化し、クラス間変動を最大化することにより、正規化した超球において、一般的な分類損失関数であるソフトマックス損失に一定のペナルティマージンを組み込むことを提案している。 ArcFace や CosFace のようなMarginal Softmax の損失は、異なるアイデンティティ内の測地線距離が、固定されたマージンで等しく学習できると仮定する。 しかし、このような学習目的は、非一貫性なクラス間およびクラス内変動を持つ実データに対して現実的ではなく、顔認識モデルの識別性と一般化性を制限する可能性がある。 本稿では,クラス分離性の向上に資する弾性マージン損失( Elastic margin loss, ElasticFace)を提案することにより,固定マージン制約を緩和する。 主なアイデアは、トレーニングイテレーション毎に正規分布から引き出されたランダムマージン値を利用することである。 これは、フレキシブルなクラス分離学習のためのスペースを可能にするために、抽出と撤回のマージンを与えることを目的としている。 私たちは、多くのメインストリームベンチマークで、同じ幾何学的変換を用いて、arcfaceとcosfaceの損失よりも弾力的なマージン損失の方が優れていることを示しています。 幅広い視点から見ると、elasticfaceは9つのメインストリームベンチマークのうち6つで最先端の顔認識性能を向上しました。

Learning discriminative face features plays a major role in building high-performing face recognition models. The recent state-of-the-art face recognition solutions proposed to incorporate a fixed penalty margin on commonly used classification loss function, softmax loss, in the normalized hypersphere to increase the discriminative power of face recognition models, by minimizing the intra-class variation and maximizing the inter-class variation. Marginal softmax losses, such as ArcFace and CosFace, assume that the geodesic distance between and within the different identities can be equally learned using a fixed margin. However, such a learning objective is not realistic for real data with inconsistent inter-and intra-class variation, which might limit the discriminative and generalizability of the face recognition model. In this paper, we relax the fixed margin constrain by proposing elastic margin loss (ElasticFace) that allows flexibility in the push for class separability. The main idea is to utilize random margin values drawn from a normal distribution in each training iteration. This aims at giving the margin chances to extract and retract to allow space for flexible class separability learning. We demonstrate the superiority of our elastic margin loss over ArcFace and CosFace losses, using the same geometric transformation, on a large set of mainstream benchmarks. From a wider perspective, our ElasticFace has advanced the state-of-the-art face recognition performance on six out of nine mainstream benchmarks.
翻訳日:2021-09-21 16:26:10 公開日:2021-09-20
# セマンティクスからインスタンスセグメンテーションまで - セマンティクス知識伝達と自己定義による弱教師付きインスタンスセグメンテーション

Beyond Semantic to Instance Segmentation: Weakly-Supervised Instance Segmentation via Semantic Knowledge Transfer and Self-Refinement ( http://arxiv.org/abs/2109.09477v1 )

ライセンス: Link先を確認
Beomyoung Kim, Youngjoon Yoo, Chaeeun Rhee, Junmo Kim(参考訳) 近年,画像レベルのラベルを用いたクラスワイドなセマンティックセマンティックセグメンテーション(WSSS)が顕著に進歩している。 一方、画像レベルのラベルのみを用いたインスタンスワイドなローカライゼーションは非常に難しいため、弱教師付きインスタンスセグメンテーション(WSIS)はより難しい課題である。 その結果、ほとんどのWSISアプローチは、フルイメージレベルの教師付き設定を逸脱し、高いレベルのラベルで事前トレーニングを必要とする、オフザシェルフ提案技術を活用する。 さらに,セマンティクスドリフト問題に注目し,擬似インスタンスラベルの$i.e.,$欠損インスタンスをバックグラウンドクラスとして分類し,トレーニング中のバックグラウンドとインスタンスの混同を発生させる。 そこで本研究では、2つの革新的なコンポーネントからなる新しいアプローチを提案する。 まず、WSSSの知識をWSISに転送し、既成の提案を不要にすることで、擬似インスタンスラベルを得るための意味的知識伝達を設計する。 第2に,仮想インスタンスラベルを自己教師付きスキームで洗練し,オンライン上での学習に活用し,意味的ドリフト問題を解消する自己定義手法を提案する。 広範な実験により,本手法の有効性が示され,本提案手法を使わずにpascal voc2012の既存成果を上回った。 さらに,提案手法はポイント教師付き設定に容易に適用でき,経済的なアノテーションコストで性能を向上できる。 コードはもうすぐ入手できる。

Recent weakly-supervised semantic segmentation (WSSS) has made remarkable progress due to class-wise localization techniques using image-level labels. Meanwhile, weakly-supervised instance segmentation (WSIS) is a more challenging task because instance-wise localization using only image-level labels is quite difficult. Consequently, most WSIS approaches exploit off-the-shelf proposal technique that requires pre-training with high-level labels, deviating a fully image-level supervised setting. Moreover, we focus on semantic drift problem, $i.e.,$ missing instances in pseudo instance labels are categorized as background class, occurring confusion between background and instance in training. To this end, we propose a novel approach that consists of two innovative components. First, we design a semantic knowledge transfer to obtain pseudo instance labels by transferring the knowledge of WSSS to WSIS while eliminating the need for off-the-shelf proposals. Second, we propose a self-refinement method that refines the pseudo instance labels in a self-supervised scheme and employs them to the training in an online manner while resolving the semantic drift problem. The extensive experiments demonstrate the effectiveness of our approach, and we outperform existing works on PASCAL VOC2012 without any off-the-shelf proposal techniques. Furthermore, our approach can be easily applied to the point-supervised setting, boosting the performance with an economical annotation cost. The code will be available soon.
翻訳日:2021-09-21 16:25:46 公開日:2021-09-20
# R2D:ファインコンテキストのシャドウ検出を支援するためのシャドウ除去学習

R2D: Learning Shadow Removal to Enhance Fine-Context Shadow Detection ( http://arxiv.org/abs/2109.09609v1 )

ライセンス: Link先を確認
Jeya Maria Jose Valanarasu, Christina Chen, and Vishal M. Patel(参考訳) 現在のシャドウ検出法は、小さく、不明瞭で、ぼやけたエッジがあるシャドウ領域を検出すると、うまく機能しない。 この問題に対処するため、我々はRestore to Detect (R2D)と呼ばれる新しい手法を提案し、ディープニューラルネットワークが復元(シャドウ除去)のために訓練された場合、シャドウマスクをデライン化するための有意義な特徴を学習することを示した。 シャドウ検出・削除タスクの相補的性質を利用するため,シャドウ除去のための補助ネットワークを訓練し,シャドウ除去ネットワークからシャドウ検出ネットワークへ有意義な特徴を学習・融合するための相補的特徴学習ブロック(cfl)を提案する。 r2d における検出ネットワークについて, 受容場サイズを制約し, 低レベル機能に着目し, 文脈特徴をよりよく学習するファインコンテキストアウェアシャドー検出ネットワーク (fcsd-net) を提案する。 3つの公開陰影検出データセット (ISTD, SBU, UCF) による実験結果から, 提案手法のR2Dは, 他の手法と比較して微妙なコンテキストを検出できる一方で, 陰影検出性能が向上することが示された。

Current shadow detection methods perform poorly when detecting shadow regions that are small, unclear or have blurry edges. To tackle this problem, we propose a new method called Restore to Detect (R2D), where we show that when a deep neural network is trained for restoration (shadow removal), it learns meaningful features to delineate the shadow masks as well. To make use of this complementary nature of shadow detection and removal tasks, we train an auxiliary network for shadow removal and propose a complementary feature learning block (CFL) to learn and fuse meaningful features from shadow removal network to the shadow detection network. For the detection network in R2D, we propose a Fine Context-aware Shadow Detection Network (FCSD-Net) where we constraint the receptive field size and focus on low-level features to learn fine context features better. Experimental results on three public shadow detection datasets (ISTD, SBU and UCF) show that our proposed method R2D improves the shadow detection performance while being able to detect fine context better compared to the other recent methods.
翻訳日:2021-09-21 16:25:19 公開日:2021-09-20
# 深部畳み込みニューラルネットワークを用いたCCTVを用いた現代社会のリアルタイムトラッシュ検出

Real-Time Trash Detection for Modern Societies using CCTV to Identifying Trash by utilizing Deep Convolutional Neural Network ( http://arxiv.org/abs/2109.09611v1 )

ライセンス: Link先を確認
Syed Muhammad Raza, Syed Muhammad Ghazi Hassan, Syed Ali Hassa, Soo Young Shin(参考訳) 環境を特に社会におけるゴミ汚染から保護し、ゴミを捨てる赤毛の人々に対して厳格な措置を講じる。 現代の社会が発展し、これらの社会は環境をきれいにするために現代的な解決策を必要としている。 人工知能(AI)の進化は、特にディープラーニングにおいて、CCTVカメラを使用してリアルタイムのゴミ検出を開発する素晴らしい機会を提供する。 このプロジェクトに含まれるのは,畳み込みニューラルネットワーク(CNN)の深層モデルを用いたリアルタイムゴミ検出である。 8種類のマスク、ティッシュペーパー、買い物客、箱、自動車部品、パンパー、ボトル、ジュースボックスを入手するために使用される。 ゴミを検知した後、カメラはその人のビデオを社会に捨てた10秒間記録する。 この論文の難しい部分は、あまりにも多くの時間を要する複雑なカスタムデータセットを作成することです。 データセットは2100以上の画像で構成されている。 CNNモデルは作成、ラベル付け、訓練された。 検出時間精度と平均平均精度(mAP)は両方のモデルのパフォーマンスをベンチマークする。 実験段階において, 改良型CNNモデルのmAP性能と精度は, すべてにおいて優れていた。 このモデルはCCTVカメラでリアルタイムでゴミを検出するために使用される。

To protect the environment from trash pollution, especially in societies, and to take strict action against the red-handed people who throws the trash. As modern societies are developing and these societies need a modern solution to make the environment clean. Artificial intelligence (AI) evolution, especially in Deep Learning, gives an excellent opportunity to develop real-time trash detection using CCTV cameras. The inclusion of this project is real-time trash detection using a deep model of Convolutional Neural Network (CNN). It is used to obtain eight classes mask, tissue papers, shoppers, boxes, automobile parts, pampers, bottles, and juices boxes. After detecting the trash, the camera records the video of that person for ten seconds who throw trash in society. The challenging part of this paper is preparing a complex custom dataset that took too much time. The dataset consists of more than 2100 images. The CNN model was created, labeled, and trained. The detection time accuracy and average mean precision (mAP) benchmark both models' performance. In experimental phase the mAP performance and accuracy of the improved CNN model was superior in all aspects. The model is used on a CCTV camera to detect trash in real-time.
翻訳日:2021-09-21 16:24:55 公開日:2021-09-20
# BabelCalib: 中央カメラの校正のためのユニバーサルアプローチ

BabelCalib: A Universal Approach to Calibrating Central Cameras ( http://arxiv.org/abs/2109.09704v1 )

ライセンス: Link先を確認
Yaroslava Lochman, Kostiantyn Liepieshov, Jianhui Chen, Michal Perdoch, Christopher Zach, James Pritts(参考訳) 既存のキャリブレーション法は、基礎となる問題の非線形性や、使用済みカメラモデルの全てのパラメータに対する優れた初期値の欠如により、大規模な視野カメラでは時折失敗する。 これは、単純なプロジェクションモデルが最初のステップで仮定されるか、内部パラメータの低い初期推定が事前に定義されているためである。 一般的なカメラキャリブレーションの難しさの多くは、フォワードプロジェクションモデルを使用することにある。 まず,後方投射モデルを用いてパラメータを校正し,対象の前方モデルに対するパラメータを回帰させることにより,これらの課題を副次的に解決する。 これらのステップは、外部検出に対処する堅牢な推定フレームワークに組み込まれる。 実験の結果,本手法は非常に信頼性が高く,テストセットにおける絶対ポーズ推定の下流タスクで測定された最も正確なキャリブレーションパラメータが得られた。 コードはhttps://github.com/y lochman/babelcalibでリリースされる。

Existing calibration methods occasionally fail for large field-of-view cameras due to the non-linearity of the underlying problem and the lack of good initial values for all parameters of the used camera model. This might occur because a simpler projection model is assumed in an initial step, or a poor initial guess for the internal parameters is pre-defined. A lot of the difficulties of general camera calibration lie in the use of a forward projection model. We side-step these challenges by first proposing a solver to calibrate the parameters in terms of a back-projection model and then regress the parameters for a target forward model. These steps are incorporated in a robust estimation framework to cope with outlying detections. Extensive experiments demonstrate that our approach is very reliable and returns the most accurate calibration parameters as measured on the downstream task of absolute pose estimation on test sets. The code is released at https://github.com/y lochman/babelcalib.
翻訳日:2021-09-21 16:24:39 公開日:2021-09-20
# ConvAbuse: 会話型AIにおけるNuanced Abuse検出のためのデータ、分析、ベンチマーク

ConvAbuse: Data, Analysis, and Benchmarks for Nuanced Abuse Detection in Conversational AI ( http://arxiv.org/abs/2109.09483v1 )

ライセンス: Link先を確認
Amanda Cercas Curry, Gavin Abercrombie, Verena Rieser(参考訳) 本稿では、オープンドメインのソーシャルボット、ルールベースのチャットボット、タスクベースのシステムという3つの会話型AIシステムを対象とした、虐待的言語に関する最初の英語コーパスについて紹介する。 タスクの複雑さを考慮するため、私たちのConvAIデータセットは、複数のエキスパートアノテータからのビューだけでなく、きめ細かい乱用の概念を反映する、より“ニュアンス”なアプローチを採用しています。 虐待の分布は他の一般的なデータセットとは大きく異なり、これらのシステムの仮想的なペルソナに対するより性的な攻撃性が強いことが分かりました。 最後に、このデータに対して既存のモデルをベンチマーキングした結果を報告する。 当然のことながら、F1スコアが90%を下回るほど改善の余地がある。

We present the first English corpus study on abusive language towards three conversational AI systems gathered "in the wild": an open-domain social bot, a rule-based chatbot, and a task-based system. To account for the complexity of the task, we take a more `nuanced' approach where our ConvAI dataset reflects fine-grained notions of abuse, as well as views from multiple expert annotators. We find that the distribution of abuse is vastly different compared to other commonly used datasets, with more sexually tinted aggression towards the virtual persona of these systems. Finally, we report results from bench-marking existing models against this data. Unsurprisingly, we find that there is substantial room for improvement with F1 scores below 90%.
翻訳日:2021-09-21 16:22:44 公開日:2021-09-20
# スコットランドにおける参加型予算化への混合メソジカルエスノグラフィーアプローチ

A mixed-methods ethnographic approach to participatory budgeting in Scotland ( http://arxiv.org/abs/2109.09517v1 )

ライセンス: Link先を確認
Jonathan Davies, M. Arana-Catania, Rob Procter, F.A. Van Lier, Yulan He(参考訳) 参加予算(pb)はコミュニティ主導による助成金の形で既にスコットランドで確立されているが、近年では草の根活動から主流のプロセスや組み込みの「政治手段」へと転換している。 このターンの不可欠な部分は、市民参加の主要な手段としてconsul digital platformを使用することである。 この研究論文は、スコットランドを構成する32の地方自治体が、pbプロセスに市民を関与させるためにconsulプラットフォームをどのように活用するか、そして市民の貢献をどのように理解するかについて検討している。 特に、自然言語処理(NLP)ツールが市民のエンゲージメントと、市民の貢献が分析され、政策に変換されるプロセスの両方を促進できるかどうかに焦点を当てる。

Participatory budgeting (PB) is already well established in Scotland in the form of community led grant-making yet has recently transformed from a grass-roots activity to a mainstream process or embedded 'policy instrument'. An integral part of this turn is the use of the Consul digital platform as the primary means of citizen participation. Using a mixed method approach, this ongoing research paper explores how each of the 32 local authorities that make up Scotland utilise the Consul platform to engage their citizens in the PB process and how they then make sense of citizens' contributions. In particular, we focus on whether natural language processing (NLP) tools can facilitate both citizen engagement, and the processes by which citizens' contributions are analysed and translated into policies.
翻訳日:2021-09-21 16:22:30 公開日:2021-09-20
# 特徴相関アグリゲーション:より良いグラフニューラルネットワークへの道のり

Feature Correlation Aggregation: on the Path to Better Graph Neural Networks ( http://arxiv.org/abs/2109.09300v1 )

ライセンス: Link先を確認
Jieming Zhou, Tong Zhang, Pengfei Fang, Lars Petersson, Mehrtash Harandi(参考訳) グラフニューラルネットワーク(GNN)が導入される以前、不規則なデータ、特にグラフのモデリングと解析は、ディープラーニングのアキレスのヒールであると考えられていた。 GNNの中核的な概念は、中央ノードとその隣人の表現を再帰的に集約することで表現を見つけることである。 GNNのコアコンセプトは、中央ノードとその隣人の表現を再帰的に集約することで表現を見つけることであり、その成功は多くのGNNの設計によって実証されている。 しかし、それらのほとんどは、ノードとその隣人の間の一階情報の使用のみに焦点を当てている。 本稿では,GNNのコア操作,すなわちFunction cOrrelation aGgregation (FOG)モジュールに対して,パイプライン内のノードとその隣人の特徴相関から第2次情報を学習するフラストレーション的にシンプルで無作為な修正を通じて,中央ノード置換変分関数を導入する。 既存のGNNにFOGを追加することで、この2次情報は、幅広いベンチマークで生成された特徴を補うことを実証的に検証する。 モデルのパフォーマンスの具体的向上が観察され、モデルが以前の最先端の結果をかなりマージンで上回り、パラメータを少なくする。 (例えば、グラフ畳み込みネットワークを用いた実世界の分子データセットの33.116%の改善)。

Prior to the introduction of Graph Neural Networks (GNNs), modeling and analyzing irregular data, particularly graphs, was thought to be the Achilles' heel of deep learning. The core concept of GNNs is to find a representation by recursively aggregating the representations of a central node and those of its neighbors. The core concept of GNNs is to find a representation by recursively aggregating the representations of a central node and those of its neighbor, and its success has been demonstrated by many GNNs' designs. However, most of them only focus on using the first-order information between a node and its neighbors. In this paper, we introduce a central node permutation variant function through a frustratingly simple and innocent-looking modification to the core operation of a GNN, namely the Feature cOrrelation aGgregation (FOG) module which learns the second-order information from feature correlation between a node and its neighbors in the pipeline. By adding FOG into existing variants of GNNs, we empirically verify this second-order information complements the features generated by original GNNs across a broad set of benchmarks. A tangible boost in performance of the model is observed where the model surpasses previous state-of-the-art results by a significant margin while employing fewer parameters. (e.g., 33.116% improvement on a real-world molecular dataset using graph convolutional networks).
翻訳日:2021-09-21 16:18:11 公開日:2021-09-20
# 限られたデータを持つ組織の学習支援

Assisted Learning for Organizations with Limited Data ( http://arxiv.org/abs/2109.09307v1 )

ライセンス: Link先を確認
Cheng Chen, Jiaying Zhou, Jie Ding, Yi Zhou(参考訳) 組織レベルの学習者に対して,限定的かつ不均衡なデータを用いて学習性能の向上を支援する学習フレームワークを開発した。 特に、組織レベルの学習者は、通常は十分な計算リソースを持っているが、厳格なコラボレーションポリシーと情報プライバシの対象となる。 限られた不均衡なデータはしばしば偏りのある推論と最適でない意思決定を引き起こす。 私たちの学習フレームワークでは、組織学習者がサービス提供者から支援サービスを購入し、いくつかの支援ラウンドでモデルパフォーマンスの向上を目標としています。 深層学習支援と強化学習支援のための効果的な確率的学習アルゴリズムを開発した。 勾配やモデルを頻繁に送信する必要のある既存の分散アルゴリズムとは異なり、このフレームワークでは、学習者は時々サービスプロバイダと情報を共有するだけで、すべてのデータが集中しているかのように、oracleに近いモデルを達成できます。

We develop an assisted learning framework for assisting organization-level learners to improve their learning performance with limited and imbalanced data. In particular, learners at the organization level usually have sufficient computation resource, but are subject to stringent collaboration policy and information privacy. Their limited imbalanced data often cause biased inference and sub-optimal decision-making. In our assisted learning framework, an organizational learner purchases assistance service from a service provider and aims to enhance its model performance within a few assistance rounds. We develop effective stochastic training algorithms for assisted deep learning and assisted reinforcement learning. Different from existing distributed algorithms that need to frequently transmit gradients or models, our framework allows the learner to only occasionally share information with the service provider, and still achieve a near-oracle model as if all the data were centralized.
翻訳日:2021-09-21 16:17:49 公開日:2021-09-20
# 21世紀における世界発展指標と疾病発生との関連性の検討 : 事例研究

Investigating the Relationship Between World Development Indicators and the Occurrence of Disease Outbreaks in the 21st Century: A Case Study ( http://arxiv.org/abs/2109.09314v1 )

ライセンス: Link先を確認
Aboli Marathe, Harsh Sakhrani, Saloni Parekh(参考訳) 疫病の流行に弱い社会経済セクターのタイムリーな識別は、疫病対策に関心のある市民当局や医療従事者にとって重要な課題である。 この問題は伝統的に、小規模の医療データでアベラネスを研究することで解決された。 本稿では,2000~2019年の世界的歴史的データを用いて,データ駆動モデルを用いて世界開発指標の動向と疫病の発生との関係を把握し,古典的な分類問題として扱う。 CARTをベースとした特徴選択は、病気の発生によって影響される共変種を決定するために、不規則な方法で採用された。 その結果、異なる分類アルゴリズムの包括的分析が行われ、疾患発生の発生と様々な発達指標の規模との関係が示唆される。

The timely identification of socio-economic sectors vulnerable to a disease outbreak presents an important challenge to the civic authorities and healthcare workers interested in outbreak mitigation measures. This problem was traditionally solved by studying the aberrances in small-scale healthcare data. In this paper, we leverage data driven models to determine the relationship between the trends of World Development Indicators and occurrence of disease outbreaks using worldwide historical data from 2000-2019, and treat it as a classic supervised classification problem. CART based feature selection was employed in an unorthodox fashion to determine the covariates getting affected by the disease outbreak, thus giving the most vulnerable sectors. The result involves a comprehensive analysis of different classification algorithms and is indicative of the relationship between the disease outbreak occurrence and the magnitudes of various development indicators.
翻訳日:2021-09-21 16:17:36 公開日:2021-09-20
# A2Log: 注意深い拡張ログ異常検出

A2Log: Attentive Augmented Log Anomaly Detection ( http://arxiv.org/abs/2109.09537v1 )

ライセンス: Link先を確認
Thorsten Wittkopp, Alexander Acker, Sasho Nedelkoski, Jasmin Bogatinovski, Dominik Scheinert, Wu Fan and Odej Kao(参考訳) 異常検出は、ITサービスの信頼性とサービス性にとってますます重要になる。 ログラインはITサービスの実行中にイベントを記録するため、診断の主要なソースとなる。 したがって、教師なしのメソッドはトレーニング時にすべての異常を知ることができるわけではないため、大きなメリットがある。 既存の教師なし手法では、異常検出タスクに必要な適切な決定境界を得るために、異常の例が必要となる。 この要件は現実的な制限をもたらす。 そこで我々は,異常判定と異常判定の2段階からなる教師なし異常検出手法であるA2Logを開発した。 まず,自己注意型ニューラルネットワークを用いて各ログメッセージのスコアリングを行う。 第2に、利用可能な正規トレーニングデータのデータ拡張に基づいて、決定境界を設定する。 この方法は3つの公開データセットと1つの業界データセットで評価される。 我々のアプローチは既存の手法よりも優れています。 さらに,利用可能な異常例を用いて最適決定境界を設定し,強いベースラインを得る。 我々は,異常な例を使わずに決定境界を決定する手法が,強力なベースラインのスコアに到達できることを実証する。

Anomaly detection becomes increasingly important for the dependability and serviceability of IT services. As log lines record events during the execution of IT services, they are a primary source for diagnostics. Thereby, unsupervised methods provide a significant benefit since not all anomalies can be known at training time. Existing unsupervised methods need anomaly examples to obtain a suitable decision boundary required for the anomaly detection task. This requirement poses practical limitations. Therefore, we develop A2Log, which is an unsupervised anomaly detection method consisting of two steps: Anomaly scoring and anomaly decision. First, we utilize a self-attention neural network to perform the scoring for each log message. Second, we set the decision boundary based on data augmentation of the available normal training data. The method is evaluated on three publicly available datasets and one industry dataset. We show that our approach outperforms existing methods. Furthermore, we utilize available anomaly examples to set optimal decision boundaries to acquire strong baselines. We show that our approach, which determines decision boundaries without utilizing anomaly examples, can reach scores of the strong baselines.
翻訳日:2021-09-21 16:17:00 公開日:2021-09-20
# 再現性課題2021におけるニューラルネットワークプルーニングの巻き戻しと微調整の比較

Comparing Rewinding and Fine-tuning in Neural Network Pruning for Reproducibility Challenge 2021 ( http://arxiv.org/abs/2109.09670v1 )

ライセンス: Link先を確認
Szymon Mikler (Uniwersytet Wroc{\l}awski)(参考訳) 再現性のスコープ: arXiv:2003.02389のニューラルネットワークにおける再巻き戻しと微調整の比較を再現する。 この研究では、プルーニング後にニューラルネットワークを再トレーニングするための3つの異なるアプローチを比較した。 1)微調整。 2 arXiv:1803.03635及び 3)Lottery Ticket仮説に基づく学習率の巻き戻しを含む,新たなオリジナル手法。 我々はこれら3つの手法の成果を再現するが,本手法は新たに提案され,他の手法に対する普遍的な代替手段として記述されているため,そのアプローチの検証,学習率の逆転に重点を置いている。 我々はCIFAR10をほとんどの複製に使用し、CIFAR100のさらなる実験を行った。 また、テスト対象のネットワークアーキテクチャのリストを拡張して、Wide ResNetsを含むようにしました。 新たな実験により,大規模なアーキテクチャにおいて,学習率の巻き戻しの限界を見出すことができた。 結果: 著者が報告した正確な結果を, 当初報告したすべてのシナリオで再現することができた。 しかし、より大きなワイド残留ネットワークにおける拡張結果は、新しく提案された学習率の巻き戻しの限界を実証している。 しかし、この論文の一般的な結論はまだ保たれており、実際に再現された。

Scope of reproducibility: We are reproducing Comparing Rewinding and Fine-tuning in Neural Networks from arXiv:2003.02389. In this work the authors compare three different approaches to retraining neural networks after pruning: 1) fine-tuning, 2) rewinding weights as in arXiv:1803.03635 and 3) a new, original method involving learning rate rewinding, building upon Lottery Ticket Hypothesis. We reproduce the results of all three approaches, but we focus on verifying their approach, learning rate rewinding, since it is newly proposed and is described as a universal alternative to other methods. We used CIFAR10 for most reproductions along with additional experiments on the larger CIFAR100, which extends the results originally provided by the authors. We have also extended the list of tested network architectures to include Wide ResNets. The new experiments led us to discover the limitations of learning rate rewinding which can worsen pruning results on large architectures. Results: We were able to reproduce the exact results reported by the authors in all originally reported scenarios. However, extended results on larger Wide Residual Networks have demonstrated the limitations of the newly proposed learning rate rewinding -- we observed a previously unreported accuracy degradation for low sparsity ranges. Nevertheless, the general conclusion of the paper still holds and was indeed reproduced.
翻訳日:2021-09-21 16:16:46 公開日:2021-09-20
# 新しいオンラインインクリメンタルラーニング侵入防止システム

A Novel Online Incremental Learning Intrusion Prevention System ( http://arxiv.org/abs/2109.09530v1 )

ライセンス: Link先を確認
Christos Constantinides, Stavros Shiaeles, Bogdan Ghita, Nicholas Kolokotronis(参考訳) 攻撃ベクトルは侵入検知システムを避けるために継続的に進化している。 iot(internet of things, モノのインターネット)環境は、itエコシステムにとって有益だが、ハードウェアに固有の制限があり、包括的セキュリティ対策を実装し、脆弱性攻撃への露出を増加させる能力が制限されている。 本稿では,自己組織型インクリメンタルニューラルネットワークとサポートベクトルマシンを併用したネットワーク侵入防止システムを提案する。 提案システムは,その構造上,シグネチャやルールに依存しないセキュリティソリューションを提供するとともに,既知の攻撃や未知の攻撃を高精度にリアルタイムに軽減することができる。 NSL KDDデータセットによる実験結果に基づいて、提案フレームワークはオンライン更新インクリメンタルラーニングを実現し、効率的でスケーラブルな産業アプリケーションに適している。

Attack vectors are continuously evolving in order to evade Intrusion Detection systems. Internet of Things (IoT) environments, while beneficial for the IT ecosystem, suffer from inherent hardware limitations, which restrict their ability to implement comprehensive security measures and increase their exposure to vulnerability attacks. This paper proposes a novel Network Intrusion Prevention System that utilises a SelfOrganizing Incremental Neural Network along with a Support Vector Machine. Due to its structure, the proposed system provides a security solution that does not rely on signatures or rules and is capable to mitigate known and unknown attacks in real-time with high accuracy. Based on our experimental results with the NSL KDD dataset, the proposed framework can achieve on-line updated incremental learning, making it suitable for efficient and scalable industrial applications.
翻訳日:2021-09-21 16:14:49 公開日:2021-09-20
# デジタル法医学検査者のための能動的悪意あるソフトウェア識別手法

A proactive malicious software identification approach for digital forensic examiners ( http://arxiv.org/abs/2109.09567v1 )

ライセンス: Link先を確認
Muhammad Ali, Stavros Shiaeles, Nathan Clarke, Dimitrios Kontogeorgis(参考訳) デジタル捜査員は、コンピュータが属する人物に責任を示すような事件にしばしば関与するが、徹底的な検査の結果、マルウェアが原因であることが証明され、貴重な時間を失うことになる。 アンチウイルス(AV)ソフトウェアは、調査員がマルウェアの存在を特定するのを助けることができるが、AVツールに存在するゼロデイ攻撃やエラーの増加は、頼りにできないことだ。 本研究の目的は、悪意あるソフトウェアとOSアーティファクトの関係を判定し、関連づけるため、様々なWindowsオペレーティングシステムバージョンにおけるマルウェアの挙動を調べることである。 これにより、研究者は新しいマルウェアの存在を識別し、さらなる調査の出発点を提供することができる。

Digital investigators often get involved with cases, which seemingly point the responsibility to the person to which the computer belongs, but after a thorough examination malware is proven to be the cause, causing loss of precious time. Whilst Anti-Virus (AV) software can assist the investigator in identifying the presence of malware, with the increase in zero-day attacks and errors that exist in AV tools, this is something that cannot be relied upon. The aim of this paper is to investigate the behaviour of malware upon various Windows operating system versions in order to determine and correlate the relationship between malicious software and OS artifacts. This will enable an investigator to be more efficient in identifying the presence of new malware and provide a starting point for further investigation.
翻訳日:2021-09-21 16:14:35 公開日:2021-09-20
# ai解釈の実証的転換に関する批判的・倫理的視点

Some Critical and Ethical Perspectives on the Empirical Turn of AI Interpretability ( http://arxiv.org/abs/2109.09586v1 )

ライセンス: Link先を確認
Jean-Marie John-Mathews (MMS, LITEM)(参考訳) 人工知能(AI)開発で現在直面している2つの基本的な問題、すなわち倫理の欠如とAI決定の解釈可能性について考察する。 解釈可能なAI決定はAIの倫理に対処するのに役立つか? ランダム化研究を用いて, 経験的およびリベラルな説明の転換が, 低い否定力でai説明を選択する傾向があることを実験的に示した。 特定の条件下では、解釈可能性ツールは必ずしも手段ではなく、パラドックス的に、倫理的AIの生成に障害を与える。 また、AI説明の否定力は、その説明が行われる状況、例えば、その説明を意図した人物の性別や教育水準に大きく依存していることも示している。 それゆえ、aiの倫理ツールは柔軟すぎることがあり、説明の自由的生産による自己規制は倫理的な問題に対処するのに十分ではないように思える。 次に、倫理的AIの今後の発展のためのシナリオとして、より外部規制やAI説明の自由化の2つを提案します。 これら2つの反対の経路は、倫理的AIの開発において大きな役割を果たす。

We consider two fundamental and related issues currently faced by Artificial Intelligence (AI) development: the lack of ethics and interpretability of AI decisions. Can interpretable AI decisions help to address ethics in AI? Using a randomized study, we experimentally show that the empirical and liberal turn of the production of explanations tends to select AI explanations with a low denunciatory power. Under certain conditions, interpretability tools are therefore not means but, paradoxically, obstacles to the production of ethical AI since they can give the illusion of being sensitive to ethical incidents. We also show that the denunciatory power of AI explanations is highly dependent on the context in which the explanation takes place, such as the gender or education level of the person to whom the explication is intended for. AI ethics tools are therefore sometimes too flexible and self-regulation through the liberal production of explanations do not seem to be enough to address ethical issues. We then propose two scenarios for the future development of ethical AI: more external regulation or more liberalization of AI explanations. These two opposite paths will play a major role on the future development of ethical AI.
翻訳日:2021-09-21 16:14:23 公開日:2021-09-20
# ガウスモーメントに基づく分子・物質の高速かつサンプル効率の高い原子間ニューラルネットワークポテンシャル

Fast and Sample-Efficient Interatomic Neural Network Potentials for Molecules and Materials Based on Gaussian Moments ( http://arxiv.org/abs/2109.09569v1 )

ライセンス: Link先を確認
Viktor Zaverkin and David Holzm\"uller and Ingo Steinwart and Johannes K\"astner(参考訳) ニューラルネットワーク(NN)は、原子間ポテンシャルを構築し、ほぼ初期精度で効率的な大規模原子論シミュレーションを実現するために最も頻繁に使用される機械学習手法の1つである。 しかし、分子動力学シミュレーションなどの前提条件であるエネルギーと力に関するnnsの同時訓練が要求される。 本稿では,従来のGM-NNモデル[V]に基づく改良NNアーキテクチャを提案する。 ザバーキンとJ・K・アスターナー、J・チェム。 理論計算。 16,5410-5421 (2020)]では予測精度が向上し,トレーニング時間が大幅に短縮された。 さらに、ガウスモーメントに基づく原子間ポテンシャルを周期系に適用し、各モデルの全体的な優れた伝達性と堅牢性を示す。 改良された方法論による高速なトレーニングは、アクティブラーニングやラーニング・オン・ザ・フライのようなトレーニングの多いワークフローのための前提条件である。

Artificial neural networks (NNs) are one of the most frequently used machine learning approaches to construct interatomic potentials and enable efficient large-scale atomistic simulations with almost ab initio accuracy. However, the simultaneous training of NNs on energies and forces, which are a prerequisite for, e.g., molecular dynamics simulations, can be demanding. In this work, we present an improved NN architecture based on the previous GM-NN model [V. Zaverkin and J. K\"astner, J. Chem. Theory Comput. 16, 5410-5421 (2020)], which shows an improved prediction accuracy and considerably reduced training times. Moreover, we extend the applicability of Gaussian moment-based interatomic potentials to periodic systems and demonstrate the overall excellent transferability and robustness of the respective models. The fast training by the improved methodology is a pre-requisite for training-heavy workflows such as active learning or learning-on-the-fly.
翻訳日:2021-09-21 16:14:06 公開日:2021-09-20
# Androidのマルウェア検出におけるデータセットシフトと逆例検出の予測不確かさを活用できるか?

Can We Leverage Predictive Uncertainty to Detect Dataset Shift and Adversarial Examples in Android Malware Detection? ( http://arxiv.org/abs/2109.09654v1 )

ライセンス: Link先を確認
Deqiang Li and Tian Qiu and Shuo Chen and Qianmu Li and Shouhuai Xu(参考訳) 悪意のあるソフトウェア(マルウェア)を検出するためのディープラーニングアプローチは有望だが、データセットシフトの問題、すなわち、サンプルとテストセットに関連するラベルの共分散が、トレーニングセットのそれとは異なる、という課題にまだ取り組んでいない。 この問題は、ユーザの注意を払わずにディープラーニングモデルの劣化を引き起こす。 問題を緩和するためには、分類器が与えられた例にラベルを予測させるだけでなく、予測されたラベルにその不確実性(または自信)を示すようにし、ディフェンダーが予測されたラベルを使用するかどうかを判断できる。 直感的で明らかに重要であるが、このアプローチの能力と制限はよく理解されていない。 本稿では,マルウェア検出装置の予測不確実性の質を評価するための実証的研究を行う。 具体的には、24のandroidマルウェア検出器を設計、構築し、データ不均衡を扱う3つのメトリクスを含む9つのメトリクスで不確実性を定量化します。 私たちの主な発見は (i) 予測的不確実性は、データセットシフトが存在する場合において、信頼できるマルウェア検出を達成するのに役立つが、敵対的回避攻撃には対処できない。 (ii)近似ベイズ法では,データセットシフトに対処するマルウェア検出器の校正と一般化が期待されているが,敵対的回避攻撃には対処できない。 (iii)逆境回避攻撃は校正手法を役に立たず、予測された逆境例のラベルに関連する不確かさを定量化する(すなわち、予測的不確実性を用いて逆境例を検出することは効果的ではない)。

The deep learning approach to detecting malicious software (malware) is promising but has yet to tackle the problem of dataset shift, namely that the joint distribution of examples and their labels associated with the test set is different from that of the training set. This problem causes the degradation of deep learning models without users' notice. In order to alleviate the problem, one approach is to let a classifier not only predict the label on a given example but also present its uncertainty (or confidence) on the predicted label, whereby a defender can decide whether to use the predicted label or not. While intuitive and clearly important, the capabilities and limitations of this approach have not been well understood. In this paper, we conduct an empirical study to evaluate the quality of predictive uncertainties of malware detectors. Specifically, we re-design and build 24 Android malware detectors (by transforming four off-the-shelf detectors with six calibration methods) and quantify their uncertainties with nine metrics, including three metrics dealing with data imbalance. Our main findings are: (i) predictive uncertainty indeed helps achieve reliable malware detection in the presence of dataset shift, but cannot cope with adversarial evasion attacks; (ii) approximate Bayesian methods are promising to calibrate and generalize malware detectors to deal with dataset shift, but cannot cope with adversarial evasion attacks; (iii) adversarial evasion attacks can render calibration methods useless, and it is an open problem to quantify the uncertainty associated with the predicted labels of adversarial examples (i.e., it is not effective to use predictive uncertainty to detect adversarial examples).
翻訳日:2021-09-21 16:13:52 公開日:2021-09-20
# 深層学習に基づく組織弾性評価のための新しい光針プローブ

A novel optical needle probe for deep learning-based tissue elasticity characterization ( http://arxiv.org/abs/2109.09362v1 )

ライセンス: Link先を確認
Robin Mieling and Johanna Sprenger and Sarah Latus and Lennart Bargsten and Alexander Schlaefer(参考訳) 悪性腫瘍と良性腫瘍の区別は癌の治療に必須である。 組織の弾力性は、必要な組織の特徴の指標として使用できる。 光コヒーレンスエラストグラフィー(OCE)プローブは針挿入のために提案されているが、今のところ必要な負荷感知能力は欠如している。 本稿では,光コヒーレンス断層撮影(oct)と針先端での負荷センシングを同時に行うオース針プローブを提案する。 ゼラチン濃度の異なるゼラチンファントムのインデンテーション実験における針プローブの適用を実証した。 さらに,取得したoctデータからエンドツーエンドのサンプルキャラクタリゼーションを行うための2つの深層学習手法を実装した。 平均誤差が1.21 pm 0.91$ wt\%の未確認試料中のゼラチン試料濃度の推定を行った。 両方の評価されたディープラーニングモデルは、精度と推論時間に関して異なる利点を持つサンプル特性を提供することに成功した。

The distinction between malignant and benign tumors is essential to the treatment of cancer. The tissue's elasticity can be used as an indicator for the required tissue characterization. Optical coherence elastography (OCE) probes have been proposed for needle insertions but have so far lacked the necessary load sensing capabilities. We present a novel OCE needle probe that provides simultaneous optical coherence tomography (OCT) imaging and load sensing at the needle tip. We demonstrate the application of the needle probe in indentation experiments on gelatin phantoms with varying gelatin concentrations. We further implement two deep learning methods for the end-to-end sample characterization from the acquired OCT data. We report the estimation of gelatin sample concentrations in unseen samples with a mean error of $1.21 \pm 0.91$ wt\%. Both evaluated deep learning models successfully provide sample characterization with different advantages regarding the accuracy and inference time.
翻訳日:2021-09-21 16:10:18 公開日:2021-09-20
# パンシャープ化のための教師なしサイクル整合生成逆ネットワーク

Unsupervised Cycle-consistent Generative Adversarial Networks for Pan-sharpening ( http://arxiv.org/abs/2109.09395v1 )

ライセンス: Link先を確認
Huanyu Zhou, Qingjie Liu, and Yunhong Wang(参考訳) 近年, 深層学習に基づくパン・シャーペニングが研究の関心を集めている。 既存の手法のほとんどは、マルチスペクトル(MS)とパンクロマティック(PAN)の画像をダウンサンプリングする教師あり学習フレームワークに該当し、元のMSイメージを基底真理とみなしてトレーニングサンプルを形成する。 印象的な性能は達成できたが、スケールギャップのため、元のフルスケールイメージへの一般化が困難であり、実用性に欠ける。 本稿では,真理を欠いた実物大画像から学習し,この問題を解消する,教師なし生成型敵フレームワークを提案する。 PANおよびMS画像から2ストリーム生成器を用いてモダリティ特異的特徴を抽出し,特徴領域での融合を行い,パンシャープ画像の再構成を行う。 さらに,サイクル整合性および対向性に基づく新たなハイブリッド損失を導入し,性能向上を図る。 最新技術との比較実験はgaofen-2とworldview-3の衛星で行われている。 その結果,本手法は実画像のパンシャーピング性能を大幅に向上させることができることがわかった。 コードとデータセットは公開される予定だ。

Deep learning based pan-sharpening has received significant research interest in recent years. Most of existing methods fall into the supervised learning framework in which they down-sample the multi-spectral (MS) and panchromatic (PAN) images and regard the original MS images as ground truths to form training samples. Although impressive performance could be achieved, they have difficulties generalizing to the original full-scale images due to the scale gap, which makes them lack of practicability. In this paper, we propose an unsupervised generative adversarial framework that learns from the full-scale images without the ground truths to alleviate this problem. We extract the modality-specific features from the PAN and MS images with a two-stream generator, perform fusion in the feature domain, and then reconstruct the pan-sharpened images. Furthermore, we introduce a novel hybrid loss based on the cycle-consistency and adversarial scheme to improve the performance. Comparison experiments with the state-of-the-art methods are conducted on GaoFen-2 and WorldView-3 satellites. Results demonstrate that the proposed method can greatly improve the pan-sharpening performance on the full-scale images, which clearly show its practical value. Codes and datasets will be made publicly available.
翻訳日:2021-09-21 16:10:05 公開日:2021-09-20
# edgeflow: エッジガイドフローによる実用的なインタラクティブセグメンテーションの実現

EdgeFlow: Achieving Practical Interactive Segmentation with Edge-Guided Flow ( http://arxiv.org/abs/2109.09406v1 )

ライセンス: Link先を確認
Yuying Hao, Yi Liu, Zewu Wu, Lin Han, Yizhou Chen, Guowei Chen, Lutao Chu, Shiyu Tang, Zhiliang Yu, Zeyu Chen, Baohua Lai(参考訳) 高品質なトレーニングデータは、イメージセグメンテーションタスクにおいて重要な役割を果たす。 通常、ピクセルレベルのアノテーションは大量のトレーニングデータに対して高価で手間がかかり、時間がかかる。 ラベルのコストを低減し,セグメンテーションの質を向上させるため,対話的なセグメンテーション手法が提案されている。 しかし、それらの性能は、速度と精度の観点から、実用的なセグメンテーションタスクの要件を満たしていない。 本研究では,エッジ誘導フローを用いたユーザクリックの対話的情報を完全に活用するアーキテクチャであるEdgeFlowを提案する。 提案手法は,後処理や反復最適化を行うことなく,最先端の性能を実現する。 ベンチマークに関する総合的な実験も本手法の優越性を示している。 また,提案手法を用いて,実用的なデータアノテーションタスクのための対話型セグメンテーションツールを開発した。 ソースコードとツールはhttps://github.com/p addlepaddle/paddlese gで評価できる。

High-quality training data play a key role in image segmentation tasks. Usually, pixel-level annotations are expensive, laborious and time-consuming for the large volume of training data. To reduce labelling cost and improve segmentation quality, interactive segmentation methods have been proposed, which provide the result with just a few clicks. However, their performance does not meet the requirements of practical segmentation tasks in terms of speed and accuracy. In this work, we propose EdgeFlow, a novel architecture that fully utilizes interactive information of user clicks with edge-guided flow. Our method achieves state-of-the-art performance without any post-processing or iterative optimization scheme. Comprehensive experiments on benchmarks also demonstrate the superiority of our method. In addition, with the proposed method, we develop an efficient interactive segmentation tool for practical data annotation tasks. The source code and tool is avaliable at https://github.com/P addlePaddle/PaddleSe g.
翻訳日:2021-09-21 16:09:46 公開日:2021-09-20
# AIによる臨床用シネCMRの根尖および基底切片のセグメンテーションの改善

Improved AI-based segmentation of apical and basal slices from clinical cine CMR ( http://arxiv.org/abs/2109.09421v1 )

ライセンス: Link先を確認
Jorge Mariscal-Harana, Naomi Kifle, Reza Razavi, Andrew P. King, Bram Ruijsink, Esther Puyol-Ant\'on(参考訳) 短軸磁気共鳴(CMR)セグメンテーションのための現在の人工知能(AI)アルゴリズムは、心臓の中央に位置するスライスに対して人間のパフォーマンスを実現する。 しかし、しばしば見過ごされる事実は、基底部分と頂部部分の分割がより難しいことである。 手動分析では、基底部分の差異が、ヒトのオブザーバ間変動における不一致の主な原因の1つとして報告されている。 本研究では,aiアルゴリズムのセグメンテーション基礎とapicalスライスにおける性能と,セグメンテーションを改善するための設計戦略について検討する。 我々は,NHS病院2施設(n=4,228)から得られた臨床CMRの大規模なデータセットを用いて,すべてのモデルを訓練し,ACDC(n=100)とM&Ms(n=321)の2つの外部データセットと比較した。 手動セグメンテーションを基準として、CMRスライスを非心臓、ベース、ミドル、頂点の4つの領域の1つに割り当てた。 nnU-Netフレームワークをベースラインとして,(1)非一様バッチサンプリングにより,トレーニング中に異なる領域の画像の出現頻度を選択できる,(2)心臓領域分類モデルに次いで,3つの(ベース,中間,頂点)領域別セグメンテーションモデルを用いて,心臓領域間のセグメンテーション性能ギャップを低減する方法を検討した。 分類とセグメンテーションのアプローチは、すべてのデータセットのパフォーマンスギャップを減らすのに最適であることを示す。 また,分類性能の向上により,セグメント化タスクの性能が著しく向上することを示す。

Current artificial intelligence (AI) algorithms for short-axis cardiac magnetic resonance (CMR) segmentation achieve human performance for slices situated in the middle of the heart. However, an often-overlooked fact is that segmentation of the basal and apical slices is more difficult. During manual analysis, differences in the basal segmentations have been reported as one of the major sources of disagreement in human interobserver variability. In this work, we aim to investigate the performance of AI algorithms in segmenting basal and apical slices and design strategies to improve their segmentation. We trained all our models on a large dataset of clinical CMR studies obtained from two NHS hospitals (n=4,228) and evaluated them against two external datasets: ACDC (n=100) and M&Ms (n=321). Using manual segmentations as a reference, CMR slices were assigned to one of four regions: non-cardiac, base, middle, and apex. Using the nnU-Net framework as a baseline, we investigated two different approaches to reduce the segmentation performance gap between cardiac regions: (1) non-uniform batch sampling, which allows us to choose how often images from different regions are seen during training; and (2) a cardiac-region classification model followed by three (i.e. base, middle, and apex) region-specific segmentation models. We show that the classification and segmentation approach was best at reducing the performance gap across all datasets. We also show that improvements in the classification performance can subsequently lead to a significantly better performance in the segmentation task.
翻訳日:2021-09-21 16:09:34 公開日:2021-09-20
# efficientnetv2によるdem超解像

DEM Super-Resolution with EfficientNetV2 ( http://arxiv.org/abs/2109.09661v1 )

ライセンス: Link先を確認
Bekir Z Demiray, Muhammed Sit, Ibrahim Demir(参考訳) 効率的な気候変動モニタリングとモデリングは、高品質な地理空間および環境データセットに依存している。 技術的能力や資源の制限により、多くの環境分野における高品質なデータの取得はコストがかかる。 デジタル標高モデル(DEM)データセットはそのような例であるが、低解像度版は広く利用でき、高解像度版は少ない。 この問題を是正するために,我々はEfficientNetV2ベースのモデルを提案し,評価する。 提案モデルでは,DEMの空間分解能を16倍に向上する。

Efficient climate change monitoring and modeling rely on high-quality geospatial and environmental datasets. Due to limitations in technical capabilities or resources, the acquisition of high-quality data for many environmental disciplines is costly. Digital Elevation Model (DEM) datasets are such examples whereas their low-resolution versions are widely available, high-resolution ones are scarce. In an effort to rectify this problem, we propose and assess an EfficientNetV2 based model. The proposed model increases the spatial resolution of DEMs up to 16times without additional information.
翻訳日:2021-09-21 16:09:03 公開日:2021-09-20
# 深部異常発生 : 異常染色体画像合成のための画像翻訳アプローチ

Deep Anomaly Generation: An Image Translation Approach of Synthesizing Abnormal Banded Chromosome Images ( http://arxiv.org/abs/2109.09702v1 )

ライセンス: Link先を確認
Lukas Uzolas, Javier Rico, Pierrick Coup\'e, Juan C. SanMiguel Gy\"orgy Cserey(参考訳) ディープラーニングベースのパイプラインの進歩は、さまざまな顕微鏡画像診断のブレークスルーにつながった。 しかしながら、十分な大きなトレーニングデータセットは、アノテーションコストが高いため、通常は取得が困難である。 有帯染色体画像の場合,特定の遺伝疾患の頻度が高いため,複数の病理組織において十分なライブラリーの作成は困難である。 GAN(Generative Adversarial Networks)は,合成画像の生成とトレーニングデータセットの拡張に有効であることが証明されている。 本研究では,ユーザ定義のバンディングパターンに従って現実的な単一染色体画像を生成するための条件付き逆ネットワークを実装した。 この目的のために、自己生成2次元染色体セグメンテーションラベルマップに基づく画像から画像への変換手法を用いる。 検証の結果,未発見のバンディングパターンと同様に,染色体の合成に有望な結果が得られた。 本手法は構造異常を伴う染色体データセットのデータ増大に活用できると考えている。 そこで本手法は, 細胞遺伝学の分野において, データシミュレーション, セグメンテーション, 検出, 分類などの医用画像解析の問題に対処するのに役立つ。

Advances in deep-learning-based pipelines have led to breakthroughs in a variety of microscopy image diagnostics. However, a sufficiently big training data set is usually difficult to obtain due to high annotation costs. In the case of banded chromosome images, the creation of big enough libraries is difficult for multiple pathologies due to the rarity of certain genetic disorders. Generative Adversarial Networks (GANs) have proven to be effective in generating synthetic images and extending training data sets. In our work, we implement a conditional adversarial network that allows generation of realistic single chromosome images following user-defined banding patterns. To this end, an image-to-image translation approach based on self-generated 2D chromosome segmentation label maps is used. Our validation shows promising results when synthesizing chromosomes with seen as well as unseen banding patterns. We believe that this approach can be exploited for data augmentation of chromosome data sets with structural abnormalities. Therefore, the proposed method could help to tackle medical image analysis problems such as data simulation, segmentation, detection, or classification in the field of cytogenetics.
翻訳日:2021-09-21 16:08:56 公開日:2021-09-20
# 図書館における倫理的AIを促進するための行動可能なアプローチ

Actionable Approaches to Promote Ethical AI in Libraries ( http://arxiv.org/abs/2109.09672v1 )

ライセンス: Link先を確認
Helen Bubinger, Jesse David Dinneen(参考訳) 多くの領域で人工知能(AI)が広く使われていることで、データや設計からデプロイメントまで多くの倫理的問題が明らかになっている。 これに対し、倫理的AIのための無数の幅広い原則とガイドラインが公開され、それに続いて、AIの倫理的成果を促進するための具体的なアプローチが提案されている。 一方、図書館や情報サービスもAIによる情報システムや機械学習による情報システムの利用が増えているが、意図された、あるいはデプロイされたAIの倫理を計画、評価、監査するライブラリのための実践的なガイダンスは存在しない。 そこで我々は,AIを活用した情報サービスやソフトウェアライフサイクルのさまざまな段階に適用可能な倫理的AIを促進するための,有望なアプローチをいくつか報告する。

The widespread use of artificial intelligence (AI) in many domains has revealed numerous ethical issues from data and design to deployment. In response, countless broad principles and guidelines for ethical AI have been published, and following those, specific approaches have been proposed for how to encourage ethical outcomes of AI. Meanwhile, library and information services too are seeing an increase in the use of AI-powered and machine learning-powered information systems, but no practical guidance currently exists for libraries to plan for, evaluate, or audit the ethics of intended or deployed AI. We therefore report on several promising approaches for promoting ethical AI that can be adapted from other contexts to AI-powered information services and in different stages of the software lifecycle.
翻訳日:2021-09-21 16:08:27 公開日:2021-09-20
# ランク異常の学習:スカラパフォーマンス基準と2サンプルランク統計の最大化

Learning to Rank Anomalies: Scalar Performance Criteria and Maximization of Two-Sample Rank Statistics ( http://arxiv.org/abs/2109.09590v1 )

ライセンス: Link先を確認
Myrto Limnios (CB), Nathan Noiry, St\'ephan Cl\'emen\c{c}on (IDS)(参考訳) より大規模なデータベースを収集し、保存する能力は、それらを効率的に処理する必要性を伴う。 多くの場合、ほとんどの観測は同一の挙動を持つが、これらの観測のごく一部は異常である。 異常値として定義された後者の検出は、マシンラーニングアプリケーション(不正検出や予測保守など)における大きな課題の1つだ。 本稿では,観測結果の異常度を反映した特徴空間上で定義されたデータ駆動スコアリング関数を学習することにより,異常検出の問題に対処する手法を提案する。 このスコアリング関数は、経験的基準が理論的結果が得られる2サンプルの線形ランク統計の形式をとるよく設計された二項分類問題によって学習される。 本手法を予備的な数値実験で示す。

The ability to collect and store ever more massive databases has been accompanied by the need to process them efficiently. In many cases, most observations have the same behavior, while a probable small proportion of these observations are abnormal. Detecting the latter, defined as outliers, is one of the major challenges for machine learning applications (e.g. in fraud detection or in predictive maintenance). In this paper, we propose a methodology addressing the problem of outlier detection, by learning a data-driven scoring function defined on the feature space which reflects the degree of abnormality of the observations. This scoring function is learnt through a well-designed binary classification problem whose empirical criterion takes the form of a two-sample linear rank statistics on which theoretical results are available. We illustrate our methodology with preliminary encouraging numerical experiments.
翻訳日:2021-09-21 16:07:41 公開日:2021-09-20
# 深部畳み込みニューラルネットワークを組み合わせた非圧縮性流体解法の性能と精度評価

Performance and accuracy assessments of an incompressible fluid solver coupled with a deep Convolutional Neural Network ( http://arxiv.org/abs/2109.09363v1 )

ライセンス: Link先を確認
Ekhi Ajuria Illarramendi, Micha\"el Bauerheim and B\'en\'edicte Cuenot(参考訳) ポアソン方程式の解法は通常、非圧縮性流体解法で最も計算集約的なステップの1つである。 近年、ディープラーニング、特に畳み込みニューラルネットワーク(CNN)がこの方程式を解くために導入され、解の正確性に対する保証の欠如による推論時間の大幅な削減につながっている。 この欠点は不正確で不安定なシミュレーションにつながる可能性がある。 また、ネットワークアーキテクチャを変更する際に、異なるエラーレベルでの評価を行うため、CNNのスピードアップを公平に評価することは不可能である。 この問題を回避するために、CNNと従来の反復解法を結合してユーザ定義の精度レベルを確保するハイブリッド戦略を開発した。 CNNハイブリット法は, 変動密度の羽根と障害物のない2つの流れに対して試験を行い, 顕著な一般化能力の低下, シミュレーションの精度と安定性の両立を保証した。 複数のネットワークアーキテクチャを用いた予測の誤差分布について検討した。 その結果,速度場の平均偏差として定義されたハイブリッド戦略のしきい値は,CNNに基づくハイブリッド計算戦略における一貫した物理挙動を確実にすることを示した。 この戦略により、様々なネットワークアーキテクチャにおいて、CNNの性能を同じ精度で体系的に評価することができる。 特に、ネットワークアーキテクチャに複数のスケールを組み込むことの重要性は、feedforward cnnアーキテクチャに比べて精度と推論性能が向上し、これらのネットワークは、従来の反復型解法よりも110-25の高速解を提供することができるため、実証されている。

The resolution of the Poisson equation is usually one of the most computationally intensive steps for incompressible fluid solvers. Lately, Deep Learning, and especially Convolutional Neural Networks (CNN), has been introduced to solve this equation, leading to significant inference time reduction at the cost of a lack of guarantee on the accuracy of the solution. This drawback might lead to inaccuracies and potentially unstable simulations. It also makes impossible a fair assessment of the CNN speedup, for instance, when changing the network architecture, since evaluated at different error levels. To circumvent this issue, a hybrid strategy is developed, which couples a CNN with a traditional iterative solver to ensure a user-defined accuracy level. The CNN hybrid method is tested on two flow cases, consisting of a variable-density plume with and without obstacles, demostrating remarkable generalization capabilities, ensuring both the accuracy and stability of the simulations. The error distribution of the predictions using several network architectures is further investigated. Results show that the threshold of the hybrid strategy defined as the mean divergence of the velocity field is ensuring a consistent physical behavior of the CNN-based hybrid computational strategy. This strategy allows a systematic evaluation of the CNN performance at the same accuracy level for various network architectures. In particular, the importance of incorporating multiple scales in the network architecture is demonstrated, since improving both the accuracy and the inference performance compared with feedforward CNN architectures, as these networks can provide solutions 1 10-25 faster than traditional iterative solvers.
翻訳日:2021-09-21 16:04:32 公開日:2021-09-20
# prediction quality of service (pqos): 完全自律システムのための次のフロンティア

Predictive Quality of Service (PQoS): The Next Frontier for Fully Autonomous Systems ( http://arxiv.org/abs/2109.09376v1 )

ライセンス: Link先を確認
Mate Boban, Marco Giordani, Michele Zorzi(参考訳) ソフトウェア、ハードウェア、コンピューティング、制御の最近の進歩は、自律システムの分野で大きな進歩をもたらした。 特に、自律的なマシンは、事前に定義された時間枠内で、自分たちの移動と運用のシナリオがどのように進化するかを継続的に見積もり続け、ネットワークが合意されたサービス品質(qos)を満たせるかどうかを予測すべきである。 そうでない場合は、アプリケーション要件を満たすために適切な対策を講じるべきです。 そこで本研究では,自律システムにおいて予測qos(pqos)を実現する手法を提案し,ネットワーク予測の利点となるユースケースについて議論する。 そして、今後の研究のためにまだオープンになっている分野の課題に光を当てた。 ケーススタディでは、異なる計測信号の関数として、遠隔操作運転のようなユースケースで機械学習がPQoSを促進できるかどうかを示す。

Recent advances in software, hardware, computing and control have fueled significant progress in the field of autonomous systems. Notably, autonomous machines should continuously estimate how the scenario in which they move and operate will evolve within a predefined time frame, and foresee whether or not the network will be able to fulfill the agreed Quality of Service (QoS). If not, appropriate countermeasures should be taken to satisfy the application requirements. Along these lines, in this paper we present possible methods to enable predictive QoS (PQoS) in autonomous systems, and discuss which use cases will particularly benefit from network prediction. Then, we shed light on the challenges in the field that are still open for future research. As a case study, we demonstrate whether machine learning can facilitate PQoS in a teleoperated-driving -like use case, as a function of different measurement signals.
翻訳日:2021-09-21 16:04:06 公開日:2021-09-20
# GhostShiftAddNet:エネルギー効率の良い運用の新機能

GhostShiftAddNet: More Features from Energy-Efficient Operations ( http://arxiv.org/abs/2109.09495v1 )

ライセンス: Link先を確認
Jia Bi, Jonathon Hare, Geoff V. Merrett(参考訳) deep convolutional neural networks (cnns) は計算量とメモリ集約性がある。 CNNでは、リソース制約のあるエッジデバイスに推論を効果的に展開する能力に挑戦するリソースの影響が強い。 本稿では,GhostShiftAddNetを提案する。ハードウェア効率のよいディープネットワークを実現するためのモチベーションである。 我々は新しいボトルネックブロックであるGhostSAを導入し、ブロック内のすべての乗算を安価な演算に変換する。 ボトルネックは、固有の特徴マップを処理するために、適切な数のビットシフトフィルタを使用し、次に、追加操作を伴うビットシフトからなる一連の変換を適用して、本質的な特徴の根底にある情報をフルに学習する機能マップを生成する。 異なるハードウェアプラットフォームに対するビットシフトと追加操作の数をスケジュールします。 デスクトップおよび組み込み(Jetson Nano)デバイスを用いた広範な実験およびアブレーション実験を行い,実装と測定を行った。 提案するghostsaブロックは,最先端ネットワークアーキテクチャのバックボーンにあるボトルネックブロックを置き換えることができ,画像分類ベンチマークの性能が向上することを示す。 さらに、GhostShiftAddNetは、GhostNetよりもFLOPやパラメータ(最大3倍)が少なく、高い分類精度を得ることができる。 GhostNetと比較して、Jetson Nanoの推論遅延はGPUとCPUでそれぞれ1.3倍と2倍改善される。

Deep convolutional neural networks (CNNs) are computationally and memory intensive. In CNNs, intensive multiplication can have resource implications that may challenge the ability for effective deployment of inference on resource-constrained edge devices. This paper proposes GhostShiftAddNet, where the motivation is to implement a hardware-efficient deep network: a multiplication-free CNN with fewer redundant features. We introduce a new bottleneck block, GhostSA, that converts all multiplications in the block to cheap operations. The bottleneck uses an appropriate number of bit-shift filters to process intrinsic feature maps, then applies a series of transformations that consist of bit-wise shifts with addition operations to generate more feature maps that fully learn to capture information underlying intrinsic features. We schedule the number of bit-shift and addition operations for different hardware platforms. We conduct extensive experiments and ablation studies with desktop and embedded (Jetson Nano) devices for implementation and measurements. We demonstrate the proposed GhostSA block can replace bottleneck blocks in the backbone of state-of-the-art networks architectures and gives improved performance on image classification benchmarks. Further, our GhostShiftAddNet can achieve higher classification accuracy with fewer FLOPs and parameters (reduced by up to 3x) than GhostNet. When compared to GhostNet, inference latency on the Jetson Nano is improved by 1.3x and 2x on the GPU and CPU respectively.
翻訳日:2021-09-21 16:03:50 公開日:2021-09-20
# 非負テンソル完全化と並列実装のための加速確率勾配

Accelerated Stochastic Gradient for Nonnegative Tensor Completion and Parallel Implementation ( http://arxiv.org/abs/2109.09534v1 )

ライセンス: Link先を確認
Ioanna Siaminou, Ioannis Marios Papagiannakos, Christos Kolomvakis, Athanasios P. Liavas(参考訳) 我々は非負のテンソル完全化の問題を考える。 我々は交互最適化フレームワークを採用し,加速度勾配アルゴリズムの確率的変動により,各非負行列完了問題を解く。 実世界データと合成データの両方を用いてアルゴリズムの有効性と効率を実験的に検証した。 高速化を実現するマルチスレッドAPI OpenMP を用いて,提案アルゴリズムの共有メモリ実装を開発する。 我々のアプローチは、非常に大きな非負のテンソル完成問題の解に対する非常に競争的な候補であると信じています。

We consider the problem of nonnegative tensor completion. We adopt the alternating optimization framework and solve each nonnegative matrix completion problem via a stochastic variation of the accelerated gradient algorithm. We experimentally test the effectiveness and the efficiency of our algorithm using both real-world and synthetic data. We develop a shared-memory implementation of our algorithm using the multi-threaded API OpenMP, which attains significant speedup. We believe that our approach is a very competitive candidate for the solution of very large nonnegative tensor completion problems.
翻訳日:2021-09-21 16:03:07 公開日:2021-09-20
# グラフ埋め込み技術に基づくレコメンダシステム:包括的レビュー

Recommender systems based on graph embedding techniques: A comprehensive review ( http://arxiv.org/abs/2109.09587v1 )

ライセンス: Link先を確認
Yue Deng(参考訳) 情報過負荷問題を緩和するための重要なツールであるリコメンダシステムは、観測されたユーザ-イテム関係を分析して、数百万の候補からユーザの好む項目を予測することを目的としている。 近年,レコメンデーションシステムの抱える疎外性やコールドスタート問題に対処する上で,副次的な情報と知識を活用して,副次的な(間接的な)ユーザ・イテム関係の解明が期待でき,その性能は,高度な複雑さと大規模な副次的情報・知識に直面したレコメンデーションモデルのスケーラビリティによって大きく決定されている。 複雑で大規模なデータを効率的に活用するために、グラフ埋め込み技術の研究は重要なトピックである。 グラフ埋め込み技術を用いたレコメンデータシステムの取得は、グラフトポロジ解析に基づいて直接実装する従来のレコメンデーションよりも優れており、近年広く研究されている。 本稿では,二部グラフ,一般グラフ,知識グラフの埋め込み技術からのグラフ埋め込みに基づく推薦を体系的に振り返り,その汎用設計パイプラインを提案する。 さらに、いくつかの代表的なグラフ埋め込みベースのレコメンデーションモデルと、最もよく使われる従来のレコメンデーションモデルを比較して、従来のモデルは、暗黙のユーザ-イテム相互作用を予測するためにグラフ埋め込みベースのレコメンデーションモデルより総合的に優れていることを示し、これらのタスクにおけるグラフ埋め込みベースのレコメンデーションの相対的な弱点を明らかにした。 今後の研究を進めるために,本稿では,グラフ埋め込み型推薦と従来型推奨とのトレードオフを,オープン質問と同様に異なるタスクで作成するための構成的提案を提案する。

Recommender systems, a pivotal tool to alleviate the information overload problem, aim to predict user's preferred items from millions of candidates by analyzing observed user-item relations. As for tackling the sparsity and cold start problems encountered by recommender systems, uncovering hidden (indirect) user-item relations by employing side information and knowledge to enrich observed information for the recommendation has been proven promising recently; and its performance is largely determined by the scalability of recommendation models in the face of the high complexity and large scale of side information and knowledge. Making great strides towards efficiently utilizing complex and large-scale data, research into graph embedding techniques is a major topic. Equipping recommender systems with graph embedding techniques contributes to outperforming the conventional recommendation implementing directly based on graph topology analysis and has been widely studied these years. This article systematically retrospects graph embedding-based recommendation from embedding techniques for bipartite graphs, general graphs, and knowledge graphs, and proposes a general design pipeline of that. In addition, comparing several representative graph embedding-based recommendation models with the most common-used conventional recommendation models, on simulations, manifests that the conventional models overall outperform the graph embedding-based ones in predicting implicit user-item interactions, revealing the relative weakness of graph embedding-based recommendation in these tasks. To foster future research, this article proposes constructive suggestions on making a trade-off between graph embedding-based recommendation and the conventional recommendation in different tasks as well as some open questions.
翻訳日:2021-09-21 16:03:00 公開日:2021-09-20
# 確率的切断ストック問題に対する強化学習アプローチ

A Reinforcement Learning Approach to the Stochastic Cutting Stock Problem ( http://arxiv.org/abs/2109.09592v1 )

ライセンス: Link先を確認
Anselmo R. Pitombeira-Neto, Arthur H. Fonseca Murta(参考訳) 確率的カットストック問題の定式化を無限水平マルコフ決定過程として提案する。 各決定時期において、現在の在庫が与えられた場合、エージェントは、未知の需要を期待して、在庫物を切り分けるパターンを選択する。 最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。 正確なアルゴリズムは状態空間次元で指数関数的にスケールするため,強化学習に基づくヒューリスティックな解法を開発した。 本稿では、線形モデルを用いてポリシーのアクション値関数を近似する近似ポリシー反復アルゴリズムを提案する。 予測されたベルマン方程式を、シミュレーションによって得られた状態遷移、決定、コストのサンプルから解いて、政策評価を行う。 大きな意思決定空間のため、クロスエントロピー法による政策改善を行う。 計算実験は、アルゴリズムの応用を説明するために現実的なデータを用いて行われる。 多項式とフーリエ基底関数で得られるヒューリスティックなポリシーは、ミオピックおよびランダムなポリシーと比較される。 その結果, 平均価格で在庫を適切に管理できる政策が, 筋電図法で得られるコストよりも80%も低い可能性が示唆された。

We propose a formulation of the stochastic cutting stock problem as a discounted infinite-horizon Markov decision process. At each decision epoch, given current inventory of items, an agent chooses in which patterns to cut objects in stock in anticipation of the unknown demand. An optimal solution corresponds to a policy that associates each state with a decision and minimizes the expected total cost. Since exact algorithms scale exponentially with the state-space dimension, we develop a heuristic solution approach based on reinforcement learning. We propose an approximate policy iteration algorithm in which we apply a linear model to approximate the action-value function of a policy. Policy evaluation is performed by solving the projected Bellman equation from a sample of state transitions, decisions and costs obtained by simulation. Due to the large decision space, policy improvement is performed via the cross-entropy method. Computational experiments are carried out with the use of realistic data to illustrate the application of the algorithm. Heuristic policies obtained with polynomial and Fourier basis functions are compared with myopic and random policies. Results indicate the possibility of obtaining policies capable of adequately controlling inventories with an average cost up to 80% lower than the cost obtained by a myopic policy.
翻訳日:2021-09-21 16:02:24 公開日:2021-09-20
# 自動運転におけるコーナーケースの記述--目標と課題

Description of Corner Cases in Automated Driving: Goals and Challenges ( http://arxiv.org/abs/2109.09607v1 )

ライセンス: Link先を確認
Daniel Bogdoll, Jasmin Breitenstein, Florian Heidecker, Maarten Bieshaar, Bernhard Sick, Tim Fingscheidt, J. Marius Z\"ollner(参考訳) 自動車両の分布を拡大するには、様々な予期せぬ危険な状況、すなわちコーナーケース(CC)を扱う必要がある。 自動運転システムの多くのモジュールは機械学習(ml)に基づいているため、ccはその開発に必要なデータの重要な部分である。 しかし、大規模なデータ収集には限られた量のCCデータしか存在しないため、MLの文脈では困難である。 CCをよりよく理解することで、データセット分析やオンライン手法、例えば自動運転システムの性能向上といったオフラインアプリケーションが改善される。 ccには知識に基づく記述と分類があるが、機械解釈可能な記述についての研究はほとんどない。 この拡張要約では、このような説明の課題と目標について、簡単に概要を説明します。

Scaling the distribution of automated vehicles requires handling various unexpected and possibly dangerous situations, termed corner cases (CC). Since many modules of automated driving systems are based on machine learning (ML), CC are an essential part of the data for their development. However, there is only a limited amount of CC data in large-scale data collections, which makes them challenging in the context of ML. With a better understanding of CC, offline applications, e.g., dataset analysis, and online methods, e.g., improved performance of automated driving systems, can be improved. While there are knowledge-based descriptions and taxonomies for CC, there is little research on machine-interpretabl e descriptions. In this extended abstract, we will give a brief overview of the challenges and goals of such a description.
翻訳日:2021-09-21 16:02:06 公開日:2021-09-20
# リモートセンシング画像分類のための回路ベースハイブリッド量子ニューラルネットワークについて

On Circuit-based Hybrid Quantum Neural Networks for Remote Sensing Imagery Classification ( http://arxiv.org/abs/2109.09484v1 )

ライセンス: Link先を確認
Alessandro Sebastianelli, Daniela A. Zaidenberg, Dario Spiller, Bertrand Le Saux and Silvia Liberata Ullo(参考訳) 本稿では,回路ベースハイブリッド量子畳み込みニューラルネットワーク(QCNN)をリモートセンシングの文脈において画像分類器としてうまく活用する方法を検討する。 ハイブリッドQCNNは、標準ニューラルネットワーク内に量子層を導入することで、CNNの古典的なアーキテクチャを豊かにする。 この研究で提案された新しいQCNNは、地球観測(EO)ユースケースとして選択された土地利用と土地被覆(LULC)分類に適用され、基準ベンチマークとして使用されるEuroSATデータセットでテストされる。 マルチクラス分類の結果は,QCNNの性能が従来の性能よりも高いことを示すことによって,提案手法の有効性を証明した。 さらに,量子絡み合いを生かした量子回路が最適な分類スコアを得ることを示す。 この研究は、eoのケーススタディに量子コンピューティングを適用する可能性を示し、将来の研究に理論的および実験的背景を提供する。

This article aims to investigate how circuit-based hybrid Quantum Convolutional Neural Networks (QCNNs) can be successfully employed as image classifiers in the context of remote sensing. The hybrid QCNNs enrich the classical architecture of CNNs by introducing a quantum layer within a standard neural network. The novel QCNN proposed in this work is applied to the Land Use and Land Cover (LULC) classification, chosen as an Earth Observation (EO) use case, and tested on the EuroSAT dataset used as reference benchmark. The results of the multiclass classification prove the effectiveness of the presented approach, by demonstrating that the QCNN performances are higher than the classical counterparts. Moreover, investigation of various quantum circuits shows that the ones exploiting quantum entanglement achieve the best classification scores. This study underlines the potentialities of applying quantum computing to an EO case study and provides the theoretical and experimental background for futures investigations.
翻訳日:2021-09-21 16:01:00 公開日:2021-09-20
# 機械学習による金属合金材料の特性予測

Prediction of properties of metal alloy materials based on machine learning ( http://arxiv.org/abs/2109.09394v1 )

ライセンス: Link先を確認
Houchen Zuo, Yongquan Jiang, Yan Yang, Jie Hu(参考訳) 密度汎関数理論とその最適化アルゴリズムは、材料分野の物性を計算する主要な方法である。 計算結果は正確だが、多くの時間と費用がかかる。 この問題を軽減するため,我々は機械学習を用いて材料特性の予測を行う。 本稿では,金属合金の原子体積,原子エネルギー,原子生成エネルギーについて,オープン量子材料データベースを用いて実験を行った。 従来の機械学習モデル、ディープラーニングネットワーク、自動機械学習を通じて、材料特性予測における機械学習の有効性を検証する。 実験の結果,機械学習は材料特性を正確に予測できることがわかった。

Density functional theory and its optimization algorithm are the main methods to calculate the properties in the field of materials. Although the calculation results are accurate, it costs a lot of time and money. In order to alleviate this problem, we intend to use machine learning to predict material properties. In this paper, we conduct experiments on atomic volume, atomic energy and atomic formation energy of metal alloys, using the open quantum material database. Through the traditional machine learning models, deep learning network and automated machine learning, we verify the feasibility of machine learning in material property prediction. The experimental results show that the machine learning can predict the material properties accurately.
翻訳日:2021-09-21 15:59:26 公開日:2021-09-20
# クロスサブジェクト感情認識のための主観不変脳波表現のコントラスト学習

Contrastive Learning of Subject-Invariant EEG Representations for Cross-Subject Emotion Recognition ( http://arxiv.org/abs/2109.09559v1 )

ライセンス: Link先を確認
Xinke Shen, Xianggen Liu, Xin Hu, Dan Zhang, Sen Song(参考訳) 感情認識は、人間と機械の相互作用と日々の医療において重要な役割を果たす。 近年、脳波信号は感情認識に有益で信頼性が高いと報告されている。 しかし、感情関連脳波信号の物体間変動は、脳波に基づく感情認識の実用化に大きな課題をもたらす。 近年のサブジェクト間相関に関する神経科学研究に触発されて,信頼できるクロスサブジェクト感情認識のためのコントラスト学習法を提案した。 異なる被験者に対して同じ刺激を受けた被験者間での脳波信号の類似性を最大化することにより、物体間差を最小限に抑えるためにコントラスト学習を用いた。 具体的には,空間的畳み込み層と時間的畳み込み層を有する畳み込みニューラルネットワークを用いて,脳波信号からサブジェクト間アラインされた時空間表現を学習した。 次に、アライメント表現を用いて感情分類のための差分エントロピー特徴を抽出した。 提案手法の性能は,80被験者のTHU-EPデータセットと15被験者のSEEDデータセットを用いて評価した。 比較対象感情認識精度(thu-epデータセットでは72.1%、二分分類では47.0%、三分分類では86.3%)は最先端法と比較して達成された。 提案手法は, 感情刺激の見当たらない場合にも有効である。 したがって,CLISA法は「プラグ・アンド・プレイ」方式で操作することで,脳波に基づく感情認識の実用性を大幅に向上することが期待されている。 さらに、CLISAによる学習時空間表現は、人間の感情処理の神経機構に関する洞察を与えることができる。

Emotion recognition plays a vital role in human-machine interactions and daily healthcare. EEG signals have been reported to be informative and reliable for emotion recognition in recent years. However, the inter-subject variability of emotion-related EEG signals poses a great challenge for the practical use of EEG-based emotion recognition. Inspired by the recent neuroscience studies on inter-subject correlation, we proposed a Contrastive Learning method for Inter-Subject Alignment (CLISA) for reliable cross-subject emotion recognition. Contrastive learning was employed to minimize the inter-subject differences by maximizing the similarity in EEG signals across subjects when they received the same stimuli in contrast to different ones. Specifically, a convolutional neural network with depthwise spatial convolution and temporal convolution layers was applied to learn inter-subject aligned spatiotemporal representations from raw EEG signals. Then the aligned representations were used to extract differential entropy features for emotion classification. The performance of the proposed method was evaluated on our THU-EP dataset with 80 subjects and the publicly available SEED dataset with 15 subjects. Comparable or better cross-subject emotion recognition accuracy (i.e., 72.1% and 47.0% for binary and nine-class classification, respectively, on the THU-EP dataset and 86.3% on the SEED dataset for three-class classification) was achieved as compared to the state-of-the-art methods. The proposed method could be generalized well to unseen emotional stimuli as well. The CLISA method is therefore expected to considerably increase the practicality of EEG-based emotion recognition by operating in a "plug-and-play" manner. Furthermore, the learned spatiotemporal representations by CLISA could provide insights into the neural mechanisms of human emotion processing.
翻訳日:2021-09-21 15:59:19 公開日:2021-09-20
# 学習マスターポリシーによる平均フィールドゲームにおける一般化

Generalization in Mean Field Games by Learning Master Policies ( http://arxiv.org/abs/2109.09717v1 )

ライセンス: Link先を確認
Sarah Perrin and Mathieu Lauri\`ere and Julien P\'erolat and Romuald \'Elie and Matthieu Geist and Olivier Pietquin(参考訳) 平均フィールドゲーム(MFG)は、非常に多くのエージェントにマルチエージェントシステムを拡張できる可能性がある。 しかし、ほとんどの文献は、MFGの実用的応用を制限する、エージェントの1つの初期分布を前提としている。 機械学習は、一般化能力によって、より広範なMFG問題を解決する可能性がある。 本研究は,これらの一般化特性を活用して,一般エージェントが任意の集団分布に対して最適に振る舞うことができるような政策を学習する方法について検討する。 mfgs のマスター方程式を参照して、これらを記述するために 'master policy'' という用語をつくり、最初の分布が何であれ単一のマスターポリシーがnash平衡を与えることを証明した。 このようなマスターポリシーを学習する手法を提案する。 提案手法は,現在の人口分布を観察の一部として追加すること,ニューラルネットワークによるマスターポリシーの近似,強化学習とFactitious Playによるトレーニングという3つの要素に依存している。 学習したマスターポリシーの効率だけでなく、学習に使用する分布を超えた一般化能力の数値的な例について説明する。

Mean Field Games (MFGs) can potentially scale multi-agent systems to extremely large populations of agents. Yet, most of the literature assumes a single initial distribution for the agents, which limits the practical applications of MFGs. Machine Learning has the potential to solve a wider diversity of MFG problems thanks to generalizations capacities. We study how to leverage these generalization properties to learn policies enabling a typical agent to behave optimally against any population distribution. In reference to the Master equation in MFGs, we coin the term ``Master policies'' to describe them and we prove that a single Master policy provides a Nash equilibrium, whatever the initial distribution. We propose a method to learn such Master policies. Our approach relies on three ingredients: adding the current population distribution as part of the observation, approximating Master policies with neural networks, and training via Reinforcement Learning and Fictitious Play. We illustrate on numerical examples not only the efficiency of the learned Master policy but also its generalization capabilities beyond the distributions used for training.
翻訳日:2021-09-21 15:58:50 公開日:2021-09-20
# 機械学習の隠れ対称性

Machine-learning hidden symmetries ( http://arxiv.org/abs/2109.09721v1 )

ライセンス: Link先を確認
Ziming Liu (MIT), Max Tegmark (MIT)(参考訳) 本研究では,新しい座標系においてのみ現れる対称性として定義される隠れ対称性を自動検出する手法を提案する。 その核となる考え方は、ある偏微分方程式の違反として非対称性を定量化し、そのような違反をすべての可逆変換の空間上で数値的に最小化することである。 例えば、我々の手法は、非回転ブラックホールのシュワルツシルト計量において隠れた翻訳対称性を示す有名なゲルストランド・パインレーヴ計量と、伝統的に対称性とは見なされないハミルトン性、モジュラリティ、その他の単純化特性を再検討する。

We present an automated method for finding hidden symmetries, defined as symmetries that become manifest only in a new coordinate system that must be discovered. Its core idea is to quantify asymmetry as violation of certain partial differential equations, and to numerically minimize such violation over the space of all invertible transformations, parametrized as invertible neural networks. For example, our method rediscovers the famous Gullstrand-Painleve metric that manifests hidden translational symmetry in the Schwarzschild metric of non-rotating black holes, as well as Hamiltonicity, modularity and other simplifying traits not traditionally viewed as symmetries.
翻訳日:2021-09-21 15:58:34 公開日:2021-09-20
# (参考訳) 不均衡データセットに対する自己監督型ニューラルネットワーク探索 [全文訳有]

Self-Supervised Neural Architecture Search for Imbalanced Datasets ( http://arxiv.org/abs/2109.08580v2 )

ライセンス: CC BY-SA 4.0
Aleksandr Timofeev, Grigorios G. Chrysos, Volkan Cevher(参考訳) neural architecture search (nas)は、アノテートされたラベル付きデータセットでトレーニングされた場合、最先端の結果を提供する。 しかし、データの注釈付けやサンプルのバランスの取れた数さえも、医学領域など、さまざまな分野の実践者にとって豪華である。 そのために,3倍のコントリビューションを持つNASベースのフレームワークを提案する。 (a) 自己組織化シナリオ、すなわちアーキテクチャを決定するためにラベルを必要としないことに焦点を当て、 b)データセットが不均衡であると仮定する。 (c) リソース制約されたセットアップ、すなわち単一のGPU(例えばGoogle Colab)上で実行できるように、各コンポーネントを設計する。 我々のコンポーネントは、近年の自己教師型学習 -\citep{zbontar2021barlow}、自己教師型NAS~\citep{kaplan2020self}の上に構築され、不均衡データセットの場合、それらを拡張します。 我々は,CIFAR-10の不均衡なバージョンに対して実験を行い,提案手法が標準的なニューラルネットワークより優れていることを示す。 自然に不均衡なデータセットに対する仮定を検証するために、ChestMNISTとCOVID-19 X線の実験も行います。 結果は,提案手法が不均衡なデータセットでどのように使用できるかを示すとともに,単一のGPU上で完全に動作可能であることを示す。 コードは href{https://github.com/T imofeevAlex/ssnas_im Balanced}{here} で入手できる。

Neural Architecture Search (NAS) provides state-of-the-art results when trained on well-curated datasets with annotated labels. However, annotating data or even having balanced number of samples can be a luxury for practitioners from different scientific fields, e.g., in the medical domain. To that end, we propose a NAS-based framework that bears the threefold contributions: (a) we focus on the self-supervised scenario, i.e., where no labels are required to determine the architecture, and (b) we assume the datasets are imbalanced, (c) we design each component to be able to run on a resource constrained setup, i.e., on a single GPU (e.g. Google Colab). Our components build on top of recent developments in self-supervised learning~\citep{zbontar2021barlow}, self-supervised NAS~\citep{kaplan2020self} and extend them for the case of imbalanced datasets. We conduct experiments on an (artificially) imbalanced version of CIFAR-10 and we demonstrate our proposed method outperforms standard neural networks, while using $27\times$ less parameters. To validate our assumption on a naturally imbalanced dataset, we also conduct experiments on ChestMNIST and COVID-19 X-ray. The results demonstrate how the proposed method can be used in imbalanced datasets, while it can be fully run on a single GPU. Code is available \href{https://github.com/T imofeevAlex/ssnas_im balanced}{here}.
翻訳日:2021-09-21 11:33:27 公開日:2021-09-20
# 半監督左心房分節に対するクロスドメインデータを用いた適応的階層的二重整合性

Adaptive Hierarchical Dual Consistency for Semi-Supervised Left Atrium Segmentation on Cross-Domain Data ( http://arxiv.org/abs/2109.08311v2 )

ライセンス: Link先を確認
Jun Chen, Heye Zhang, Raad Mohiaddin, Tom Wong, David Firmin, Jennifer Keegan, and Guang Yang(参考訳) 半教師付き学習は、ラベル付きデータが不十分な左房分割モデル学習において大きな意味を持つ。 ドメイン間データに対する半教師付き学習の一般化は、モデルの堅牢性をさらに向上させる上で重要である。 しかし、様々なデータ領域間の分布差とサンプルミスマッチは、半教師付き学習の一般化を妨げる。 本研究では,AHDC(Adaptive Hierarchical Dual Consistency)を用いて,クロスドメインデータに基づく半教師付きLAセグメンテーションを提案する。 AHDCは主に双方向適応推論モジュール(BAI)と階層的デュアル一貫性学習モジュール(HDC)で構成されている。 BAIは2つの異なる領域間の分布の違いとサンプルミスマッチを克服する。 主に2つのマッピングネットワークを逆向きに学習し、相互適応により2つのマッチしたドメインを得る。 hdcは、得られたマッチング領域に基づくクロスドメイン半教師付きセグメンテーションのための階層的二重学習パラダイムを検討する。 主にドメイン内およびドメイン間の両方で補完情報をマイニングするための2つのデュアルモデリングネットワークを構築している。 ドメイン内学習では、相補的モデリング情報を利用するために、双対モデリング対象に一貫性制約を適用する。 ドメイン間学習では、2つのデュアルモデリングネットワークによってモデル化されたlasに一貫性制約を適用し、異なるデータドメイン間の補完的知識を利用する。 今回提案したAHDCは, 異なる中心部からの3D遅延心筋MR(LGE-CMR)データセットと3DCTデータセットを用いて, 評価を行った。 他の最先端手法と比較して,提案したAHDCは高いセグメンテーション精度を実現し,クロスドメイン半教師付きLAセグメンテーションの能力を示した。

Semi-supervised learning provides great significance in left atrium (LA) segmentation model learning with insufficient labelled data. Generalising semi-supervised learning to cross-domain data is of high importance to further improve model robustness. However, the widely existing distribution difference and sample mismatch between different data domains hinder the generalisation of semi-supervised learning. In this study, we alleviate these problems by proposing an Adaptive Hierarchical Dual Consistency (AHDC) for the semi-supervised LA segmentation on cross-domain data. The AHDC mainly consists of a Bidirectional Adversarial Inference module (BAI) and a Hierarchical Dual Consistency learning module (HDC). The BAI overcomes the difference of distributions and the sample mismatch between two different domains. It mainly learns two mapping networks adversarially to obtain two matched domains through mutual adaptation. The HDC investigates a hierarchical dual learning paradigm for cross-domain semi-supervised segmentation based on the obtained matched domains. It mainly builds two dual-modelling networks for mining the complementary information in both intra-domain and inter-domain. For the intra-domain learning, a consistency constraint is applied to the dual-modelling targets to exploit the complementary modelling information. For the inter-domain learning, a consistency constraint is applied to the LAs modelled by two dual-modelling networks to exploit the complementary knowledge among different data domains. We demonstrated the performance of our proposed AHDC on four 3D late gadolinium enhancement cardiac MR (LGE-CMR) datasets from different centres and a 3D CT dataset. Compared to other state-of-the-art methods, our proposed AHDC achieved higher segmentation accuracy, which indicated its capability in the cross-domain semi-supervised LA segmentation.
翻訳日:2021-09-21 11:19:44 公開日:2021-09-20
# 認知エージェントの知識源としての言語モデル

Language Models as a Knowledge Source for Cognitive Agents ( http://arxiv.org/abs/2109.08270v2 )

ライセンス: Link先を確認
Robert E. Wray, III and James R. Kirk and John E. Laird(参考訳) 言語モデル (LM) は大量のコーパスで訓練された文補完エンジンである。 LMは自然言語処理において重要なブレークスルーとして現れており、質問応答、要約、自然言語推論など、文の完成以上の機能を提供する。 これらの能力の多くは認知システムに潜在的な応用をもたらすが、特にタスク学習において、言語モデルをタスク知識の源として活用することは、重要な短期的利益をもたらす。 言語モデルとそれらを適用した様々なタスクを紹介し、言語モデルから知識を抽出する方法について検討する。 得られた分析は、認知システムのための新しい知識源として言語モデルを使用する際の課題と機会を概説する。 また、認知システムが提供する能力を用いて、言語モデルからの知識抽出を改善する方法も特定する。 成功への中心となるのは、認知エージェントが、LMに暗黙的な知識の抽象モデルを学ぶ能力と、高品質な知識を効果的に効率的に抽出する方法である。 本稿では,仮想的なロボットエージェントを紹介し,言語モデルがタスク知識を拡張し,その性能を向上させる方法と,エージェントが言語モデル内の知識を活用できる知識や手法について述べる。

Language models (LMs) are sentence-completion engines trained on massive corpora. LMs have emerged as a significant breakthrough in natural-language processing, providing capabilities that go far beyond sentence completion including question answering, summarization, and natural-language inference. While many of these capabilities have potential application to cognitive systems, exploiting language models as a source of task knowledge, especially for task learning, offers significant, near-term benefits. We introduce language models and the various tasks to which they have been applied and then review methods of knowledge extraction from language models. The resulting analysis outlines both the challenges and opportunities for using language models as a new knowledge source for cognitive systems. It also identifies possible ways to improve knowledge extraction from language models using the capabilities provided by cognitive systems. Central to success will be the ability of a cognitive agent to itself learn an abstract model of the knowledge implicit in the LM as well as methods to extract high-quality knowledge effectively and efficiently. To illustrate, we introduce a hypothetical robot agent and describe how language models could extend its task knowledge and improve its performance and the kinds of knowledge and methods the agent can use to exploit the knowledge within a language model.
翻訳日:2021-09-21 11:18:52 公開日:2021-09-20
# 層にまたがる類似表現のクラスターを示す微調整トランスフォーマー

Fine-Tuned Transformers Show Clusters of Similar Representations Across Layers ( http://arxiv.org/abs/2109.08406v2 )

ライセンス: Link先を確認
Jason Phang, Haokun Liu, Samuel R. Bowman(参考訳) 下流自然言語理解(NLU)タスクのためのBERTのような微調整済み言語エンコーダの成功にもかかわらず、ニューラルネットワークが微調整後にどのように変化するかはいまだに理解されていない。 本研究では,学習表現の比較手法であるセンタード・カーネルアライメント(cka)を用いて,レイヤ間のタスク調整モデルにおける表現の類似性を測定する。 12のNLUタスクを対象とした実験では、細調整されたRoBERTaとALBERTモデル内の表現の類似性において一貫したブロック対角構造が発見され、初期層と後期層のクラスタ内では強い類似性があるが、それらの間にはない。 後段のレイヤ表現の類似性は、後段のレイヤがタスクパフォーマンスにわずかに寄与することを示し、さらにチューニングを行なわずとも、細調整されたトランスフォーマの上位数層が性能を損なうことなく破棄可能であることを実験で検証する。

Despite the success of fine-tuning pretrained language encoders like BERT for downstream natural language understanding (NLU) tasks, it is still poorly understood how neural networks change after fine-tuning. In this work, we use centered kernel alignment (CKA), a method for comparing learned representations, to measure the similarity of representations in task-tuned models across layers. In experiments across twelve NLU tasks, we discover a consistent block diagonal structure in the similarity of representations within fine-tuned RoBERTa and ALBERT models, with strong similarity within clusters of earlier and later layers, but not between them. The similarity of later layer representations implies that later layers only marginally contribute to task performance, and we verify in experiments that the top few layers of fine-tuned Transformers can be discarded without hurting performance, even with no further tuning.
翻訳日:2021-09-21 11:18:34 公開日:2021-09-20