このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220313となっている論文です。

PDF登録状況(公開日: 20220313)

TitleAuthorsAbstract論文公表日・翻訳日
# 2層ReLUニューラルネットワークの隠れ凸最適化景観:最適解の具体的評価

The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural Networks: an Exact Characterization of the Optimal Solutions ( http://arxiv.org/abs/2006.05900v4 )

ライセンス: Link先を確認
Yifei Wang, Jonathan Lacotte and Mert Pilanci(参考訳) コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。 我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。 凸最適化プログラムの解の集合を考えると、最適なニューラルネットワークのセット全体を正確に構築する方法を示します。 この最適集合とその不変変換の詳細な特徴付けを提供する。 凸の視点のさらなる結果として (i)確率的勾配降下によって発見されたクラーク定常点が、サブサンプル凸問題の大域的最適性に対応することを立証する。 (ii)ニューラルネットワークがトレーニング損失のグローバル最小であるかどうかをチェックする多項式時間アルゴリズムを提供する。 (iii)任意のニューラルネットワークとそのサブレベル集合のグローバル最小値の間の連続経路を明示的に構成する。 (iv)隠れた層の最小サイズを特徴付け、ニューラルネットワーク最適化のランドスケープはスプリアスな谷を持たない。 全体として、凸性によるニューラルネットワークトレーニング損失の展望を研究するための豊富なフレームワークを提供する。

We prove that finding all globally optimal two-layer ReLU neural networks can be performed by solving a convex optimization program with cone constraints. Our analysis is novel, characterizes all optimal solutions, and does not leverage duality-based analysis which was recently used to lift neural network training into convex spaces. Given the set of solutions of our convex optimization program, we show how to construct exactly the entire set of optimal neural networks. We provide a detailed characterization of this optimal set and its invariant transformations. As additional consequences of our convex perspective, (i) we establish that Clarke stationary points found by stochastic gradient descent correspond to the global optimum of a subsampled convex problem (ii) we provide a polynomial-time algorithm for checking if a neural network is a global minimum of the training loss (iii) we provide an explicit construction of a continuous path between any neural network and the global minimum of its sublevel set and (iv) characterize the minimal size of the hidden layer so that the neural network optimization landscape has no spurious valleys. Overall, we provide a rich framework for studying the landscape of neural network training loss through convexity.
翻訳日:2022-11-23 04:38:53 公開日:2022-03-13
# 運転者の赤信号走行行動予測と技術に基づく対策に関するレビュー

A Review on Drivers Red Light Running Behavior Predictions and Technology Based Countermeasures ( http://arxiv.org/abs/2008.06727v3 )

ライセンス: Link先を確認
Md Mostafizur Rahman Komol, Jack Pinnow, Mohammed Elhenawy, Shamsunnahar Yasmin, Mahmoud Masoud, Sebastien Glaser and Andry Rakotonirainy(参考訳) 信号交差点で走る赤信号は世界中の道路安全の問題であり、先進的なインテリジェント交通技術や対策の急速な発展につながっている。 しかし、既存の研究はこれらの技術に基づく技術革新が安全性を向上させる効果を要約して提示していない。 本稿では,赤信号の動作予測手法と技術に基づく対策について概観する。 具体的には,信号交差点における赤信号の走行・停止・行動作を対象とする2つの文献ストリームの総合的なレビューを行うこと,(1)赤信号の走行・停止・行関連運転行動のモデル化と予測に焦点を当てること,(2)安全でない動作に対処する様々な技術に基づく対策の効果に焦点を当てることを目的とした研究である。 この研究は、研究者や利害関係者が赤信号の走行と停止、関連する運転行動の最良の識別方法を理解し、リスクの高い行動に対処し、関連する安全性を改善するための対策を実施するための体系的なガイドを提供する。

Red light running at signalised intersections is a growing road safety issue worldwide, leading to the rapid development of advanced intelligent transportation technologies and countermeasures. However, existing studies have yet to summarise and present the effect of these technology based innovations in improving safety. This paper represents a comprehensive review of red light running behaviour prediction methodologies and technology-based countermeasures. Specifically, the major focus of this study is to provide a comprehensive review on two streams of literature targeting red light running and stop and go behaviour at signalised intersection (1) studies focusing on modelling and predicting the red light running and stop and go related driver behaviour and (2) studies focusing on the effectiveness of different technology based countermeasures which combat such unsafe behaviour. The study provides a systematic guide to assist researchers and stakeholders in understanding how to best identify red light running and stop and go associated driving behaviour and subsequently implement countermeasures to combat such risky behaviour and improve the associated safety.
翻訳日:2022-10-28 20:35:50 公開日:2022-03-13
# SWIPENET:雑音の多い水中画像における物体検出

SWIPENET: Object detection in noisy underwater images ( http://arxiv.org/abs/2010.10006v3 )

ライセンス: Link先を確認
Long Chen, Feixiang Zhou, Shengke Wang, Junyu Dong, Ning Li, Haiping Ma, Xin Wang and Huiyu Zhou(参考訳) 近年,ディープラーニングに基づくオブジェクト検出手法は,制御環境において有望な性能を実現している。 しかし,これらの手法では,(1)水中のデータセットと実際のアプリケーション内の画像はぼやけ,(2)検出器を混乱させる激しいノイズを伴う場合,(2)実際のアプリケーション内のオブジェクトは通常小さくなるという課題により,水中物体検出に十分な能力が欠如している。 本稿では,この2つの問題に同時に対処するために,Sample-WeIghted hyPEr Network(SWIPENET)とCurriculum Multi-Class Adaboost(CMA)という堅牢なトレーニングパラダイムを提案する。 まず、SWIPENETのバックボーンは、複数の高解像度かつセマンティックリッチなハイパーフィーチャーマップを生成し、小さなオブジェクト検出を大幅に改善する。 第二に,SWIPENETでは,高重量サンプルの学習と低重量サンプルの学習に重点を置いた新しいサンプル重み検出損失関数が設計されている。 さらに,難解な概念から難解な概念へと学習を促す人間教育プロセスに着想を得て,まず,ノイズデータの影響のないクリーン検出器を訓練するcmaトレーニングパラダイムを提案する。 そして、クリーン検出器に基づいて、多種多様なノイズデータを学習する複数の検出器を訓練し、強雑音免疫の統一された深層アンサンブルに組み込む。 2つの水中ロボットピッキングコンテストデータセット(URPC2017とURPC2018)の実験により、提案したSWIPENET+CMAフレームワークは、いくつかの最先端アプローチに対して、オブジェクト検出の精度が向上することが示された。

In recent years, deep learning based object detection methods have achieved promising performance in controlled environments. However, these methods lack sufficient capabilities to handle underwater object detection due to these challenges: (1) images in the underwater datasets and real applications are blurry whilst accompanying severe noise that confuses the detectors and (2) objects in real applications are usually small. In this paper, we propose a novel Sample-WeIghted hyPEr Network (SWIPENET), and a robust training paradigm named Curriculum Multi-Class Adaboost (CMA), to address these two problems at the same time. Firstly, the backbone of SWIPENET produces multiple high resolution and semantic-rich Hyper Feature Maps, which significantly improve small object detection. Secondly, a novel sample-weighted detection loss function is designed for SWIPENET, which focuses on learning high weight samples and ignore learning low weight samples. Moreover, inspired by the human education process that drives the learning from easy to hard concepts, we here propose the CMA training paradigm that first trains a clean detector which is free from the influence of noisy data. Then, based on the clean detector, multiple detectors focusing on learning diverse noisy data are trained and incorporated into a unified deep ensemble of strong noise immunity. Experiments on two underwater robot picking contest datasets (URPC2017 and URPC2018) show that the proposed SWIPENET+CMA framework achieves better accuracy in object detection against several state-of-the-art approaches.
翻訳日:2022-10-05 21:15:26 公開日:2022-03-13
# 非有界大規模環境における資源割当のための分散微分プライベートアルゴリズム

A Distributed Differentially Private Algorithm for Resource Allocation in Unboundedly Large Settings ( http://arxiv.org/abs/2011.07934v2 )

ライセンス: Link先を確認
Panayiotis Danassis, Aleksei Triastcyn, Boi Faltings(参考訳) 我々は,マルチエージェントシステムの基本問題であるマッチングとアロケーションの探索を(都市環境におけるリソース割り当て,モビリティ・オン・デマンド・システムなど)無制限に大規模設定で解決し,最悪の場合の強力なプライバシー保証を提供するための実用的でスケーラブルなアルゴリズム(palma)を導入する。 PALMAは分散化され、デバイス上で動作し、エージェント間通信を必要としない。 我々は、PALMAを、両方の実際のデータを用いて、モビリティ・オン・デマンドと紙の割り当てシナリオで評価し、強力なプライバシーレベル(\varepsilon \leq 1$、中央値が$\varepsilon = 0.5$)と高品質なマッチング(最大8.6%)を提供することを示した。

We introduce a practical and scalable algorithm (PALMA) for solving one of the fundamental problems of multi-agent systems -- finding matches and allocations -- in unboundedly large settings (e.g., resource allocation in urban environments, mobility-on-demand systems, etc.), while providing strong worst-case privacy guarantees. PALMA is decentralized, runs on-device, requires no inter-agent communication, and converges in constant time under reasonable assumptions. We evaluate PALMA in a mobility-on-demand and a paper assignment scenario, using real data in both, and demonstrate that it provides a strong level of privacy ($\varepsilon \leq 1$ and median as low as $\varepsilon = 0.5$ across agents) and high-quality matchings (up to $86\%$ of the non-private optimal, outperforming even the privacy-preserving centralized maximum-weight matching baseline).
翻訳日:2022-09-25 00:58:20 公開日:2022-03-13
# (参考訳) マルウェア検出のための静的,動的,ハイブリッド解析の比較

A Comparison of Static, Dynamic, and Hybrid Analysis for Malware Detection ( http://arxiv.org/abs/2203.09938v1 )

ライセンス: CC BY 4.0
Anusha Damodaran and Fabio Di Troia and Visaggio Aaron Corrado and Thomas H. Austin and Mark Stamp(参考訳) 本研究では,静的,動的,ハイブリッド解析に基づくマルウェア検出手法の比較を行った。 具体的には、静的特徴セットと動的特徴セットの両方でHMM(Hidden Markov Models)を訓練し、その結果の検出率を相当数のマルウェア群と比較する。 また,動的解析をトレーニングフェーズで,静的手法を検出フェーズで使用するハイブリッドケースについても検討し,その逆も検討した。 我々の実験では、完全にダイナミックなアプローチは一般的に最高の検出率をもたらす。 本稿では,ハイブリッド技術を用いたマルウェア検出における本研究の意義について論じる。

In this research, we compare malware detection techniques based on static, dynamic, and hybrid analysis. Specifically, we train Hidden Markov Models (HMMs ) on both static and dynamic feature sets and compare the resulting detection rates over a substantial number of malware families. We also consider hybrid cases, where dynamic analysis is used in the training phase, with static techniques used in the detection phase, and vice versa. In our experiments, a fully dynamic approach generally yields the best detection rates. We discuss the implications of this research for malware detection based on hybrid techniques.
翻訳日:2022-03-27 11:00:09 公開日:2022-03-13
# 1ビット圧縮センシング:深くて盲目になれるか?

One-Bit Compressive Sensing: Can We Go Deep and Blind? ( http://arxiv.org/abs/2203.11278v1 )

ライセンス: Link先を確認
Yiming Zeng, Shahin Khobahi, Mojtaba Soltanalian(参考訳) 1ビット圧縮センシングは、その1ビットノイズ測定から興味のあるスパース信号の正確な回復に関係している。 この問題に対する従来の信号回復手法は主に、センシング行列の正確な知識が利用できるという仮定に基づいて開発された。 そこで本研究では,ブラインド回復を実現する新しいデータ駆動型モデルベース手法,すなわち,センシングマトリクスの知識を必要とせずに信号回復を行う方法を提案する。 この目的のために,我々はdeep unfolding技術を利用して,このタスク用に設計されたモデル駆動型深層ニューラルネットワークアーキテクチャを開発した。 提案したディープアーキテクチャは, 提案した1ビット雑音測定から, 得られた復調アルゴリズムを精度よく, かつ高速に(繰り返し数の観点から)復調できるような, 基礎となる未展開のアルゴリズムを活用することで, 代替のセンシング行列を学習することができる。 さらに、ドメイン知識とシステムの数学的モデルが提案されたディープアーキテクチャに組み込まれたことにより、ネットワークの利点は強化され、トレーニング可能なパラメータが非常に少なく、手元にある問題に対して一般的に使用されるブラックボックスのディープニューラルネットワーク代替品と比較して、非常に少ないトレーニングサンプルが必要となる。

One-bit compressive sensing is concerned with the accurate recovery of an underlying sparse signal of interest from its one-bit noisy measurements. The conventional signal recovery approaches for this problem are mainly developed based on the assumption that an exact knowledge of the sensing matrix is available. In this work, however, we present a novel data-driven and model-based methodology that achieves blind recovery; i.e., signal recovery without requiring the knowledge of the sensing matrix. To this end, we make use of the deep unfolding technique and develop a model-driven deep neural architecture which is designed for this specific task. The proposed deep architecture is able to learn an alternative sensing matrix by taking advantage of the underlying unfolded algorithm such that the resulting learned recovery algorithm can accurately and quickly (in terms of the number of iterations) recover the underlying compressed signal of interest from its one-bit noisy measurements. In addition, due to the incorporation of the domain knowledge and the mathematical model of the system into the proposed deep architecture, the resulting network benefits from enhanced interpretability, has a very small number of trainable parameters, and requires very small number of training samples, as compared to the commonly used black-box deep neural network alternatives for the problem at hand.
翻訳日:2022-03-27 05:47:39 公開日:2022-03-13
# (参考訳) Dual Path Denoising Networkによる合成開口レーダ画像からの変化検出

Change Detection from Synthetic Aperture Radar Images via Dual Path Denoising Network ( http://arxiv.org/abs/2203.06543v1 )

ライセンス: CC BY 4.0
Junjie Wang, Feng Gao, Junyu Dong, Qian Du, Heng-Chao Li(参考訳) 合成開口レーダ(SAR)センサーの迅速かつ持続可能な開発に特化して、SAR画像からの変化検出がここ数年で注目されている。 既存の教師なしのディープラーニングベースの手法は、堅牢な特徴表現の活用に多大な努力を払っていますが、パラメータの最適化に多くの時間を費やしています。 さらに、これらの手法はクラスタリングを用いて擬似ラベルを訓練し、擬似ラベル付きサンプルはしばしば誤りを伴い、これは「ラベルノイズ」とみなすことができる。 これらの問題に対処するため、SAR画像変化検出のためのDual Path Denoising Network (DPDNet)を提案する。 特に,事前分類に関わるラベルノイズを浄化するために,ランダムなラベル伝搬を導入する。 また,特徴表現学習のための特徴的なパッチ畳み込みを提案する。 具体的には、注目機構を用いて特徴マップ内の特徴画素を選択し、これらの画素を取り巻くパッチを畳み込みカーネルとして選択する。 したがって、PDNetはパラメータ最適化のための多くのトレーニングサンプルを必要としておらず、その計算効率は大幅に向上している。 提案したPDNetを検証するため、5つのSARデータセットで大規模な実験が行われた。 実験の結果,本手法は変化検出結果においていくつかの最先端手法よりも優れていた。

Benefited from the rapid and sustainable development of synthetic aperture radar (SAR) sensors, change detection from SAR images has received increasing attentions over the past few years. Existing unsupervised deep learning-based methods have made great efforts to exploit robust feature representations, but they consume much time to optimize parameters. Besides, these methods use clustering to obtain pseudo-labels for training, and the pseudo-labeled samples often involve errors, which can be considered as "label noise". To address these issues, we propose a Dual Path Denoising Network (DPDNet) for SAR image change detection. In particular, we introduce the random label propagation to clean the label noise involved in preclassification. We also propose the distinctive patch convolution for feature representation learning to reduce the time consumption. Specifically, the attention mechanism is used to select distinctive pixels in the feature maps, and patches around these pixels are selected as convolution kernels. Consequently, the DPDNet does not require a great number of training samples for parameter optimization, and its computational efficiency is greatly enhanced. Extensive experiments have been conducted on five SAR datasets to verify the proposed DPDNet. The experimental results demonstrate that our method outperforms several state-of-the-art methods in change detection results.
翻訳日:2022-03-19 16:30:13 公開日:2022-03-13
# (参考訳) 連続評価センサデータによる自動断層木学習--家庭用ヒーターを事例として

Automated fault tree learning from continuous-valued sensor data: a case study on domestic heaters ( http://arxiv.org/abs/2203.07374v1 )

ライセンス: CC BY 4.0
Bart Verkuil, Carlos E. Budde, Doina Bucur(参考訳) 多くの産業部門が大規模なセンサーデータを集めている。 ビッグデータ処理の最近の技術により、企業はこれを自動障害検出と防止に活用できる。 本研究では, 連続変数を用いた観測データから, 故障解析, 機械学習断層木を自動生成する手法を提案する。 提案手法は,オランダにおける5年間の家庭内ヒーター運用の実際のデータセットを用いて,27のセンサと11の障害変数を含む1300万のユニークなヒーターデイリーディングを計測した。 本手法は,c4.5決定木学習アルゴリズムとbooleanデータからのリフトフォールトツリー学習アルゴリズムの2つの手順に基づいている。 C4.5は各連続変数を前処理し、トップレベルのシステムの故障と正常な動作を区別する最適な数値閾値を学習する。 これらのしきい値は変数を識別し、LIFTはシステムのルート障害機構をモデル化し説明可能なフォールトツリーを学習することができる。 11の障害変数に対するフォールトツリーを取得し、それらを定量的に、重要なスコアで、定性的に、ドメインスペシャリストと2つの方法で評価する。 断層木の中には、ほぼ最大意味を持つものもあれば(0.95)、中から低い意味を持つもの(約0.30)もあり、大きな、うるさい実世界のセンサーデータから学ぶことが困難である。 ドメインスペシャリストは、フォールトツリーが変数間の有意義な関係をモデル化していることを確認した。

Many industrial sectors have been collecting big sensor data. With recent technologies for processing big data, companies can exploit this for automatic failure detection and prevention. We propose the first completely automated method for failure analysis, machine-learning fault trees from raw observational data with continuous variables. Our method scales well and is tested on a real-world, five-year dataset of domestic heater operations in The Netherlands, with 31 million unique heater-day readings, each containing 27 sensor and 11 failure variables. Our method builds on two previous procedures: the C4.5 decision-tree learning algorithm, and the LIFT fault tree learning algorithm from Boolean data. C4.5 pre-processes each continuous variable: it learns an optimal numerical threshold which distinguishes between faulty and normal operation of the top-level system. These thresholds discretise the variables, thus allowing LIFT to learn fault trees which model the root failure mechanisms of the system and are explainable. We obtain fault trees for the 11 failure variables, and evaluate them in two ways: quantitatively, with a significance score, and qualitatively, with domain specialists. Some of the fault trees learnt have almost maximum significance (above 0.95), while others have medium-to-low significance (around 0.30), reflecting the difficulty of learning from big, noisy, real-world sensor data. The domain specialists confirm that the fault trees model meaningful relationships among the variables.
翻訳日:2022-03-19 16:08:53 公開日:2022-03-13
# 高速かつ高精度な数値最適制御のためのニューラルソルバ

Neural Solvers for Fast and Accurate Numerical Optimal Control ( http://arxiv.org/abs/2203.08072v1 )

ライセンス: Link先を確認
Federico Berto, Stefano Massaroli, Michael Poli, Jinkyoo Park(参考訳) 動的システムのための最適コントローラの合成は、しばしばハードリアルタイム制約による最適化問題を解く。 これらの制約は適用可能な数値手法のクラスを決定する:計算に高価だが正確な数値ルーチンは高速で不正確な方法に置き換えられる。 本稿では,計算予算の固定化により,最適制御政策の品質を向上させる手法を提案する。 我々は、微分方程式解法とニューラルネットワークをハイブリダイズする超解法アプローチにより、上記のことを実現する。 提案手法は, 解の精度と制御性能に一貫性のあるpareto改善を示すため, 低次元と高次元の両方において, 直接および再帰ホリゾン最適制御タスクで性能を評価する。

Synthesizing optimal controllers for dynamical systems often involves solving optimization problems with hard real-time constraints. These constraints determine the class of numerical methods that can be applied: computationally expensive but accurate numerical routines are replaced by fast and inaccurate methods, trading inference time for solution accuracy. This paper provides techniques to improve the quality of optimized control policies given a fixed computational budget. We achieve the above via a hypersolvers approach, which hybridizes a differential equation solver and a neural network. The performance is evaluated in direct and receding-horizon optimal control tasks in both low and high dimensions, where the proposed approach shows consistent Pareto improvements in solution accuracy and control performance.
翻訳日:2022-03-16 16:15:42 公開日:2022-03-13
# 粗いMRI画像を用いた肩関節再3次元分割

Recursive 3D Segmentation of Shoulder Joint with Coarse-scanned MR Image ( http://arxiv.org/abs/2203.07846v1 )

ライセンス: Link先を確認
Xiaoxiao He, Chaowei Tan, Virak Tan, Kang Li(参考訳) 肩関節疾患の診断には,MR画像から得られた医用画像から肩甲骨と上腕骨の形態変化を観察することが不可欠である。 しかし、画像スライス間の物理的距離の減少が走査時間の延長を引き起こすため、高解像度MR画像の撮影には時間と費用がかかる。 さらに、トレーニングイメージの欠如により、さまざまなソースからのイメージを利用する必要があるため、データセット間での高分散の問題が発生する。 また,低解像度で3次元画像のラベル付けを行う場合,空間的関係を考慮しにくいため,画像間にはヒューマンエラーが存在する。 そこで本研究では, 上腕骨と肩甲骨を粗大で低解像度のmr画像から分割する完全自動化アルゴリズムと, 生成ラベルを反復的に活用し, セグメント間の誤差を低減し, 次のラウンドネットワークを訓練するためのデータセット集合を増加させる再帰学習フレームワークを開発した。 本研究では,複数の施設から50個のmr画像が収集され,相互に排他的な5つの組に分けて5次元クロスバリデーションを行う。 提案手法により生成された輪郭は, 地上の真実や従来の手法と比較して高い精度を示した。 提案したニューラルネットワークと再帰学習手法は、低解像度データセット上の上腕骨と肩甲骨のセグメンテーションの全体的な品質を改善し、地上の真実における誤ったセグメンテーションを減らし、肩痛の原因の発見と患者の早期救済に肯定的な影響を与える可能性がある。

For diagnosis of shoulder illness, it is essential to look at the morphology deviation of scapula and humerus from the medical images that are acquired from Magnetic Resonance (MR) imaging. However, taking high-resolution MR images is time-consuming and costly because the reduction of the physical distance between image slices causes prolonged scanning time. Moreover, due to the lack of training images, images from various sources must be utilized, which creates the issue of high variance across the dataset. Also, there are human errors among the images due to the fact that it is hard to take the spatial relationship into consideration when labeling the 3D image in low resolution. In order to combat all obstacles stated above, we develop a fully automated algorithm for segmenting the humerus and scapula bone from coarsely scanned and low-resolution MR images and a recursive learning framework that iterative utilize the generated labels for reducing the errors among segmentations and increase our dataset set for training the next round network. In this study, 50 MR images are collected from several institutions and divided into five mutually exclusive sets for carrying five-fold cross-validation. Contours that are generated by the proposed method demonstrated a high level of accuracy when compared with ground truth and the traditional method. The proposed neural network and the recursive learning scheme improve the overall quality of the segmentation on humerus and scapula on the low-resolution dataset and reduced incorrect segmentation in the ground truth, which could have a positive impact on finding the cause of shoulder pain and patient's early relief.
翻訳日:2022-03-16 15:39:24 公開日:2022-03-13
# SATr: ユニバーサル病変検出のためのトランスを用いたスライス注意

SATr: Slice Attention with Transformer for Universal Lesion Detection ( http://arxiv.org/abs/2203.07373v1 )

ライセンス: Link先を確認
Han Li, Long Chen, Hu Han, S. Kevin Zhou(参考訳) コンピュータ断層撮影におけるユニバーサル病変検出(ULD)は,コンピュータ支援診断において重要な役割を担っている。 複数の隣接ctスライスから3dコンテキストをモデル化するマルチスライス入力検出手法によって、有望なuld結果が報告されているが、畳み込みベースの融合操作のみを使用するため、異なるスライス間および個々のスライス内におけるグローバル表現を得るのが困難である。 本稿では,畳み込み型uldバックボーンに容易に接続してハイブリッドネットワーク構造を構築することができる新しいslice attention transformer (satr)ブロックを提案する。 このような新しく形成されたハイブリッドバックボーンは、トランスフォーマーブロック内のカスケードされたセルフアテンションモジュールを介して長距離特徴依存性をモデル化すると同時に、元のバックボーンでの畳み込み操作とローカル特徴をモデル化する強力な力を保持します。 5つの最先端手法を用いた実験により、提案されたsatrブロックは、余分なハイパーパラメータや特別なネットワーク設計なしに、病変検出精度をほぼ無償で向上できることを示した。

Universal Lesion Detection (ULD) in computed tomography plays an essential role in computer-aided diagnosis. Promising ULD results have been reported by multi-slice-input detection approaches which model 3D context from multiple adjacent CT slices, but such methods still experience difficulty in obtaining a global representation among different slices and within each individual slice since they only use convolution-based fusion operations. In this paper, we propose a novel Slice Attention Transformer (SATr) block which can be easily plugged into convolution-based ULD backbones to form hybrid network structures. Such newly formed hybrid backbones can better model long-distance feature dependency via the cascaded self-attention modules in the Transformer block while still holding a strong power of modeling local features with the convolutional operations in the original backbone. Experiments with five state-of-the-art methods show that the proposed SATr block can provide an almost free boost to lesion detection accuracy without extra hyperparameters or special network designs.
翻訳日:2022-03-16 15:09:26 公開日:2022-03-13
# (参考訳) AutoGPart: 一般化可能な3次元部分分割のための中間スーパービジョン検索

AutoGPart: Intermediate Supervision Search for Generalizable 3D Part Segmentation ( http://arxiv.org/abs/2203.06558v1 )

ライセンス: CC BY 4.0
Xueyi Liu, Xiaomeng Xu, Anyi Rao, Chuang Gan, Li Yi(参考訳) 一般化可能な3d部分セグメンテーションネットワークのトレーニングは非常に難しいが、現実のアプリケーションでは極めて重要である。 この問題に対処するために、タスクの人間の理解を機械の学習プロセスに翻訳することでタスク固有のソリューションを設計する者もいる。 タスク優先知識を考慮せず、ドメインの一般化問題用に設計された従来のタスク非依存のアプローチを使おうとする者もいる。 そこで本研究では,従来検討したタスクで一般化可能な3次元部分セグメンテーションネットワークをトレーニングできる汎用手法であるautogpartを提案する。 AutoGPartは、幾何学的な事前知識を符号化した監視空間を構築し、マシンが特定のセグメンテーションタスクのために空間から最適な監督を検索できるようにする。 3つの一般化された3次元部分セグメンテーションタスクに関する広範囲な実験を行い,autogpartの有効性と汎用性を示す。 単純なバックボーンを用いたセグメンテーションネットワークの性能は,本手法で探索した教師によるトレーニングにより著しく向上することを示した。

Training a generalizable 3D part segmentation network is quite challenging but of great importance in real-world applications. To tackle this problem, some works design task-specific solutions by translating human understanding of the task to machine's learning process, which faces the risk of missing the optimal strategy since machines do not necessarily understand in the exact human way. Others try to use conventional task-agnostic approaches designed for domain generalization problems with no task prior knowledge considered. To solve the above issues, we propose AutoGPart, a generic method enabling training generalizable 3D part segmentation networks with the task prior considered. AutoGPart builds a supervision space with geometric prior knowledge encoded, and lets the machine to search for the optimal supervisions from the space for a specific segmentation task automatically. Extensive experiments on three generalizable 3D part segmentation tasks are conducted to demonstrate the effectiveness and versatility of AutoGPart. We demonstrate that the performance of segmentation networks using simple backbones can be significantly improved when trained with supervisions searched by our method.
翻訳日:2022-03-16 10:35:30 公開日:2022-03-13
# (参考訳) ラガ・ラサ・アソシエーションを利用したインド古典音楽におけるバイサンプリング手法

Bi-Sampling Approach to Classify Music Mood leveraging Raga-Rasa Association in Indian Classical Music ( http://arxiv.org/abs/2203.06583v1 )

ライセンス: CC BY 4.0
Mohan Rao B C, Vinayak Arkachaari, Harsha M N, Sushmitha M N, Gayathri Ramesh K K, Ullas M S, Pathi Mohan Rao, Sudha G, Narayana Darapaneni(参考訳) 音楽が聞き手の気分や感情に与える影響は、人間の心理学や行動科学においてよく研究されている分野である。 インド古典音楽では、ラガ(Ragas)は音楽の様々なスタイルと形式を定義する旋律構造である。 それぞれのラガは、リスナーの特定の感情を誘発することを発見した。 音声信号処理の高度な能力の出現と機械学習の応用により、インテリジェントな音楽分類器やレコメンダの需要は、特に'music as a service'クラウドアプリケーションにおいて、注目を集めている。 本稿では,インドの古典音楽におけるraga-rasaアソシエーションを活用し,ユーザの現在の気分や気分に基づいて,インテリジェントな分類器とその音楽推薦システムへの応用について検討する。

The impact of Music on the mood or emotion of the listener is a well-researched area in human psychology and behavioral science. In Indian classical music, ragas are the melodic structure that defines the various styles and forms of the music. Each raga has been found to evoke a specific emotion in the listener. With the advent of advanced capabilities of audio signal processing and the application of machine learning, the demand for intelligent music classifiers and recommenders has received increased attention, especially in the 'Music as a service' cloud applications. This paper explores a novel framework to leverage the raga-rasa association in Indian classical Music to build an intelligent classifier and its application in music recommendation system based on user's current mood and the mood they aspire to be in.
翻訳日:2022-03-16 10:19:58 公開日:2022-03-13
# (参考訳) ORDSIM:Eコマースクエリ類似性予測のための正規回帰

ORDSIM: Ordinal Regression for E-Commerce Query Similarity Prediction ( http://arxiv.org/abs/2203.06591v1 )

ライセンス: CC BY 4.0
Md. Ahsanul Kabir, Mohammad Al Hasan, Aritra Mandal, Daniel Tunkelang, Zhe Wu(参考訳) クエリ類似性予測タスクは一般的に、平方損失を持つ回帰モデルによって解決される。 そのようなモデルは絶対的類似度値に無関係であり、同じスケールで全ての類似度値の回帰誤差をペナルティ化する。 しかし、電子商取引プラットフォームの収益化を促進するためには、ユーザインテリジェントによるアイテムの検索と、中程度に類似したアイテムが購入に繋がらないような関連アイテムを検索する場合、低レベルの類似度よりも正確に高いレベルの類似度を予測することが重要である。 回帰モデルでは、損失関数をカスタマイズして高相似性帯域に集中できないため、クエリ相似性予測タスクのパフォーマンスが低下する。 本稿では,クエリ予測を順序回帰問題として考慮し,ORDSIM(ORDinal Regression for SIMilarity Prediction)モデルを提案する。 ORDSIMは可変幅バケットを用いてオーディナル損失をモデル化し、高いレベルの類似性におけるエラーを厳格に解析し、高い類似性値に対するより良い予測結果を得る。 我々は、eBayプラットフォームから1000万以上のeコマースクエリのデータセット上でORDSIMを評価し、このデータセット上の競合する回帰手法と比較して、ORDSIMが予測誤差を大幅に小さくすることを示す。

Query similarity prediction task is generally solved by regression based models with square loss. Such a model is agnostic of absolute similarity values and it penalizes the regression error at all ranges of similarity values at the same scale. However, to boost e-commerce platform's monetization, it is important to predict high-level similarity more accurately than low-level similarity, as highly similar queries retrieves items according to user-intents, whereas moderately similar item retrieves related items, which may not lead to a purchase. Regression models fail to customize its loss function to concentrate around the high-similarity band, resulting poor performance in query similarity prediction task. We address the above challenge by considering the query prediction as an ordinal regression problem, and thereby propose a model, ORDSIM (ORDinal Regression for SIMilarity Prediction). ORDSIM exploits variable-width buckets to model ordinal loss, which penalizes errors in high-level similarity harshly, and thus enable the regression model to obtain better prediction results for high similarity values. We evaluate ORDSIM on a dataset of over 10 millions e-commerce queries from eBay platform and show that ORDSIM achieves substantially smaller prediction error compared to the competing regression methods on this dataset.
翻訳日:2022-03-16 10:05:20 公開日:2022-03-13
# (参考訳) 依存木型パターンを用いた医学文献からの有益因果抽出

Informative Causality Extraction from Medical Literature via Dependency-tree based Patterns ( http://arxiv.org/abs/2203.06592v1 )

ライセンス: CC BY 4.0
Md. Ahsanul Kabir, AlJohara Almulhim, Xiao Luo, Mohammad Al Hasan(参考訳) 医学文献から原因因子を抽出することは医療情報検索において重要な課題である。 この課題を解決するための解決策は、疾患と症状間の因果関係、薬物と副作用間の因果関係、遺伝子と疾患間の因果関係などの様々な因果関係のコンパイルに利用できる。 因果効果エンティティを抽出する既存のソリューションは、因果句と効果句が名前実体、単語名詞、または2語から3語からなる名詞句である文に対してうまく機能する。 残念なことに、医学文献では、文の因果句は単に名詞や名詞句ではなく、複数の単語からなる複雑な句であり、既存の方法はそのような文の因果語や効果語を正しく抽出することができない。 原因と効果の実体の部分的抽出は、品質の悪い非情報的かつしばしば矛盾した事実を、与えられた文で意図されたものと比較して伝達する。 そこで本研究では, 医学文献に特に適している, 原因・効果句抽出のための教師なし手法, パターンカウシリティを考案し, この問題を解決した。 提案手法は,まず,原因効果依存パターンの集合をテンプレートとして,原因・効果句の見出し語を抽出し,その後,新しい句抽出法を用いて文から完全かつ有意義な原因・効果句を得る。 pubmedアーティクルの文から構築された原因効果データセットの実験では、原因と効果の実体を抽出する場合、既存の手法よりもパターンカウサリティが大幅に優れており、既存の手法よりもf-scoreメトリックが桁違いに改善されていることが示されている。

Extracting cause-effect entities from medical literature is an important task in medical information retrieval. A solution for solving this task can be used for compilation of various causality relations, such as, causality between disease and symptoms, between medications and side effects, between genes and diseases, etc. Existing solutions for extracting cause-effect entities work well for sentences where the cause and the effect phrases are name entities, single-word nouns, or noun phrases consisting of two to three words. Unfortunately, in medical literature, cause and effect phrases in a sentence are not simply nouns or noun phrases, rather they are complex phrases consisting of several words, and existing methods fail to correctly extract the cause and effect entities in such sentences. Partial extraction of cause and effect entities conveys poor quality, non informative, and often, contradictory facts, comparing to the one intended in the given sentence. In this work, we solve this problem by designing an unsupervised method for cause and effect phrase extraction, PatternCausality, which is specifically suitable for the medical literature. Our proposed approach first uses a collection of cause-effect dependency patterns as template to extract head words of cause and effect phrases and then it uses a novel phrase extraction method to obtain complete and meaningful cause and effect phrases from a sentence. Experiments on a cause-effect dataset built from sentences from PubMed articles show that for extracting cause and effect entities, PatternCausality is substantially better than the existing methods with an order of magnitude improvement in the F-score metric over the best of the existing methods.
翻訳日:2022-03-16 09:50:22 公開日:2022-03-13
# (参考訳) 1ビット圧縮型重畳CSIフィードバックの深層学習

Deep Learning for 1-Bit Compressed Sensing-based Superimposed CSI Feedback ( http://arxiv.org/abs/2203.06606v1 )

ライセンス: CC0 1.0
Chaojin Qing, Qing Ye, Bin Cai, Wenhui Liu, and Jiafan Wang(参考訳) 周波数分割二重化 (FDD) 大規模マルチインプット多重出力 (MIMO) システムでは、1ビット圧縮センシング (CS) に基づく重畳チャネル状態情報 (CSI) フィードバックが多くの利点を示す一方で、ダウンリンクCSI回復の精度の低下や大きな処理遅延といった多くの課題に直面している。 これらの欠点を克服するため,本稿では1ビット圧縮センシングに基づくcsiフィードバックの改善を目的とした深層学習(dl)方式を提案する。 ユーザ側では、ダウンリンクCSIを1ビットCS技術で圧縮し、アップリンクユーザデータシーケンス(UL-US)に重畳し、基地局(BS)に送信する。 BSでは、モデル駆動方式をベースとして、重畳干渉キャンセル技術により、UL-USとダウンリンクCSIの両方を検出するマルチタスク検出ネットワークを構築した。 特に、この検出ネットワークは、ul-usとdownlink csiを同時に検出するために共同で訓練され、グローバルに最適化されたネットワークパラメータをキャプチャする。 そして、回収したダウンリンクcsiのビットを用いて、簡易な従来の方法によるダウンリンクcsiの最初の特徴抽出と単一の隠れ層ネットワークからなる軽量な再構成スキームを用いて、ダウンリンクcsiを低処理遅延で再構築する。 1ビットcsベース重畳csiフィードバック方式と比較して,提案方式は処理遅延の少ないul-usおよびdownlink csiの復元精度を向上し,パラメータ変動に対するロバスト性を有する。

In frequency-division duplexing (FDD) massive multiple-input multiple-output (MIMO) systems, 1-bit compressed sensing (CS)-based superimposed channel state information (CSI) feedback has shown many advantages, while still faces many challenges, such as low accuracy of the downlink CSI recovery and large processing delays. To overcome these drawbacks, this paper proposes a deep learning (DL) scheme to improve the 1-bit compressed sensing-based superimposed CSI feedback. On the user side, the downlink CSI is compressed with the 1-bit CS technique, superimposed on the uplink user data sequences (UL-US), and then sent back to the base station (BS). At the BS, based on the model-driven approach and assisted by the superimposition-interference cancellation technology, a multi-task detection network is first constructed for detecting both the UL-US and downlink CSI. In particular, this detection network is jointly trained to detect the UL-US and downlink CSI simultaneously, capturing a globally optimized network parameter. Then, with the recovered bits for the downlink CSI, a lightweight reconstruction scheme, which consists of an initial feature extraction of the downlink CSI with the simplified traditional method and a single hidden layer network, is utilized to reconstruct the downlink CSI with low processing delay. Compared with the 1-bit CS-based superimposed CSI feedback scheme, the proposed scheme improves the recovery accuracy of the UL-US and downlink CSI with lower processing delay and possesses robustness against parameter variations.
翻訳日:2022-03-16 09:29:37 公開日:2022-03-13
# (参考訳) 自然言語処理システムを用いたベンガル伝承の体系的研究と分析

A Systematic Study and Analysis of Bengali Folklore with Natural Language Processing Systems ( http://arxiv.org/abs/2203.06607v1 )

ライセンス: CC0 1.0
Mustain Billah, Md. Mynoddin, Mostafijur Rahman Akhond, Md. Nasim Adnan, Syed Md. Galib, Rizwanur Rahad, M Nurujjaman Khan(参考訳) フォークロア(Folklore)は、民族文学の一分野であり、あらゆる国や社会の目印である。 口承の伝統など、証明やジョークとして、伝統的な民間信仰や様々な習慣の材料文化も含んでいる。 ベンガルの民間伝承は驚くべきほど豊かである。 それにもかかわらず、その存在を継続することが決定されている。 そこで本研究の目的は,より高度な計算方法で,我々の豊かな伝承をより理解しやすいものにすることである。 ベンガル語の様々な側面をNLPで締めくくった研究もある。 提案モデルはベンガルの民俗伝承に特有なものである。 技術的には、ベンガルの民俗学を研究し分析するためのベンガル自然言語処理への第一歩となる。

Folklore, a solid branch of folk literature, is the hallmark of any nation or any society. Such as oral tradition; as proverbs or jokes, it also includes material culture as well as traditional folk beliefs, and various customs. Bengali folklore is as rich in-depth as it is amazing. Nevertheless, in the womb of time, it is determined to sustain its existence. Therefore, our aim in this study is to make our rich folklore more comprehensible to everyone in a more sophisticated computational way. Some studies concluded various aspects of the Bengali language with NLP. Our proposed model is to be specific for Bengali folklore. Technically, it will be the first step towards Bengali natural language processing for studying and analyzing the folklore of Bengal.
翻訳日:2022-03-16 09:07:21 公開日:2022-03-13
# (参考訳) aldi++: 建物エネルギー負荷プロファイルの自動およびパラメータレスディスコードおよび異常検出

ALDI++: Automatic and parameter-less discord and outlier detection for building energy load profiles ( http://arxiv.org/abs/2203.06618v1 )

ライセンス: CC BY 4.0
Matias Quintana, Till Stoeckmann, June Young Park, Marian Turowski, Veit Hagenmeyer, Clayton Miller(参考訳) データ駆動のビルディングエネルギー予測は、測定と検証、ベンチマークの構築、およびグリッド間相互作用のためのプロセスの不可欠な部分である。 ASHRAE Great Energy Predictor III (GEPIII) 機械学習コンペティションは、建築エネルギー予測全体の最も正確な機械学習ワークフローをクラウドソースするために、広範囲なメーターデータセットを使用した。 勝利したソリューションの重要な要素は、異常なトレーニングデータを削除する前処理フェーズだった。 現代の事前処理手法は、統計しきい値のフィルタリングや、訓練データと複数のハイパーパラメータを必要とする深層学習に重点を置いている。 ALDI(Automated Load Profile Discord Identification)と呼ばれる最近の手法は、これらの不一致を行列プロファイルを用いて識別することに成功したが、この手法は依然としてユーザ定義パラメータを必要とする。 本研究では,ユーザ定義パラメータをバイパスし,不協和性を利用したALDI++を開発した。 我々は,ALDI++を,統計しきい値,変分自動エンコーダ,原型ALDIを,不協和音の分類とエネルギー予測のシナリオのベースラインとして評価する。 この結果から,aldi++は従来の手法よりも分類性能が向上するが,aldi++は最良予測エラーを6倍の計算時間で達成できることがわかった。

Data-driven building energy prediction is an integral part of the process for measurement and verification, building benchmarking, and building-to-grid interaction. The ASHRAE Great Energy Predictor III (GEPIII) machine learning competition used an extensive meter data set to crowdsource the most accurate machine learning workflow for whole building energy prediction. A significant component of the winning solutions was the pre-processing phase to remove anomalous training data. Contemporary pre-processing methods focus on filtering statistical threshold values or deep learning methods requiring training data and multiple hyper-parameters. A recent method named ALDI (Automated Load profile Discord Identification) managed to identify these discords using matrix profile, but the technique still requires user-defined parameters. We develop ALDI++, a method based on the previous work that bypasses user-defined parameters and takes advantage of discord similarity. We evaluate ALDI++ against a statistical threshold, variational auto-encoder, and the original ALDI as baselines in classifying discords and energy forecasting scenarios. Our results demonstrate that while the classification performance improvement over the original method is marginal, ALDI++ helps achieve the best forecasting error improving 6% over the winning's team approach with six times less computation time.
翻訳日:2022-03-16 08:59:16 公開日:2022-03-13
# (参考訳) バーテンダー型社会ロボットを用いた個人化HRIのためのROSアーキテクチャ

A ROS Architecture for Personalised HRI with a Bartender Social Robot ( http://arxiv.org/abs/2203.06631v1 )

ライセンス: CC BY-SA 4.0
Alessandra Rossi, Maria Di Maro, Antonio Origlia and Silvia Rossi(参考訳) brillo(interactive long-lasting operations用バーテンダーロボット)プロジェクトは、バーテンダータスクを完了しながら顧客と対話できる自律的なバーテンダーを作ることを目標としている。 このようなシナリオでは、魅力的な技術の使用に関連している人々のノベルティ効果は、摩耗する運命にあり、その結果、サービスロボティクスアプリケーションの成功に悪影響を及ぼす。 そのため、サービスにアクセスしながらパーソナライズされた自然なインタラクションを提供することは、ユーザのエンゲージメントを高め、その結果、彼らの忠誠心を高める上で最重要となる。 本稿では,異なる社会的信号の処理を管理する知覚層,多人数インタラクションを処理する意思決定層,腕と顔からなる複合ロボットの動作を制御する実行層を統合した3層rosアーキテクチャを提案する。 最後に、信条層を通じたユーザモデリングは、個人化されたインタラクションを可能にする。

BRILLO (Bartending Robot for Interactive Long-Lasting Operations) project has the overall goal of creating an autonomous robotic bartender that can interact with customers while accomplishing its bartending tasks. In such a scenario, people's novelty effect connected to the use of an attractive technology is destined to wear off and, consequently, it negatively affects the success of the service robotics application. For this reason, providing personalised natural interaction while accessing its services is of paramount importance for increasing users' engagement and, consequently, their loyalty. In this paper, we present the developed three-layers ROS architecture integrating a perception layer managing the processing of different social signals, a decision-making layer for handling multi-party interactions, and an execution layer controlling the behaviour of a complex robot composed of arms and a face. Finally, user modelling through a beliefs layer allows for personalised interaction.
翻訳日:2022-03-16 08:44:43 公開日:2022-03-13
# (参考訳) ワイルドのスケーリング: ホグウィルドの分散化! スタイル共有メモリSGD

Scaling the Wild: Decentralizing Hogwild!-style Shared-memory SGD ( http://arxiv.org/abs/2203.06638v1 )

ライセンス: CC BY 4.0
Bapi Chatterjee and Vyacheslav Kungurtsev and Dan Alistarh(参考訳) hogwilld!は、ロックフリーの非同期性によって、共有メモリ設定上でsgdを並列化するためのgo-toアプローチである。 並列プロセスが共有モデルを分割された勾配で更新するpassm+のような人気と共用的な拡張にもかかわらず、分散されたワーカーにスケールすることは驚くほど未開拓である。 我々の知る限り、そのような手法の収束理論や、スピードアップを評価する体系的な数値比較は存在しない。 本稿では,マルチプロセッシング並列共有メモリsgd自体を実行するノード毎に分散分散分散メモリコンピューティングアーキテクチャを組み込んだアルゴリズムを提案する。 我々のスキームは以下のアルゴリズムツールと特徴に基づいている。 (a)ワーカーの共有メモリに関する非同期ローカル勾配更新。 b)部分的バックプロパゲーション,及び (c)局所モデルの非ブロッキングインプレース平均化。 本手法は,非凸目標に対するエルゴード収束率を保証する。 本手法は,CIFAR-10, CIFAR-100, Imagenetデータセット上での標準画像分類ベンチマークにおいて,スループットと競合精度の向上を示す。 私たちのコードはhttps://github.com/bapi/lpp-sgdで利用可能です。

Powered by the simplicity of lock-free asynchrony, Hogwilld! is a go-to approach to parallelize SGD over a shared-memory setting. Despite its popularity and concomitant extensions, such as PASSM+ wherein concurrent processes update a shared model with partitioned gradients, scaling it to decentralized workers has surprisingly been relatively unexplored. To our knowledge, there is no convergence theory of such methods, nor systematic numerical comparisons evaluating speed-up. In this paper, we propose an algorithm incorporating decentralized distributed memory computing architecture with each node running multiprocessing parallel shared-memory SGD itself. Our scheme is based on the following algorithmic tools and features: (a) asynchronous local gradient updates on the shared-memory of workers, (b) partial backpropagation, and (c) non-blocking in-place averaging of the local models. We prove that our method guarantees ergodic convergence rates for non-convex objectives. On the practical side, we show that the proposed method exhibits improved throughput and competitive accuracy for standard image classification benchmarks on the CIFAR-10, CIFAR-100, and Imagenet datasets. Our code is available at https://github.com/bapi/LPP-SGD.
翻訳日:2022-03-16 08:30:50 公開日:2022-03-13
# (参考訳) 自然言語による仮想ロボットの過去の行動の要約

Summarizing a virtual robot's past actions in natural language ( http://arxiv.org/abs/2203.06671v1 )

ライセンス: CC BY 4.0
Chad DeChant and Daniel Bauer(参考訳) 本稿では,仮想環境におけるロボットエージェントの行動の自然言語要約を提示するタスクを提案し,実演する。 このようなタスクがなぜ重要で、なぜ難しいのかを説明し、どのように対処するかを議論する。 そこで,本研究では,ロボット動作と自然言語記述とをマッチングする一般的なデータセットを,ロボット動作要約作業の訓練場として利用することを提案する。 自動プランナーが使用する動作のエゴセントリックな映像フレームや中間的なテキスト表現から、このような要約を生成するための学習方法をいくつか提案し、テストする。 我々は,研究成果の定量的,質的な評価を行い,今後の研究のベースラインとして機能する。

We propose and demonstrate the task of giving natural language summaries of the actions of a robotic agent in a virtual environment. We explain why such a task is important, what makes it difficult, and discuss how it might be addressed. To encourage others to work on this, we show how a popular existing dataset that matches robot actions with natural language descriptions designed for an instruction following task can be repurposed to serve as a training ground for robot action summarization work. We propose and test several methods of learning to generate such summaries, starting from either egocentric video frames of the robot taking actions or intermediate text representations of the actions used by an automatic planner. We provide quantitative and qualitative evaluations of our results, which can serve as a baseline for future work.
翻訳日:2022-03-16 08:00:24 公開日:2022-03-13
# (参考訳) 深層学習を用いた食材検出に基づく食品レシピ推薦

Food Recipe Recommendation Based on Ingredients Detection Using Deep Learning ( http://arxiv.org/abs/2203.06721v1 )

ライセンス: CC0 1.0
Md. Shafaat Jamil Rokon, Md Kishor Morol, Ishra Binte Hasan, A. M. Saif, and Rafid Hussain Khan(参考訳) 食べ物は人間の生存に不可欠であり、人々はいつも異なる種類の美味しいレシピを味わおうとする。 しばしば、自分の名前を知ることなく食材を選択したり、食料品店から見当たらない食材を拾ったりすることも多い。 どの成分を混ぜておいしい料理を作るかを知ることが不可欠である。 料理人にとって、材料のリストを選択して正しいレシピを選択することは極めて困難である。 しかし、専門家にとっても問題になり得る。 そのような例の1つは、画像処理によるオブジェクトの認識である。 このプロセスは食品成分が異なるため複雑であるが、伝統的なアプローチでは不正確になる。 これらの問題は、機械学習とディープラーニングアプローチによって解決できる。 本稿では,食品成分認識モデルを実装し,認識された成分に基づいてレシピを推薦するアルゴリズムを設計した。 32種類の食品材料クラスに属する9856枚の画像からなるカスタムデータセットを作成した。 convolution neural network(cnn)モデルは食品成分の識別に使用され、レシピの推奨には機械学習を使用しました。 精度は94%で、非常に印象的です。

Food is essential for human survival, and people always try to taste different types of delicious recipes. Frequently, people choose food ingredients without even knowing their names or pick up some food ingredients that are not obvious to them from a grocery store. Knowing which ingredients can be mixed to make a delicious food recipe is essential. Selecting the right recipe by choosing a list of ingredients is very difficult for a beginner cook. However, it can be a problem even for experts. One such example is recognising objects through image processing. Although this process is complex due to different food ingredients, traditional approaches will lead to an inaccuracy rate. These problems can be solved by machine learning and deep learning approaches. In this paper, we implemented a model for food ingredients recognition and designed an algorithm for recommending recipes based on recognised ingredients. We made a custom dataset consisting of 9856 images belonging to 32 different food ingredients classes. Convolution Neural Network (CNN) model was used to identify food ingredients, and for recipe recommendations, we have used machine learning. We achieved an accuracy of 94 percent, which is quite impressive.
翻訳日:2022-03-16 07:42:43 公開日:2022-03-13
# (参考訳) 信頼できるサーバを持たないプライベートな非凸フェデレーション学習

Private Non-Convex Federated Learning Without a Trusted Server ( http://arxiv.org/abs/2203.06735v1 )

ライセンス: CC BY-SA 4.0
Andrew Lowy, Ali Ghafelebashi, Meisam Razaviyayn(参考訳) 非凸損失関数と不均質な(非等質な)クライアントデータを持つ差分プライベート(DP)フェデレーション学習(FL)について,クライアントレポートを匿名化するためのセキュアな「シャフラー」なしで,信頼されたサーバがない場合に検討する。 本稿では,Lipschitz連続損失関数の3つのクラスに対して,クライアントレベルでの局所差分プライバシー(LDP)とシャッフル差分プライバシー(SDP)を満たす新しいアルゴリズムを提案する。 dp pl最適化の研究は、強凸、最小二乗、正規化ロジスティック回帰など、多くの興味深い実用的損失を除外するリプシッツ損失関数の制約のない問題のみを考慮に入れている。 しかし、近位plシナリオを解析することにより、制限パラメータ領域上のリプシッツとなるような損失を許容する。 最適凸, 等質(d.d.)速度をほぼ達成できる LDP および SDP アルゴリズムを提案する。 次に,非凸・非スムース損失関数に対する最初のdpアルゴリズムを提案する。 第3に, 解析を滑らかで制約のない非凸flに特化する。 私たちの境界は、単一のクライアントの特別な場合でさえ、最先端に改善され、特定の実用的なパラメータレジームにおける非プライベートな下限に適合します。 数値実験の結果,プライバシレベルのベースラインよりも精度がよいことがわかった。

We study differentially private (DP) federated learning (FL) with non-convex loss functions and heterogeneous (non-i.i.d.) client data in the absence of a trusted server, both with and without a secure "shuffler" to anonymize client reports. We propose novel algorithms that satisfy local differential privacy (LDP) at the client level and shuffle differential privacy (SDP) for three classes of Lipschitz continuous loss functions: First, we consider losses satisfying the Proximal Polyak-Lojasiewicz (PL) inequality, which is an extension of the classical PL condition to the constrained setting. Prior works studying DP PL optimization only consider the unconstrained problem with Lipschitz loss functions, which rules out many interesting practical losses, such as strongly convex, least squares, and regularized logistic regression. However, by analyzing the proximal PL scenario, we permit such losses which are Lipschitz on a restricted parameter domain. We propose LDP and SDP algorithms that nearly attain the optimal strongly convex, homogeneous (i.i.d.) rates. Second, we provide the first DP algorithms for non-convex/non-smooth loss functions. Third, we specialize our analysis to smooth, unconstrained non-convex FL. Our bounds improve on the state-of-the-art, even in the special case of a single client, and match the non-private lower bound in certain practical parameter regimes. Numerical experiments show that our algorithm yields better accuracy than baselines for most privacy levels.
翻訳日:2022-03-16 07:32:58 公開日:2022-03-13
# (参考訳) 異常検出のためのデータ前処理としての特徴空間削減

Feature space reduction as data preprocessing for the anomaly detection ( http://arxiv.org/abs/2203.06747v1 )

ライセンス: CC BY 4.0
Simon Bilik, Karel Horak(参考訳) 本稿では,1クラスSVMを用いた異常検出のための特徴量を削減するために,2つのパイプラインを提案する。 両パイプラインの第一段階として、3つの畳み込みオートエンコーダの性能を比較する。 第1のパイプラインはPCA法,第1のパイプラインはt-SNE法,第2のパイプラインは再構成誤りに基づく手法を用いている。 どちらの手法も異常検出の可能性を秘めているが、再構成誤差の指標はこの問題に対してより堅牢であることが証明されている。 畳み込み型オートエンコーダアーキテクチャは、このタスクに大きな影響を及ぼさないことを示し、現実世界のデータセットに対する我々のアプローチの可能性を証明する。

In this paper, we present two pipelines in order to reduce the feature space for anomaly detection using the One Class SVM. As a first stage of both pipelines, we compare the performance of three convolutional autoencoders. We use the PCA method together with t-SNE as the first pipeline and the reconstruction errors based method as the second. Both methods have potential for the anomaly detection, but the reconstruction error metrics prove to be more robust for this task. We show that the convolutional autoencoder architecture doesn't have a significant effect for this task and we prove the potential of our approach on the real world dataset.
翻訳日:2022-03-16 07:31:25 公開日:2022-03-13
# (参考訳) cmkd: 音声分類のためのcnn/transformerベースのクロスモデル知識蒸留

CMKD: CNN/Transformer-Based Cross-Model Knowledge Distillation for Audio Classification ( http://arxiv.org/abs/2203.06760v1 )

ライセンス: CC BY 4.0
Yuan Gong, Sameer Khurana, Andrew Rouditchenko, and James Glass(参考訳) 音声分類は、幅広い応用分野の活発な研究分野である。 過去10年間、畳み込みニューラルネットワーク(CNN)は、エンドツーエンドのオーディオ分類モデルのデファクト標準ビルディングブロックであった。 近年,Audio Spectrogram Transformer(AST)のような自己注意機構のみに基づくニューラルネットワークがCNNより優れていることが示されている。 本稿では,CNNモデルとASTモデルという2つの非常に異なるモデル間の興味深い相互作用について述べる。 いずれのモデルも教師として使用し,他のモデルを知識蒸留(kd)を通して生徒として訓練する場合,生徒モデルのパフォーマンスは顕著に向上し,多くの場合,教師モデルよりも優れている。 このCNN/Transformer Cross-Model Knowledge Distillation (CMKD)法を用いて,FSD50K,AudioSet,ESC-50上での最先端性能を実現する。

Audio classification is an active research area with a wide range of applications. Over the past decade, convolutional neural networks (CNNs) have been the de-facto standard building block for end-to-end audio classification models. Recently, neural networks based solely on self-attention mechanisms such as the Audio Spectrogram Transformer (AST) have been shown to outperform CNNs. In this paper, we find an intriguing interaction between the two very different models - CNN and AST models are good teachers for each other. When we use either of them as the teacher and train the other model as the student via knowledge distillation (KD), the performance of the student model noticeably improves, and in many cases, is better than the teacher model. In our experiments with this CNN/Transformer Cross-Model Knowledge Distillation (CMKD) method we achieve new state-of-the-art performance on FSD50K, AudioSet, and ESC-50.
翻訳日:2022-03-16 07:27:06 公開日:2022-03-13
# (参考訳) 雑音を伴う人間の反応に対するアルゴリズム的リアクション

Algorithmic Recourse in the Face of Noisy Human Responses ( http://arxiv.org/abs/2203.06768v1 )

ライセンス: CC BY 4.0
Martin Pawelczyk and Teresa Datta and Johannes van-den-Heuvel and Gjergji Kasneci and Himabindu Lakkaraju(参考訳) 機械学習(ml)モデルが高リスクアプリケーションにデプロイされることが増えているため、モデル予測によって悪影響を受ける個人(例えば、ローンが拒否された申請者)へのリアクションの提供への関心が高まっている。 この目的のために、最近の文献ではいくつかのポストホック技術が提案されている。 これらの手法は、影響を受ける個人が正確に所定のリコースを実行すると仮定してリコースを生成する。 しかし、最近の研究では、例えば、所定のリコースが500ドルの増加を示唆した場合、給与を505ドルで上げるなど、個人が騒がしく一貫性のない方法でリコースを実施することがしばしばある。 そこで我々は, 騒音に強い人間の反応に対して, リコース無効化の問題を紹介し, 研究した。 より具体的には、最先端アルゴリズムの挙動を理論的および実証的に分析し、小さな変更が加えられた場合には、これらのアルゴリズムが生成するリルーチンが無効になる可能性が非常に高いことを実証する。 さらに,雑音応答に直面するリコース無効化の確率を明示的に最小化することにより,上記の問題に対処する新しいフレームワークEXPECT(EXPECTing Noisy Response)を提案する。 複数の実世界のデータセットによる実験的評価は,提案手法の有効性を示し,我々の理論的知見を支持する。

As machine learning (ML) models are increasingly being deployed in high-stakes applications, there has been growing interest in providing recourse to individuals adversely impacted by model predictions (e.g., an applicant whose loan has been denied). To this end, several post hoc techniques have been proposed in recent literature. These techniques generate recourses under the assumption that the affected individuals will implement the prescribed recourses exactly. However, recent studies suggest that individuals often implement recourses in a noisy and inconsistent manner - e.g., raising their salary by \$505 if the prescribed recourse suggested an increase of \$500. Motivated by this, we introduce and study the problem of recourse invalidation in the face of noisy human responses. More specifically, we theoretically and empirically analyze the behavior of state-of-the-art algorithms, and demonstrate that the recourses generated by these algorithms are very likely to be invalidated if small changes are made to them. We further propose a novel framework, EXPECTing noisy responses (EXPECT), which addresses the aforementioned problem by explicitly minimizing the probability of recourse invalidation in the face of noisy responses. Experimental evaluation with multiple real world datasets demonstrates the efficacy of the proposed framework, and supports our theoretical findings
翻訳日:2022-03-16 06:55:43 公開日:2022-03-13
# (参考訳) ショートストーリーオーダリングのためのPruned Graph Neural Network

Pruned Graph Neural Network for Short Story Ordering ( http://arxiv.org/abs/2203.06778v1 )

ライセンス: CC BY 4.0
Melika Golestani, Zeinab Borhanifard, Farnaz Tahmasebian, and Heshaam Faili(参考訳) テキストコヒーレンスは自然言語の生成と理解における根本的な問題である。 文をコヒーレンスを最大化する順序に整理することは、文順序と呼ばれる。 本稿では,文の集合を符号化し,短編の順序を学習するためのグラフニューラルネットワークアプローチに基づく新しいアプローチを提案する。 そこで本研究では,短文の文実体グラフを構築し,文間のエッジを作成し,代名詞を参照エンティティに置き換えることで,文の雑音を低減する新しい手法を提案する。 我々は,最先端手法の多数決に基づく集計手法を導入し,文の順序付けを改善した。 提案手法では,文の意味表現の学習にBERTに基づくモデルを用いる。 その結果,提案手法は,PMR(Perfect Match Ratio)とKendall's Tau(Tau)の指標を用いて,新しい最先端性能を持つ短編のコーパスにおいて,既存のベースラインを著しく上回ることを示した。 より正確には,本手法はPMRおよびTau基準を5%以上,Tau基準を4.3%以上向上させる。 これらの結果は、コサインの類似性に基づいて文間の縁を形成する利点を強調している。 また,代名詞から参照エンティティへの置換は,文実体グラフの文を効果的にエンコードする。

Text coherence is a fundamental problem in natural language generation and understanding. Organizing sentences into an order that maximizes coherence is known as sentence ordering. This paper is proposing a new approach based on the graph neural network approach to encode a set of sentences and learn orderings of short stories. We propose a new method for constructing sentence-entity graphs of short stories to create the edges between sentences and reduce noise in our graph by replacing the pronouns with their referring entities. We improve the sentence ordering by introducing an aggregation method based on majority voting of state-of-the-art methods and our proposed one. Our approach employs a BERT-based model to learn semantic representations of the sentences. The results demonstrate that the proposed method significantly outperforms existing baselines on a corpus of short stories with a new state-of-the-art performance in terms of Perfect Match Ratio (PMR) and Kendall's Tau (Tau) metrics. More precisely, our method increases PMR and Tau criteria by more than 5% and 4.3%, respectively. These outcomes highlight the benefit of forming the edges between sentences based on their cosine similarity. We also observe that replacing pronouns with their referring entities effectively encodes sentences in sentence-entity graphs.
翻訳日:2022-03-16 06:20:19 公開日:2022-03-13
# (参考訳) 学習分類器による適応モデル予測制御

Adaptive Model Predictive Control by Learning Classifiers ( http://arxiv.org/abs/2203.06783v1 )

ライセンス: CC BY 4.0
Rel Guzman, Rafael Oliveira, Fabio Ramos(参考訳) 確率モデル予測制御は、システムダイナミクスモデルが少し不正確なり、環境障害が存在する多くのロボットタスクにおいて、成功し、堅牢な制御フレームワークである。 成功にもかかわらず、モデルパラメータの不確実性と異種雑音の存在下で、制御パラメータを現在のタスクに最適に調整する方法はまだ不明である。 本稿では,ベイズ最適化(bo)と古典的期待改善獲得関数のアイデアを活用し,制御パラメータとモデルパラメータを自動的に推定する適応型mpc変種を提案する。 分類器を学習するだけで効率的に近似できる密度比推定としてboを定式化できることを示す最近の研究結果を活用する。 その後、これはモデル予測経路積分制御フレームワークに統合され、様々な困難なロボティクスタスクのための堅牢なコントローラを生成する。 モデル不確実性とロボット操作タスクにおける古典的制御問題に対するアプローチを実証する。

Stochastic model predictive control has been a successful and robust control framework for many robotics tasks where the system dynamics model is slightly inaccurate or in the presence of environment disturbances. Despite the successes, it is still unclear how to best adjust control parameters to the current task in the presence of model parameter uncertainty and heteroscedastic noise. In this paper, we propose an adaptive MPC variant that automatically estimates control and model parameters by leveraging ideas from Bayesian optimization (BO) and the classical expected improvement acquisition function. We leverage recent results showing that BO can be formulated as a density ratio estimation which can be efficiently approximated by simply learning a classifier. This is then integrated into a model predictive path integral control framework yielding robust controllers for a variety of challenging robotics tasks. We demonstrate the approach on classical control problems under model uncertainty and robotics manipulation tasks.
翻訳日:2022-03-16 06:07:10 公開日:2022-03-13
# (参考訳) 関節方位スケール空間表現の類似同変線形変換

Similarity Equivariant Linear Transformation of Joint Orientation-Scale Space Representations ( http://arxiv.org/abs/2203.06786v1 )

ライセンス: CC BY 4.0
Xinhua Zhang and Lance R. Williams(参考訳) 畳み込みは、1つ以上の変数がシフトで通勤する関数の線形演算として定義される。 群畳み込み(group convolution)は、より一般的な幾何学的変換を表す群要素の関数上の線型演算の概念を一般化し、それらの変換と交換する。 類似度変換は形状を保存する画像上の最も一般的な幾何学的変換であるため、類似度変換に同値な群畳み込みは最も一般的な形状保存線形作用素である。 類似性変換は4つの自由パラメータを持つため、群畳み込みは4次元の共役向きスケール空間上で定義される。 等変線型作用素に関する以前の研究は離散群に限定されているが、類似性群は連続である。 本稿では,連続類似性変換に同値な離散表現上の線形作用素について述べる。 これは、ジョイントシフト可能-ツイスタブル-スケーリング機能である関数の基底を使用することで達成される。 これらの it ピンホイール関数は向き付け次元におけるフーリエ級数と対数スケール次元におけるラプラス変換を使い、位置、向き、スケールで連続的に補間できる空間的局所化関数の基底を形成する。 この結果は、一般に視覚計算に関して有意であるが、ブラウン運動の速度における粒子が追従する閉じた輪郭の形状同変分布を計算するために、その実用性を最初に示す。 輪郭は、よく知られた双安定な照明輪郭誘導パターンを表す点と線端の集合によって制約される。

Convolution is conventionally defined as a linear operation on functions of one or more variables which commutes with shifts. Group convolution generalizes the concept to linear operations on functions of group elements representing more general geometric transformations and which commute with those transformations. Since similarity transformation is the most general geometric transformation on images that preserves shape, the group convolution that is equivariant to similarity transformation is the most general shape preserving linear operator. Because similarity transformations have four free parameters, group convolutions are defined on four-dimensional, joint orientation-scale spaces. Although prior work on equivariant linear operators has been limited to discrete groups, the similarity group is continuous. In this paper, we describe linear operators on discrete representations that are equivariant to continuous similarity transformation. This is achieved by using a basis of functions that is it joint shiftable-twistable-scalable. These it pinwheel functions use Fourier series in the orientation dimension and Laplace transform in the log-scale dimension to form a basis of spatially localized functions that can be continuously interpolated in position, orientation and scale. Although this result is potentially significant with respect to visual computation generally, we present an initial demonstration of its utility by using it to compute a shape equivariant distribution of closed contours traced by particles undergoing Brownian motion in velocity. The contours are constrained by sets of points and line endings representing well known bistable illusory contour inducing patterns.
翻訳日:2022-03-16 05:55:27 公開日:2022-03-13
# (参考訳) 局所フーリエ・メリン記述子のマグニチュードヒストグラムを用いた2次元形状のユークリッド不変認識

Euclidean Invariant Recognition of 2D Shapes Using Histograms of Magnitudes of Local Fourier-Mellin Descriptors ( http://arxiv.org/abs/2203.06787v1 )

ライセンス: CC BY 4.0
Xinhua Zhang and Lance R. Williams(参考訳) 基本関数を持つ内積の大きさは回転やスケールの変化に不変であるため、フーリエ・メリン変換はユークリッド不変な2次元形状認識システムにおいて長い間使われてきた。 しかし、フーリエ・メリン変換の規模は既知の中心点に関する回転とスケールの変化にのみ不変であり、この中心点が一貫して正確に識別される以外はフルユークリッド不変形状認識は不可能である。 本稿では,フーリエメルリン変換が画像の各点において計算されるシステムについて述べる。 フーリエ・メルリン基底関数の空間的サポートは、多項式包絡を乗じることで局所化される。 重要なことに、分離された点におけるこれらの複雑なフィルタとの畳み込みの大きさは(それ自体によって)ユークリッド不変形状認識の特徴として使われていない。 代わりに、大きさの正規化されたヒストグラムが完全にユークリッド不変量であるという事実に依存する。 本研究では,2次元形状のユークリッド不変な認識を行い,畳み込みニューラルネットワークに基づく同等の手法よりも1桁少ないトレーニングデータを必要とするvlad機械学習に基づくシステムを示す。

Because the magnitude of inner products with its basis functions are invariant to rotation and scale change, the Fourier-Mellin transform has long been used as a component in Euclidean invariant 2D shape recognition systems. Yet Fourier-Mellin transform magnitudes are only invariant to rotation and scale changes about a known center point, and full Euclidean invariant shape recognition is not possible except when this center point can be consistently and accurately identified. In this paper, we describe a system where a Fourier-Mellin transform is computed at every point in the image. The spatial support of the Fourier-Mellin basis functions is made local by multiplying them with a polynomial envelope. Significantly, the magnitudes of convolutions with these complex filters at isolated points are not (by themselves) used as features for Euclidean invariant shape recognition because reliable discrimination would require filters with spatial support large enough to fully encompass the shapes. Instead, we rely on the fact that normalized histograms of magnitudes are fully Euclidean invariant. We demonstrate a system based on the VLAD machine learning method that performs Euclidean invariant recognition of 2D shapes and requires an order of magnitude less training data than comparable methods based on convolutional neural networks.
翻訳日:2022-03-16 05:28:05 公開日:2022-03-13
# スペイン国の公式データを用いたタバコ販売の異常測定:トランスナショナル・タバコ会社(TTCs)が使用したEmpty Pack Surveys(EPS)による異常のみを検出するか?

Measuring anomalies in cigarette sales by using official data from Spanish provinces: Are there only the anomalies detected by the Empty Pack Surveys (EPS) used by Transnational Tobacco Companies (TTCs)? ( http://arxiv.org/abs/2203.06640v1 )

ライセンス: Link先を確認
Pedro Cadahia, Antonio A. Golpe, Juan M. Mart\'in \'Alvarez, E. Asensio(参考訳) 全国タバコ会社(TTC)が不正タバコ取引を計測するよう依頼した研究の正確性に疑問を呈する文献がある。 さらに,TTCが発注したEmpty Pack Surveys (EPS) が大きすぎることを示す研究もある。 本研究の目新しさは,epssで分析された異常を検出することに加えて,タバコ販売が妥当な値よりも高い地域があり,ttcは無視していることである。 この研究は、まず、スペイン47州で確立されたEPSが満たされた場合、同時に分析した。 第2に、売上が期待値を超える地域で観察される異常を測定する。 本論文の目的は,1人当たりのタバコ販売,価格,GDPに関する地方データを利用することである。 これらのデータは、他の領域で異常を検出するために広く使用される機械学習技術でモデル化される。 その結果,適切な値以下で販売される地域(EPSで検出される)は,地理的に明確なパターンを示すことが明らかとなった。 さらに、以前の文献に示されているように、スペインにおけるEPSによって提供される価値はわずかに過大である。 最後に、他国と接する地域や、観測された売上が期待値よりも高い観光の影響が強い地域が存在する。

There is literature that questions the veracity of the studies commissioned by the transnational tobacco companies (TTC) to measure the illicit tobacco trade. Furthermore, there are studies that indicate that the Empty Pack Surveys (EPS) ordered by the TTCs are oversized. The novelty of this study is that, in addition to detecting the anomalies analyzed in the EPSs, there are provinces in which cigarette sales are higher than reasonable values, something that the TTCs ignore. This study analyzed simultaneously, firstly, if the EPSs established in each of the 47 Spanish provinces were fulfilled. Second, anomalies observed in provinces where sales exceed expected values are measured. To achieve the objective of the paper, provincial data on cigarette sales, price and GDP per capita are used. These data are modeled with machine learning techniques widely used to detect anomalies in other areas. The results reveal that the provinces in which sales below reasonable values are observed (as detected by the EPSs) present a clear geographical pattern. Furthermore, the values provided by the EPSs in Spain, as indicated in the previous literature, are slightly oversized. Finally, there are regions bordering other countries or with a high tourist influence in which the observed sales are higher than the expected values.
翻訳日:2022-03-15 17:45:30 公開日:2022-03-13
# ディープグラフ生成に関する調査:方法と応用

A Survey on Deep Graph Generation: Methods and Applications ( http://arxiv.org/abs/2203.06714v1 )

ライセンス: Link先を確認
Yanqiao Zhu and Yuanqi Du and Yinkai Wang and Yichen Xu and Jieyu Zhang and Qiang Liu and Shu Wu(参考訳) グラフは多くのドメインで現実世界のオブジェクトのリレーショナル情報を符号化するのにユビキタスである。 グラフ生成は、観測されたグラフに似た分布から新しいグラフを生成することを目的としており、近年のディープラーニングモデルの発展により注目されている。 本稿では,既存のグラフ生成の文献を,様々な新興手法から幅広い応用分野へ総合的に検討する。 具体的には,まず深層グラフ生成の問題を定式化し,その差異を関連する複数のグラフ学習課題と議論する。 第2に,最先端手法をモデルアーキテクチャに基づく3つのカテゴリに分け,生成戦略を要約する。 第3に,深部グラフ生成の3つの重要な応用分野を紹介する。 最後に、深層グラフ生成の今後の研究における課題と機会を強調します。

Graphs are ubiquitous in encoding relational information of real-world objects in many domains. Graph generation, whose purpose is to generate new graphs from a distribution similar to the observed graphs, has received increasing attention thanks to the recent advances of deep learning models. In this paper, we conduct a comprehensive review on the existing literature of graph generation from a variety of emerging methods to its wide application areas. Specifically, we first formulate the problem of deep graph generation and discuss its difference with several related graph learning tasks. Secondly, we divide the state-of-the-art methods into three categories based on model architectures and summarize their generation strategies. Thirdly, we introduce three key application areas of deep graph generation. Lastly, we highlight challenges and opportunities in the future study of deep graph generation.
翻訳日:2022-03-15 17:45:06 公開日:2022-03-13
# ラベルのみのモデル反転攻撃:最小情報を必要とする攻撃

Label-only Model Inversion Attack: The Attack that Requires the Least Information ( http://arxiv.org/abs/2203.06555v1 )

ライセンス: Link先を確認
Dayong Ye and Tianqing Zhu and Shuai Zhou and Bo Liu and Wanlei Zhou(参考訳) モデル反転攻撃では、敵はモデル出力のみを使用してターゲットモデルをトレーニングするために使用されるデータレコードを再構築しようとする。 現代のモデル反転攻撃を開始する際、議論される戦略は一般的に予測された信頼度スコアベクトル、すなわちブラックボックス攻撃またはターゲットモデルのパラメータ、すなわちホワイトボックス攻撃に基づいている。 しかし、実際の世界では、モデル所有者は予測されたラベルのみを出力し、信頼スコアベクトルとモデルパラメータはそのような攻撃を防ぐための防御メカニズムとして隠されている。 残念なことに、出力ラベルのみに基づいて入力データレコードを再構成できるモデル逆変換法が見つかった。 これは最も少ない情報を必要とする攻撃であり、最適な適用性があると信じています。 鍵となる考え方は、ターゲットモデルの誤差率を利用して、データレコードの集合からターゲットモデルの決定境界までの中央値距離を計算することである。 距離は、アタックモデルをトレーニングしてデータレコードを再構築するために使用される信頼スコアベクトルを生成するために使用される。 実験の結果,高認識性の高いデータレコードは,既存の方法よりもはるかに少ない情報で再構築できることがわかった。

In a model inversion attack, an adversary attempts to reconstruct the data records, used to train a target model, using only the model's output. In launching a contemporary model inversion attack, the strategies discussed are generally based on either predicted confidence score vectors, i.e., black-box attacks, or the parameters of a target model, i.e., white-box attacks. However, in the real world, model owners usually only give out the predicted labels; the confidence score vectors and model parameters are hidden as a defense mechanism to prevent such attacks. Unfortunately, we have found a model inversion method that can reconstruct the input data records based only on the output labels. We believe this is the attack that requires the least information to succeed and, therefore, has the best applicability. The key idea is to exploit the error rate of the target model to compute the median distance from a set of data records to the decision boundary of the target model. The distance, then, is used to generate confidence score vectors which are adopted to train an attack model to reconstruct the data records. The experimental results show that highly recognizable data records can be reconstructed with far less information than existing methods.
翻訳日:2022-03-15 16:50:20 公開日:2022-03-13
# トランスファー学習に対するモデル反転攻撃--アクセスしないモデル逆転

Model Inversion Attack against Transfer Learning: Inverting a Model without Accessing It ( http://arxiv.org/abs/2203.06570v1 )

ライセンス: Link先を確認
Dayong Ye and Huiqiang Chen and Shuai Zhou and Tianqing Zhu and Wanlei Zhou and Shouling Ji(参考訳) 転校学習は、専門的な生徒モデルを簡単に構築するために使用できる、事前学習された教師モデルを生成する重要なアプローチである。 しかし、近年のトランスファーラーニングの研究では、誤分類やバックドア攻撃など、様々な攻撃に弱いことが判明している。 しかし、トランスファーラーニングがモデル反転攻撃に弱いかどうかはまだ不明である。 トランスファー学習スキームに対するモデル逆攻撃の起動は困難である。 生徒モデルは、その構造パラメータを隠すだけでなく、敵にもアクセスできない。 したがって、学生モデルをターゲットにする場合、既存のモデル反転攻撃のホワイトボックス版とブラックボックス版の両方が失敗する。 ホワイトボックス攻撃はターゲットモデルのパラメータを必要とするため失敗する。 ブラックボックス攻撃は、ターゲットモデルの繰り返しクエリに依存するため失敗する。 しかし、転送学習モデルが反転攻撃をモデル化することができないという意味ではないかもしれない。 そこで,本研究では,2つの新しい攻撃手法を用いたトランスファー学習手法に対するモデル逆攻撃の研究を開始する。 どちらもブラックボックス攻撃であり、ターゲットの学生モデルへのクエリに依存しない、異なる状況に適合する。 最初の方法では、相手は教師モデルのトレーニングセットと同じ分布を共有するデータサンプルを持っている。 第2の方法では、敵はそのようなサンプルを持っていない。 実験の結果,この2つの手法で高い認識可能なデータレコードを復元できることがわかった。 つまり、モデルがアクセス不能なブラックボックスであっても、それを反転することができる。

Transfer learning is an important approach that produces pre-trained teacher models which can be used to quickly build specialized student models. However, recent research on transfer learning has found that it is vulnerable to various attacks, e.g., misclassification and backdoor attacks. However, it is still not clear whether transfer learning is vulnerable to model inversion attacks. Launching a model inversion attack against transfer learning scheme is challenging. Not only does the student model hide its structural parameters, but it is also inaccessible to the adversary. Hence, when targeting a student model, both the white-box and black-box versions of existing model inversion attacks fail. White-box attacks fail as they need the target model's parameters. Black-box attacks fail as they depend on making repeated queries of the target model. However, they may not mean that transfer learning models are impervious to model inversion attacks. Hence, with this paper, we initiate research into model inversion attacks against transfer learning schemes with two novel attack methods. Both are black-box attacks, suiting different situations, that do not rely on queries to the target student model. In the first method, the adversary has the data samples that share the same distribution as the training set of the teacher model. In the second method, the adversary does not have any such samples. Experiments show that highly recognizable data records can be recovered with both of these methods. This means that even if a model is an inaccessible black-box, it can still be inverted.
翻訳日:2022-03-15 16:49:51 公開日:2022-03-13
# 1つのパラメータ防御 -- 差分プライバシーによるデータ推論攻撃の防御

One Parameter Defense -- Defending against Data Inference Attacks via Differential Privacy ( http://arxiv.org/abs/2203.06580v1 )

ライセンス: Link先を確認
Dayong Ye and Sheng Shen and Tianqing Zhu and Bo Liu and Wanlei Zhou(参考訳) 機械学習モデルは、メンバシップ推論やモデル反転攻撃といったデータ推論攻撃に対して脆弱である。 この種の侵入では、敵はデータセット内のデータレコードのメンバシップを推論したり、ターゲットモデルによって予測された信頼度スコアベクトルを使ってデータレコードを再構築したりする。 しかし、既存の防衛手法の多くは、メンバーシップ推論攻撃からのみ保護される。 どちらの攻撃にも対処できる手法は、新しいモデルを訓練する必要があるが、これは時間効率が良くないかもしれない。 本稿では,プライバシ予算の1つのパラメータのみをチューニングすることにより,両タイプの攻撃を時間効率良く処理する差分プライベート防御手法を提案する。 中心となる考え方は、プライバシを保護し、メンバーシップと再構築されたデータを隠蔽する差分プライバシーメカニズムで、信頼性スコアベクターを修正および正規化することである。 さらに,分類精度の低下を回避するため,ベクトルにおけるスコアの順序を保証できる。 実験の結果, 精度を低下させることなく, メンバーシップ推論とモデル反転攻撃を効果的かつタイムリーに防ぐ方法が示された。

Machine learning models are vulnerable to data inference attacks, such as membership inference and model inversion attacks. In these types of breaches, an adversary attempts to infer a data record's membership in a dataset or even reconstruct this data record using a confidence score vector predicted by the target model. However, most existing defense methods only protect against membership inference attacks. Methods that can combat both types of attacks require a new model to be trained, which may not be time-efficient. In this paper, we propose a differentially private defense method that handles both types of attacks in a time-efficient manner by tuning only one parameter, the privacy budget. The central idea is to modify and normalize the confidence score vectors with a differential privacy mechanism which preserves privacy and obscures membership and reconstructed data. Moreover, this method can guarantee the order of scores in the vector to avoid any loss in classification accuracy. The experimental results show the method to be an effective and timely defense against both membership inference and model inversion attacks with no reduction in accuracy.
翻訳日:2022-03-15 16:49:32 公開日:2022-03-13
# 単一の対応だけで十分:都市環境の縮退を避けるためのロバストなグローバル登録

A Single Correspondence Is Enough: Robust Global Registration to Avoid Degeneracy in Urban Environments ( http://arxiv.org/abs/2203.06612v1 )

ライセンス: Link先を確認
Hyungtae Lim, Suyong Yeon, Soohyun Ryu, Yonghan Lee, Youngji Kim, Jaeseong Yun, Euigon Jung, Donghwan Lee and Hyun Myung(参考訳) 3Dポイントクラウドを使用したグローバルな登録は、モバイルプラットフォームがローカライズやループ閉鎖の状況を管理する上で重要な技術である。 近年,多くの研究者が,多数の外乱対応に対処するためのグローバルな登録手法を提案している。 残念なことに、推定インレーヤ数が3より少なくなる現象を表す縮退問題は、いまだに避けられない。 この問題に対処するために、Quatroと呼ばれるデジェネリティー・ロバスト・デカップリングに基づくグローバルな登録手法を提案する。 特に,都市環境におけるアトランタ・ワールドの仮定を活用し,回転推定の縮退を回避することで擬似so(3)推定を行う。 したがって、我々の手法の最小自由度(DoF)は3から1に減少する。 屋内および屋外の3dlidarデータセットで検証されたように,提案手法は,遠方の点クラウドペアであっても,他のグローバル登録手法と比較してロバストなグローバル登録性能をもたらす。 さらに, 実験結果から, 粗いアライメントとしての適用性を確認した。 コードはhttps://github.com/url-kaist/quatro.com/。

Global registration using 3D point clouds is a crucial technology for mobile platforms to achieve localization or manage loop-closing situations. In recent years, numerous researchers have proposed global registration methods to address a large number of outlier correspondences. Unfortunately, the degeneracy problem, which represents the phenomenon in which the number of estimated inliers becomes lower than three, is still potentially inevitable. To tackle the problem, a degeneracy-robust decoupling-based global registration method is proposed, called Quatro. In particular, our method employs quasi-SO(3) estimation by leveraging the Atlanta world assumption in urban environments to avoid degeneracy in rotation estimation. Thus, the minimum degree of freedom (DoF) of our method is reduced from three to one. As verified in indoor and outdoor 3D LiDAR datasets, our proposed method yields robust global registration performance compared with other global registration methods, even for distant point cloud pairs. Furthermore, the experimental results confirm the applicability of our method as a coarse alignment. Our code is available: https://github.com/url-kaist/quatro.
翻訳日:2022-03-15 16:44:38 公開日:2022-03-13
# ソーシャル・ネットワーク・マイニングによる教育におけるcovid-19の影響調査

Investigating the Impact of COVID-19 on Education by Social Network Mining ( http://arxiv.org/abs/2203.06584v1 )

ライセンス: Link先を確認
Mohadese Jamalian, Hamed Vahdat-Nejad, Hamideh Hajiabadi(参考訳) コビッドウイルスは、2020年と2021年のソーシャルネットワークで最も議論されたトピックの一つであり、世界中の古典的な教育パラダイムに影響を与えてきた。 本研究では,地理情報データベース「geonames geographic database」を用いて,新型コロナウイルス(covid-19)と教育に関する多くのつぶやきを検討・タグ付けした。 ユーザの感情を検出するために,RoBERTa言語モデルを用いて感情分析を行う。 最後に,コビッド19の確認件数の多い国では,総ツイート数,肯定ツイート数,否定ツイート数が増加傾向にある。 調査の結果、複数の国で確認されたケースのツイート頻度と公式統計値の相関が明らかになった。

The Covid-19 virus has been one of the most discussed topics on social networks in 2020 and 2021 and has affected the classic educational paradigm, worldwide. In this research, many tweets related to the Covid-19 virus and education are considered and geo-tagged with the help of the GeoNames geographic database, which contains a large number of place names. To detect the feeling of users, sentiment analysis is performed using the RoBERTa language-based model. Finally, we obtain the trends of frequency of total, positive, and negative tweets for countries with a high number of Covid-19 confirmed cases. Investigating the results reveals a correlation between the trends of tweet frequency and the official statistic of confirmed cases for several countries.
翻訳日:2022-03-15 16:18:06 公開日:2022-03-13
# DARA: オフライン強化学習におけるダイナミック・アウェア・リワード強化

DARA: Dynamics-Aware Reward Augmentation in Offline Reinforcement Learning ( http://arxiv.org/abs/2203.06662v1 )

ライセンス: Link先を確認
Jinxin Liu, Hongyin Zhang, Donglin Wang(参考訳) オフライン強化学習アルゴリズムは、固定データセットが利用可能で、新しいエクスペリエンスが取得できない設定に適用できることを約束している。 しかし、このような定式化は必然的にオフラインデータ処理であり、実際には、1つの特定のタスクに対する大規模なオフラインデータセットを1つの特定の環境上で収集するのも費用がかかる。 そこで本研究では, 1) 広範な(ターゲット)オフラインデータの要求を緩和するために、他のダイナミクスから収集された(ソース)オフラインデータを使用して、オフラインダイナミックス適応を公式化する。 2)事前オフラインメソッドが十分にスケールしないダイナミクスシフト問題の特徴と課題 3) モデルフリーおよびモデルベースオフライン設定の両方から、シンプルなDynamics-Aware reward Augmentation (DARA)フレームワークを導き出す。 具体的には、DARAは、ターゲット環境に適応するソース遷移ペアからの学習を強調し、以前のオフラインRL法でスケッチされた典型的な状態-動作分布ではなく、状態-動作-next状態ペアを特徴付けることによって、オフラインダイナミクスシフトを緩和する。 実験評価の結果、daraは、ソースオフラインデータセットの報酬を増強することで、ターゲット環境に対する適応ポリシーを取得しながら、ターゲットオフラインデータの必要性を著しく低減できることが示されている。 ターゲットとするオフラインデータの量が少ないため、シミュレーションと実世界の両方のタスクにおいて、従来のオフラインRLメソッドよりも一貫してパフォーマンスが向上します。

Offline reinforcement learning algorithms promise to be applicable in settings where a fixed dataset is available and no new experience can be acquired. However, such formulation is inevitably offline-data-hungry and, in practice, collecting a large offline dataset for one specific task over one specific environment is also costly and laborious. In this paper, we thus 1) formulate the offline dynamics adaptation by using (source) offline data collected from another dynamics to relax the requirement for the extensive (target) offline data, 2) characterize the dynamics shift problem in which prior offline methods do not scale well, and 3) derive a simple dynamics-aware reward augmentation (DARA) framework from both model-free and model-based offline settings. Specifically, DARA emphasizes learning from those source transition pairs that are adaptive for the target environment and mitigates the offline dynamics shift by characterizing state-action-next-state pairs instead of the typical state-action distribution sketched by prior offline RL methods. The experimental evaluation demonstrates that DARA, by augmenting rewards in the source offline dataset, can acquire an adaptive policy for the target environment and yet significantly reduce the requirement of target offline data. With only modest amounts of target offline data, our performance consistently outperforms the prior offline RL methods in both simulated and real-world tasks.
翻訳日:2022-03-15 16:16:08 公開日:2022-03-13
# ロバスト顔アライメントのためのスパース局所パッチ変換器とランドマークの固有関係学習

Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relation Learning ( http://arxiv.org/abs/2203.06541v1 )

ライセンス: Link先を確認
Jiahao Xia and Weiwei qu and Wenjian Huang and Jianguo Zhang and Xi Wang and Min Xu(参考訳) ヒートマップ回帰法は近年、異なるランドマーク間の固有の関係を無視しながら、顔のアライメント領域を支配している。 本稿では,固有関係を学習するためのスパース局所パッチトランスフォーマ(slpt)を提案する。 SLPTは、局所パッチから個々のランドマークの表現を生成し、アテンション機構に基づいて適応固有の関係でそれらを集約する。 各ランドマークのサブピクセル座標は、集約された特徴に基づいて独立に予測される。 さらに、SLPTを組み込むために粗粒度フレームワークがさらに導入され、これにより初期ランドマークが動的に再サイズされた局所パッチの微細な特徴を用いて、ターゲットの顔ランドマークに徐々に収束する。 WFLW、300W、COFWを含む3つの一般的なベンチマークで実施された大規模な実験により、提案手法は、顔のランドマーク間の固有の関係を学習することで、より少ない計算量で、最先端のレベルで機能することを示した。 コードはプロジェクトのwebサイトから入手できる。

Heatmap regression methods have dominated face alignment area in recent years while they ignore the inherent relation between different landmarks. In this paper, we propose a Sparse Local Patch Transformer (SLPT) for learning the inherent relation. The SLPT generates the representation of each single landmark from a local patch and aggregates them by an adaptive inherent relation based on the attention mechanism. The subpixel coordinate of each landmark is predicted independently based on the aggregated feature. Moreover, a coarse-to-fine framework is further introduced to incorporate with the SLPT, which enables the initial landmarks to gradually converge to the target facial landmarks using fine-grained features from dynamically resized local patches. Extensive experiments carried out on three popular benchmarks, including WFLW, 300W and COFW, demonstrate that the proposed method works at the state-of-the-art level with much less computational complexity by learning the inherent relation between facial landmarks. The code is available at the project website.
翻訳日:2022-03-15 16:09:28 公開日:2022-03-13
# CEKD:微粒化データのための知識蒸留のクロスアンサンブル化

CEKD:Cross Ensemble Knowledge Distillation for Augmented Fine-grained Data ( http://arxiv.org/abs/2203.06551v1 )

ライセンス: Link先を確認
Ke Zhang, Jin Fan, Shaoli Huang, Yongliang Qiao, Xiaofeng Yu, Feiwei Qin(参考訳) データ拡張は深層モデルのトレーニングに有効であることが証明されている。 既存のデータ拡張手法では、画像ペアをブレンドし、ネットワークの性能に有害な追加ノイズを生成する混合画素の統計に従って対応するラベルを融合することにより、きめ細かい問題に対処している。 そこで本研究では,細粒度特徴学習のための簡単なクロスアンサンブル知識蒸留(CEKD)モデルを提案する。 本稿では,騒音問題を軽減するため,クロス蒸留モジュールを提案するとともに,競合問題に対処するための協調アンサンブルモジュールを提案する。 提案モデルはエンドツーエンドでトレーニング可能であり,イメージレベルのラベル管理のみを必要とする。 広範に用いられているきめ細かいベンチマーク実験により,提案モデルの有効性が示された。 具体的には、ResNet-101のバックボーンで、CEKDは3つのデータセットでそれぞれ89.59%、95.96%、94.56%の精度を得る。

Data augmentation has been proved effective in training deep models. Existing data augmentation methods tackle the fine-grained problem by blending image pairs and fusing corresponding labels according to the statistics of mixed pixels, which produces additional noise harmful to the performance of networks. Motivated by this, we present a simple yet effective cross ensemble knowledge distillation (CEKD) model for fine-grained feature learning. We innovatively propose a cross distillation module to provide additional supervision to alleviate the noise problem, and propose a collaborative ensemble module to overcome the target conflict problem. The proposed model can be trained in an end-to-end manner, and only requires image-level label supervision. Extensive experiments on widely used fine-grained benchmarks demonstrate the effectiveness of our proposed model. Specifically, with the backbone of ResNet-101, CEKD obtains the accuracy of 89.59%, 95.96% and 94.56% in three datasets respectively, outperforming state-of-the-art API-Net by 0.99%, 1.06% and 1.16%.
翻訳日:2022-03-15 16:09:14 公開日:2022-03-13
# インスタンスセグメンテーションに基づく自動車用ミリ波レーダ検出点のコントラスト学習

Contrastive Learning for Automotive mmWave Radar Detection Points Based Instance Segmentation ( http://arxiv.org/abs/2203.06553v1 )

ライセンス: Link先を確認
Weiyi Xiong, Jianan Liu, Yuxuan Xia, Tao Huang, Bing Zhu and Wei Xiang(参考訳) 自動車用mmWaveレーダーは、高度運転支援システム(ADAS)と自律運転において重要な役割を果たしている。 ディープラーニングベースのインスタンスセグメンテーションは、レーダ検出ポイントからのリアルタイムオブジェクト識別を可能にする。 従来のトレーニングプロセスでは、正確なアノテーションが鍵となる。 しかし,レーダー検出点の良質なアノテーションは,あいまいさやスパース性から達成が困難である。 本稿では,レーダ検出点に基づくインスタンスセグメンテーションを実現するためのコントラスト学習手法を提案する。 正と負のサンプルを接地ラベルに従って定義し、コントラスト損失を適用してまずモデルをトレーニングし、次に次の下流タスクのトレーニングを行う。 さらに、これら2つのステップを1つにマージして、ラベルのないデータに対して擬似ラベルを生成してパフォーマンスをさらに向上させることができる。 したがって、この方法には4つの異なるトレーニング設定がある。 実験の結果, 地中真実情報が5%のトレーニングデータでのみ利用可能である場合, 提案手法は, 教師付き手法と同等の性能を示し, 100%の地中真実情報が得られる。

The automotive mmWave radar plays a key role in advanced driver assistance systems (ADAS) and autonomous driving. Deep learning-based instance segmentation enables real-time object identification from the radar detection points. In the conventional training process, accurate annotation is the key. However, high-quality annotations of radar detection points are challenging to achieve due to their ambiguity and sparsity. To address this issue, we propose a contrastive learning approach for implementing radar detection points-based instance segmentation. We define the positive and negative samples according to the ground-truth label, apply the contrastive loss to train the model first, and then perform training for the following downstream task. In addition, these two steps can be merged into one, and pseudo labels can be generated for the unlabeled data to improve the performance further. Thus, there are four different training settings for our method. Experiments show that when the ground-truth information is only available for 5% of the training data, our method still achieves a comparable performance to the approach trained in a supervised manner with 100% ground-truth information.
翻訳日:2022-03-15 16:08:53 公開日:2022-03-13
# CVFNet:クロスビュー特徴の学習によるリアルタイム3次元物体検出

CVFNet: Real-time 3D Object Detection by Learning Cross View Features ( http://arxiv.org/abs/2203.06585v1 )

ライセンス: Link先を確認
Jiaqi Gu, Zhiyu Xiang, Pan Zhao, Tingming Bai, Lingxuan Wang, Zhiyuan Zhang(参考訳) 近年、LiDARポイントクラウドからの3Dオブジェクト検出は、ディープラーニング技術の開発により大きな進歩を遂げている。 ボクセルやポイントベースの手法は3Dオブジェクト検出で人気があるが、通常、ボクセル上の3D畳み込みやポイント間のボールクエリといった時間を要する操作を伴い、結果としてネットワークが時間クリティカルなアプリケーションに不適切になる。 一方,2次元ビューベース法では,voxel法やポイントベース法に比べて性能が劣るが,高い計算効率を示す。 本研究では,この課題を満たすために,リアルタイムのビューベース1段3Dオブジェクト検出器CVFNetを提案する。 要求効率の条件下でのクロスビュー特徴学習を強化するため,異なる視点の特徴を抽出し,効率的なプログレッシブな方法で融合させる。 まず,複数段階の視点特徴と視点特徴を深く統合した,新しい点距離特徴融合モジュールを提案する。 次に, 得られた深度視点特徴を鳥の目視に変換する際に, 3次元形状を良好に維持する特別のスライスピラーを設計する。 試料比のバランスを良くするため、スパースピラー検出ヘッドを提示し、非空グリッドに検出を集中させる。 我々はKITTIとNuScenesのベンチマークで実験を行い、精度と速度の両面で最先端のパフォーマンスを実現する。

In recent years 3D object detection from LiDAR point clouds has made great progress thanks to the development of deep learning technologies. Although voxel or point based methods are popular in 3D object detection, they usually involve time-consuming operations such as 3D convolutions on voxels or ball query among points, making the resulting network inappropriate for time critical applications. On the other hand, 2D view-based methods feature high computing efficiency while usually obtaining inferior performance than the voxel or point based methods. In this work, we present a real-time view-based single stage 3D object detector, namely CVFNet to fulfill this task. To strengthen the cross-view feature learning under the condition of demanding efficiency, our framework extracts the features of different views and fuses them in an efficient progressive way. We first propose a novel Point-Range feature fusion module that deeply integrates point and range view features in multiple stages. Then, a special Slice Pillar is designed to well maintain the 3D geometry when transforming the obtained deep point-view features into bird's eye view. To better balance the ratio of samples, a sparse pillar detection head is presented to focus the detection on the nonempty grids. We conduct experiments on the popular KITTI and NuScenes benchmark, and state-of-the-art performances are achieved in terms of both accuracy and speed.
翻訳日:2022-03-15 16:08:35 公開日:2022-03-13
# ポイントクラウド自己教師型学習のためのマスクオートエンコーダ

Masked Autoencoders for Point Cloud Self-supervised Learning ( http://arxiv.org/abs/2203.06604v1 )

ライセンス: Link先を確認
Yatian Pang, Wenxiao Wang, Francis E.H. Tay, Wei Liu, Yonghong Tian, Li Yuan(参考訳) 自己教師付き学習の有望なスキームとして、マスク付きオートエンコーディングは、自然言語処理とコンピュータビジョンを大きく進歩させた。 そこで本研究では,ポイントクラウドの自己教師型学習のためのマスク付きオートエンコーダの巧妙なスキームを提案し,位置情報の漏洩や不均一な情報密度など,ポイントクラウドの特性がもたらす課題に対処する。 具体的には,入力点雲を不規則点パッチに分割し,ランダムに高い比で隠蔽する。 そして、非対称な設計とシフトマスクトークン操作を備えた標準変圧器ベースのオートエンコーダは、マスク点パッチから高レベルな潜伏特徴を学習し、マスク点パッチを再構築する。 広範な実験により,本手法は事前学習時の効率が良く,様々な下流タスクをうまく一般化できることが示された。 具体的には、ScanObjectNNで84.52\%の精度、ModelNet40で94.04%の精度を達成し、他の教師あり学習方法よりも優れています。 標準トランスフォーマーをベースとするシンプルなアーキテクチャは,教師付き学習から専用トランスフォーマーモデルを超えることができる。 本手法は, 被写体分類において, 最先端のアキュラティティを1.5%-2.3%向上させる。 さらに、我々の研究は、言語や画像からポイントクラウドへの統一アーキテクチャの適用可能性に刺激を与えます。

As a promising scheme of self-supervised learning, masked autoencoding has significantly advanced natural language processing and computer vision. Inspired by this, we propose a neat scheme of masked autoencoders for point cloud self-supervised learning, addressing the challenges posed by point cloud's properties, including leakage of location information and uneven information density. Concretely, we divide the input point cloud into irregular point patches and randomly mask them at a high ratio. Then, a standard Transformer based autoencoder, with an asymmetric design and a shifting mask tokens operation, learns high-level latent features from unmasked point patches, aiming to reconstruct the masked point patches. Extensive experiments show that our approach is efficient during pre-training and generalizes well on various downstream tasks. Specifically, our pre-trained models achieve 84.52\% accuracy on ScanObjectNN and 94.04% accuracy on ModelNet40, outperforming all the other self-supervised learning methods. We show with our scheme, a simple architecture entirely based on standard Transformers can surpass dedicated Transformer models from supervised learning. Our approach also advances state-of-the-art accuracies by 1.5%-2.3% in the few-shot object classification. Furthermore, our work inspires the feasibility of applying unified architectures from languages and images to the point cloud.
翻訳日:2022-03-15 16:08:10 公開日:2022-03-13
# ヘッドビデオ生成のための奥行き認識型生成アドバイザラルネットワーク

Depth-Aware Generative Adversarial Network for Talking Head Video Generation ( http://arxiv.org/abs/2203.06605v1 )

ライセンス: Link先を確認
Fa-Ting Hong, Longhao Zhang, Li Shen, and Dan Xu(参考訳) トーキングヘッドビデオ生成は、入力画像から学習した2次元表現(外観や動きなど)に重きを置き、与えられた音源画像と駆動映像から識別情報とポーズ情報とをそれぞれ含む合成ヒューマンフェイスビデオを作成することを目的としている。 しかし,高密度な3次元顔形状(例えば画素幅の深さ)は,特に正確な3次元顔構造を生成し,ノイズのある情報を散らばった背景と区別することが有用であるため,この作業にとって極めて重要である。 それでも、密集した3dジオメトリのアノテーションはビデオには高価であり、通常このビデオ生成タスクには使用できない。 本稿では,まず,高価な3dアノテーションデータを必要とせずに,顔映像から密集した3次元形状(すなわち奥行き)を自動的に復元する自己教師付き幾何学習手法を提案する。 さらに,学習した深度マップに基づいて,人間の頭部の臨界運動を捉えた粗い顔のキーポイントを推定する手法を提案する。 より密集した方法では、深度を利用して3D対応のクロスモーダル(外観と深さ)の注意を学習し、ソース画像表現を歪ませるための運動場の生成を導く。 これらすべての貢献は、トーキングヘッド生成のための新しい深さ認識生成逆ネットワーク(dagan)を構成する。 大規模な実験により,提案手法は極めて現実的な顔を生成し,目に見えない人間の顔に対して有意な結果が得られた。

Talking head video generation aims to produce a synthetic human face video that contains the identity and pose information respectively from a given source image and a driving video.Existing works for this task heavily rely on 2D representations (e.g. appearance and motion) learned from the input images. However, dense 3D facial geometry (e.g. pixel-wise depth) is extremely important for this task as it is particularly beneficial for us to essentially generate accurate 3D face structures and distinguish noisy information from the possibly cluttered background. Nevertheless, dense 3D geometry annotations are prohibitively costly for videos and are typically not available for this video generation task. In this paper, we first introduce a self-supervised geometry learning method to automatically recover the dense 3D geometry (i.e.depth) from the face videos without the requirement of any expensive 3D annotation data. Based on the learned dense depth maps, we further propose to leverage them to estimate sparse facial keypoints that capture the critical movement of the human head. In a more dense way, the depth is also utilized to learn 3D-aware cross-modal (i.e. appearance and depth) attention to guide the generation of motion fields for warping source image representations. All these contributions compose a novel depth-aware generative adversarial network (DaGAN) for talking head generation. Extensive experiments conducted demonstrate that our proposed method can generate highly realistic faces, and achieve significant results on the unseen human faces.
翻訳日:2022-03-15 16:07:12 公開日:2022-03-13
# LAS-AT: 学習可能な攻撃戦略による敵の訓練

LAS-AT: Adversarial Training with Learnable Attack Strategy ( http://arxiv.org/abs/2203.06616v1 )

ライセンス: Link先を確認
Xiaojun Jia, Yong Zhang, Baoyuan Wu, Ke Ma, Jue Wang, Xiaochun Cao(参考訳) 逆トレーニング(AT)は常にミニマックス問題として定式化され、その性能は逆例(AE)の生成を伴う内部最適化に依存する。 従来のほとんどの手法では、AE生成の攻撃パラメータを手動で指定するPGD(Projected Gradient Decent)を採用していた。 攻撃パラメータの組み合わせを攻撃戦略と呼ぶことができる。 いくつかの研究により、トレーニングフェーズ全体でAEを生成するための固定攻撃戦略がモデルロバスト性を制限し、異なるトレーニング段階における異なる攻撃戦略を利用してロバスト性を改善することを提案する。 しかし、これらの多段階の手作り攻撃戦略はドメインの専門知識を必要とし、堅牢性の改善は限られている。 本稿では,モデルロバスト性を改善するための攻撃戦略を自動生成することを学ぶlas-atと呼ばれる「学習可能な攻撃戦略」の概念を導入することで,敵対的訓練のための新しい枠組みを提案する。 当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。 3つのベンチマークデータベースを用いた実験により,提案手法の優位性を示す。 コードはhttps://github.com/jiaxiaojunqaq/las-atでリリースされる。

Adversarial training (AT) is always formulated as a minimax problem, of which the performance depends on the inner optimization that involves the generation of adversarial examples (AEs). Most previous methods adopt Projected Gradient Decent (PGD) with manually specifying attack parameters for AE generation. A combination of the attack parameters can be referred to as an attack strategy. Several works have revealed that using a fixed attack strategy to generate AEs during the whole training phase limits the model robustness and propose to exploit different attack strategies at different training stages to improve robustness. But those multi-stage hand-crafted attack strategies need much domain expertise, and the robustness improvement is limited. In this paper, we propose a novel framework for adversarial training by introducing the concept of "learnable attack strategy", dubbed LAS-AT, which learns to automatically produce attack strategies to improve the model robustness. Our framework is composed of a target network that uses AEs for training to improve robustness and a strategy network that produces attack strategies to control the AE generation. Experimental evaluations on three benchmark databases demonstrate the superiority of the proposed method. The code is released at https://github.com/jiaxiaojunQAQ/LAS-AT.
翻訳日:2022-03-15 16:06:47 公開日:2022-03-13
# イベントカメラを用いたマルチブラケット高ダイナミックレンジイメージング

Multi-Bracket High Dynamic Range Imaging with Event Cameras ( http://arxiv.org/abs/2203.06622v1 )

ライセンス: Link先を確認
Nico Messikommer, Stamatios Georgoulis, Daniel Gehrig, Stepan Tulyakov, Julius Erbach, Alfredo Bochicchio, Yuanyou Li, Davide Scaramuzza(参考訳) 現代の高ダイナミックレンジ(HDR)撮像パイプラインは、異なる露光時間で撮影された多重低ダイナミックレンジ(LDR)画像を調整して融合する。 これらの手法は静的なシーンではうまく機能するが、LDR画像は飽和とノイズに悩まされているため、動的シーンは依然として課題である。 このようなシナリオでは、イベントカメラは時間分解能が高く、ダイナミックレンジがあるため、有効な補完となる。 本稿では,標準カメラとイベントカメラを組み合わせた最初のマルチブラケットHDRパイプラインを提案する。 以上の結果から,PSNRの合成データでは最大5dB,実世界のデータでは最大0.7dBの改善が得られた。 また,アライメントイベントとhdr基底真理を持つ括弧付きldr画像を含む新しいデータセットも紹介する。

Modern high dynamic range (HDR) imaging pipelines align and fuse multiple low dynamic range (LDR) images captured at different exposure times. While these methods work well in static scenes, dynamic scenes remain a challenge since the LDR images still suffer from saturation and noise. In such scenarios, event cameras would be a valid complement, thanks to their higher temporal resolution and dynamic range. In this paper, we propose the first multi-bracket HDR pipeline combining a standard camera with an event camera. Our results show better overall robustness when using events, with improvements in PSNR by up to 5dB on synthetic data and up to 0.7dB on real-world data. We also introduce a new dataset containing bracketed LDR images with aligned events and HDR ground truth.
翻訳日:2022-03-15 16:06:28 公開日:2022-03-13
# 深層半教師付き学習の再検討--経験的分布アライメントフレームワークとその一般化

Revisiting Deep Semi-supervised Learning: An Empirical Distribution Alignment Framework and Its Generalization Bound ( http://arxiv.org/abs/2203.06639v1 )

ライセンス: Link先を確認
Feiyu Wang, Qin Wang, Wen Li, Dong Xu, Luc Van Gool(参考訳) 本研究では,ラベル付きサンプルとラベルなしサンプル間の経験的分布ミスマッチを明示的に低減する新たな視点から,半教師付き学習(SSL)問題を再考する。 この新たな視点から,我々はまず,ラベル付きデータとラベルなしデータの間の経験的分布距離を減らし,ドメイン適応コミュニティの既存技術で容易にセミ教師付き学習問題に対処できる,SLEDA(Semi-supervised Learning by Empirical Distribution Alignment)という,深層半教師付き学習フレームワークを提案する。 この枠組みに基づき,ラベル付きデータとラベル付きデータ間の学習誤差と経験的分布距離を最小化することにより,半教師付き学習の一般化誤差を効果的に境界付けることができる,半教師付き学習問題をよりよく理解するための,研究コミュニティのための新たな理論一般化法を開発した。 そこで我々は,新しい枠組みと理論的境界に基づいて,ドメイン適応型コミュニティの確立した敵対的学習戦略とデータ拡張のための簡単なサンプル補間戦略を同時に採用し,拡張分散アライメントネットワーク (ada-net) と呼ばれる簡易かつ効果的な深層半教師付き学習手法を開発した。 さらに、ADA-Netの両戦略を2つの出口SSLメソッドに組み込んで、その一般化能力をさらに向上させ、新たなフレームワークがSSL問題を解決するための補完的なソリューションを提供することを示す。 半教師付き画像認識タスクのためのベンチマークデータセットsvhnとcifar-10と、半教師付きポイントクラウド認識タスクのためのベンチマークデータセットmodelnet40とshapenet55の包括的実験結果から、sslのフレームワークの有効性を実証した。

In this work, we revisit the semi-supervised learning (SSL) problem from a new perspective of explicitly reducing empirical distribution mismatch between labeled and unlabeled samples. Benefited from this new perspective, we first propose a new deep semi-supervised learning framework called Semi-supervised Learning by Empirical Distribution Alignment (SLEDA), in which existing technologies from the domain adaptation community can be readily used to address the semi-supervised learning problem through reducing the empirical distribution distance between labeled and unlabeled data. Based on this framework, we also develop a new theoretical generalization bound for the research community to better understand the semi-supervised learning problem, in which we show the generalization error of semi-supervised learning can be effectively bounded by minimizing the training error on labeled data and the empirical distribution distance between labeled and unlabeled data. Building upon our new framework and the theoretical bound, we develop a simple and effective deep semi-supervised learning method called Augmented Distribution Alignment Network (ADA-Net) by simultaneously adopting the well-established adversarial training strategy from the domain adaptation community and a simple sample interpolation strategy for data augmentation. Additionally, we incorporate both strategies in our ADA-Net into two exiting SSL methods to further improve their generalization capability, which indicates that our new framework provides a complementary solution for solving the SSL problem. Our comprehensive experimental results on two benchmark datasets SVHN and CIFAR-10 for the semi-supervised image recognition task and another two benchmark datasets ModelNet40 and ShapeNet55 for the semi-supervised point cloud recognition task demonstrate the effectiveness of our proposed framework for SSL.
翻訳日:2022-03-15 16:06:16 公開日:2022-03-13
# global2local:ビデオキャプションのための共同階層的注意

Global2Local: A Joint-Hierarchical Attention for Video Captioning ( http://arxiv.org/abs/2203.06663v1 )

ライセンス: Link先を確認
Chengpeng Dai, Fuhai Chen, Xiaoshuai Sun, Rongrong Ji, Qixiang Ye, Yongjian Wu(参考訳) 近年,ビデオの自動キャプションが注目され,オブジェクトやアクションなどの重要なセマンティックな項目のキャプチャや,冗長なフレームやセマンティックな内容からの空間的時間的相関が問題となっている。 この目的のために、既存の作業では、グローバルレベル~(マルチフレーム全体)のキービデオクリップを選択するか、または各フレーム内のキー領域を選択する。 本稿では,映像キャプションモデルにキークリップ,キーフレーム,キー領域を階層的に組み込む,映像キャプションのための統合階層的注意モデルを提案する。 このような共同階層型アテンションモデルは、まず、キーフレームを識別するグローバル選択を行い、続いて、ガムベルサンプリング操作を行い、キーフレームに基づいてさらにキー領域を識別し、キャプションをガイドする正確なグローバル-ローカル特徴表現を実現する。 MSVDとMSR-VTTの2つの公開ベンチマークデータセットの大規模な定量的評価は、提案手法が最先端手法よりも優れていることを示す。

Recently, automatic video captioning has attracted increasing attention, where the core challenge lies in capturing the key semantic items, like objects and actions as well as their spatial-temporal correlations from the redundant frames and semantic content. To this end, existing works select either the key video clips in a global level~(across multi frames), or key regions within each frame, which, however, neglect the hierarchical order, i.e., key frames first and key regions latter. In this paper, we propose a novel joint-hierarchical attention model for video captioning, which embeds the key clips, the key frames and the key regions jointly into the captioning model in a hierarchical manner. Such a joint-hierarchical attention model first conducts a global selection to identify key frames, followed by a Gumbel sampling operation to identify further key regions based on the key frames, achieving an accurate global-to-local feature representation to guide the captioning. Extensive quantitative evaluations on two public benchmark datasets MSVD and MSR-VTT demonstrates the superiority of the proposed method over the state-of-the-art methods.
翻訳日:2022-03-15 16:05:45 公開日:2022-03-13
# PNM:一般画像分割のための画素核モデル

PNM: Pixel Null Model for General Image Segmentation ( http://arxiv.org/abs/2203.06677v1 )

ライセンス: Link先を確認
Han Zhang, Zihao Zhang, Wenhao Zheng, Wei Xu(参考訳) イメージセグメンテーションにおける大きな課題は、オブジェクト境界の分類である。 近年,境界マスクによるセグメンテーション結果の改善が提案されている。 しかし、モデルはまだ、オブジェクトの輪郭を正しく捉えた場合でも境界画素を誤分類する傾向にある。 そのような場合、完全な境界写像でさえ、セグメンテーションの細分化には役に立たない。 本稿では,オブジェクト境界などのエラーが発生しやすい画素に適切な事前重みを割り当てることで,セグメント化品質が著しく向上することを示す。 具体的には、ランダムセグメンタによって正しく分類される確率に応じて各ピクセルを重み付けする先行モデルである「textit{pixel null model} (PNM)」を提案する。 実証分析により、PNMは異なる最先端(SOTA)セグメントの誤分類分布を捉えていることが示された。 3つのデータセット(Cityscapes, ADE20K, MS COCO)上のセグメンテーションタスクに関する大規模な実験により、PNMは、ほとんどのSOTAメソッド(ビジョントランスフォーマーを含む)のセグメンテーション品質を一貫して改善し、境界ベースのメソッドを大きなマージンで上回ることを確認した。 また、広く使われている平均IoU(mIoU)メートル法は、異なる鋭さの境界に敏感であることも観察した。 副生成物として,境界のシャープさを知覚し,誤差のある領域におけるモデルのセグメンテーション性能をよりよく反映する新しい計量である \textit{PNM IoU} を提案する。

A major challenge in image segmentation is classifying object boundaries. Recent efforts propose to refine the segmentation result with boundary masks. However, models are still prone to misclassifying boundary pixels even when they correctly capture the object contours. In such cases, even a perfect boundary map is unhelpful for segmentation refinement. In this paper, we argue that assigning proper prior weights to error-prone pixels such as object boundaries can significantly improve the segmentation quality. Specifically, we present the \textit{pixel null model} (PNM), a prior model that weights each pixel according to its probability of being correctly classified by a random segmenter. Empirical analysis shows that PNM captures the misclassification distribution of different state-of-the-art (SOTA) segmenters. Extensive experiments on semantic, instance, and panoptic segmentation tasks over three datasets (Cityscapes, ADE20K, MS COCO) confirm that PNM consistently improves the segmentation quality of most SOTA methods (including the vision transformers) and outperforms boundary-based methods by a large margin. We also observe that the widely-used mean IoU (mIoU) metric is insensitive to boundaries of different sharpness. As a byproduct, we propose a new metric, \textit{PNM IoU}, which perceives the boundary sharpness and better reflects the model segmentation performance in error-prone regions.
翻訳日:2022-03-15 16:05:24 公開日:2022-03-13
# 顔形態検出装置開発のためのプライバシフレンドリな合成データ

Privacy-friendly Synthetic Data for the Development of Face Morphing Attack Detectors ( http://arxiv.org/abs/2203.06691v1 )

ライセンス: Link先を確認
Naser Damer, C\'esar Augusto Fontanillo L\'opez, Meiling Fang, No\'emie Spiller, Minh Vu Pham, Fadi Boutros(参考訳) モーフィング攻撃検出(MAD)ソリューションは、合成データに基づいて、うまく開発できるのか? . そこで本研究では,最初の合成型mad開発データセットであるsynthetic morphing attack detection development dataset (smdd)を提案する。 このデータセットは、3つのMADバックボーンのトレーニングに成功し、完全に未知の攻撃タイプでも高いMAD性能が証明された。 さらに、本研究の重要な側面は、実際の生体データの使用と共有の課題に関する詳細な法的分析であり、提案するsmddデータセットは非常に不可欠である。 SMDDデータセットは3万の攻撃と5万のボナフィドサンプルで構成され、研究目的で公開されている。

The main question this work aims at answering is: can morphing attack detection (MAD) solutions be successfully developed based on synthetic data?. Towards that, this work introduces the first synthetic-based MAD development dataset, namely the Synthetic Morphing Attack Detection Development dataset (SMDD). This dataset is utilized successfully to train three MAD backbones where it proved to lead to high MAD performance, even on completely unknown attack types. Additionally, an essential aspect of this work is the detailed legal analyses of the challenges of using and sharing real biometric data, rendering our proposed SMDD dataset extremely essential. The SMDD dataset, consisting of 30,000 attack and 50,000 bona fide samples, is made publicly available for research purposes.
翻訳日:2022-03-15 16:04:55 公開日:2022-03-13
# トレーニングプロトコル問題:トレーニングプロトコル検索による正確なシーンテキスト認識に向けて

Training Protocol Matters: Towards Accurate Scene Text Recognition via Training Protocol Searching ( http://arxiv.org/abs/2203.06696v1 )

ライセンス: Link先を確認
Xiaojie Chu, Yongtao Wang, Chunhua Shen, Jingdong Chen, Wei Chu(参考訳) ディープラーニング時代のシーンテキスト認識(STR)の開発は主にSTRモデルの新しいアーキテクチャに焦点を当てている。 しかし、優れたSTRモデルのトレーニングにおいて等しく重要な役割を果たすトレーニングプロトコル(すなわちSTRモデルのトレーニングにかかわるハイパーパラメータの設定)は、シーンテキスト認識には未熟である。 本研究では,既存のSTRモデルの最適トレーニングプロトコルを探索することで,精度の向上を試みる。 具体的には,新しく設計された探索空間に基づく学習プロトコル探索アルゴリズムと,進化的最適化とプロキシタスクを用いた効率的な探索アルゴリズムを開発した。 実験結果から,本研究の学習プロトコルは,主要なSTRモデルの認識精度を2.7%~3.9%向上できることがわかった。 特に、検索したトレーニングプロトコルでは、TRBA-Netは最先端のSTRモデル(EFIFSTR)よりも2.1%高い精度で、推論速度はCPUとGPUでそれぞれ2.3倍と3.7倍速い。 提案手法の有効性と,本手法で検出したトレーニングプロトコルの一般化能力を示すため,大規模な実験を行った。

The development of scene text recognition (STR) in the era of deep learning has been mainly focused on novel architectures of STR models. However, training protocol (i.e., settings of the hyper-parameters involved in the training of STR models), which plays an equally important role in successfully training a good STR model, is under-explored for scene text recognition. In this work, we attempt to improve the accuracy of existing STR models by searching for optimal training protocol. Specifically, we develop a training protocol search algorithm, based on a newly designed search space and an efficient search algorithm using evolutionary optimization and proxy tasks. Experimental results show that our searched training protocol can improve the recognition accuracy of mainstream STR models by 2.7%~3.9%. In particular, with the searched training protocol, TRBA-Net achieves 2.1% higher accuracy than the state-of-the-art STR model (i.e., EFIFSTR), while the inference speed is 2.3x and 3.7x faster on CPU and GPU respectively. Extensive experiments are conducted to demonstrate the effectiveness of the proposed method and the generalization ability of the training protocol found by our search method.
翻訳日:2022-03-15 16:04:43 公開日:2022-03-13
# 画像超解像のための効率的な長距離アテンションネットワーク

Efficient Long-Range Attention Network for Image Super-resolution ( http://arxiv.org/abs/2203.06697v1 )

ライセンス: Link先を確認
Xindong Zhang, Hui Zeng, Shi Guo, Lei Zhang(参考訳) 近年,画像超解像 (SR) を含む様々な視覚タスクにおいて,特徴抽出に自己注意 (SA) を利用するトランスフォーマー方式が注目されている。 しかし、既存のトランスモデルにおけるSAの計算は非常に高価であり、SRタスクには冗長な操作もいくつかある。 これにより、sa計算の範囲とsr性能が制限される。 本研究では,画像SRのための効率的な長距離アテンションネットワーク(ELAN)を提案する。 具体的には,まずシフト畳み込み(shift-conv)を用いて,1x1畳み込みと同じレベルの複雑さを維持しつつ,画像局所構造情報を効果的に抽出し,さらに,異なるウィンドウサイズを用いた非オーバーラップ特徴群に対するsaを計算し,長距離画像依存性を生かしたグループワイズマルチスケールセルフアテンション(gmsa)モジュールを提案する。 次に、2つのシフトコンブをGMSAモジュールで単純にカスケードすることで、高効率な長距離アテンションブロック(ELAB)を構築し、共有アテンション機構を用いてさらに加速する。 ベルとホイッスルがなければ、私たちのELANはELABを順次カスケードすることで、かなりシンプルな設計を踏襲します。 大規模な実験により、ELANはトランスフォーマーベースのSRモデルに対してより優れた結果を得るが、複雑さは著しく少ないことが示されている。 ソースコードはhttps://github.com/xindongzhang/ELANで確認できる。

Recently, transformer-based methods have demonstrated impressive results in various vision tasks, including image super-resolution (SR), by exploiting the self-attention (SA) for feature extraction. However, the computation of SA in most existing transformer based models is very expensive, while some employed operations may be redundant for the SR task. This limits the range of SA computation and consequently the SR performance. In this work, we propose an efficient long-range attention network (ELAN) for image SR. Specifically, we first employ shift convolution (shift-conv) to effectively extract the image local structural information while maintaining the same level of complexity as 1x1 convolution, then propose a group-wise multi-scale self-attention (GMSA) module, which calculates SA on non-overlapped groups of features using different window sizes to exploit the long-range image dependency. A highly efficient long-range attention block (ELAB) is then built by simply cascading two shift-conv with a GMSA module, which is further accelerated by using a shared attention mechanism. Without bells and whistles, our ELAN follows a fairly simple design by sequentially cascading the ELABs. Extensive experiments demonstrate that ELAN obtains even better results against the transformer-based SR models but with significantly less complexity. The source code can be found at https://github.com/xindongzhang/ELAN.
翻訳日:2022-03-15 16:04:23 公開日:2022-03-13
# 超距離ランナーの視線性能解析のための非テキスト化I3D ConvNet

Decontextualized I3D ConvNet for ultra-distance runners performance analysis at a glance ( http://arxiv.org/abs/2203.06749v1 )

ライセンス: Link先を確認
David Freire-Obreg\'on, Javier Lorenzo-Navarro, Modesto Castrill\'on-Santana(参考訳) 2021年5月、サイトRunnersworld.comは、過去23年間で超長距離レースへの参加が1,676%増加したと発表した。 さらに、これらのランナーの41%近くが年に1回以上のレースに参加している。 ウェアラブルデバイスの開発は、リアルタイムでパフォーマンス対策を提供することによって、参加者のモチベーションを高めることに間違いなく貢献している。 しかし、特にオーガナイザの観点からは、改善の余地があると考えています。 本研究は,超過シナリオに着目した非侵襲的手法を考えることで,ランナーのパフォーマンスを定量化し,予測することを目的とする。 この意味では、参加者はレーストラックに沿って配置された一連の場所を通過するときに捕らえられる。 各映像はI3D ConvNetへの入力と見なされ、作業中の参加者の走行歩行を抽出する。 さらに、天候や照明による捕獲条件やオクルージョンは、レーススタッフや他のランナーによる映像に影響を与える可能性がある。 この課題に対処するため、いくつかのRPにおいて参加者のランニング歩行を追跡し、コーデレートし、関心のあるランナーの適切な評価を保証するためのコンテキストを削除した。 この評価は、I3D ConvNetによって抽出された特徴が、異なるレーストラックに沿って参加者のパフォーマンスを推定するのに十分な情報を提供することを示している。

In May 2021, the site runnersworld.com published that participation in ultra-distance races has increased by 1,676% in the last 23 years. Moreover, nearly 41% of those runners participate in more than one race per year. The development of wearable devices has undoubtedly contributed to motivating participants by providing performance measures in real-time. However, we believe there is room for improvement, particularly from the organizers point of view. This work aims to determine how the runners performance can be quantified and predicted by considering a non-invasive technique focusing on the ultra-running scenario. In this sense, participants are captured when they pass through a set of locations placed along the race track. Each footage is considered an input to an I3D ConvNet to extract the participant's running gait in our work. Furthermore, weather and illumination capture conditions or occlusions may affect these footages due to the race staff and other runners. To address this challenging task, we have tracked and codified the participant's running gait at some RPs and removed the context intending to ensure a runner-of-interest proper evaluation. The evaluation suggests that the features extracted by an I3D ConvNet provide enough information to estimate the participant's performance along the different race tracks.
翻訳日:2022-03-15 16:03:41 公開日:2022-03-13
# SummaReranker: 抽象的な要約のためのマルチタスク・ミックス・オブ・エクササイズ・リグレードフレームワーク

SummaReranker: A Multi-Task Mixture-of-Experts Re-ranking Framework for Abstractive Summarization ( http://arxiv.org/abs/2203.06569v1 )

ライセンス: Link先を確認
Mathieu Ravaut, Shafiq Joty, Nancy F. Chen(参考訳) sequence-to-sequenceニューラルネットワークは最近、抽象的な要約、特に下流のデータセットで事前学習された大きな言語モデルを微調整することで、大きな成功を収めている。 これらのモデルは通常ビームサーチでデコードされ、ユニークな要約を生成する。 しかし、探索空間は非常に大きく、露光バイアスがあるため、そのような復号化は最適ではない。 本稿では,サマリ候補のセットで再ランキングを行う2段モデルを直接トレーニングすることが可能であることを示す。 当社のmixed-of-experts summarerankerは、よりよい候補を選ぶことを学び、ベースモデルのパフォーマンスを一貫して改善します。 PEGASUSをベースとしたROUGEスコアは、CNN-DailyMail(47.16 ROUGE-1)で5.44%、XSum(48.12 ROUGE-1)で1.31%、Reddit TIFU(29.83 ROUGE-1)で9.34%、新しい最先端に到達した。 私たちのコードとチェックポイントはhttps://github.com/ntunlp/summarerankerで利用可能です。

Sequence-to-sequence neural networks have recently achieved great success in abstractive summarization, especially through fine-tuning large pre-trained language models on the downstream dataset. These models are typically decoded with beam search to generate a unique summary. However, the search space is very large, and with the exposure bias, such decoding is not optimal. In this paper, we show that it is possible to directly train a second-stage model performing re-ranking on a set of summary candidates. Our mixture-of-experts SummaReranker learns to select a better candidate and consistently improves the performance of the base model. With a base PEGASUS, we push ROUGE scores by 5.44% on CNN-DailyMail (47.16 ROUGE-1), 1.31% on XSum (48.12 ROUGE-1) and 9.34% on Reddit TIFU (29.83 ROUGE-1), reaching a new state-of-the-art. Our code and checkpoints will be available at https://github.com/ntunlp/SummaReranker.
翻訳日:2022-03-15 14:50:42 公開日:2022-03-13
# 対話状態追跡のための連続的プロンプトチューニング

Continual Prompt Tuning for Dialog State Tracking ( http://arxiv.org/abs/2203.06654v1 )

ライセンス: Link先を確認
Qi Zhu, Bing Li, Fei Mi, Xiaoyan Zhu, Minlie Huang(参考訳) 望ましいダイアログシステムは、古いスキルを忘れずに継続的に新しいスキルを学び、それによってライフサイクルにおける新しいドメインやタスクに適応できるべきである。 しかしながら、モデルを継続的にトレーニングすることは、よく知られた破滅的な忘れる問題につながる。 本稿では,タスク間の知識伝達を可能にするパラメータ効率の高いフレームワークであるcontinual prompt tuningを提案する。 忘れることを避けるために、バックボーン事前訓練されたモデルを凍結しながら、各タスクに対していくつかのプロンプトトークンの埋め込みを学習し、保存する。 本稿では,タスク間の双方向の知識伝達を実現するために,先行タスクから知識を伝達する複数の手法(連続的初期化,クエリ融合,メモリリプレイ)と,その後のタスクから知識を伝達するメモリ誘導技術を提案する。 ダイアログ状態追跡のための連続学習における提案手法の有効性と効率を,最先端のベースラインと比較して検証した。

A desirable dialog system should be able to continually learn new skills without forgetting old ones, and thereby adapt to new domains or tasks in its life cycle. However, continually training a model often leads to a well-known catastrophic forgetting issue. In this paper, we present Continual Prompt Tuning, a parameter-efficient framework that not only avoids forgetting but also enables knowledge transfer between tasks. To avoid forgetting, we only learn and store a few prompt tokens' embeddings for each task while freezing the backbone pre-trained model. To achieve bi-directional knowledge transfer among tasks, we propose several techniques (continual prompt initialization, query fusion, and memory replay) to transfer knowledge from preceding tasks and a memory-guided technique to transfer knowledge from subsequent tasks. Extensive experiments demonstrate the effectiveness and efficiency of our proposed method on continual learning for dialog state tracking, compared with state-of-the-art baselines.
翻訳日:2022-03-15 14:50:20 公開日:2022-03-13
# SciNLI: 科学テキストによる自然言語推論のためのコーパス

SciNLI: A Corpus for Natural Language Inference on Scientific Text ( http://arxiv.org/abs/2203.06728v1 )

ライセンス: Link先を確認
Mobashir Sadat and Cornelia Caragea(参考訳) 既存の自然言語推論(NLI)データセットは、自然言語理解(NLU)研究の進展に役立っているが、科学的テキストとは無関係である。 本稿では,NLPと計算言語学の学術論文から抽出した107,412の文対を含む,科学テキストの形式を捉えるNLIのための大規模データセットであるSciNLIを紹介する。 科学文献で用いられるテキストは語彙と文構造の両方において日常言語で使われるテキストとは大きく異なるので,本データセットは科学的なNLUモデルを評価するためのベンチマークとして適している。 我々の実験によると、SciNLIは既存のNLIデータセットよりも分類が難しい。 XLNetで最高のパフォーマンスモデルは、わずか78.18%のマクロF1スコアと78.23の精度で達成し、改善の余地があることを示しています。

Existing Natural Language Inference (NLI) datasets, while being instrumental in the advancement of Natural Language Understanding (NLU) research, are not related to scientific text. In this paper, we introduce SciNLI, a large dataset for NLI that captures the formality in scientific text and contains 107,412 sentence pairs extracted from scholarly papers on NLP and computational linguistics. Given that the text used in scientific literature differs vastly from the text used in everyday language both in terms of vocabulary and sentence structure, our dataset is well suited to serve as a benchmark for the evaluation of scientific NLU models. Our experiments show that SciNLI is harder to classify than the existing NLI datasets. Our best performing model with XLNet achieves a Macro F1 score of only 78.18% and an accuracy of 78.23 showing that there is substantial room for improvement.
翻訳日:2022-03-15 14:50:03 公開日:2022-03-13
# protagonisttagger - さまざまな言語やドメインのテキスト中の人物のエンティティリンクのためのツール

ProtagonistTagger -- a Tool for Entity Linkage of Persons in Texts from Various Languages and Domains ( http://arxiv.org/abs/2203.06746v1 )

ライセンス: Link先を確認
Weronika Lajewska and Anna Wroblewska(参考訳) 名前付きエンティティ認識(NER)と曖昧化(NED)は、認識された名前付きエンティティに意味的コンテキストを追加することができる。 ドメインに関係なく、名前付きエンティティリンクは、非構造化テキストで言及されるエンティティと、現実世界のオブジェクトの個々のインスタンスとの間のリンクを提供する。 本ポスターでは,NER と NED をテキストで表すツールである protagonistTagger を提示する。 このツールは、古典英語の小説やポーランドのインターネットニュースから抽出されたテキストでテストされた。 ツールのパフォーマンス(精度とリコールの両方)は78%から88%の間で変動する。

Named entities recognition (NER) and disambiguation (NED) can add semantic context to the recognized named entities in texts. Named entity linkage in texts, regardless of a domain, provides links between the entities mentioned in unstructured texts and individual instances of real-world objects. In this poster, we present a tool - protagonistTagger - for person NER and NED in texts. The tool was tested on texts extracted from classic English novels and Polish Internet news. The tool's performance (both precision and recall) fluctuates between 78% and even 88%.
翻訳日:2022-03-15 14:48:50 公開日:2022-03-13
# AugShuffleNet: さらなる情報通信によるShuffleNetV2の改善

AugShuffleNet: Improve ShuffleNetV2 via More Information Communication ( http://arxiv.org/abs/2203.06589v1 )

ライセンス: Link先を確認
Longqing Ye(参考訳) ShuffleNetV2をベースとして,AugShuffleNetsと呼ばれるより強力で効率的なモデルファミリを構築した。 CIFAR-10とCIFAR-100のデータセットから評価すると、AugShuffleNetはShuffleNetV2よりも精度が高く、計算コストも少なく、パラメータ数も少ない。

Based on ShuffleNetV2, we build a more powerful and efficient model family, termed as AugShuffleNets, by introducing higher frequency of cross-layer information communication for better model performance. Evaluated on the CIFAR-10 and CIFAR-100 datasets, AugShuffleNet consistently outperforms ShuffleNetV2 in terms of accuracy, with less computational cost, fewer parameter count.
翻訳日:2022-03-15 14:19:43 公開日:2022-03-13
# TurbuGAN:空間変化型多フレームブラインドデコンボリューションの逆学習手法と乱流画像への応用

TurbuGAN: An Adversarial Learning Approach to Spatially-Varying Multiframe Blind Deconvolution with Applications to Imaging Through Turbulence ( http://arxiv.org/abs/2203.06764v1 )

ライセンス: Link先を確認
Brandon Y. Feng, Mingyang Xie, Christopher A. Metzler(参考訳) 本稿では,TurbuGANと呼ばれる大気乱流の画像化のための自己監督型,自己校正型マルチショット手法を提案する。 我々のアプローチでは、ペア化されたトレーニングデータを必要としず、乱流の分布に適応し、ドメイン固有の事前データを活用し、既存のアプローチより優れ、数万から数万の計測から一般化することができる。 そこで我々は,cryoganを応用した逆センシングフレームワークを用いて,識別器ネットワークを用いて計測値とシミュレーション値の分布をマッチングする機能を実現する。 本手法は,(1)不等平面乱流による光伝搬の物理的精度と計算効率のよいモデルを取り入れた前方計測モデルの一般化,(2)わずかに不特定な前方モデルへの適応,(3)事前学習された生成ネットワークを用いた領域固有事前知識の活用により,クライオガンを基盤とする。 本研究では,大気乱流誘起歪みの現実モデルを用いて,TurbuGANをシミュレーションで検証する。

We present a self-supervised and self-calibrating multi-shot approach to imaging through atmospheric turbulence, called TurbuGAN. Our approach requires no paired training data, adapts itself to the distribution of the turbulence, leverages domain-specific data priors, outperforms existing approaches, and can generalize from tens to tens of thousands of measurements. We achieve such functionality through an adversarial sensing framework adapted from CryoGAN, which uses a discriminator network to match the distributions of captured and simulated measurements. Our framework builds on CryoGAN by (1) generalizing the forward measurement model to incorporate physically accurate and computationally efficient models for light propagation through anisoplanatic turbulence, (2) enabling adaptation to slightly misspecified forward models, and (3) leveraging domain-specific prior knowledge using pretrained generative networks, when available. We validate TurbuGAN in simulation using realistic models for atmospheric turbulence-induced distortion.
翻訳日:2022-03-15 14:19:32 公開日:2022-03-13
# レコメンダシステムにおける顧客価格選択と製品利益の役割の検討

Exploring Customer Price Preference and Product Profit Role in Recommender Systems ( http://arxiv.org/abs/2203.06641v1 )

ライセンス: Link先を確認
Michal Kompan, Peter Gaspar, Jakub Macina, Matus Cimerman and Maria Bielikova(参考訳) 推薦システム領域における研究の大部分は、平均精度(MAP)やリコールといった過去のデータに基づくメトリクスの最適化に焦点を当てている。 しかし、ビジネスにおける主要なパフォーマンス指標(kpi)は収益と利益であるため、研究と産業の間にはギャップがある。 本稿では,レコメンデーションシステムの利益意識を操作することの影響について検討する。 平均的なeコマースビジネスは通常、複雑な推奨アルゴリズムを使用しない。 スコアベースレコメンデーションシステムにおける予測ランキングの調整を提案し,ファッション領域からの2つの産業データセットに対する利益と顧客価格の選好の影響について検討する。 実験では、精度と生成したレコメンデーションの利益の両方を改善する能力を示す。 このような結果は、Eコマースが利益を増やし、顧客がより多くの価値あるレコメンデーションを得るときの勝利の状況を表している。

Most of the research in the recommender systems domain is focused on the optimization of the metrics based on historical data such as Mean Average Precision (MAP) or Recall. However, there is a gap between the research and industry since the leading Key Performance Indicators (KPIs) for businesses are revenue and profit. In this paper, we explore the impact of manipulating the profit awareness of a recommender system. An average e-commerce business does not usually use a complicated recommender algorithm. We propose an adjustment of a predicted ranking for score-based recommender systems and explore the effect of the profit and customers' price preferences on two industry datasets from the fashion domain. In the experiments, we show the ability to improve both the precision and the generated recommendations' profit. Such an outcome represents a win-win situation when e-commerce increases the profit and customers get more valuable recommendations.
翻訳日:2022-03-15 14:16:42 公開日:2022-03-13
# FlexBlock:マルチモードブロック浮動小数点をサポートしたフレキシブルDNNトレーニングアクセラレータ

FlexBlock: A Flexible DNN Training Accelerator with Multi-Mode Block Floating Point Support ( http://arxiv.org/abs/2203.06673v1 )

ライセンス: Link先を確認
Seock-Hwan Noh, Jahyun Koo, Seunghyun Lee, Jongse Park, Jaeha Kung(参考訳) ディープニューラルネットワーク(DNN)のトレーニングは計算コストがかかる仕事であり、高性能GPUでも数週間から数ヶ月かかる。 この課題に対する対策として、コミュニティはトレーニングプロセスにおけるより効率的なデータ表現(例えばブロック浮動小数点(BFP))の使用を模索し始めた。 しかしながら、BFPベースのDNNアクセラレータに関する以前の研究は、特定のBFP表現に依存しており、より汎用性が低い。 本稿では,最終的な精度を損なうことなく,複数のBFP精度を活用することにより,トレーニングを高速化するアルゴリズムに基づく。 このアルゴリズムの機会に支えられ、FlexBlockと呼ばれるフレキシブルなDNNトレーニングアクセラレータを開発し、これは3つの異なるBFP精度モードをサポートし、おそらくアクティベーション、ウェイト、勾配テンソルが異なる。 いくつかの先行研究がdnnアクセラレータのマルチ精度サポートを提案しているが、それらは推論のみに焦点を当てているだけでなく、トレーニングを考慮すれば、そのコア利用は固定精度と特定の層タイプにおいて最適である。 代わりにFlexBlockは、高いコア利用が達成可能な方法で設計されている。 一 様々な層の種類、及び 二 データをその計算単位に階層的にマッピングすることによる三つのbfp精度 CIFAR, ImageNet, WMT14データセット上でよく知られたDNNを用いてFlexBlockアーキテクチャの有効性を評価する。 その結果、flexblockでのトレーニングは、トレーニング速度を1.5~5.3倍、エネルギー効率を2.4~7.0倍向上させ、全精度トレーニングに比べて限界精度の損失を生じさせる。

Training deep neural networks (DNNs) is a computationally expensive job, which can take weeks or months even with high performance GPUs. As a remedy for this challenge, community has started exploring the use of more efficient data representations in the training process, e.g., block floating point (BFP). However, prior work on BFP-based DNN accelerators rely on a specific BFP representation making them less versatile. This paper builds upon an algorithmic observation that we can accelerate the training by leveraging multiple BFP precisions without compromising the finally achieved accuracy. Backed up by this algorithmic opportunity, we develop a flexible DNN training accelerator, dubbed FlexBlock, which supports three different BFP precision modes, possibly different among activation, weight, and gradient tensors. While several prior works proposed such multi-precision support for DNN accelerators, not only do they focus only on the inference, but also their core utilization is suboptimal at a fixed precision and specific layer types when the training is considered. Instead, FlexBlock is designed in such a way that high core utilization is achievable for i) various layer types, and ii) three BFP precisions by mapping data in a hierarchical manner to its compute units. We evaluate the effectiveness of FlexBlock architecture using well-known DNNs on CIFAR, ImageNet and WMT14 datasets. As a result, training in FlexBlock significantly improves the training speed by 1.5~5.3x and the energy efficiency by 2.4~7.0x on average compared to other training accelerators and incurs marginal accuracy loss compared to full-precision training.
翻訳日:2022-03-15 14:16:28 公開日:2022-03-13
# スケールにおけるパーソナライズドインテリジェンスを目指して

Towards Personalized Intelligence at Scale ( http://arxiv.org/abs/2203.06668v1 )

ライセンス: Link先を確認
Yiping Kang, Ashish Mahendra, Christopher Clarke, Lingjia Tang, Jason Mars(参考訳) パーソナライズドインテリジェンス(PI)は、個々のユーザーに合わせてカスタマイズされたAIエクスペリエンスを提供する問題である。 多くのアプリケーションでは、PIが好まれる。 既存のパーソナライズアプローチには、カスタマイズされたモデルを作成するための、微調整済みのモデルが含まれる。 しかし、これらのアプローチではトレーニングにかなりの量の計算が必要であり、モデルサイズとユーザ数でスケーリングすることで、piを広く実現することを妨げる。 本研究では,大規模にパーソナライズされたインテリジェンスを実現するための新しいモデルアーキテクチャとトレーニング/推論フレームワークを提案する。 我々は、Personalization Head (PH) を事前訓練された言語モデル (LM) にアタッチすることでこれを実現する。 トレーニング中、基本LMは凍結され、PH内のパラメータのみが更新され、ユーザ毎にユニークである。 その結果、モデルのサイズやトレーニングコストは、多くのユーザにわたってスケールする従来の微調整アプローチよりも大幅に小さくなります。 我々は,学界および産業に焦点を絞ったデータセットにおけるphsを評価し,f1スコアのゼロショットベースラインよりもphsの方が優れており,従来の微調整アプローチよりもかなりスケーラブルであることを示した。 有効なPH設計とトレーニングに必要な重要な要素を同定する。

Personalized Intelligence (PI) is the problem of providing customized AI experiences tailored to each individual user. In many applications, PI is preferred or even required. Existing personalization approaches involve fine-tuning pre-trained models to create new customized models. However, these approaches require a significant amount of computation to train, scaling with model size and the number of users, inhibiting PI to be realized widely. In this work, we introduce a novel model architecture and training/inference framework to enable Personalized Intelligence at scale. We achieve this by attaching a Personalization Head (PH) to pre-trained language models (LM). During training, the base LMs are frozen and only the parameters in PH are updated and are unique per user. This results in significantly smaller overall model sizes and training cost than traditional fine-tuning approaches when scaled across many users. We evaluate PHs on academia and industry-focused datasets and show that the PHs outperform zeroshot baseline in F1 score and are significantly more scalable than traditional fine-tuning approaches. We identify key factors required for effective PH design and training.
翻訳日:2022-03-15 14:11:57 公開日:2022-03-13
# Few-Shot認識の最悪の事例

Worst Case Matters for Few-Shot Recognition ( http://arxiv.org/abs/2203.06574v1 )

ライセンス: Link先を確認
Minghao Fu, Yun-Hao Cao and Jianxin Wu(参考訳) 少ないショット認識は、カテゴリー毎に非常に少ない(例:1または5)画像を持つ認識モデルを学び、現在の数ショット学習方法は、多くのエピソードの平均精度を改善することに重点を置いている。 実世界のアプリケーションでは、多くではなく1つのエピソードだけを試すことが多いため、最悪のケースの正確さを最大化することは、平均的な精度を最大化するよりも重要である、と論じている。 実験により,高い平均精度が必ずしも最悪の場合の精度を意味するとは限らないことが示された。 この目的には到達できないため,標準偏差を低減し,同時に平均精度を向上させることを提案する。 次に、バイアス分散トレードオフの観点から2つの戦略を考案し、この目標を暗黙的に達成する: 微調整時の分散を減らすためのモデルアンサンブルとともに、単純で効果的な安定正規化(sr)損失とバイアスを減らす適応性キャリブレーション機構である。 ベンチマークデータセットに関する広範な実験により,提案手法の有効性が示され,平均値だけでなく,最悪の場合の精度も大幅に向上した。

Few-shot recognition learns a recognition model with very few (e.g., 1 or 5) images per category, and current few-shot learning methods focus on improving the average accuracy over many episodes. We argue that in real-world applications we may often only try one episode instead of many, and hence maximizing the worst-case accuracy is more important than maximizing the average accuracy. We empirically show that a high average accuracy not necessarily means a high worst-case accuracy. Since this objective is not accessible, we propose to reduce the standard deviation and increase the average accuracy simultaneously. In turn, we devise two strategies from the bias-variance tradeoff perspective to implicitly reach this goal: a simple yet effective stability regularization (SR) loss together with model ensemble to reduce variance during fine-tuning, and an adaptability calibration mechanism to reduce the bias. Extensive experiments on benchmark datasets demonstrate the effectiveness of the proposed strategies, which outperforms current state-of-the-art methods with a significant margin in terms of not only average, but also worst-case accuracy.
翻訳日:2022-03-15 14:08:44 公開日:2022-03-13
# モバイルユーザプロファイリングのための強化Immitative Graph Learning

Reinforced Imitative Graph Learning for Mobile User Profiling ( http://arxiv.org/abs/2203.06550v1 )

ライセンス: Link先を確認
Dongjie Wang, Pengyang Wang, Yanjie Fu, Kunpeng Liu, Hui Xiong, and Charles E. Hughes(参考訳) モバイルユーザプロファイリング(mobile user profile)は、ユーザの特性をモバイルアクティビティから抽出する取り組みである。 効率的なユーザプロファイリングを生成するために,ユーザ特性の動的変化を捉えるために,模倣ベースのモバイルユーザプロファイリングフレームワークを提案する。 ユーザのプロファイルに基づいて、自律エージェントにユーザモビリティを模倣するように教えることの目的を考えると、エージェントがユーザ行動パターンを完全に模倣できる場合、ユーザプロファイルが最も正確である。 プロファイリングフレームワークは強化学習タスクとして定式化され、エージェントが次の訪問プランナーであり、アクションはユーザが次に訪問するpoiであり、環境の状態はユーザと空間エンティティの融合表現である。 ユーザがPOIを訪問するイベントは、エージェントがユーザのモビリティをより正確に予測するのに役立つ新しい状態を構築する。 本フレームワークでは,接続された空間エンティティ上でのユーザ訪問の意味を特徴付ける空間知識グラフ(KG)を導入する。 さらに、時間とともに進化する状態を定量化する相互更新戦略を開発する。 これらに沿って,モバイルユーザプロファイリングのための強化模倣グラフ学習フレームワークを開発した。 最後に、我々のアプローチの優位性を実証する広範な実験を行う。

Mobile user profiling refers to the efforts of extracting users' characteristics from mobile activities. In order to capture the dynamic varying of user characteristics for generating effective user profiling, we propose an imitation-based mobile user profiling framework. Considering the objective of teaching an autonomous agent to imitate user mobility based on the user's profile, the user profile is the most accurate when the agent can perfectly mimic the user behavior patterns. The profiling framework is formulated into a reinforcement learning task, where an agent is a next-visit planner, an action is a POI that a user will visit next, and the state of the environment is a fused representation of a user and spatial entities. An event in which a user visits a POI will construct a new state, which helps the agent predict users' mobility more accurately. In the framework, we introduce a spatial Knowledge Graph (KG) to characterize the semantics of user visits over connected spatial entities. Additionally, we develop a mutual-updating strategy to quantify the state that evolves over time. Along these lines, we develop a reinforcement imitative graph learning framework for mobile user profiling. Finally, we conduct extensive experiments to demonstrate the superiority of our approach.
翻訳日:2022-03-15 14:06:36 公開日:2022-03-13
# 最適化のためのシンボリックラーニング:解釈可能性とスケーラビリティを目指して

Symbolic Learning to Optimize: Towards Interpretability and Scalability ( http://arxiv.org/abs/2203.06578v1 )

ライセンス: Link先を確認
Wenqing Zheng, Tianlong Chen, Ting-Kuei Hu, Zhangyang Wang(参考訳) 近年のL2O(Learning to Optimize)研究は,複雑なタスクに対する最適化手順の自動化と高速化に期待できる道のりを示唆している。 既存のL2Oモデルは、ニューラルネットワークによる最適化ルールをパラメータ化し、メタトレーニングを通じてそれらの数値ルールを学ぶ。 スケーラビリティ: ニューラルネットワークで表される数値ルールは、L2Oモデルを適用するための余分なメモリオーバーヘッドを生成し、より大きなタスクを最適化するためにそれらの適用性を制限します。 両者の落とし穴を避けるため,本論文では,l2o に記号回帰の強力なツールを導入することで,「1石で2羽の鳥を殺す」ことができるという概念を実証する。 本稿では,L2Oの総合的な記号表現と解析の枠組みを構築し,学習可能なオプティマイザに一連の洞察を与える。 また,本研究の成果を生かして,大規模問題にメタトレーニングを施す軽量なL2Oモデルを提案する。 我々の研究は、l2o研究に新しい視点を提供する予定です。 コードは、https://github.com/VITA-Group/Symbolic-Learning-To-Optimizeで入手できる。

Recent studies on Learning to Optimize (L2O) suggest a promising path to automating and accelerating the optimization procedure for complicated tasks. Existing L2O models parameterize optimization rules by neural networks, and learn those numerical rules via meta-training. However, they face two common pitfalls: (1) scalability: the numerical rules represented by neural networks create extra memory overhead for applying L2O models, and limit their applicability to optimizing larger tasks; (2) interpretability: it is unclear what an L2O model has learned in its black-box optimization rule, nor is it straightforward to compare different L2O models in an explainable way. To avoid both pitfalls, this paper proves the concept that we can "kill two birds by one stone", by introducing the powerful tool of symbolic regression to L2O. In this paper, we establish a holistic symbolic representation and analysis framework for L2O, which yields a series of insights for learnable optimizers. Leveraging our findings, we further propose a lightweight L2O model that can be meta-trained on large-scale problems and outperformed human-designed and tuned optimizers. Our work is set to supply a brand-new perspective to L2O research. Codes are available at: https://github.com/VITA-Group/Symbolic-Learning-To-Optimize.
翻訳日:2022-03-15 14:06:17 公開日:2022-03-13
# 代数学習: 解釈可能な情報モデリングに向けて

Algebraic Learning: Towards Interpretable Information Modeling ( http://arxiv.org/abs/2203.06690v1 )

ライセンス: Link先を確認
Tong Owen Yang(参考訳) センサ技術を用いて収集されたデジタルデータの普及と計算能力の向上に伴い、ディープラーニング(dl)ベースのアプローチは、生データから複雑な関係を抽出し、貴重な情報を表現することで、過去10年間に多大な注目を集めてきた。 しかし、その悪名高いブラックボックスの性質に根ざして、DLの認識は解釈可能性の欠如のために非常に議論されている。 一方、DLは生データに含まれる統計的特徴のみを利用し、基礎システムの人的知識を無視し、データ非効率性と信頼の問題の両方をもたらす。一方、訓練されたDLモデルは、その出力以外の基盤システムに関する余分な洞察を与えていない。 この論文は、一般的な情報モデリングにおける解釈可能性の問題に対処し、2つのスコープから問題を緩和する試みである。 第一に、知識をモデリングの実践に取り入れるために問題指向の視点が適用され、興味深い数学的性質が自然に出現し、モデリングに制約が生じる。 第二に、訓練されたモデルを考えると、基礎となるシステムに関するさらなる洞察を抽出するために様々な方法を適用することができる。 これら2つの経路は誘導モデル設計と二次計測と呼ばれる。 興味深いことに、統計学習におけるモデリングの実践のために新しいスキームが出現する:代数学習(AgLr)。 特定のモデルの議論に制限される代わりに、AgLrは学習タスク自体の慣用性から始まり、正当なモデルクラスの構造を研究する。 この新しいスキームは、最近の進歩で見過ごされている汎用AIの抽象代数学の注目すべき価値を示し、解釈可能な情報モデリングにさらなる光を当てる可能性がある。

Along with the proliferation of digital data collected using sensor technologies and a boost of computing power, Deep Learning (DL) based approaches have drawn enormous attention in the past decade due to their impressive performance in extracting complex relations from raw data and representing valuable information. Meanwhile, though, rooted in its notorious black-box nature, the appreciation of DL has been highly debated due to the lack of interpretability. On the one hand, DL only utilizes statistical features contained in raw data while ignoring human knowledge of the underlying system, which results in both data inefficiency and trust issues; on the other hand, a trained DL model does not provide to researchers any extra insight about the underlying system beyond its output, which, however, is the essence of most fields of science, e.g. physics and economics. This thesis addresses the issue of interpretability in general information modeling and endeavors to ease the problem from two scopes. Firstly, a problem-oriented perspective is applied to incorporate knowledge into modeling practice, where interesting mathematical properties emerge naturally which cast constraints on modeling. Secondly, given a trained model, various methods could be applied to extract further insights about the underlying system. These two pathways are termed as guided model design and secondary measurements. Remarkably, a novel scheme emerges for the modeling practice in statistical learning: Algebraic Learning (AgLr). Instead of being restricted to the discussion of any specific model, AgLr starts from idiosyncrasies of a learning task itself and studies the structure of a legitimate model class. This novel scheme demonstrates the noteworthy value of abstract algebra for general AI, which has been overlooked in recent progress, and could shed further light on interpretable information modeling.
翻訳日:2022-03-15 14:05:54 公開日:2022-03-13
# ミスマッチ生成モードを用いたロバストマルコフ決定プロセスのポリシ学習

Policy Learning for Robust Markov Decision Process with a Mismatched Generative Mode ( http://arxiv.org/abs/2203.06587v1 )

ライセンス: Link先を確認
Jialian Li, Tongzheng Ren, Dong Yan, Hang Su, Jun Zhu(参考訳) 医療や自動操縦といった高度なシナリオでは、オンラインの実験データを収集してエージェントを訓練するのは危険か不可能です。 シミュレーションベースのトレーニングはこの問題を軽減することができるが、シミュレータと実際の環境から固有のミスマッチに悩まされる可能性がある。 したがって,シミュレータを用いて実世界展開のための堅牢なポリシーを学ぶことが不可欠である。 本研究では,ロバスト・マルコフ決定過程(RMDP)に対する政策学習について考察する。 具体的には、学習環境を生成モデルとして特徴付けることができ、テスト中に制約のある摂動をモデルに追加できるような設定に焦点を当てる。 これは,サンプルからトレーニング環境の不確実性を同時に推定し,テストの最悪の摂動を見出す必要があるため,さらなる技術的困難をもたらすものだ。 そこで本研究では,対戦相手としての摂動を形式化し,二人プレイのゼロサムゲームを得る汎用的な手法を提案し,さらにnash均衡がロバストな方針に対応することを示す。 生成モデルからのサンプルの多項式数を用いて,本アルゴリズムは高い確率で最適に近いロバストポリシを求めることができることを示す。 本手法は穏やかな仮定の下で一般的な摂動に対処でき,ゲーム理論的な定式化によりロバスト部分可観測マルコフ決定プロセスのようなより複雑な問題にも拡張することができる。

In high-stake scenarios like medical treatment and auto-piloting, it's risky or even infeasible to collect online experimental data to train the agent. Simulation-based training can alleviate this issue, but may suffer from its inherent mismatches from the simulator and real environment. It is therefore imperative to utilize the simulator to learn a robust policy for the real-world deployment. In this work, we consider policy learning for Robust Markov Decision Processes (RMDP), where the agent tries to seek a robust policy with respect to unexpected perturbations on the environments. Specifically, we focus on the setting where the training environment can be characterized as a generative model and a constrained perturbation can be added to the model during testing. Our goal is to identify a near-optimal robust policy for the perturbed testing environment, which introduces additional technical difficulties as we need to simultaneously estimate the training environment uncertainty from samples and find the worst-case perturbation for testing. To solve this issue, we propose a generic method which formalizes the perturbation as an opponent to obtain a two-player zero-sum game, and further show that the Nash Equilibrium corresponds to the robust policy. We prove that, with a polynomial number of samples from the generative model, our algorithm can find a near-optimal robust policy with a high probability. Our method is able to deal with general perturbations under some mild assumptions and can also be extended to more complex problems like robust partial observable Markov decision process, thanks to the game-theoretical formulation.
翻訳日:2022-03-15 14:01:58 公開日:2022-03-13
# 不況を先導する指標としての利回り曲線。 傾斜ブースティングとランダム森林への応用

The Yield Curve as a Recession Leading Indicator. An Application for Gradient Boosting and Random Forest ( http://arxiv.org/abs/2203.06648v1 )

ライセンス: Link先を確認
Pedro Cadahia Delgado, Emilio Congregado, Antonio A. Golpe, Jos\'e Carlos Vides(参考訳) 多くの代表的な決定ツリーアンサンブル手法は、米国経済不況を予測し、米国の経済不況を検知するための規則を生成するために、財務用語の拡散の変動の重要性を調べるために用いられてきた。 財務用語を表わした分類器を訓練するための戦略を提案し, 解釈可能性の最良のモデルを選択するために, 結果を比較した。 また,Shapley Additive exPlanations (SHAP) フレームワークを用いて,特徴の重要度を分析し,米国の景気後退予測を理解する。 既存の文献と一致して、米国経済不況を予測するための最も関連性の高い財務用語が広がり、経済不況の検出に関する関連するルールを検出するための方法論が見つかる。 この場合、最も関連する用語は3ヶ月から6ヶ月であり、経済当局によって監視されることが提案されている。 最後に、この手法は、これらのエンティティが利用できる経済不況を予測するための高揚力ルールを検出する。 後者の結果は、多くの代替アルゴリズムを比較するのに機械学習手法が有用であることを示す文献が増えているのとは対照的に、本研究の解釈を議論し、本研究に沿うさらなる研究線を提案する。

Most representative decision tree ensemble methods have been used to examine the variable importance of Treasury term spreads to predict US economic recessions with a balance of generating rules for US economic recession detection. A strategy is proposed for training the classifiers with Treasury term spreads data and the results are compared in order to select the best model for interpretability. We also discuss the use of SHapley Additive exPlanations (SHAP) framework to understand US recession forecasts by analyzing feature importance. Consistently with the existing literature we find the most relevant Treasury term spreads for predicting US economic recession and a methodology for detecting relevant rules for economic recession detection. In this case, the most relevant term spread found is 3 month to 6 month, which is proposed to be monitored by economic authorities. Finally, the methodology detected rules with high lift on predicting economic recession that can be used by these entities for this propose. This latter result stands in contrast to a growing body of literature demonstrating that machine learning methods are useful for interpretation comparing many alternative algorithms and we discuss the interpretation for our result and propose further research lines aligned with this work.
翻訳日:2022-03-15 14:01:33 公開日:2022-03-13
# Context-LSTM: UCF101上のビデオ検出のための堅牢な分類器

Context-LSTM: a robust classifier for video detection on UCF101 ( http://arxiv.org/abs/2203.06610v1 )

ライセンス: Link先を確認
Dengshan Li, Rujing Wang(参考訳) ビデオ検出と人間の行動認識は計算コストが高く、モデルを訓練するのに長い時間がかかる。 本稿では,ビデオ検出のトレーニング時間とGPUメモリ使用量を削減することを目的として,競合検出精度を実現した。 Two-stream, C3D, TSNなどの他の研究成果は、UCF101で優れたパフォーマンスを示している。 そこで我々は,ビデオ検出にLSTM構造を用いた。 ucf101の検証データセット全体の競合top-1精度を実現するために,簡単な構造を用いた。 LSTM構造は、深い時間的特徴を処理できるため、Context-LSTMと呼ばれている。 Context-LSTMは人間の認識システムをシミュレートすることができる。 我々はPyTorchのLSTMブロックをカスケードし、細胞状態の流れと隠れ出力の流れを接続した。 ブロックの接続時に、ReLU、バッチ正規化、MaxPooling関数を使用しました。 Context-LSTMはトレーニング時間とGPUメモリ使用量を削減し、UCF101全体の検証データセット上で最先端のトップ1の精度を維持しながら、ビデオアクション検出における堅牢なパフォーマンスを示す。

Video detection and human action recognition may be computationally expensive, and need a long time to train models. In this paper, we were intended to reduce the training time and the GPU memory usage of video detection, and achieved a competitive detection accuracy. Other research works such as Two-stream, C3D, TSN have shown excellent performance on UCF101. Here, we used a LSTM structure simply for video detection. We used a simple structure to perform a competitive top-1 accuracy on the entire validation dataset of UCF101. The LSTM structure is named Context-LSTM, since it may process the deep temporal features. The Context-LSTM may simulate the human recognition system. We cascaded the LSTM blocks in PyTorch and connected the cell state flow and hidden output flow. At the connection of the blocks, we used ReLU, Batch Normalization, and MaxPooling functions. The Context-LSTM could reduce the training time and the GPU memory usage, while keeping a state-of-the-art top-1 accuracy on UCF101 entire validation dataset, show a robust performance on video action detection.
翻訳日:2022-03-15 13:21:49 公開日:2022-03-13
# カーネルを31x31にスケールアップする - cnnで大規模カーネル設計を再検討する

Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs ( http://arxiv.org/abs/2203.06717v1 )

ライセンス: Link先を確認
Xiaohan Ding, Xiangyu Zhang, Yizhuang Zhou, Jungong Han, Guiguang Ding, Jian Sun(参考訳) 本稿では,近年無視されている現代畳み込みニューラルネットワーク(CNN)の大規模カーネル設計を再考する。 視覚変換器(ViT)の最近の進歩に触発されて、小さな畳み込みのスタックではなく、少数の大きなカーネルを使用することが、より強力なパラダイムになり得ることを指摘した。 そこで我々は、例えば、効率的な高性能大カーネルCNNの設計に再パラメータ化された大深度畳み込みを適用した5つのガイドラインを要約する。 本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。 RepLKNetは、CNNとViTのパフォーマンスギャップを大幅に橋渡しする。例えば、ImageNetや下流タスクにおいて、Swin Transformerと同等またはより良い結果を達成する一方で、RepLKNetのレイテンシははるかに低い。 さらに、RepLKNetは、ビッグデータや大規模モデルに対して実現可能なスケーラビリティを示し、ImageNetでは87.8%、ADE20Kでは56.0%のmIoUが得られる。 最終的に、我々の研究は、大型カーネルCNNが、従来のCNNよりもはるかに大きな効果的な受容場や、テクスチャバイアスよりも高い形状バイアスなど、ViTといくつかの優れた特性を共有していることを示唆している。 コードとモデルはhttps://github.com/megvii-research/replknet。

In this paper we revisit large kernel design in modern convolutional neural networks (CNNs), which is often neglected in the past few years. Inspired by recent advances of vision transformers (ViTs), we point out that using a few large kernels instead of a stack of small convolutions could be a more powerful paradigm. We therefore summarize 5 guidelines, e.g., applying re-parameterized large depth-wise convolutions, to design efficient high-performance large-kernel CNNs. Following the guidelines, we propose RepLKNet, a pure CNN architecture whose kernel size is as large as 31x31. RepLKNet greatly bridges the performance gap between CNNs and ViTs, e.g., achieving comparable or better results than Swin Transformer on ImageNet and downstream tasks, while the latency of RepLKNet is much lower. Moreover, RepLKNet also shows feasible scalability to big data and large models, obtaining 87.8% top-1 accuracy on ImageNet and 56.0%} mIoU on ADE20K. At last, our study further suggests large-kernel CNNs share several nice properties with ViTs, e.g., much larger effective receptive fields than conventional CNNs, and higher shape bias rather than texture bias. Code & models at https://github.com/megvii-research/RepLKNet.
翻訳日:2022-03-15 13:21:33 公開日:2022-03-13
# 転送に基づく事前指示によるクエリ効率の高いブラックボックス逆攻撃

Query-Efficient Black-box Adversarial Attacks Guided by a Transfer-based Prior ( http://arxiv.org/abs/2203.06560v1 )

ライセンス: Link先を確認
Yinpeng Dong, Shuyu Cheng, Tianyu Pang, Hang Su, Jun Zhu(参考訳) デプロイ前にディープラーニングモデルの脆弱性を識別できるため、adversarial attackは近年広く研究されている。 本稿では,対象モデルの勾配にアクセスできることなく,敵が敵の例を作らなければならないブラックボックスの敵設定について考察する。 従来の手法では、代用ホワイトボックスモデルの転送勾配を用いたり、モデルクエリのフィードバックに基づいて真の勾配を近似しようとした。 しかし,既存の手法では情報量が少ない高次元入力空間での勾配推定が困難であるため,攻撃成功率の低下やクエリ効率の低下に必然的に悩まされる。 これらの問題に対処し、ブラックボックス攻撃を改善するために、バイアスサンプリングと勾配平均化に基づく2つの事前誘導ランダム勾配フリー(PRGF)アルゴリズムを提案する。 提案手法は,サロゲートモデルの勾配と問合せ情報を同時に与えた転送に基づく先行手法を活用できる。 理論解析により、転送ベースプリエントは各手法の最適係数によってモデルクエリと適切に統合される。 広範な実験によって、我々の手法は、より高い成功率でブラックボックスモデルを攻撃するために、より少ないクエリを必要とすることが示されました。

Adversarial attacks have been extensively studied in recent years since they can identify the vulnerability of deep learning models before deployed. In this paper, we consider the black-box adversarial setting, where the adversary needs to craft adversarial examples without access to the gradients of a target model. Previous methods attempted to approximate the true gradient either by using the transfer gradient of a surrogate white-box model or based on the feedback of model queries. However, the existing methods inevitably suffer from low attack success rates or poor query efficiency since it is difficult to estimate the gradient in a high-dimensional input space with limited information. To address these problems and improve black-box attacks, we propose two prior-guided random gradient-free (PRGF) algorithms based on biased sampling and gradient averaging, respectively. Our methods can take the advantage of a transfer-based prior given by the gradient of a surrogate model and the query information simultaneously. Through theoretical analyses, the transfer-based prior is appropriately integrated with model queries by an optimal coefficient in each method. Extensive experiments demonstrate that, in comparison with the alternative state-of-the-arts, both of our methods require much fewer queries to attack black-box models with higher success rates.
翻訳日:2022-03-15 13:20:46 公開日:2022-03-13
# 医科教育ビデオにおける視覚プロンプト時間解答接地に向けて

Towards Visual-Prompt Temporal Answering Grounding in Medical Instructional Video ( http://arxiv.org/abs/2203.06667v1 )

ライセンス: Link先を確認
Bin Li, Yixuan Weng, Bin Sun and Shutao Li(参考訳) ビデオ中の時間応答グラウンドディング(TAGV)は、ビデオ中の時間文グラウンドディング(TSGV)から自然に導出される新しいタスクである。 未解決のビデオとテキストの質問を考えると、このタスクは、意味的に質問に答えられるビデオからマッチングスパンを見つけることを目的としています。 既存の手法では、テキスト質問によって検索された視覚的フレーム幅をマッチングすることにより、視覚的スパンベースの質問応答(QA)アプローチでTAGVタスクを定式化する傾向にある。 しかし,テキスト質問と視覚応答の特徴のセマンティクスの弱い相関や大きなギャップのため,既存の視覚的スパン予測手法はTAGVタスクではうまく機能しない。 本稿では,事前学習型言語モデル (plm) におけるテキストスパンのローカライズを視覚強調機能で強化する,vptsl(visual-prompt text span localizing)法を提案する。 具体的には、コンテキストクエリアテンションを用いて、テキスト特徴と視覚的特徴との間のクロスモーダルモデリングを行う。 次に、線状層を有するハイライトモジュールを介してハイライト機能を取得し、ビジュアルプロンプトを提供する。 テキストの特徴と視覚的特徴のセマンティクスと相関を緩和するために,PLMにおける疑問,字幕,視覚的プロンプトを符号化してテキストスパン予測器を設計する。 その結果、TAGVタスクは、応答フレームタイムラインに一致するサブタイトルのスパンを予測するために定式化される。 MedVidQAと呼ばれる医療指導データセットに関する大規模な実験では、提案されたVPTSLは他の最先端の手法よりも優れており、視覚的プロンプトとテキストスパン予測器の有効性を示している。

The temporal answering grounding in the video (TAGV) is a new task naturally deriving from temporal sentence grounding in the video (TSGV). Given an untrimmed video and a text question, this task aims at locating the matching span from the video that can semantically answer the question. Existing methods tend to formulate the TAGV task with a visual span-based question answering (QA) approach by matching the visual frame span queried by the text question. However, due to the weak correlations and huge gaps in semantics in features between the textual question and visual answer, existing methods adopting visual span predictor fail to perform well in the TAGV task. In this work, we propose a visual-prompt text span localizing (VPTSL) method, which enhances the text span localization in the pre-trained language model (PLM) with the visual highlight features. Specifically, the context query attention is utilized to perform cross-modal modeling between the textual and visual features. Then, the highlight features are obtained through the highlight module with a linear layer to provide the visual prompt. To alleviate the differences in semantics and correlations between textual and visual features, we design the text span predictor by encoding the question, the subtitles, and the visual prompt in the PLM. As a result, the TAGV task is formulated to predict the span of subtitles matching the answering frame timeline. Extensive experiments on the medical instructional dataset, namely MedVidQA, show the proposed VPTSL outperforms other state-of-the-art methods, which demonstrates the effectiveness of visual prompt and the text span predictor.
翻訳日:2022-03-15 13:04:39 公開日:2022-03-13
# 制約付き表現複雑性をもつ階層分類における集合値予測

Set-valued prediction in hierarchical classification with constrained representation complexity ( http://arxiv.org/abs/2203.06676v1 )

ライセンス: Link先を確認
Thomas Mortier, Eyke H\"ullermeier, Krzysztof Dembczy\'nski, Willem Waegeman(参考訳) 集合値予測は多クラス分類においてよく知られた概念である。 分類器がテストインスタンスのクラスラベルについて不確かである場合、単一のクラスではなくクラスの集合を予測することができる。 本稿では,階層型マルチクラス分類問題に着目し,有効集合(典型的には)が階層の内部ノードに対応する。 これは非常に強い制約であり、予測された集合に対して表現複雑性の概念を導入することで緩和を提案する。 確率的分類器と組み合わせることで、特定の組合せ最適化アルゴリズムが必要であるという難しい推論問題につながる。 本研究では,行列ベクトル乗法に基づくna\"iveアプローチ,コンフリクトグラフを用いたナップサック問題としての再構成,再帰木探索法という3つの手法を提案する。 実験の結果, 条件クラス分布の階層的分解により, 最後の手法は他の2つの手法よりも計算効率が高かった。

Set-valued prediction is a well-known concept in multi-class classification. When a classifier is uncertain about the class label for a test instance, it can predict a set of classes instead of a single class. In this paper, we focus on hierarchical multi-class classification problems, where valid sets (typically) correspond to internal nodes of the hierarchy. We argue that this is a very strong restriction, and we propose a relaxation by introducing the notion of representation complexity for a predicted set. In combination with probabilistic classifiers, this leads to a challenging inference problem for which specific combinatorial optimization algorithms are needed. We propose three methods and evaluate them on benchmark datasets: a na\"ive approach that is based on matrix-vector multiplication, a reformulation as a knapsack problem with conflict graph, and a recursive tree search method. Experimental results demonstrate that the last method is computationally more efficient than the other two approaches, due to a hierarchical factorization of the conditional class distribution.
翻訳日:2022-03-15 13:03:12 公開日:2022-03-13
# タスク関連アンタングルメントと制御可能なサンプル合成による非生成的一般化ゼロショット学習

Non-generative Generalized Zero-shot Learning via Task-correlated Disentanglement and Controllable Samples Synthesis ( http://arxiv.org/abs/2203.05335v2 )

ライセンス: Link先を確認
Yaogong Feng, Xiaowen Huang, Pengbo Yang, Jian Yu, Jitao Sang(参考訳) 擬似サンプルの合成は、現在、一般化ゼロショット学習(GZSL)問題を解決する最も効果的な方法である。 Most models achieve competitive performance but still suffer from two problems: (1) Feature confounding, the overall representations confound task-correlated and task-independent features, and existing models disentangle them in a generative way, but they are unreasonable to synthesize reliable pseudo samples with limited samples; (2) Distribution uncertainty, that massive data is needed when existing models synthesize samples from the uncertain distribution, which causes poor performance in limited samples of seen classes. 本稿では,タスク関連特徴のゆがみ(タスク関連特徴のゆがみ)とタスク関連特徴(タスク関連特徴のゆがみ)を,ドメイン適応の合理的な合成への逆習学習(ドメイン適応の逆習学習)と,エッジ擬似サンプル合成(エッジ擬似サンプル合成)とセンター擬似サンプル合成(センター擬似サンプル合成)の2つのモジュールで対応付ける非生成モデルを提案する。 加えて、トレーニングプロセスで見られるクラスサンプルの制限である新しいシーンを記述するために、「Few-shot Seen class and Zero-shot Unseen class learning」(FSZU)という新しいZSLタスクを定式化する。 4つのベンチマークにおいて、提案手法がGZSLとFSZUタスクで競合することを確認した。

Synthesizing pseudo samples is currently the most effective way to solve the Generalized Zero Shot Learning (GZSL) problem. Most models achieve competitive performance but still suffer from two problems: (1) Feature confounding, the overall representations confound task-correlated and task-independent features, and existing models disentangle them in a generative way, but they are unreasonable to synthesize reliable pseudo samples with limited samples; (2) Distribution uncertainty, that massive data is needed when existing models synthesize samples from the uncertain distribution, which causes poor performance in limited samples of seen classes. In this paper, we propose a non-generative model to address these problems correspondingly in two modules: (1) Task-correlated feature disentanglement, to exclude the task-correlated features from task-independent ones by adversarial learning of domain adaption towards reasonable synthesis; (2) Controllable pseudo sample synthesis, to synthesize edge-pseudo and center-pseudo samples with certain characteristics towards more diversity generated and intuitive transfer. In addation, to describe the new scene that is the limit seen class samples in the training process, we further formulate a new ZSL task named the 'Few-shot Seen class and Zero-shot Unseen class learning' (FSZU). Extensive experiments on four benchmarks verify that the proposed method is competitive in the GZSL and the FSZU tasks.
翻訳日:2022-03-15 11:24:32 公開日:2022-03-13