このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220307となっている論文です。

PDF登録状況(公開日: 20220307)

TitleAuthorsAbstract論文公表日・翻訳日
# グラフ逆クラスタリングによるシフト・ロバストノード分類

Shift-Robust Node Classification via Graph Adversarial Clustering ( http://arxiv.org/abs/2203.15802v1 )

ライセンス: Link先を確認
Qi Zhu, Chao Zhang, Chanyoung Park, Carl Yang, Jiawei Han(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データのデファクトノード分類モデルである。 しかし、テスト期間中、これらのアルゴリズムはデータシフトを前提とせず、例えば$\Pr_\text{train}(X,Y) = \Pr_\text{test}(X,Y)$である。 ドメイン適応手法はデータシフトに応用できるが、そのほとんどは、ソースデータとターゲットデータの間の類似した特徴分布のみを促進するように設計されている。 クラスに対する条件シフトは、それでもそのような適応に影響を与える可能性がある。 幸いなことに、グラフは異なるデータ分布でグラフをホモフィリーに生成する。 そこで我々は,これらの制限に対処するため,SRNC(Shift-Robust Node Classification)を提案する。 対象グラフ上の教師なしクラスタgnnを導入し,類似ノードをグラフホモフィリでグループ化する。 クラスタリングの目的に、ソースグラフ上のラベル情報を含む敵対的損失を使用する。 次に、クラスタGNNによって生成される目標グラフ上のトレーニンググラフと逆サンプルにシフトロバスト分類器を最適化する。 オープンセットシフトと表現シフトの両方について実験を行い,データシフトを伴うテストグラフの一般化におけるsrncの優れた精度を示す。 SRNCは、目標グラフのモデル予測を段階的に使用するグラフ上の従来のSoTAドメイン適応アルゴリズムよりも一貫して優れている。

Graph Neural Networks (GNNs) are de facto node classification models in graph structured data. However, during testing-time, these algorithms assume no data shift, i.e., $\Pr_\text{train}(X,Y) = \Pr_\text{test}(X,Y)$. Domain adaption methods can be adopted for data shift, yet most of them are designed to only encourage similar feature distribution between source and target data. Conditional shift on classes can still affect such adaption. Fortunately, graph yields graph homophily across different data distributions. In response, we propose Shift-Robust Node Classification (SRNC) to address these limitations. We introduce an unsupervised cluster GNN on target graph to group the similar nodes by graph homophily. An adversarial loss with label information on source graph is used upon clustering objective. Then a shift-robust classifier is optimized on training graph and adversarial samples on target graph, which are generated by cluster GNN. We conduct experiments on both open-set shift and representation-shift , which demonstrates the superior accuracy of SRNC on generalizing to test graph with data shift. SRNC is consistently better than previous SoTA domain adaption algorithm on graph that progressively use model predictions on target graph for training.
翻訳日:2022-04-03 18:27:21 公開日:2022-03-07
# (参考訳) Deep Learningが交通安全分析を専門に:前向きなレビュー [全文訳有]

Deep Learning Serves Traffic Safety Analysis: A Forward-looking Review ( http://arxiv.org/abs/2203.10939v1 )

ライセンス: CC BY 4.0
Abolfazl Razi, Xiwen Chen, Huayu Li, Brendan Russo, Yan Chen, Hongbin Yu(参考訳) 本稿では,自律走行車(AV)と人間運転車の両方の運転安全性を強調し,交通映像解析に使用されるか,あるいは使用される可能性がある深層学習(DL)手法について検討する。 本稿では,運用上の安全性指標を抽出し,交通安全向上のための一般的なヒントとガイドラインを提供することにより,交通映像の理解と解釈に使用可能な典型的な処理パイプラインを提案する。 この処理フレームワークは、ビデオエンハンスメント、ビデオ安定化、セマンティクスとインシデントセグメンテーション、オブジェクト検出と分類、軌道抽出、速度推定、イベント分析、モデリング、異常検出を含むいくつかのステップを含む。 我々の主な目標は、トラフィックアナリストに、各ステップに最適な選択を選択し、各ステップに提案される最も成功した従来のDLベースのアルゴリズムの比較分析を提供することで、モジュールの欠如に対する新しい設計を提供することによって、独自のカスタムビルド処理フレームワークを開発するよう誘導することである。 また、DLモデルのトレーニングに役立つ既存のオープンソースツールや公開データセットについてもレビューします。 より具体的に言うと、私たちは模範的なトラフィック問題をレビューし、それぞれの問題に対してステップを必要とします。 さらに,運転者の認知評価,クラウドソーシングに基づく監視システム,道路インフラストラクチャにおけるエッジコンピューティング,ADS搭載のAVといった,密接に関連する研究領域との関係について検討し,不足するギャップを明らかにする。 最後に,交通監視システムの商用化,今後の展望,オープンな問題,そしてそのようなシステムの普及に向けた課題について検討する。

This paper explores Deep Learning (DL) methods that are used or have the potential to be used for traffic video analysis, emphasizing driving safety for both Autonomous Vehicles (AVs) and human-operated vehicles. We present a typical processing pipeline, which can be used to understand and interpret traffic videos by extracting operational safety metrics and providing general hints and guidelines to improve traffic safety. This processing framework includes several steps, including video enhancement, video stabilization, semantic and incident segmentation, object detection and classification, trajectory extraction, speed estimation, event analysis, modeling and anomaly detection. Our main goal is to guide traffic analysts to develop their own custom-built processing frameworks by selecting the best choices for each step and offering new designs for the lacking modules by providing a comparative analysis of the most successful conventional and DL-based algorithms proposed for each step. We also review existing open-source tools and public datasets that can help train DL models. To be more specific, we review exemplary traffic problems and mentioned requires steps for each problem. Besides, we investigate connections to the closely related research areas of drivers' cognition evaluation, Crowd-sourcing-based monitoring systems, Edge Computing in roadside infrastructures, ADS-equipped AVs, and highlight the missing gaps. Finally, we review commercial implementations of traffic monitoring systems, their future outlook, and open problems and remaining challenges for widespread use of such systems.
翻訳日:2022-03-27 12:41:39 公開日:2022-03-07
# 誰があなたの提案をレビューするべきか? 研究提案のための学際的トピックパス検出

Who Should Review Your Proposal? Interdisciplinary Topic Path Detection for Research Proposals ( http://arxiv.org/abs/2203.10922v1 )

ライセンス: Link先を確認
Meng Xiao, Ziyue Qiao, Yanjie Fu, Hao Dong, Yi Du, Pengyang Wang, Dong Li, Yuanchun Zhou(参考訳) 研究提案の査定は、賞の授与を決定する主要なメカニズムである。 近年,研究提案が学際的になってきている。 適切なレビュアーに提案を割り当てるのは長年の課題だった。 レビュアーの割り当てにおける重要なステップの1つは、提案に対して正確な学際的トピックラベルを生成することである。 既存のシステムは、主に規律調査員が手動で報告したトピックラベルを収集する。 しかし、そのような人間が報告したラベルは不正確で不完全である。 公正で正確な提案レビューシステムを開発する上で、AIはどのような役割を果たすのか? 本研究では,中国国立科学財団と共同で,学際的トピックパスの自動検出の課題について検討する。 本研究の目的は,階層型研究提案分類ネットワーク(HIRPCN)を構築することである。 まず,提案手法のテキスト意味情報を抽出する階層変換器を提案する。 次に,学際グラフを設計し,gnnを用いて各分野の表現を学習し,学際知識を抽出する。 セマンティクスと学際知識を抽出した後,2種類の知識表現を融合し,各提案の学際的トピックパスを検出するレベルワイズ予測コンポーネントを設計した。 提案モデルの有効性を実証するために,実世界の3つのデータセットに関する広範な実験と専門家評価を行った。

The peer merit review of research proposals has been the major mechanism to decide grant awards. Nowadays, research proposals have become increasingly interdisciplinary. It has been a longstanding challenge to assign proposals to appropriate reviewers. One of the critical steps in reviewer assignment is to generate accurate interdisciplinary topic labels for proposals. Existing systems mainly collect topic labels manually reported by discipline investigators. However, such human-reported labels can be non-accurate and incomplete. What role can AI play in developing a fair and precise proposal review system? In this evidential study, we collaborate with the National Science Foundation of China to address the task of automated interdisciplinary topic path detection. For this purpose, we develop a deep Hierarchical Interdisciplinary Research Proposal Classification Network (HIRPCN). We first propose a hierarchical transformer to extract the textual semantic information of proposals. We then design an interdisciplinary graph and leverage GNNs to learn representations of each discipline in order to extract interdisciplinary knowledge. After extracting the semantic and interdisciplinary knowledge, we design a level-wise prediction component to fuse the two types of knowledge representations and detect interdisciplinary topic paths for each proposal. We conduct extensive experiments and expert evaluations on three real-world datasets to demonstrate the effectiveness of our proposed model.
翻訳日:2022-03-27 05:47:01 公開日:2022-03-07
# グラフニューラルネットワークを用いた弾力性無線資源管理ポリシーの学習

Learning Resilient Radio Resource Management Policies with Graph Neural Networks ( http://arxiv.org/abs/2203.11012v1 )

ライセンス: Link先を確認
Navid NaderiAlizadeh, Mark Eisen, Alejandro Ribeiro(参考訳) 本稿では、複数の送信機と受信機が共有無線媒体を介して通信する無線ネットワークにおけるダウンリンクユーザ選択と電力制御の問題について考察する。 受信機間の公平性を確保しつつ高い集約率を達成するため,学習可能なスラック変数を介してネットワーク条件に適応するユーザあたりの最小容量制約による応答性無線リソース管理(RRM)ポリシー最適化問題を定式化する。 ラグランジュ双対領域の問題を再構成し、有限のパラメータセットを用いてユーザ選択と電力制御ポリシーをパラメータ化できることを示し、これは、証明可能な小さな双対性ギャップのおかげで、教師なしの原始双対アプローチにより、スラックと双対変数と共に訓練することができる。 我々は、スケーラブルで置換等価なグラフニューラルネットワーク(GNN)アーキテクチャを用いて、瞬時チャネル条件から導出されるグラフトポロジに基づいてRCMポリシーをパラメータ化する。 実験により,最小容量制約がネットワーク構成やチャネル条件に適合していることを検証する。 さらに,このような適応により,提案手法は,ベースラインアルゴリズムと比較して,平均利率と5パーセンタイル率,すなわち資源割当決定の公平性レベルを定量化する指標との優れたトレードオフを実現することを実証する。

We consider the problems of downlink user selection and power control in wireless networks, comprising multiple transmitters and receivers communicating with each other over a shared wireless medium. To achieve a high aggregate rate, while ensuring fairness across all the receivers, we formulate a resilient radio resource management (RRM) policy optimization problem with per-user minimum-capacity constraints that adapt to the underlying network conditions via learnable slack variables. We reformulate the problem in the Lagrangian dual domain, and show that we can parameterize the user selection and power control policies using a finite set of parameters, which can be trained alongside the slack and dual variables via an unsupervised primal-dual approach thanks to a provably small duality gap. We use a scalable and permutation-equivari ant graph neural network (GNN) architecture to parameterize the RRM policies based on a graph topology derived from the instantaneous channel conditions. Through experimental results, we verify that the minimum-capacity constraints adapt to the underlying network configurations and channel conditions. We further demonstrate that, thanks to such adaptation, our proposed method achieves a superior tradeoff between the average rate and the 5th percentile rate -- a metric that quantifies the level of fairness in the resource allocation decisions -- as compared to baseline algorithms.
翻訳日:2022-03-27 05:46:45 公開日:2022-03-07
# (参考訳) 深層学習を用いた圧力潰瘍分類 : モデル性能評価の試み [全文訳有]

Pressure Ulcer Categorisation using Deep Learning: A Clinical Trial to Evaluate Model Performance ( http://arxiv.org/abs/2203.06248v1 )

ライセンス: CC BY 4.0
Paul Fergus, Carl Chalmers, William Henderson, Danny Roberts, and Atif Waraich(参考訳) プレッシャー潰瘍は患者や医療従事者にとって課題である。 英国では、毎年70万人が圧力潰瘍に罹患している。 治療費は、国民保健サービス(National Health Service)が毎日380万ドルを負担している。 その根源は複雑で多因子である。 しかし, 高齢者, 疾患関連摂食生活習慣, 不健康食習慣の関連が強く示唆されている。 圧力潰瘍は、頻繁な位置変化なしにベッドや椅子と直接の皮膚接触によって引き起こされる。 尿失禁や尿失禁、糖尿病、体位や栄養を阻害する怪我も危険因子として知られている。 ガイドラインと治療は存在するが、その実施と成功は異なる医療環境によって異なる。 これは主に医療従事者が a)圧力潰瘍に対処する際の最小限の経験 b) 圧力潰瘍治療に関する一般的な理解の欠如 管理が悪く、潰瘍が重度の痛み、生活の質が悪く、医療費も大きい。 本稿では,Mersey Care NHS Foundation Trustが実施した,より高速な局所的畳み込みニューラルネットワークと加圧潰瘍を分類・記録するモバイルプラットフォームの性能評価試験の結果を報告する。 ニューラルネットワークは、I型、II型、III型、IV型圧潰瘍、深部組織損傷、非ステージ性圧潰瘍を分類する。 地域看護婦が撮影した圧力潰瘍の写真は4/5g通信で、分類のための参照サーバに送信される。 分類された画像は、臨床意思決定と標準化された報告のためのツールとしてモデルの予測と妥当性を評価するために保存され、レビューされる。 その結果、平均精度=0.6796, recall=0.6997, f1-score=0.6786, 45の偽陽性が@.75の信頼スコア閾値で得られた。

Pressure ulcers are a challenge for patients and healthcare professionals. In the UK, 700,000 people are affected by pressure ulcers each year. Treating them costs the National Health Service {\pounds}3.8 million every day. Their etiology is complex and multifactorial. However, evidence has shown a strong link between old age, disease-related sedentary lifestyles and unhealthy eating habits. Pressure ulcers are caused by direct skin contact with a bed or chair without frequent position changes. Urinary and faecal incontinence, diabetes, and injuries that restrict body position and nutrition are also known risk factors. Guidelines and treatments exist but their implementation and success vary across different healthcare settings. This is primarily because healthcare practitioners have a) minimal experience in dealing with pressure ulcers, and b) a general lack of understanding of pressure ulcer treatments. Poorly managed, pressure ulcers lead to severe pain, poor quality of life, and significant healthcare costs. In this paper, we report the findings of a clinical trial conducted by Mersey Care NHS Foundation Trust that evaluated the performance of a faster region-based convolutional neural network and mobile platform that categorised and documented pressure ulcers. The neural network classifies category I, II, III, and IV pressure ulcers, deep tissue injuries, and unstageable pressure ulcers. Photographs of pressure ulcers taken by district nurses are transmitted over 4/5G communications to an inferencing server for classification. Classified images are stored and reviewed to assess the model's predictions and relevance as a tool for clinical decision making and standardised reporting. The results from the study generated a mean average Precision=0.6796, Recall=0.6997, F1-Score=0.6786 with 45 false positives using an @.75 confidence score threshold.
翻訳日:2022-03-21 00:05:14 公開日:2022-03-07
# (参考訳) 気候ネットワーク曲率による異なるel ni\~noタイプのテレコネクションパターン [全文訳有]

Teleconnection patterns of different El Ni\~no types revealed by climate network curvature ( http://arxiv.org/abs/2203.07035v1 )

ライセンス: CC BY 4.0
Felix M. Strnad and Jakob Schl\"or and Christian Fr\"ohlich and Bedartha Goswami(参考訳) El Ni\~noイベントの多様性は、一般的に東太平洋(EP)と中央太平洋(CP)の2つの異なるフレーバーによって説明される。 遠隔での遠隔接続、すなわちEPおよびCPイベントは、それぞれ異なる領域で研究されているが、テレコネクションパターンのグローバルなイメージはいまだに欠落している。 ここでは,2mの気温データから構築した気候ネットワークに適用したForman-Ricci曲率を用いて,地域間リンクと遠隔接続を区別する。 その結果, 遠隔接続パターンはEl Ni\~no型の影響を強く受けていることが確認された。 epイベントは主に熱帯のテレコネクションを持つが、cpイベントは特に太平洋で熱帯-熱帯の接続を伴う。 さらに、中央太平洋地域はCPイベントにおいても、多くの遠隔接続がない。 主に東太平洋に分布し、エル・ニ・ノの両種類の遠隔影響を媒介する。

The diversity of El Ni\~no events is commonly described by two distinct flavors, the Eastern Pacific (EP) and Central Pacific (CP) types. While the remote impacts, i.e. teleconnections, of EP and CP events have been studied for different regions individually, a global picture of their teleconnection patterns is still lacking. Here, we use Forman-Ricci curvature applied on climate networks constructed from 2-meter air temperature data to distinguish regional links from teleconnections. Our results confirm that teleconnection patterns are strongly influenced by the El Ni\~no type. EP events have primarily tropical teleconnections whereas CP events involve tropical-extratropic al connections, particularly in the Pacific. Moreover, the central Pacific region does not have many teleconnections, even during CP events. It is mainly the eastern Pacific that mediates the remote influences for both El Ni\~no types.
翻訳日:2022-03-20 23:44:42 公開日:2022-03-07
# (参考訳) P2M:リソース制約されたTinyMLアプリケーションのためのメモリ内処理パラダイム [全文訳有]

P2M: A Processing-in-Pixel- in-Memory Paradigm for Resource-Constrained TinyML Applications ( http://arxiv.org/abs/2203.04737v1 )

ライセンス: CC BY 4.0
Gourav Datta, Souvik Kundu, Zihan Yin, Ravi Teja Lakkireddy, Peter A. Beerel, Ajey Jacob, Akhilesh R. Jaiswal(参考訳) 最先端の高解像度カメラから生成される膨大なデータを処理したいという要求は、新しいエネルギー効率のオンデバイスAIソリューションを動機付けている。 このようなカメラの視覚データは、通常、センサーピクセルアレイによってアナログ電圧の形でキャプチャされ、アナログからデジタルへのコンバータ(ADC)を使用してその後のAI処理のためにデジタルドメインに変換される。 近年の研究では、近距離およびインセンサ処理という形で、AI計算を部分的に画素アレイの周辺で、一部はオンボードCPU/アクセラレータで行うという、非常に並列な低消費電力アナログ/デジタルコンピューティングの活用が試みられている。 残念ながら、高解像度の入力画像は、カメラとAI処理ユニットの間でフレームごとにストリームされ、エネルギー、帯域幅、セキュリティボトルネックを引き起こす必要がある。 この問題を軽減するために,アナログマルチチャネル,マルチビット畳み込み,ReLU(Rectified Linear Units)のサポートを追加して,画素配列をカスタマイズする新しいProcessing-in-Pixel- in-Memory(P2M)パラダイムを提案する。 我々のソリューションは、全体論的アルゴリズム-回路共設計アプローチを含み、結果として生じるP2Mパラダイムは、ファウンデーリ-製造可能なCMOSイメージセンサプラットフォーム内に、メモリ集約型の最初の数層の畳み込みニューラルネットワーク(CNN)モデルを埋め込むためのドロップイン代替として使用できる。 実験の結果,P2M はセンサやアナログからデジタル変換へのデータ転送帯域を ~21倍削減し,VWW の TinyML ユースケースにおける MobileNetV2 モデル処理時に発生するエネルギ遅延生成物 (EDP) を,通常の近接処理やインセンサ実装と比較して ~11倍削減できることがわかった。

The demand to process vast amounts of data generated from state-of-the-art high resolution cameras has motivated novel energy-efficient on-device AI solutions. Visual data in such cameras are usually captured in the form of analog voltages by a sensor pixel array, and then converted to the digital domain for subsequent AI processing using analog-to-digital converters (ADC). Recent research has tried to take advantage of massively parallel low-power analog/digital computing in the form of near- and in-sensor processing, in which the AI computation is performed partly in the periphery of the pixel array and partly in a separate on-board CPU/accelerator. Unfortunately, high-resolution input images still need to be streamed between the camera and the AI processing unit, frame by frame, causing energy, bandwidth, and security bottlenecks. To mitigate this problem, we propose a novel Processing-in-Pixel- in-memory (P2M) paradigm, that customizes the pixel array by adding support for analog multi-channel, multi-bit convolution and ReLU (Rectified Linear Units). Our solution includes a holistic algorithm-circuit co-design approach and the resulting P2M paradigm can be used as a drop-in replacement for embedding memory-intensive first few layers of convolutional neural network (CNN) models within foundry-manufacturab le CMOS image sensor platforms. Our experimental results indicate that P2M reduces data transfer bandwidth from sensors and analog to digital conversions by ~21x, and the energy-delay product (EDP) incurred in processing a MobileNetV2 model on a TinyML use case for visual wake words dataset (VWW) by up to ~11x compared to standard near-processing or in-sensor implementations, without any significant drop in test accuracy.
翻訳日:2022-03-12 04:59:46 公開日:2022-03-07
# (参考訳) ModDrop++: 欠損型多発性硬化症病変に対するオブジェクト内コトレーニング付き動的フィルタネットワーク [全文訳有]

ModDrop++: A Dynamic Filter Network with Intra-subject Co-training for Multiple Sclerosis Lesion Segmentation with Missing Modalities ( http://arxiv.org/abs/2203.04959v1 )

ライセンス: CC BY 4.0
Han Liu, Yubo Fan, Hao Li, Jiacheng Wang, Dewei Hu, Can Cui, Ho Hin Lee, Ipek Oguz(参考訳) 多発性硬化症(Multiple Sclerosis, MS)は慢性神経炎症性疾患であり, 多発性関節症はMS病変の監視に日常的に用いられている。 多くの自動MS病変分割モデルが開発され、人間レベルの性能に達した。 しかし、ほとんどの確立された方法は、訓練中に使用するMRIモダリティも検査中に利用できると仮定している。 モダリティ・ドロップアウト(Modality Dropout, ModDrop)と呼ばれるトレーニング戦略がMS病変のセグメンテーションに適用され, モダリティの欠如に対する最先端性を実現している。 本稿では,任意の入力MRIシーケンスに対応する統一ネットワークをトレーニングするModDrop++を提案する。 さらにModDrop++は既存のモデルアーキテクチャにも簡単に適用できる。 具体的には、ModDrop++はModDropの主なアイデアを2つの重要な方法でアップグレードする。 まず、プラグアンドプレイのダイナミックヘッドを考案し、ネットワークの表現性を改善するためにフィルタスケーリング戦略を採用する。 第2に,完全モダリティと欠如モダリティの間のサブジェクト内関係を活用するためのコトレーニング戦略を設計する。 特に、サブジェクト内コトレーニング戦略は、ダイナミックヘッドが同じ主題から全モダリティデータと欠落モダリティデータの間の類似した特徴表現を生成するように誘導することを目的としている。 ModDrop++の優位性を示すために、2つの公開MSデータセットを使用します。 ソースコードとトレーニングされたモデルはhttps://github.com/h an-liu/moddroppluspl usで入手できる。

Multiple Sclerosis (MS) is a chronic neuroinflammatory disease and multi-modality MRIs are routinely used to monitor MS lesions. Many automatic MS lesion segmentation models have been developed and have reached human-level performance. However, most established methods assume the MRI modalities used during training are also available during testing, which is not guaranteed in clinical practice. A training strategy termed Modality Dropout (ModDrop) has been applied to MS lesion segmentation to achieve the state-of-the-art performance for missing modality. We present a novel method dubbed ModDrop++ to train a unified network adaptive to an arbitrary number of input MRI sequences. Moreover, ModDrop++ can be easily applied to any existing model architectures. Specifically, ModDrop++ upgrades the main idea of ModDrop in two key ways. First, we devise a plug-and-play dynamic head and adopt a filter scaling strategy to improve the expressiveness of the network. Second, we design a co-training strategy to leverage the intra-subject relation between full modality and missing modality. In particular, the intra-subject co-training strategy aims to guide the dynamic head to generate similar feature representations between the full- and missing-modality data from the same subject. We use two public MS datasets to show the superiority of ModDrop++. Source code and trained models are available at https://github.com/h an-liu/ModDropPlusPl us.
翻訳日:2022-03-12 04:32:58 公開日:2022-03-07
# (参考訳) 長い列のマルチグリッド解法を用いたgrgネットワークの並列学習 [全文訳有]

Parallel Training of GRU Networks with a Multi-Grid Solver for Long Sequences ( http://arxiv.org/abs/2203.04738v1 )

ライセンス: CC BY 4.0
Gordon Euhyun Moon, Eric C. Cyr(参考訳) GRU(Gated Recurrent Unit)ネットワークの並列化は、GRUのトレーニング手順が本質的にシーケンシャルであるため、難しい課題である。 GRUを並列化する以前の取り組みは、データ並列やモデル並列トレーニングアルゴリズムといった従来の並列化戦略に重点を置いていた。 しかし、与えられたシーケンスが非常に長い場合、既存のアプローチはトレーニング時間に関して必然的にパフォーマンスが制限されている。 本稿では,grit(multigrid reduction in time)ソルバに基づくgrgの並列学習方式(parallel-in-time)を提案する。 MGRITはシーケンスを複数の短いサブシーケンスに分割し、異なるプロセッサ上のサブシーケンスを並列に訓練する。 速度アップを達成する鍵は、勾配降下の前方および後方伝播位相の両方においてエンドツーエンド通信を加速するための隠れ状態の階層的補正である。 各ビデオが画像シーケンスであるhmdb51データセットの実験結果は、新しい並列トレーニングスキームがシリアルアプローチで最大6.5$\times$のスピードアップを達成していることを示している。 新しい並列化戦略の効率はシーケンス長に関連し、並列gruアルゴリズムはシーケンス長が増加するにつれて大幅に性能が向上する。

Parallelizing Gated Recurrent Unit (GRU) networks is a challenging task, as the training procedure of GRU is inherently sequential. Prior efforts to parallelize GRU have largely focused on conventional parallelization strategies such as data-parallel and model-parallel training algorithms. However, when the given sequences are very long, existing approaches are still inevitably performance limited in terms of training time. In this paper, we present a novel parallel training scheme (called parallel-in-time) for GRU based on a multigrid reduction in time (MGRIT) solver. MGRIT partitions a sequence into multiple shorter sub-sequences and trains the sub-sequences on different processors in parallel. The key to achieving speedup is a hierarchical correction of the hidden state to accelerate end-to-end communication in both the forward and backward propagation phases of gradient descent. Experimental results on the HMDB51 dataset, where each video is an image sequence, demonstrate that the new parallel training scheme achieves up to 6.5$\times$ speedup over a serial approach. As efficiency of our new parallelization strategy is associated with the sequence length, our parallel GRU algorithm achieves significant performance improvement as the sequence length increases.
翻訳日:2022-03-11 11:27:18 公開日:2022-03-07
# (参考訳) 分子生成のためのスコアベース生成モデル [全文訳有]

Score-Based Generative Models for Molecule Generation ( http://arxiv.org/abs/2203.04698v1 )

ライセンス: CC BY 4.0
Dwaraknath Gnaneshwar, Bharath Ramsundar, Dhairya Gandhi, Rachel Kurchin, Venkatasubramanian Viswanathan(参考訳) 生成モデルの最近の進歩により、デ・ノボ分子生成のための設計空間の探索が容易になった。 しかし、GANや正規化フローといった一般的な生成モデルは、それぞれ対向的なトレーニングやアーキテクチャ上の制約によるトレーニング不安定のような課題に直面している。 スコアに基づく生成モデルは、スコア関数近似を用いてログ確率密度の勾配をモデル化し、密度関数を直接モデル化し、アニールしたランジュバンダイナミクスを用いてサンプリングすることで、これらの課題を回避している。 スコアベースの生成モデルは、スコア関数をSE(3)同変モデルに置き換えるなど、その構造的柔軟性のために分子生成の新しい機会を開こうと考えている。 本研究では,スコアモデルによる分子生成の有効性をテストすることで基礎を築いた。 我々は、ZINCデータセットから150万個のサンプルの自己参照組込み文字列(SELFIES)表現上でTransformerベースのスコア関数をトレーニングし、Mosesベンチマークフレームワークを使用して、生成されたサンプルを一連のメトリクスで評価する。

Recent advances in generative models have made exploring design spaces easier for de novo molecule generation. However, popular generative models like GANs and normalizing flows face challenges such as training instabilities due to adversarial training and architectural constraints, respectively. Score-based generative models sidestep these challenges by modelling the gradient of the log probability density using a score function approximation, as opposed to modelling the density function directly, and sampling from it using annealed Langevin Dynamics. We believe that score-based generative models could open up new opportunities in molecule generation due to their architectural flexibility, such as replacing the score function with an SE(3) equivariant model. In this work, we lay the foundations by testing the efficacy of score-based models for molecule generation. We train a Transformer-based score function on Self-Referencing Embedded Strings (SELFIES) representations of 1.5 million samples from the ZINC dataset and use the Moses benchmarking framework to evaluate the generated samples on a suite of metrics.
翻訳日:2022-03-11 11:08:17 公開日:2022-03-07
# (参考訳) 癌細胞イメージングデータにおける時間的および形態的薬物効果の解析のための自己教師付き学習 [全文訳有]

Self-supervised learning for analysis of temporal and morphological drug effects in cancer cell imaging data ( http://arxiv.org/abs/2203.04289v1 )

ライセンス: CC BY 4.0
Andrei Dmitrenko, Mauro M. Masiero and Nicola Zamboni(参考訳) 本研究では,画像データを用いて実験条件の違いによる時間的および形態的表現型効果を研究する2つの手法を提案する。 概念実証として、2D癌細胞培養における薬物効果の解析に応用する。 1m画像データセット上で畳み込みオートエンコーダをランダムな拡張とマルチクロップを用いて訓練し,特徴抽出を行う。 我々は、それを事前訓練された最先端モデルと比較する。 さらに2つの方法で特徴抽出器を使用する。 まず,31種類の薬物のクラスター時間パターンに距離に基づく解析と動的時間ゆがみを適用した。 薬物のアノテーションを細胞毒性、細胞質性、混合、無効果とみなすクラスターを同定した。 第2に,31種類の薬物の分類を改善し,その改善に寄与する画像領域を可視化するために,敵対的/正規化学習設定を実装した。 形態学的特徴重要度マップの平均およびマイニング例において,top-3分類精度を8%向上させた。 生物学における伝達学習の応用を促進するための特徴抽出器と重みを提供する。 また,他のバイオメディカルデータに対する事前学習モデルの有用性と本手法の適用性についても論じる。

In this work, we propose two novel methodologies to study temporal and morphological phenotypic effects caused by different experimental conditions using imaging data. As a proof of concept, we apply them to analyze drug effects in 2D cancer cell cultures. We train a convolutional autoencoder on 1M images dataset with random augmentations and multi-crops to use as feature extractor. We systematically compare it to the pretrained state-of-the-art models. We further use the feature extractor in two ways. First, we apply distance-based analysis and dynamic time warping to cluster temporal patterns of 31 drugs. We identify clusters allowing annotation of drugs as having cytotoxic, cytostatic, mixed or no effect. Second, we implement an adversarial/regulari zed learning setup to improve classification of 31 drugs and visualize image regions that contribute to the improvement. We increase top-3 classification accuracy by 8% on average and mine examples of morphological feature importance maps. We provide the feature extractor and the weights to foster transfer learning applications in biology. We also discuss utility of other pretrained models and applicability of our methods to other types of biomedical data.
翻訳日:2022-03-11 11:01:33 公開日:2022-03-07
# (参考訳) 文字アニメーションにおける強化学習手法に関する調査研究 [全文訳有]

A Survey on Reinforcement Learning Methods in Character Animation ( http://arxiv.org/abs/2203.04735v1 )

ライセンス: CC BY 4.0
Ariel Kwiatkowski, Eduardo Alvarado, Vicky Kalogeiton, C. Karen Liu, Julien Pettr\'e, Michiel van de Panne, Marie-Paule Cani(参考訳) 強化学習(Reinforcement Learning)は、エージェントがシーケンシャルな意思決定を行い、任意の環境で特定の目標を達成する方法をトレーニングする方法に焦点を当てた機械学習の分野である。 学習中、彼らは環境の観察に基づいて繰り返し行動を取り、目的を定義する適切な報酬を受け取る。 この経験は、通常ニューラルネットワークで表現されるエージェントの振る舞いを制御するポリシーを徐々に改善するために使われる。 このトレーニングされたモジュールは、同様の問題に対して再利用できるため、シミュレータやビデオゲーム、仮想現実環境において、自律的でリアクティブなキャラクタのアニメーションを約束することができる。 本稿では,現代的深層強化学習法を調査し,その文字アニメーションにおける応用可能性について考察する。 また、DRLシステムのトレーニングの実践的な側面についても述べており、そのようなエージェントを構築するために利用可能な様々なフレームワークを比較している。

Reinforcement Learning is an area of Machine Learning focused on how agents can be trained to make sequential decisions, and achieve a particular goal within an arbitrary environment. While learning, they repeatedly take actions based on their observation of the environment, and receive appropriate rewards which define the objective. This experience is then used to progressively improve the policy controlling the agent's behavior, typically represented by a neural network. This trained module can then be reused for similar problems, which makes this approach promising for the animation of autonomous, yet reactive characters in simulators, video games or virtual reality environments. This paper surveys the modern Deep Reinforcement Learning methods and discusses their possible applications in Character Animation, from skeletal control of a single, physically-based character to navigation controllers for individual agents and virtual crowds. It also describes the practical side of training DRL systems, comparing the different frameworks available to build such agents.
翻訳日:2022-03-11 10:48:13 公開日:2022-03-07
# グラフニューラルネットワークにおける非平衡分子ジオメトリ

Non-equilibrium molecular geometries in graph neural networks ( http://arxiv.org/abs/2203.04697v1 )

ライセンス: Link先を確認
Ali Raza, E. Adrian Henle, Xiaoli Fern(参考訳) グラフニューラルネットワークは、複雑な構造-物性関係と化合物の高速スクリーニングを学ぶための強力なフレームワークとなっている。 近年,分子の3次元形状情報と結合構造を併用することにより,幅広い特性のより正確な予測が可能であることが示唆されている。 一般的なプラクティスは、モデルのトレーニングとテストの両方に密度汎関数理論(DFT)を通して計算される3Dジオメトリを使用することである。 しかし、DFT計算に必要な計算時間は非常に大きい。 さらに,3次元幾何情報を生成するために使用されるDFT計算の上のオーバーヘッドがほとんどあるいは全くなく,予測モデルの必要性を排除して,予測する特性の多くを得ることが可能である。 高スループットの化学スクリーニングや薬物発見に実用的に有用であるためには、より精度の低い、より効率的な非DFT法を用いて得られる3Dジオメトリーを扱うことが望ましい。 本研究では,既存のモデルのトレーニングおよびテストにおける非dftコンフォメーションの利用が与える影響について検討し,古典的力場由来のジオメトリの予測精度を向上させるためのデータ拡張法を提案する。

Graph neural networks have become a powerful framework for learning complex structure-property relationships and fast screening of chemical compounds. Recently proposed methods have demonstrated that using 3D geometry information of the molecule along with the bonding structure can lead to more accurate prediction on a wide range of properties. A common practice is to use 3D geometries computed through density functional theory (DFT) for both training and testing of models. However, the computational time needed for DFT calculations can be prohibitively large. Moreover, many of the properties that we aim to predict can often be obtained with little or no overhead on top of the DFT calculations used to produce the 3D geometry information, voiding the need for a predictive model. To be practically useful for high-throughput chemical screening and drug discovery, it is desirable to work with 3D geometries obtained using less-accurate but much more efficient non-DFT methods. In this work we investigate the impact of using non-DFT conformations in the training and the testing of existing models and propose a data augmentation method for improving the prediction accuracy of classical forcefield-derived geometries.
翻訳日:2022-03-10 17:02:37 公開日:2022-03-07
# art-attack: 進化的アートによるブラックボックス攻撃

Art-Attack: Black-Box Adversarial Attack via Evolutionary Art ( http://arxiv.org/abs/2203.04405v1 )

ライセンス: Link先を確認
Phoenix Williams, Ke Li(参考訳) ディープニューラルネットワーク(DNN)は多くのタスクで最先端のパフォーマンスを達成したが、敵の例によって生成された攻撃に対して極端な脆弱性を示している。 多くの作業は、そのアーキテクチャや勾配を含むターゲットモデルへの完全なアクセスを前提としたホワイトボックス攻撃を伴う。 より現実的な仮定はブラックボックスのシナリオであり、攻撃者は入力をクエリして予測されたクラスの確率を観察することでターゲットモデルにのみアクセスすることができる。 代用モデルや勾配推定を用いた一般的なブラックボックス攻撃とは違って, 進化的手法を用いて, 重複する透明な形状の集合を反復的に進化させる逆例を生成することにより, 勾配のない攻撃を提案する。 提案手法の有効性を評価するため,CIFAR-10データセットで訓練された3つの最先端画像分類モデルを標的として攻撃する。 提案する攻撃性能に及ぼす形状の数と種類の影響についてパラメータスタディを行った。 最先端のブラックボックス攻撃と比較して,本攻撃は攻撃例の生成に効果的であり,3つのベースラインモデルにおいて高い攻撃成功率を達成している。

Deep neural networks (DNNs) have achieved state-of-the-art performance in many tasks but have shown extreme vulnerabilities to attacks generated by adversarial examples. Many works go with a white-box attack that assumes total access to the targeted model including its architecture and gradients. A more realistic assumption is the black-box scenario where an attacker only has access to the targeted model by querying some input and observing its predicted class probabilities. Different from most prevalent black-box attacks that make use of substitute models or gradient estimation, this paper proposes a gradient-free attack by using a concept of evolutionary art to generate adversarial examples that iteratively evolves a set of overlapping transparent shapes. To evaluate the effectiveness of our proposed method, we attack three state-of-the-art image classification models trained on the CIFAR-10 dataset in a targeted manner. We conduct a parameter study outlining the impact the number and type of shapes have on the proposed attack's performance. In comparison to state-of-the-art black-box attacks, our attack is more effective at generating adversarial examples and achieves a higher attack success rate on all three baseline models.
翻訳日:2022-03-10 16:58:50 公開日:2022-03-07
# VOC, CO$_2$, その他の環境因子のモニタリングによる建築物の稼働状況の統計モデルによる検出

Using Statistical Models to Detect Occupancy in Buildings through Monitoring VOC, CO$_2$, and other Environmental Factors ( http://arxiv.org/abs/2203.04750v1 )

ライセンス: Link先を確認
Mahsa Pahlavikhah Varnosfaderani, Arsalan Heydarian, Farrokh Jazizadeh(参考訳) 占有パターンの動的モデルは,建築システムの最適化に有効であることが示されている。 これまでの研究は、占有パターンを決定するためにco$_2$センサーと視覚に基づく技術に頼ってきた。 視覚に基づく技術は、非常に正確な情報を提供するが、非常に侵入的である。 したがって、モーションやco$_2$センサーは世界中で広く採用されている。 揮発性有機化合物(VOCs、Volatile Organic Compounds)は、別の汚染物質である。 しかしながら、住民がVOCレベルに与える影響を評価する研究は限られている。 本研究では,17,000 sqftのオープンオフィス空間で約4ヶ月間,co$_2$,voc,光,温度,湿度の連続測定を行った。 異なる統計モデル (svm, k-nearest neighbors, and random forest など) を用いて, 環境要因の組み合わせにより, 居住者の存在に関するより正確な洞察が得られるかを評価した。 以上の結果から,VOCは占有率の指標として有用であることが示唆された。 また、適切な特徴選択と適切なグローバル占有検知モデルの開発は、精度に大きな影響を与えることなく、データ収集のコストとエネルギーを削減できると結論づけた。

Dynamic models of occupancy patterns have shown to be effective in optimizing building-systems operations. Previous research has relied on CO$_2$ sensors and vision-based techniques to determine occupancy patterns. Vision-based techniques provide highly accurate information; however, they are very intrusive. Therefore, motion or CO$_2$ sensors are more widely adopted worldwide. Volatile Organic Compounds (VOCs) are another pollutant originating from the occupants. However, a limited number of studies have evaluated the impact of occupants on the VOC level. In this paper, continuous measurements of CO$_2$, VOC, light, temperature, and humidity were recorded in a 17,000 sqft open office space for around four months. Using different statistical models (e.g., SVM, K-Nearest Neighbors, and Random Forest) we evaluated which combination of environmental factors provides more accurate insights on occupant presence. Our preliminary results indicate that VOC is a good indicator of occupancy detection in some cases. It is also concluded that proper feature selection and developing appropriate global occupancy detection models can reduce the cost and energy of data collection without a significant impact on accuracy.
翻訳日:2022-03-10 16:19:27 公開日:2022-03-07
# 残留ライナーネットワーク

Residual Aligner Network ( http://arxiv.org/abs/2203.04290v1 )

ライセンス: Link先を確認
Jian-Qing Zheng, Ziyang Wang, Baoru Huang, Ngee Han Lim, Bartlomiej W. Papiez(参考訳) 画像登録は、異なる画像間の空間変換を推定する医療画像にとって重要である。 これまで多くの研究は、3d画像の登録を効率的に行うために、粗細な登録のための学習ベースの手法を用いてきた。 しかし、粗く細かいアプローチは、近くの物体の異なる動きを扱う場合に限られる。 本稿では,領域内の異なる動きをキャプチャする新しい動き認識(ma)構造を提案する。 MA構造にはResidual Aligner (RA) モジュールが組み込まれており、複数の隣接する物体の異なる動きを歪めるために使用される多頭部変位場を予測する。 他の深層学習法と比較すると、MA構造とRAモジュールに基づくネットワークは、腹部CTスキャンにおける9つの臓器の分類された大きさの最も正確な対象間登録の1つを達成し、静脈の最高位 (Dice similarity Coefficient / Average surface distance:62\%/4.9mm、門脈および脾静脈34\%/7.9mm) が得られた。 胸部CTにおける肺のセグメンテーションに応用した新しいネットワークは、最良のネットワーク(94\%/3.0mm)と区別できない結果が得られる。 さらに, 予測運動パターンに関する定理とma構造の設計を, さらなる解析により検証する。

Image registration is important for medical imaging, the estimation of the spatial transformation between different images. Many previous studies have used learning-based methods for coarse-to-fine registration to efficiently perform 3D image registration. The coarse-to-fine approach, however, is limited when dealing with the different motions of nearby objects. Here we propose a novel Motion-Aware (MA) structure that captures the different motions in a region. The MA structure incorporates a novel Residual Aligner (RA) module which predicts the multi-head displacement field used to disentangle the different motions of multiple neighbouring objects. Compared with other deep learning methods, the network based on the MA structure and RA module achieve one of the most accurate unsupervised inter-subject registration on the 9 organs of assorted sizes in abdominal CT scans, with the highest-ranked registration of the veins (Dice Similarity Coefficient / Average surface distance: 62\%/4.9mm for the vena cava and 34\%/7.9mm for the portal and splenic vein), with a half-sized structure and more efficient computation. Applied to the segmentation of lungs in chest CT scans, the new network achieves results which were indistinguishable from the best-ranked networks (94\%/3.0mm). Additionally, the theorem on predicted motion pattern and the design of MA structure are validated by further analysis.
翻訳日:2022-03-10 16:15:29 公開日:2022-03-07
# ごく少数の事例から学ぶ:小ショット学習へのアプローチの概要

Learning from Few Examples: A Summary of Approaches to Few-Shot Learning ( http://arxiv.org/abs/2203.04291v1 )

ライセンス: Link先を確認
Archit Parnami and Minwoo Lee(参考訳) Few-Shot Learningは、いくつかのトレーニングサンプルからデータの基本パターンを学習する問題を指す。 大量のデータサンプルを必要とする深層学習ソリューションの多くは、データハンガーと膨大な計算時間とリソースに苦しむ。 さらに、問題の性質やプライバシの問題だけでなく、データ準備のコストのために、データが利用できないこともしばしばあります。 データ収集、前処理、ラベル付けは厳しい人間のタスクです。 したがって、機械学習アプリケーション構築のターンアラウンド時間を劇的に短縮できるようなショットラーニングは、低コストのソリューションとして現れます。 本研究は,最近提案された数ショット学習アルゴリズムの代表的リストを構成する。 学習力学と特徴を考慮し、メタラーニング、トランスファーラーニング、ハイブリッドアプローチ(すなわち、少数ショットラーニング問題の異なるバリエーション)の観点から、少数ショットラーニング問題に対するアプローチについて議論する。

Few-Shot Learning refers to the problem of learning the underlying pattern in the data just from a few training samples. Requiring a large number of data samples, many deep learning solutions suffer from data hunger and extensively high computation time and resources. Furthermore, data is often not available due to not only the nature of the problem or privacy concerns but also the cost of data preparation. Data collection, preprocessing, and labeling are strenuous human tasks. Therefore, few-shot learning that could drastically reduce the turnaround time of building machine learning applications emerges as a low-cost solution. This survey paper comprises a representative list of recently proposed few-shot learning algorithms. Given the learning dynamics and characteristics, the approaches to few-shot learning problems are discussed in the perspectives of meta-learning, transfer learning, and hybrid approaches (i.e., different variations of the few-shot learning problem).
翻訳日:2022-03-10 14:55:21 公開日:2022-03-07
# ImageNet-Patch: 敵対的パッチに対するロバストネスをベンチマークするデータセット

ImageNet-Patch: A Dataset for Benchmarking Machine Learning Robustness against Adversarial Patches ( http://arxiv.org/abs/2203.04412v1 )

ライセンス: Link先を確認
Maura Pintor, Daniele Angioni, Angelo Sotgiu, Luca Demetrio, Ambra Demontis, Battista Biggio, Fabio Roli(参考訳) 悪意あるパッチは、入力画像内の連続したピクセルブロックを最適化し、機械学習モデルに誤分類させる。 しかし、それらの最適化は計算上必要であり、注意深いハイパーパラメータチューニングが必要であり、潜在的に最適なロバスト性評価につながる可能性がある。 これらの問題を克服するために,機械学習モデルを逆パッチに対してベンチマークするデータセットであるImageNet-Patchを提案する。 それは一連のパッチで構成され、異なるモデルにまたがって一般化するように最適化され、アフィン変換で前処理した後、簡単にimagenetデータに適用できる。 このプロセスは、対向摂動の伝達可能性を利用して、近似的かつ高速なロバスト性評価を可能にする。 127モデルに対する計算パッチの有効性をテストすることにより,このデータセットの有用性を示す。 最後に、私たちのデータセットが堅牢性のベンチマークとしてどのように使われるか、私たちの方法論が他のドメインにどのように一般化できるかを論じて締めくくっています。 私たちはデータセットと評価コードをhttps://github.com/p ralab/ImageNet-Patch .comで公開しています。

Adversarial patches are optimized contiguous pixel blocks in an input image that cause a machine-learning model to misclassify it. However, their optimization is computationally demanding, and requires careful hyperparameter tuning, potentially leading to suboptimal robustness evaluations. To overcome these issues, we propose ImageNet-Patch, a dataset to benchmark machine-learning models against adversarial patches. It consists of a set of patches, optimized to generalize across different models, and readily applicable to ImageNet data after preprocessing them with affine transformations. This process enables an approximate yet faster robustness evaluation, leveraging the transferability of adversarial perturbations. We showcase the usefulness of this dataset by testing the effectiveness of the computed patches against 127 models. We conclude by discussing how our dataset could be used as a benchmark for robustness, and how our methodology can be generalized to other domains. We open source our dataset and evaluation code at https://github.com/p ralab/ImageNet-Patch .
翻訳日:2022-03-10 14:47:57 公開日:2022-03-07
# (参考訳) insightnet:顔ビデオに基づく非接触血圧測定ネットワーク [全文訳有]

InsightNet: non-contact blood pressure measuring network based on face video ( http://arxiv.org/abs/2203.03634v1 )

ライセンス: CC BY 4.0
Jialiang Zhuang and Bin Li and Yun Zhang and Xiujuan Zheng(参考訳) 血圧は心機能と末梢血管抵抗を示し、疾患の診断に重要である。 伝統的に、血圧データは主にコンタクトセンサーを通じて取得され、高いメンテナンスを必要とし、一部の人々(例えば、燃える患者)にとって不便で不便である。 本稿では, 顔映像に基づく非接触血圧測定ネットワークを初めて提案する。 不均衡なデータ分散を扱うために,革新的なオーバーサンプリングトレーニング戦略を提案する。 入力ビデオシーケンスはまず正規化され、提案したYUVT色空間に変換される。 そして、時空間スライサがそれを多領域時空間マッピングに符号化する。 最後に、抽出された高次元特徴を用いてlstmを用いた時間領域特徴結合を強化する多領域空間特徴マッピングの高次元特徴抽出に用いられるニューラルネットワーク計算モジュールを血圧分類器によって算出し、血圧測定間隔を得る。 特徴抽出の出力と分類後の結果を組み合わせることで、血圧計は血圧測定値を算出する。 このソリューションは血圧分類器を使用して血圧間隔を計算し、ニューラルネットワークが血圧間隔の異なる高次元の特徴を区別し、オーバーフィッティング現象を緩和するのに役立つ。 また、血圧間隔を割り出し、最終的な血圧値を補正し、ネットワーク性能を向上させることもできる。 2つのデータセットの実験結果は、ネットワークが既存の最先端手法よりも優れていることを示している。

Blood pressure indicates cardiac function and peripheral vascular resistance and is critical for disease diagnosis. Traditionally, blood pressure data are mainly acquired through contact sensors, which require high maintenance and may be inconvenient and unfriendly to some people (e.g., burn patients). In this paper, an efficient non-contact blood pressure measurement network based on face videos is proposed for the first time. An innovative oversampling training strategy is proposed to handle the unbalanced data distribution. The input video sequences are first normalized and converted to our proposed YUVT color space. Then, the Spatio-temporal slicer encodes it into a multi-domain Spatio-temporal mapping. Finally, the neural network computation module, used for high-dimensional feature extraction of the multi-domain spatial feature mapping, after which the extracted high-dimensional features are used to enhance the time-domain feature association using LSTM, is computed by the blood pressure classifier to obtain the blood pressure measurement intervals. Combining the output of feature extraction and the result after classification, the blood pressure calculator, calculates the blood pressure measurement values. The solution uses a blood pressure classifier to calculate blood pressure intervals, which can help the neural network distinguish between the high-dimensional features of different blood pressure intervals and alleviate the overfitting phenomenon. It can also locate the blood pressure intervals, correct the final blood pressure values and improve the network performance. Experimental results on two datasets show that the network outperforms existing state-of-the-art methods.
翻訳日:2022-03-10 06:12:11 公開日:2022-03-07
# (参考訳) 明示的特徴マップ領域における低次元データのクラスタリングと分類 : 術中の肝大腸腺癌の診断 [全文訳有]

Clustering and classification of low-dimensional data in explicit feature map domain: intraoperative pixel-wise diagnosis of adenocarcinoma of a colon in a liver ( http://arxiv.org/abs/2203.03636v1 )

ライセンス: CC BY 4.0
Dario Sitnik and Ivica Kopriva(参考訳) 医学における人工知能の応用は、複雑なモデルによって達成された高精度な予測をもたらす。 これらの一般化能力は、凍結部組織解析で発生する画素ワイズアノテート画像の欠如により低下させることができる。 本稿では、このギャップを部分的に克服するために、低次元データの近似明示的特徴写像(aefm)をヒルベルト空間内の低次元部分空間へ変換する。 そこでは、計算複雑性がわずかに増加し、線形アルゴリズムは性能を改善し、解釈可能性を維持する。 非線形アルゴリズムではささいな問題ではないインクリメンタルな学習に順応できる。 肝内大腸腺癌の術中pixel-wiseセマンティックセグメンテーションとクラスタリングに関する超大規模問題に対して提案手法を提示する。 入力空間における結果と比較すると、ロジスティック分類器はマイクロバランス精度の統計的に有意な性能改善を達成し、f1スコアはそれぞれ12.04%と12.58%であった。 サポートベクターマシン分類器は8.04%と9.41%の増加をもたらした。 クラスタリングでは、超大規模スペクトルクラスタリングアルゴリズムにより0.79%と0.85%の増加が得られる。 その結果,入力空間およびaEFM誘導空間における線形分類器の予測に対して,形状付加的説明値を用いた解釈可能性に関する議論が支持された。

Application of artificial intelligence in medicine brings in highly accurate predictions achieved by complex models, the reasoning of which is hard to interpret. Their generalization ability can be reduced because of the lack of pixel wise annotated images that occurs in frozen section tissue analysis. To partially overcome this gap, this paper explores the approximate explicit feature map (aEFM) transform of low-dimensional data into a low-dimensional subspace in Hilbert space. There, with a modest increase in computational complexity, linear algorithms yield improved performance and keep interpretability. They remain amenable to incremental learning that is not a trivial issue for some nonlinear algorithms. We demonstrate proposed methodology on a very large-scale problem related to intraoperative pixel-wise semantic segmentation and clustering of adenocarcinoma of a colon in a liver. Compared to the results in the input space, logistic classifier achieved statistically significant performance improvements in micro balanced accuracy and F1 score in the amounts of 12.04% and 12.58%, respectively. Support vector machine classifier yielded the increase of 8.04% and 9.41%. For clustering, increases of 0.79% and 0.85% are obtained with ultra large-scale spectral clustering algorithm. Results are supported by a discussion of interpretability using Shapely additive explanation values for predictions of linear classifier in input space and aEFM induced space.
翻訳日:2022-03-10 06:04:24 公開日:2022-03-07
# (参考訳) 異なるAIパラダイム、強化および収穫戦略で学習した生物学的データの表現の比較 [全文訳有]

Comparing representations of biological data learned with different AI paradigms, augmenting and cropping strategies ( http://arxiv.org/abs/2203.04107v1 )

ライセンス: CC BY 4.0
Andrei Dmitrenko, Mauro M. Masiero and Nicola Zamboni(参考訳) コンピュータビジョンとロボット工学の最近の進歩により、大規模な生物画像解析が自動化された。 表現型プロファイリングに様々な機械学習アプローチがうまく適用されている。 しかし, 生物学的特徴抽出の観点からどう比較されるかは明らかになっていない。 本研究では,シンプルなCNNアーキテクチャを提案し,4つの異なる表現学習手法を実装した。 770kの癌細胞イメージデータセットに16のディープラーニング設定を同一条件でトレーニングし、異なる増量と収穫戦略を用いた。 3つの下流タスクごとに複数のメトリクスを評価することで、学習した表現を比較する。 一 既知の薬物の距離に基づく類似性分析 二 薬物と対照薬の分類 三 細胞線内に集結すること。 トレーニング時間とメモリ使用量も比較します。 テストされたすべてのセットアップの中で、マルチクロップとランダムな拡張により、予想通りタスク間でのパフォーマンスが向上した。 興味深いことに、自己監督型(単純な対照的な学習)モデルでは、競争性能はトレーニングの最大11倍速くなりました。 自己教師付き正規化学習は、最も有益な機能を提供するために、ほとんどのメモリと計算を必要とした。 強化戦略と切り抜き戦略の組み合わせが、タスク間で一貫してトップパフォーマンスをもたらすことはないことを観察し、今後の研究方向性を推奨する。

Recent advances in computer vision and robotics enabled automated large-scale biological image analysis. Various machine learning approaches have been successfully applied to phenotypic profiling. However, it remains unclear how they compare in terms of biological feature extraction. In this study, we propose a simple CNN architecture and implement 4 different representation learning approaches. We train 16 deep learning setups on the 770k cancer cell images dataset under identical conditions, using different augmenting and cropping strategies. We compare the learned representations by evaluating multiple metrics for each of three downstream tasks: i) distance-based similarity analysis of known drugs, ii) classification of drugs versus controls, iii) clustering within cell lines. We also compare training times and memory usage. Among all tested setups, multi-crops and random augmentations generally improved performance across tasks, as expected. Strikingly, self-supervised (implicit contrastive learning) models showed competitive performance being up to 11 times faster to train. Self-supervised regularized learning required the most of memory and computation to deliver arguably the most informative features. We observe that no single combination of augmenting and cropping strategies consistently results in top performance across tasks and recommend prospective research directions.
翻訳日:2022-03-10 05:41:18 公開日:2022-03-07
# (参考訳) OCTセグメンテーションのためのコントラスト学習による教師なしドメイン適応 [全文訳有]

Unsupervised Domain Adaptation with Contrastive Learning for OCT Segmentation ( http://arxiv.org/abs/2203.03664v1 )

ライセンス: CC BY 4.0
Alvaro Gomariz, Huanxiang Lu, Yun Yvonna Li, Thomas Albrecht, Andreas Maunz, Fethallah Benmansour, Alessandra M.Valcarcel, Jennifer Luu, Daniela Ferrara, Orcun Goksel(参考訳) 3次元光コヒーレンス断層画像における網膜液の正確な分画は、眼疾患の診断とパーソナライズのための鍵である。 このタスクではディープラーニングが成功したが、トレーニングされた教師付きモデルは、ラベル付き例に似ていない画像(例えば、異なるデバイスで取得した画像)では失敗することが多い。 本稿では,新しいラベルなし領域からのボリューム画像のセグメンテーションのための半教師あり学習フレームワークを提案する。 教師付き学習とコントラスト学習を併用し、3次元の近傍スライス間の類似性を利用したコントラストペア方式を導入する。 さらに,コントラスト的特徴マップ投影のための従来の空間プールアグリゲーションの代替として,チャネルワイズアグリゲーションを提案する。 我々は,異なる取得装置で取得した画像を含む,(ラベル付き)ソースドメインから(ラベルなし)ターゲットドメインへのドメイン適応手法を評価する。 対象領域において,本手法はSimCLR(最先端のコントラストフレームワーク)よりも13.8%高いDice係数を達成し,その領域における教師付きトレーニングの上限に匹敵する結果をもたらす。 ソースドメインでは、多くのラベルなし画像からの情報をうまく活用することで、結果が5.4%diceで改善されます。

Accurate segmentation of retinal fluids in 3D Optical Coherence Tomography images is key for diagnosis and personalized treatment of eye diseases. While deep learning has been successful at this task, trained supervised models often fail for images that do not resemble labeled examples, e.g. for images acquired using different devices. We hereby propose a novel semi-supervised learning framework for segmentation of volumetric images from new unlabeled domains. We jointly use supervised and contrastive learning, also introducing a contrastive pairing scheme that leverages similarity between nearby slices in 3D. In addition, we propose channel-wise aggregation as an alternative to conventional spatial-pooling aggregation for contrastive feature map projection. We evaluate our methods for domain adaptation from a (labeled) source domain to an (unlabeled) target domain, each containing images acquired with different acquisition devices. In the target domain, our method achieves a Dice coefficient 13.8% higher than SimCLR (a state-of-the-art contrastive framework), and leads to results comparable to an upper bound with supervised training in that domain. In the source domain, our model also improves the results by 5.4% Dice, by successfully leveraging information from many unlabeled images.
翻訳日:2022-03-10 05:25:20 公開日:2022-03-07
# (参考訳) AgraSSt: Inlicit Graph Generatorsの解釈可能な評価のための近似グラフスタイン統計

AgraSSt: Approximate Graph Stein Statistics for Interpretable Assessment of Implicit Graph Generators ( http://arxiv.org/abs/2203.03673v1 )

ライセンス: CC BY 4.0
Wenkai Xu and Gesine Reinert(参考訳) 明示的な形式では利用できないグラフ生成器の品質を評価するために,agrasstという新しい統計手法を提案し,解析する。 特に、agrasstは、学習グラフ生成プロセスが所定の入力グラフに似たグラフを生成することができるかどうかを判断するために使用できる。 ランダムグラフに対するスタイン作用素にインスパイアされたAgraSStのキーアイデアは、グラフ生成器から得られる演算子に基づくカーネルの差分性の構築である。 AgraSStはグラフジェネレータのトレーニング手順に対する解釈可能な批評を提供し、下流タスクの信頼できるサンプルバッチを特定するのに役立つ。 stein`s法を用いて、幅広いランダムグラフモデルのクラスに対して理論的保証を与える。 我々は、既知のグラフ生成手順を持つ合成入力グラフと、グラフの最先端(深度)生成モデルを訓練した実世界の入力グラフの両方について実験結果を提供する。

We propose and analyse a novel statistical procedure, coined AgraSSt, to assess the quality of graph generators that may not be available in explicit form. In particular, AgraSSt can be used to determine whether a learnt graph generating process is capable of generating graphs that resemble a given input graph. Inspired by Stein operators for random graphs, the key idea of AgraSSt is the construction of a kernel discrepancy based on an operator obtained from the graph generator. AgraSSt can provide interpretable criticisms for a graph generator training procedure and help identify reliable sample batches for downstream tasks. Using Stein`s method we give theoretical guarantees for a broad class of random graph models. We provide empirical results on both synthetic input graphs with known graph generation procedures, and real-world input graphs that the state-of-the-art (deep) generative models for graphs are trained on.
翻訳日:2022-03-10 05:09:52 公開日:2022-03-07
# (参考訳) WaveMix:画像のリソース効率の良いトケミキシング [全文訳有]

WaveMix: Resource-efficient Token Mixing for Images ( http://arxiv.org/abs/2203.03689v1 )

ライセンス: CC BY 4.0
Pranav Jeevan and Amit Sethi(参考訳) 特定の視覚変換器(ViT)とCNNアーキテクチャはビジョンタスクをうまく一般化するが、訓練やテストのための計算要求のため、グリーン、エッジ、デスクトップコンピューティングで使用することは現実的ではない。 本研究では,空間トークン混合のための多スケール2次元離散ウェーブレット変換(dwt)を用いたニューラルアーキテクチャとしてwavemixを提案する。 ViTとは異なり、WaveMixは画像をアンロールしたり、二次的な複雑さの自己注意を必要としない。 さらに、dwtは画像の2d構造を利用して一般化を改善するために、別の帰納的バイアス(畳み込みフィルタリング)を導入する。 DWTのマルチスケールの性質は、部分的な空間混合のプーリングに依存するため、CNNと比較してより深いアーキテクチャの必要性を低減させる。 WaveMixモデルは、いくつかのデータセット上でViT、CNN、トークンミキサーと競合する一般化を示し、低いGPU RAM(トレーニングとテスト)、計算数、ストレージを必要とする。 WaveMix は EMNIST Byclass と EMNIST Balanced データセットで State-of-the-art (SOTA) を達成している。

Although certain vision transformer (ViT) and CNN architectures generalize well on vision tasks, it is often impractical to use them on green, edge, or desktop computing due to their computational requirements for training and even testing. We present WaveMix as an alternative neural architecture that uses a multi-scale 2D discrete wavelet transform (DWT) for spatial token mixing. Unlike ViTs, WaveMix neither unrolls the image nor requires self-attention of quadratic complexity. Additionally, DWT introduces another inductive bias -- besides convolutional filtering -- to utilize the 2D structure of an image to improve generalization. The multi-scale nature of the DWT also reduces the requirement for a deeper architecture compared to the CNNs, as the latter relies on pooling for partial spatial mixing. WaveMix models show generalization that is competitive with ViTs, CNNs, and token mixers on several datasets while requiring lower GPU RAM (training and testing), number of computations, and storage. WaveMix have achieved State-of-the-art (SOTA) results in EMNIST Byclass and EMNIST Balanced datasets.
翻訳日:2022-03-10 05:08:51 公開日:2022-03-07
# (参考訳) AI合成ヒンディー語音声の検出 [全文訳有]

Detection of AI Synthesized Hindi Speech ( http://arxiv.org/abs/2203.03706v1 )

ライセンス: CC BY 4.0
Karan Bhatia (1), Ansh Agrawal (1), Priyanka Singh (1) and Arun Kumar Singh (2) ((1) Dhirubhai Ambani Institute of Information and Communication Technology, (2) Indian Institute of Technology Jammu)(参考訳) 近年の合成人工音声モデルの発展により,高現実的な音声信号の生成が可能となった。 音声クローンやディープフェイクといった人工的に合成された信号を得ることは、最初はエキサイティングに思えるが、もしチェックされていない場合は、デジタル・ディストピアにつながるかもしれない。 音声法医学における主要な焦点の1つは、音声の真正性を検証することである。 英語の音声に対していくつかの解法が提案されているが、合成ヒンディー語の検出はあまり注目されていない。 本稿では,ai合成ヒンディー語を実際の人間の発話から識別する手法を提案する。 我々は、機械学習モデルの識別機能として、Bicoherence Phase、Bicoherence Magnitude、Mel Frequency Cepstral Coefficient (MFCC)、Delta Cepstral、Delta Square Cepstralを利用している。 また,本研究は深層ニューラルネットワークを用いた大規模実験,特にvgg16と自家製cnnをアーキテクチャモデルとして用いた。 我々はVGG16で99.83%、自家製のCNNモデルで99.99%の精度を得た。

The recent advancements in generative artificial speech models have made possible the generation of highly realistic speech signals. At first, it seems exciting to obtain these artificially synthesized signals such as speech clones or deep fakes but if left unchecked, it may lead us to digital dystopia. One of the primary focus in audio forensics is validating the authenticity of a speech. Though some solutions are proposed for English speeches but the detection of synthetic Hindi speeches have not gained much attention. Here, we propose an approach for discrimination of AI synthesized Hindi speech from an actual human speech. We have exploited the Bicoherence Phase, Bicoherence Magnitude, Mel Frequency Cepstral Coefficient (MFCC), Delta Cepstral, and Delta Square Cepstral as the discriminating features for machine learning models. Also, we extend the study to using deep neural networks for extensive experiments, specifically VGG16 and homemade CNN as the architecture models. We obtained an accuracy of 99.83% with VGG16 and 99.99% with homemade CNN models.
翻訳日:2022-03-10 04:53:17 公開日:2022-03-07
# (参考訳) AI説明法におけるロバスト性と有用性 [全文訳有]

Robustness and Usefulness in AI Explanation Methods ( http://arxiv.org/abs/2203.03729v1 )

ライセンス: CC BY 4.0
Erick Galinkin(参考訳) 機械学習によるシステムのユビキタス化に伴い、機械学習における説明可能性は非常に重要になってきており、規制と世論の両方が、これらのシステムがどのように意思決定を行うかを理解する必要がある。 その結果、多くの説明方法が広く採用され始めている。 本書では,lime, smoothgrad, shapの3つの一般的な説明方法を要約,比較,対比する。 サンプルの複雑さと安定性という意味での堅牢性,提供された説明がユーザ期待と一致しているという意味での可理解性,およびユーザビリティ,そして,その説明によってモデルが出力に基づいて変更可能であるという意味でのユーザビリティを評価した。 この研究は、現在の説明方法が不十分である、という結論を下している。

Explainability in machine learning has become incredibly important as machine learning-powered systems become ubiquitous and both regulation and public sentiment begin to demand an understanding of how these systems make decisions. As a result, a number of explanation methods have begun to receive widespread adoption. This work summarizes, compares, and contrasts three popular explanation methods: LIME, SmoothGrad, and SHAP. We evaluate these methods with respect to: robustness, in the sense of sample complexity and stability; understandability, in the sense that provided explanations are consistent with user expectations; and usability, in the sense that the explanations allow for the model to be modified based on the output. This work concludes that current explanation methods are insufficient; that putting faith in and adopting these methods may actually be worse than simply not using them.
翻訳日:2022-03-10 04:48:22 公開日:2022-03-07
# (参考訳) 高度なアルゴリズムを備えたバッテリクラウド

Battery Cloud with Advanced Algorithms ( http://arxiv.org/abs/2203.03737v1 )

ライセンス: CC BY-SA 4.0
Xiaojun Li, David Jauernig, Mengzhu Gao, Trevor Jones(参考訳) バッテリクラウドまたはクラウドバッテリ管理システムは、クラウド計算パワーとデータストレージを活用して、バッテリ安全性、パフォーマンス、経済性を改善する。 この研究は、電気自動車やエネルギー貯蔵システムから計測されたバッテリーデータを収集するバッテリクラウドを提示する。 バッテリー性能を向上させるために高度なアルゴリズムが適用される。 遠隔車両データを用いて、車載充電中にパックsocを推定する人工ニューラルネットワークを訓練し、検証する。 戦略は車両上でテストされる。 さらに、差電圧(DVA)とインクリメンタルキャパシティ分析(ICA)に基づいて、電気自動車の健康評価手法の高精度・オンボードバッテリ状態を開発した。 電池セルからの様々な温度でのサイクリングデータを用いて、充電サイクルを抽出し、DVAおよびICA曲線を計算し、そこから複数の特徴を抽出し、分析し、最終的に健康状態を推定する。 電池安全性のためにデータ駆動熱異常検出法を開発した。 この方法は、初期段階で熱流出などの予期せぬ異常を検出することができる。 物のインターネットのさらなる発展により、ますます多くのバッテリーデータが利用できるようになる。 バッテリクラウドの潜在的な用途には、バッテリ製造、リサイクル、電気自動車のバッテリ交換などが含まれる。

A Battery Cloud or cloud battery management system leverages the cloud computational power and data storage to improve battery safety, performance, and economy. This work will present the Battery Cloud that collects measured battery data from electric vehicles and energy storage systems. Advanced algorithms are applied to improve battery performance. Using remote vehicle data, we train and validate an artificial neural network to estimate pack SOC during vehicle charging. The strategy is then tested on vehicles. Furthermore, high accuracy and onboard battery state of health estimation methods for electric vehicles are developed based on the differential voltage (DVA) and incremental capacity analysis (ICA). Using cycling data from battery cells at various temperatures, we extract the charging cycles and calculate the DVA and ICA curves, from which multiple features are extracted, analyzed, and eventually used to estimate the state of health. For battery safety, a data-driven thermal anomaly detection method is developed. The method can detect unforeseen anomalies such as thermal runaways at the very early stage. With the further development of the internet of things, more and more battery data will be available. Potential applications of battery cloud also include areas such as battery manufacture, recycling, and electric vehicle battery swap.
翻訳日:2022-03-10 04:38:47 公開日:2022-03-07
# (参考訳) 低ランク行列回復のためのフラットミニマ一般化 [全文訳有]

Flat minima generalize for low-rank matrix recovery ( http://arxiv.org/abs/2203.03756v1 )

ライセンス: CC BY 4.0
Lijun Ding, Dmitriy Drusvyatskiy, Maryam Fazel(参考訳) 経験的証拠は、ニューラルネットワークのトレーニングにおいて、様々な過パラメータの非線形モデルにおいて、最小化器周辺の損失の増大は、その性能に大きく影響することを示唆している。 平らなミニマ -- 損失がゆっくりと増加する -- は、うまく一般化しているように見える。 この研究は、この現象を理解するための一歩を踏み出し、超パラメータ非線形モデルの最も単純なクラス、すなわち低ランク行列の回復によって生じるものに焦点を当てる。 我々は,2次活性化関数を持つ過パラメータ行列と双線形センシング,ロバストPCA,共分散行列推定,単一隠れ層ニューラルネットワークを解析した。 いずれの場合も、ヘッセンのトレースによって測定された平坦なミニマは、標準的な統計的仮定の下で基底的真実を正確に回復する。 行列の完全化には弱い回復が確立されるが、実験的な証拠は正確な回復もここで成り立つことを示唆している。 論文は、我々の研究成果を示す合成実験で完成する。

Empirical evidence suggests that for a variety of overparameterized nonlinear models, most notably in neural network training, the growth of the loss around a minimizer strongly impacts its performance. Flat minima -- those around which the loss grows slowly -- appear to generalize well. This work takes a step towards understanding this phenomenon by focusing on the simplest class of overparameterized nonlinear models: those arising in low-rank matrix recovery. We analyze overparameterized matrix and bilinear sensing, robust PCA, covariance matrix estimation, and single hidden layer neural networks with quadratic activation functions. In all cases, we show that flat minima, measured by the trace of the Hessian, exactly recover the ground truth under standard statistical assumptions. For matrix completion, we establish weak recovery, although empirical evidence suggests exact recovery holds here as well. We complete the paper with synthetic experiments that illustrate our findings.
翻訳日:2022-03-10 04:37:34 公開日:2022-03-07
# (参考訳) IT5: イタリア語理解と生成のための大規模テキスト・テキスト・プレトレーニング [全文訳有]

IT5: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation ( http://arxiv.org/abs/2203.03759v1 )

ライセンス: CC BY-SA 4.0
Gabriele Sarti, Malvina Nissim(参考訳) T5モデルとその統一テキスト-テキストパラダイムは、多くの自然言語処理タスクの最先端化に寄与した。 T5モデルの多言語変種が最近導入されたが、その性能は単言語変種と比較して英語以外の言語に最適なパフォーマンスを提供することがわかった。 これらの発見を動機として,イタリア語で事前訓練されたエンコーダ・デコーダトランスモデルの最初のファミリーであるIT5を紹介した。 われわれは、400億語以上の単語を含むWebcrawled Italian corpusを徹底的にクリーニングし、異なるサイズの3つのIT5モデルを事前訓練するために使用します。 IT5モデルとその多言語モデルの性能は、イタリア語に対する幅広い自然言語理解および生成ベンチマークで評価される。 モノリンガルなIT5モデルは、テスト対象のモデル間で最高のスケールとパフォーマンスの比率を提供し、一貫してマルチリンガルなモデルよりも優れ、イタリアのほとんどの条件付き言語生成タスクにおいて新しい最先端のタスクを設定できる。

The T5 model and its unified text-to-text paradigm contributed in advancing the state-of-the-art for many natural language processing tasks. While some multilingual variants of the T5 model have recently been introduced, their performances were found to provide suboptimal performances for languages other than English if compared to monolingual variants. We are motivated by these findings to introduce IT5, the first family of encoder-decoder transformer models pretrained specifically on Italian. We perform a thorough cleaning of a web-crawled Italian corpus including more than 40 billion words and use it to pretrain three IT5 models of different sizes. The performance of IT5 models and their multilingual counterparts is then evaluated on a broad range of natural language understanding and generation benchmarks for Italian. We find the monolingual IT5 models to provide the best scale-to-performance ratio across tested models, consistently outperforming their multilingual counterparts and setting a new state-of-the-art for most Italian conditional language generation tasks.
翻訳日:2022-03-10 04:00:36 公開日:2022-03-07
# (参考訳) CrowdFormer: 一般化性を改善した弱教師付きクラウドカウント [全文訳有]

CrowdFormer: Weakly-supervised Crowd counting with Improved Generalizability ( http://arxiv.org/abs/2203.03768v1 )

ライセンス: CC BY 4.0
Siddharth Singh Savner, Vivek Kanhangad(参考訳) 畳み込みニューラルネットワーク(CNN)は、ローカル機能を学ぶ能力の強いために、コンピュータビジョンの分野を10年近く支配してきた。 しかし、その限定的な受容領域のため、cnnはグローバルコンテキストのモデル化に失敗している。 一方で、注意に基づくアーキテクチャであるtransformerは、グローバルコンテキストを簡単にモデル化することができる。 それにもかかわらず、群衆カウントにおけるトランスフォーマーの有効性を調査する研究は限られている。 また,既存の群集カウント手法の大部分は,現場に存在する各人物の点レベルアノテーションを必要とする密度マップの回帰に基づく。 このアノテーションタスクは手間がかかり、エラーも発生します。 これにより、カウントレベルのアノテーションのみを必要とする、弱い教師付きクラウドカウントメソッドへの注目が高まっている。 本稿では,ピラミッド型視覚変換器を用いた群集計数のための弱教師付き手法を提案する。 提案手法の有効性を検証するため,広範囲な評価を行った。 本手法は,ベンチマーク群集データセットの最先端技術に匹敵する。 さらに重要なことは、驚くべき一般化性を示すことだ。

Convolutional neural networks (CNNs) have dominated the field of computer vision for nearly a decade due to their strong ability to learn local features. However, due to their limited receptive field, CNNs fail to model the global context. On the other hand, transformer, an attention-based architecture can model the global context easily. Despite this, there are limited studies that investigate the effectiveness of transformers in crowd counting. In addition, the majority of the existing crowd counting methods are based on the regression of density maps which requires point-level annotation of each person present in the scene. This annotation task is laborious and also error-prone. This has led to increased focus on weakly-supervised crowd counting methods which require only the count-level annotations. In this paper, we propose a weakly-supervised method for crowd counting using a pyramid vision transformer. We have conducted extensive evaluations to validate the effectiveness of the proposed method. Our method is comparable to the state-of-the-art on the benchmark crowd datasets. More importantly, it shows remarkable generalizability.
翻訳日:2022-03-10 03:37:17 公開日:2022-03-07
# (参考訳) ゼロ遅延一貫性とスムーストレーニング可能な補間 [全文訳有]

Zero-delay Consistent and Smooth Trainable Interpolation ( http://arxiv.org/abs/2203.03776v1 )

ライセンス: CC BY 4.0
Emilio Ruiz-Moreno, Luis Miguel L\'opez-Ramos, Baltasar Beferull-Lozano(参考訳) 本稿では,データポイントのストリームから滑らかな補間曲線を生成する方法について述べる。 この目的のために, リアルタイム補間器 (RTI: Real-time Interpolator) の概念を定式化した。 具体的には、RTIは、過去の区間で再構成された信号を変更することなく、サンプルが受信された直後に機能部を生成する必要が生じる(ゼロ遅延)。 この研究は、双レベル最適化問題としてスプラインベースのRTIの設計を定式化する。 彼らの訓練は、一連の例列上の補間信号の平均曲率を最小化することである。 後者は補間されるデータシーケンスの性質を表しており、RTIを特定の信号源に調整することができる。 私たちの全体的な設計は、さまざまなスキームを可能にします。 本研究では,パラメータ化されたRTIとリカレントニューラルネットワーク(RNN)に基づくRTIの2つのアプローチを提案する。 実験結果から,2つのRTIをデータ駆動方式でトレーニングし,スムーズ,ゼロ遅延,整合性要件を維持しつつ,各サンプルの局所情報のみを活用できるミオピック型RTIについて,改善された性能(曲率損失測定値)を実現することができた。

The question of how to produce a smooth interpolating curve from a stream of data points is addressed in this paper. To this end, we formalize the concept of real-time interpolator (RTI): a trainable unit that recovers smooth signals that are consistent with the received input samples in an online manner. Specifically, an RTI works under the requirement of producing a function section immediately after a sample is received (zero delay), without changing the reconstructed signal in past time sections. This work formulates the design of spline-based RTIs as a bi-level optimization problem. Their training consists in minimizing the average curvature of the interpolated signals over a set of example sequences. The latter are representative of the nature of the data sequence to be interpolated, allowing to tailor the RTI to a specific signal source. Our overall design allows for different possible schemes. In this work, we present two approaches, namely, the parametrized RTI and the recurrent neural network (RNN)-based RTI, including their architecture and properties. Experimental results show that the two proposed RTIs can be trained in a data-driven fashion to achieve improved performance (in terms of the curvature loss metric) with respect to a myopic-type RTI that only exploits the local information at each time sample, while maintaining smooth, zero-delay, and consistency requirements.
翻訳日:2022-03-10 03:28:18 公開日:2022-03-07
# 音声・視覚シーン分類のための関節モデルとマルチモーダリティデータ拡張に関する研究

A study on joint modeling and data augmentation of multi-modalities for audio-visual scene classification ( http://arxiv.org/abs/2203.04114v1 )

ライセンス: Link先を確認
Qing Wang, Jun Du, Siyuan Zheng, Yunqing Li, Yajian Wang, Yuzhong Wu, Hu Hu, Chao-Han Huck Yang, Sabato Marco Siniscalchi, Yannan Wang, Chin-Hui Lee(参考訳) 本稿では,共同モデリングとデータ拡張という2つの手法を提案し,オーディオ視覚シーン分類(AVSC)のシステム性能を改善する。 画像データセットのみをトレーニングした事前トレーニングネットワークを用いてビデオ埋め込みを抽出するが,音声埋め込みモデルではスクラッチからトレーニングを行うことにした。 我々は,映像と音声を効果的に組み合わせた共同モデリングのために,異なるニューラルネットワークアーキテクチャを探索する。 さらに,データ拡張戦略を検討し,視聴覚訓練セットのサイズを増加させる。 ビデオモダリティでは、ランダウメントにおける複数の操作の有効性が検証される。 avscの性能をさらに向上させるために,音声と映像の混合方式を提案する。 TAU Urban Audio Visual Scenes 2021の開発セットに基づいて、DCASE 2021 Task 1bに送信された全AVSCシステムの中で、最終システムは94.2%の精度を達成できる。

In this paper, we propose two techniques, namely joint modeling and data augmentation, to improve system performances for audio-visual scene classification (AVSC). We employ pre-trained networks trained only on image data sets to extract video embedding; whereas for audio embedding models, we decide to train them from scratch. We explore different neural network architectures for joint modeling to effectively combine the video and audio modalities. Moreover, data augmentation strategies are investigated to increase audio-visual training set size. For the video modality the effectiveness of several operations in RandAugment is verified. An audio-video joint mixup scheme is proposed to further improve AVSC performances. Evaluated on the development set of TAU Urban Audio Visual Scenes 2021, our final system can achieve the best accuracy of 94.2% among all single AVSC systems submitted to DCASE 2021 Task 1b.
翻訳日:2022-03-09 16:10:18 公開日:2022-03-07
# マルチエージェントバックドア攻撃に対するクリーンゲインに対する低損失サブスペース圧縮

Low-Loss Subspace Compression for Clean Gains against Multi-Agent Backdoor Attacks ( http://arxiv.org/abs/2203.03692v1 )

ライセンス: Link先を確認
Siddhartha Datta, Nigel Shadbolt(参考訳) マルチエージェントバックドア攻撃の最近の調査により、バックドア入力がランダムに分類されるバックドア攻撃に対する自然な防御であるバックフィリング効果が示された。 これにより、w.r.t.クリーンラベルの低精度化が副作用となり、w.r.t.クリーンラベルの精度を最大化し、毒ラベルを最小化するマルチエージェントバックドアディフェンスの構築が動機となる。 エージェントダイナミクスと低損失部分空間構築に基づいて構築され、マルチエージェントバックドアロバスト性を向上する3つの防御に寄与する。

Recent exploration of the multi-agent backdoor attack demonstrated the backfiring effect, a natural defense against backdoor attacks where backdoored inputs are randomly classified. This yields a side-effect of low accuracy w.r.t. clean labels, which motivates this paper's work on the construction of multi-agent backdoor defenses that maximize accuracy w.r.t. clean labels and minimize that of poison labels. Founded upon agent dynamics and low-loss subspace construction, we contribute three defenses that yield improved multi-agent backdoor robustness.
翻訳日:2022-03-09 16:08:14 公開日:2022-03-07
# Dual-Teacher Multi-target Domain Adaptation による網膜血管セグメンテーションにおけるDeathlon Master

Student Become Decathlon Master in Retinal Vessel Segmentation via Dual-teacher Multi-target Domain Adaptation ( http://arxiv.org/abs/2203.03631v1 )

ライセンス: Link先を確認
Linkai Peng, Li Lin, Pujin Cheng, Huaqing He, Xiaoying Tang(参考訳) トレーニングデータと異なる分布を持つテストデータの間のいわゆるドメインシフトに取り組むために、教師なしドメイン適応が最近提案されている。 しかし、その多くは単一ターゲットドメイン適応のみに焦点を当てており、複数のターゲットドメインを持つシナリオには適用できない。 本稿では,マルチモーダルおよびマルチセンタ網膜画像から網膜血管(RV)を分割する,新しい教師なしマルチターゲットドメイン適応手法であるRVmsを提案する。 rvmsは主にsat(style augmentedation and transfer)モジュールとdtkd(dual-teacher knowledge distillation)モジュールで構成されている。 SATはB\'ezierおよびFourier変換を通じて、ソース類似のドメインとソース類似のドメインにイメージを拡大し、クラスタ化する。 DTKDは、拡張および変換されたデータを使用して、2人の教師を訓練する。 その後、教師から一般学生への異なるドメイン知識を反復的に蒸留するために知識蒸留を行う。 局所的な相対強度変換は、RVを領域不変な方法で特徴づけ、教師や学生モデルの一般化を促進するために用いられる。 さらに,既存の公開データセットから新たなマルチモーダル・マルチセンター血管セグメンテーションデータセットを構築し,様々なドメイン適応法とドメイン一般化法のベンチマークを行う。 大規模な実験により、RVmsは、ターゲットとなるOracleに非常に近く、RVをセグメント化するという点で、他の最先端の手法よりも優れていることが判明した。

Unsupervised domain adaptation has been proposed recently to tackle the so-called domain shift between training data and test data with different distributions. However, most of them only focus on single-target domain adaptation and cannot be applied to the scenario with multiple target domains. In this paper, we propose RVms, a novel unsupervised multi-target domain adaptation approach to segment retinal vessels (RVs) from multimodal and multicenter retinal images. RVms mainly consists of a style augmentation and transfer (SAT) module and a dual-teacher knowledge distillation (DTKD) module. SAT augments and clusters images into source-similar domains and source-dissimilar domains via B\'ezier and Fourier transformations. DTKD utilizes the augmented and transformed data to train two teachers, one for source-similar domains and the other for source-dissimilar domains. Afterwards, knowledge distillation is performed to iteratively distill different domain knowledge from teachers to a generic student. The local relative intensity transformation is employed to characterize RVs in a domain invariant manner and promote the generalizability of teachers and student models. Moreover, we construct a new multimodal and multicenter vascular segmentation dataset from existing publicly-available datasets, which can be used to benchmark various domain adaptation and domain generalization methods. Through extensive experiments, RVms is found to be very close to the target-trained Oracle in terms of segmenting the RVs, largely outperforming other state-of-the-art methods.
翻訳日:2022-03-09 15:49:46 公開日:2022-03-07
# Stepwise Feature Fusion - ローカルガイドのグローバル化

Stepwise Feature Fusion: Local Guides Global ( http://arxiv.org/abs/2203.03635v1 )

ライセンス: Link先を確認
Jinfeng Wang, Qiming Huang, Feilong Tang, Jia Meng, Jionglong Su, and Sifan Song(参考訳) 現在最も効率的かつ認識されている大腸ポリープ検出技術である大腸内視鏡は早期大腸癌のスクリーニングと予防に必要である。 しかし,大腸ポリープの大きさや複雑な形態的特徴や,ポリープと粘膜の境界が不明瞭であることから,ポリープの正確な分画はいまだに困難である。 ディープラーニングは、優れた結果を得た正確なポリプセグメンテーションタスクに人気がある。 しかし、ポリプ画像の構造とポリプの形状の変化により、既存のディープラーニングモデルが現在のデータセットを過度に適合させるのは容易である。 その結果,未発見の大腸内視鏡データを処理できなくなった。 そこで本研究では,ピラミッドトランスフォーマーエンコーダを用いた医用画像セグメンテーションのためのState-Of-The-Artモデルを提案する。 具体的には,提案するプログレッシブ局所デコーダをピラミッドトランスフォーマーバックボーンに適用することで,局所的な特徴を強調し,注意分散を制限することができる。 SSFormerは、学習と一般化評価の両方において最先端のパフォーマンスを達成する。

Colonoscopy, currently the most efficient and recognized colon polyp detection technology, is necessary for early screening and prevention of colorectal cancer. However, due to the varying size and complex morphological features of colonic polyps as well as the indistinct boundary between polyps and mucosa, accurate segmentation of polyps is still challenging. Deep learning has become popular for accurate polyp segmentation tasks with excellent results. However, due to the structure of polyps image and the varying shapes of polyps, it easy for existing deep learning models to overfitting the current dataset. As a result, the model may not process unseen colonoscopy data. To address this, we propose a new State-Of-The-Art model for medical image segmentation, the SSFormer, which uses a pyramid Transformer encoder to improve the generalization ability of models. Specifically, our proposed Progressive Locality Decoder can be adapted to the pyramid Transformer backbone to emphasize local features and restrict attention dispersion. The SSFormer achieves statet-of-the-art performance in both learning and generalization assessment.
翻訳日:2022-03-09 15:49:22 公開日:2022-03-07
# スライスアウェアマルチブランチデコーダネットワークによる解像度データのばらつきの克服

Conquering Data Variations in Resolution: A Slice-Aware Multi-Branch Decoder Network ( http://arxiv.org/abs/2203.03640v1 )

ライセンス: Link先を確認
Shuxin Wang, Shilei Cao, Zhizhong Chai, Dong Wei, Kai Ma, Liansheng Wang, Yefeng Zheng(参考訳) 完全畳み込みニューラルネットワークは、肝と肝腫瘍の分節において有望な進歩を遂げている。 本稿では,2次元ネットワークと3次元ネットワークの議論(例えば,大規模2次元事前学習と3次元コンテキストのバランスの追求)に従う代わりに,スライス内分解能とスライス間分解能の比率の広さが性能の重要な障害であることを示す。 本研究では,スライス内情報とスライス間情報とのミスマッチに対処するため,各スライスに対して,平面内セマンティクスだけでなく,面外コヒーレンスを利用した識別特徴の抽出を重視したスライス対応2.5Dネットワークを提案する。 具体的には、スライス特有の特徴を学習するためのslice-centric attention block(sab)を備えたマルチブランチデコーダ(md)と、コヒーレントで連続的なスライス間予測を規則化するdcd損失(dcd)を含む、このような設計パラダイムをインスタンス化するスライスワイズマルチインプットマルチアウトプットアーキテクチャを提案する。 上記のイノベーションに基づいて、MICCAI 2017 Liver tumor Segmentation (LiTS)データセットで最先端の結果を得る。 また,ISBI 2019 Segmentation of THoracic Organs at Risk (SegTHOR) データセット上で,提案手法が他のセグメンテーションタスクにおいて堅牢性および一般化可能であることを証明した。

Fully convolutional neural networks have made promising progress in joint liver and liver tumor segmentation. Instead of following the debates over 2D versus 3D networks (for example, pursuing the balance between large-scale 2D pretraining and 3D context), in this paper, we novelly identify the wide variation in the ratio between intra- and inter-slice resolutions as a crucial obstacle to the performance. To tackle the mismatch between the intra- and inter-slice information, we propose a slice-aware 2.5D network that emphasizes extracting discriminative features utilizing not only in-plane semantics but also out-of-plane coherence for each separate slice. Specifically, we present a slice-wise multi-input multi-output architecture to instantiate such a design paradigm, which contains a Multi-Branch Decoder (MD) with a Slice-centric Attention Block (SAB) for learning slice-specific features and a Densely Connected Dice (DCD) loss to regularize the inter-slice predictions to be coherent and continuous. Based on the aforementioned innovations, we achieve state-of-the-art results on the MICCAI 2017 Liver Tumor Segmentation (LiTS) dataset. Besides, we also test our model on the ISBI 2019 Segmentation of THoracic Organs at Risk (SegTHOR) dataset, and the result proves the robustness and generalizability of the proposed method in other segmentation tasks.
翻訳日:2022-03-09 15:49:01 公開日:2022-03-07
# 境界を学ぶ: 生成的クラム・ラオ境界

Learning to Bound: A Generative Cram\'er-Rao Bound ( http://arxiv.org/abs/2203.03695v1 )

ライセンス: Link先を確認
Hai Victor Habi, Hagit Messer and Yoram Bresler(参考訳) Cram\'er-Rao bound (CRB) は、偏りのないパラメータ推定器の性能に関するよく知られた下界であり、様々な問題の研究に使われている。 しかし、crbを得るためには、パラメータが与えられた場合や、データの正確かつ明示的な統計モデルに対する分析式が必要である。 多くのアプリケーションでは、そのようなモデルは利用できない。 代わりに、この研究はデータ駆動手法を用いてCRBを近似する新しいアプローチを導入し、分析統計モデルの必要性を排除した。 このアプローチは、複雑な高次元分布のモデリングにおけるディープジェネレーティブモデルの成功に基づいている。 学習した正規化フローモデルを用いて測定値の分布をモデル化し,GCRB(Generative Cram\'er-Rao Bound)と呼ばれるCRBの近似を求める。 単純な問題に対する数値実験は、このアプローチを検証し、学習したカメラノイズモデルによる画像のノイズ除去とエッジ検出の2つの画像処理タスクで、その能力と利点を実証する。

The Cram\'er-Rao bound (CRB), a well-known lower bound on the performance of any unbiased parameter estimator, has been used to study a wide variety of problems. However, to obtain the CRB, requires an analytical expression for the likelihood of the measurements given the parameters, or equivalently a precise and explicit statistical model for the data. In many applications, such a model is not available. Instead, this work introduces a novel approach to approximate the CRB using data-driven methods, which removes the requirement for an analytical statistical model. This approach is based on the recent success of deep generative models in modeling complex, high-dimensional distributions. Using a learned normalizing flow model, we model the distribution of the measurements and obtain an approximation of the CRB, which we call Generative Cram\'er-Rao Bound (GCRB). Numerical experiments on simple problems validate this approach, and experiments on two image processing tasks of image denoising and edge detection with a learned camera noise model demonstrate its power and benefits.
翻訳日:2022-03-09 15:42:35 公開日:2022-03-07
# プッシュ・レラベルに基づく最適輸送のための加法近似

A Push-Relabel Based Additive Approximation for Optimal Transport ( http://arxiv.org/abs/2203.03732v1 )

ライセンス: Link先を確認
Nathaniel Lahn, Sharath Raghvendra, Kaiyi Zhang(参考訳) 最適輸送は分布間の類似度を測定するための一般的な距離計量である。 最適輸送を計算するための厳密なアルゴリズムは遅くなり、近似数値解法(例えばシンクホーン法)の開発の動機となった。 我々は、OT距離の$\varepsilon$-approx imationを求めるために、新しく非常に単純な組合せアプローチを導入する。 我々のアルゴリズムは、OT距離を計算するために、O(n^2/\varepsilon^2)$のほぼ最適実行時間を実現し、特別の場合には、O(n^2/\varepsilon)$に改善する。 本アルゴリズムは, 最小コストフロー問題に対するPush-relabelフレームワークに基づいている。 高速な並列実装を持たない他の組合せアプローチ(Lahn, Mulchandani, Raghvendra, NeurIPS 2019)とは異なり、我々のアルゴリズムは並列実行時間を$O(\log n/\varepsilon^2)$とする。 興味深いことに、Sinkhornアルゴリズムとは違って、我々の手法はコンパクトな輸送計画とOT問題の双対定式化の解も容易に提供し、どちらも機械学習に多くの応用がある。 代入問題に対しては、CPU実装とGPU並列性を利用した実装の両方を提供する。 実験の結果,このアルゴリズムは,特に高い精度でマッチングを計算しながら,cpuとgpuの実装の両方において,spinhornアルゴリズムよりも高速であることが示唆された。

Optimal Transport is a popular distance metric for measuring similarity between distributions. Exact algorithms for computing Optimal Transport can be slow, which has motivated the development of approximate numerical solvers (e.g. Sinkhorn method). We introduce a new and very simple combinatorial approach to find an $\varepsilon$-approx imation of the OT distance. Our algorithm achieves a near-optimal execution time of $O(n^2/\varepsilon^2)$ for computing OT distance and, for the special case of the assignment problem, the execution time improves to $O(n^2/\varepsilon)$. Our algorithm is based on the push-relabel framework for min-cost flow problems. Unlike the other combinatorial approach (Lahn, Mulchandani and Raghvendra, NeurIPS 2019) which does not have a fast parallel implementation, our algorithm has a parallel execution time of $O(\log n/\varepsilon^2)$. Interestingly, unlike the Sinkhorn algorithm, our method also readily provides a compact transport plan as well as a solution to an approximate version of the dual formulation of the OT problem, both of which have numerous applications in Machine Learning. For the assignment problem, we provide both a CPU implementation as well as an implementation that exploits GPU parallelism. Experiments suggest that our algorithm is faster than the Sinkhorn algorithm, both in terms of CPU and GPU implementations, especially while computing matchings with a high accuracy.
翻訳日:2022-03-09 15:42:16 公開日:2022-03-07
# 双曲空間における高精度でスケーラブルな線形分類器

Provably Accurate and Scalable Linear Classifiers in Hyperbolic Spaces ( http://arxiv.org/abs/2203.03730v1 )

ライセンス: Link先を確認
Chao Pan, Eli Chien, Puoya Tabaghi, Jianhao Peng, Olgica Milenkovic(参考訳) 多くの高次元実用データセットは、グラフや時系列によって誘導される階層構造を持つ。 そのようなデータセットはユークリッド空間では処理が困難であり、必要となる学習タスクを実行するために、しばしば他の空間に低次元の埋め込みを求める。 階層データの場合、選択空間は双曲空間であり、木のような構造に対する低歪埋め込みが保証される。 双曲空間の幾何学はユークリッド空間では見られない性質を持ち、アルゴリズム解を厳密に解析しようとすると問題となる。 本稿では,スケーラブルで単純な双曲型線形分類器を学習するための統一フレームワークを提案する。 提案手法の要点は,ポアンカーの球モデルに着目し,接空間形式を用いた分類問題を定式化することである。 その結果、新しい双曲型パーセプトロンアルゴリズムと、双曲支持ベクトル分類器の効率良く高精度な凸最適化設定が得られた。 さらに,2次インフォメーション(相関)に基づいてデータを前処理して収束を加速する2次パーセプトロンと,潜在的に操作可能なデータがオンラインに届き,決定が順次行われる戦略的パーセプトロンに適応する。 Poincar\'e 2階と戦略パーセプトロンの優れた性能は、提案フレームワークが双曲空間における一般的な機械学習問題にまで拡張可能であることを示している。 CIFAR10, Fashion-MNIST, mini-ImageNetの合成, 単細胞RNA-seq発現測定に関する実験結果から, 全てのアルゴリズムがユークリッドと同等に収束し, 複雑であることを確認した。 関連するコードは、https://github.com/t hupchnsky/poincareli nearclassificationにある。

Many high-dimensional practical data sets have hierarchical structures induced by graphs or time series. Such data sets are hard to process in Euclidean spaces and one often seeks low-dimensional embeddings in other space forms to perform the required learning tasks. For hierarchical data, the space of choice is a hyperbolic space because it guarantees low-distortion embeddings for tree-like structures. The geometry of hyperbolic spaces has properties not encountered in Euclidean spaces that pose challenges when trying to rigorously analyze algorithmic solutions. We propose a unified framework for learning scalable and simple hyperbolic linear classifiers with provable performance guarantees. The gist of our approach is to focus on Poincar\'e ball models and formulate the classification problems using tangent space formalisms. Our results include a new hyperbolic perceptron algorithm as well as an efficient and highly accurate convex optimization setup for hyperbolic support vector machine classifiers. Furthermore, we adapt our approach to accommodate second-order perceptrons, where data is preprocessed based on second-order information (correlation) to accelerate convergence, and strategic perceptrons, where potentially manipulated data arrives in an online manner and decisions are made sequentially. The excellent performance of the Poincar\'e second-order and strategic perceptrons shows that the proposed framework can be extended to general machine learning problems in hyperbolic spaces. Our experimental results, pertaining to synthetic, single-cell RNA-seq expression measurements, CIFAR10, Fashion-MNIST and mini-ImageNet, establish that all algorithms provably converge and have complexity comparable to those of their Euclidean counterparts. Accompanying codes can be found at: https://github.com/t hupchnsky/PoincareLi nearClassification.
翻訳日:2022-03-09 15:17:02 公開日:2022-03-07
# ベイズ自己監督による動的グラフ摂動に対するグラフ畳み込みネットワーク

Defending Graph Convolutional Networks against Dynamic Graph Perturbations via Bayesian Self-supervision ( http://arxiv.org/abs/2203.03762v1 )

ライセンス: Link先を確認
Jun Zhuang, Mohammad Al Hasan(参考訳) 近年,グラフ畳み込みネットワーク (GCNs) がノード分類タスクにおいて卓越した達成を達成したことを示す証拠が豊富である。 しかし、gcnはラベル・スカース動的グラフの逆攻撃に弱い可能性がある。 既存の多くの研究は、GCNの堅牢性を強化することを目的としており、例えば、悪意のある摂動からGCNを保護するために敵の訓練が使用されている。 しかし、これらの処理はラベル不足が差し迫った問題である動的グラフでは失敗する。 ラベルの不足を克服するため、自己学習は疑似ラベルを高信頼の未ラベルノードに反復的に割り当てるが、動的なグラフ摂動の下では深刻な劣化を被る可能性がある。 本稿では,ノイズ管理を自己教師付き学習手法の一種として一般化し,その問題に対処する新しいベイズ自己監督モデル,すなわちGraphSSを提案する。 広範な実験により、グラフは動的グラフ上の摂動を肯定的に警告できるだけでなく、そのような摂動の下でのノード分類器の予測を効果的に復元できることが示されている。 これらの2つの利点は、5つの公開グラフデータセットにまたがる3つの古典的なGCNに対して一般化される。

In recent years, plentiful evidence illustrates that Graph Convolutional Networks (GCNs) achieve extraordinary accomplishments on the node classification task. However, GCNs may be vulnerable to adversarial attacks on label-scarce dynamic graphs. Many existing works aim to strengthen the robustness of GCNs; for instance, adversarial training is used to shield GCNs against malicious perturbations. However, these works fail on dynamic graphs for which label scarcity is a pressing issue. To overcome label scarcity, self-training attempts to iteratively assign pseudo-labels to highly confident unlabeled nodes but such attempts may suffer serious degradation under dynamic graph perturbations. In this paper, we generalize noisy supervision as a kind of self-supervised learning method and then propose a novel Bayesian self-supervision model, namely GraphSS, to address the issue. Extensive experiments demonstrate that GraphSS can not only affirmatively alert the perturbations on dynamic graphs but also effectively recover the prediction of a node classifier when the graph is under such perturbations. These two advantages prove to be generalized over three classic GCNs across five public graph datasets.
翻訳日:2022-03-09 15:16:26 公開日:2022-03-07
# 外部リソース記述を用いたプログラム実行学習によるランタイムエラーの静的予測

Static Prediction of Runtime Errors by Learning to Execute Programs with External Resource Descriptions ( http://arxiv.org/abs/2203.03771v1 )

ライセンス: Link先を確認
David Bieber, Rishab Goel, Daniel Zheng, Hugo Larochelle, Daniel Tarlow(参考訳) プログラムの実行動作は、しばしばプログラムの入力やファイルの内容などの外部リソースに依存するため、独立して実行することはできない。 それでもソフトウェア開発者は,プログラムのコンパイルや実行に先立って,自動ツールが可能な限り早くエラーを識別する,高速なイテレーションループの恩恵を受けることができる。 プログラムの実行が不可能な"静的"な環境で実行時のエラーを予測できますか? ここでは,実世界のデータセットと実行時のエラーを予測するタスクを導入し,トランスフォーマなどの汎用モデルでは難しいことを示す。 我々は,例外処理や外部リソースの内容の記述をモデル化するプログラム実行を模倣する帰納的バイアスを持つインタプリタに触発されたアーキテクチャを開発することにより,この課題にアプローチする。 驚くべきことに、このモデルは、存在/存在とある種のエラーを示すラベルにのみ訓練されているにもかかわらず、エラーの位置を予測可能であることも示している。 本稿では,プログラム実行の学習に関する実用的かつ困難な課題を提示し,コードに対するインタプリタにインスパイアされた機械学習モデルの新しい機能を実証する。

The execution behavior of a program often depends on external resources, such as program inputs or file contents, and so cannot be run in isolation. Nevertheless, software developers benefit from fast iteration loops where automated tools identify errors as early as possible, even before programs can be compiled and run. This presents an interesting machine learning challenge: can we predict runtime errors in a "static" setting, where program execution is not possible? Here, we introduce a real-world dataset and task for predicting runtime errors, which we show is difficult for generic models like Transformers. We approach this task by developing an interpreter-inspired architecture with an inductive bias towards mimicking program executions, which models exception handling and "learns to execute" descriptions of the contents of external resources. Surprisingly, we show that the model can also predict the location of the error, despite being trained only on labels indicating the presence/absence and kind of error. In total, we present a practical and difficult-yet-approa chable challenge problem related to learning program execution and we demonstrate promising new capabilities of interpreter-inspired machine learning models for code.
翻訳日:2022-03-09 15:15:35 公開日:2022-03-07
# ビデオ異常検出のためのオブジェクト中心およびメモリ誘導正規性再構成

Object-centric and memory-guided normality reconstruction for video anomaly detection ( http://arxiv.org/abs/2203.03677v1 )

ライセンス: Link先を確認
Khalil Bergaoui, Yassine Naji, Aleksandr Setkov, Ang\'elique Loesch, Mich\`ele Gouiff\`es and Romaric Audigier(参考訳) 本稿では,ビデオ監視におけるビデオ異常検出問題に対処する。 異常事象の固有ラリティーと不均一性のため、このモデルはトレーニング中に異常なサンプルを見ることなく、オブジェクト中心の正常パターンを学習する正規性モデリング戦略と見なされる。 主なコントリビューションは、事前訓練されたオブジェクトレベルの動作特徴のプロトタイプと、余弦距離に基づく異常推定関数を結合することであり、それゆえ、主流の再構築戦略にさらなる制約を加えることで、従来の手法を拡張している。 我々のフレームワークは、外見情報と動き情報を利用してオブジェクトレベルの振る舞いを学習し、メモリモジュール内のプロトタイプパターンをキャプチャする。 いくつかのよく知られたデータセットにおける実験は、最も関連する時空間的評価指標の最先端を上回り、この手法の有効性を実証している。

This paper addresses video anomaly detection problem for videosurveillance. Due to the inherent rarity and heterogeneity of abnormal events, the problem is viewed as a normality modeling strategy, in which our model learns object-centric normal patterns without seeing anomalous samples during training. The main contributions consist in coupling pretrained object-level action features prototypes with a cosine distance-based anomaly estimation function, therefore extending previous methods by introducing additional constraints to the mainstream reconstruction-based strategy. Our framework leverages both appearance and motion information to learn object-level behavior and captures prototypical patterns within a memory module. Experiments on several well-known datasets demonstrate the effectiveness of our method as it outperforms current state-of-the-art on most relevant spatio-temporal evaluation metrics.
翻訳日:2022-03-09 14:28:47 公開日:2022-03-07
# 視覚的質問応答に対するbarlow制約付き最適化

Barlow constrained optimization for Visual Question Answering ( http://arxiv.org/abs/2203.03727v1 )

ライセンス: Link先を確認
Abhishek Jha, Badri N. Patro, Luc Van Gool, Tinne Tuytelaars(参考訳) 視覚的質問応答は視覚と言語によるマルチモーダルタスクであり、質問と画像のモダリティから与えられた回答を予測することを目的としている。 最近の手法は、画像と質問の良好な埋め込み空間を学習することに焦点を当てており、これらの2つのモダリティ間の相互作用を改善するか、より判別可能な空間にする。 しかし、この結合空間がいかに情報的であるかは、十分に調査されていない。 本稿では,冗長性を最小限に抑え,ジョイント空間の情報内容を改善するために,バーロウ理論(cob)を用いたvqaモデルの新たな正規化を提案する。 学習した特徴コンポーネント間の相関を減らし、セマンティックな概念を歪めます。 私たちのモデルは、答えとイメージ+クエスチョンを、本質的に同じ意味的情報である2つの異なる「ビュー」と見なす、結合空間と解埋め込み空間を整合させる。 分類的および冗長性の最小化力のバランスをとるための制約付き最適化政策を提案する。 最先端のGEモデルに基づく場合、VQAの精度はVQA-CP v2データセットとVQA v2データセットでそれぞれ1.4%向上する。 モデルの解釈性も向上している。

Visual question answering is a vision-and-language multimodal task, that aims at predicting answers given samples from the question and image modalities. Most recent methods focus on learning a good joint embedding space of images and questions, either by improving the interaction between these two modalities, or by making it a more discriminant space. However, how informative this joint space is, has not been well explored. In this paper, we propose a novel regularization for VQA models, Constrained Optimization using Barlow's theory (COB), that improves the information content of the joint space by minimizing the redundancy. It reduces the correlation between the learned feature components and thereby disentangles semantic concepts. Our model also aligns the joint space with the answer embedding space, where we consider the answer and image+question as two different `views' of what in essence is the same semantic information. We propose a constrained optimization policy to balance the categorical and redundancy minimization forces. When built on the state-of-the-art GGE model, the resulting model improves VQA accuracy by 1.4% and 4% on the VQA-CP v2 and VQA v2 datasets respectively. The model also exhibits better interpretability.
翻訳日:2022-03-09 14:28:33 公開日:2022-03-07
# 自己教師付き事前学習視覚トランスフォーマによる単眼ロボットナビゲーション

Monocular Robot Navigation with Self-Supervised Pretrained Vision Transformers ( http://arxiv.org/abs/2203.03682v1 )

ライセンス: Link先を確認
Miguel Saavedra-Ruiz, Sacha Morin and Liam Paull(参考訳) 本研究は,少ない注釈付き画像を用いた単眼ロボットナビゲーションにおける知覚モデル学習の問題について考察する。 ラベルのない自己教師方式で事前訓練した視覚変換器(ViT)を用いて,70個のトレーニング画像を用いて,Duckietown環境における粗い画像分割モデルをトレーニングした。 提案モデルでは,8x8パッチレベルで粗い画像分割を行い,予測粒度とリアルタイム知覚制約のバランスをとるために推論分解能を調整できる。 タスクや環境にvitを適応させる最善の方法を検討し、cpu上であっても、有効なフレームレートで優れたシングルイメージセグメンテーションが得られる軽量アーキテクチャを見つける。 その結果得られた知覚モデルは、単純でロバストな視覚サーボエージェントのバックボーンとして使われ、ディファレンシャルドライブ移動ロボットにデプロイして、レーン追従と障害物回避の2つのタスクを実行します。

In this work, we consider the problem of learning a perception model for monocular robot navigation using few annotated images. Using a Vision Transformer (ViT) pretrained with a label-free self-supervised method, we successfully train a coarse image segmentation model for the Duckietown environment using 70 training images. Our model performs coarse image segmentation at the 8x8 patch level, and the inference resolution can be adjusted to balance prediction granularity and real-time perception constraints. We study how best to adapt a ViT to our task and environment, and find that some lightweight architectures can yield good single-image segmentations at a usable frame rate, even on CPU. The resulting perception model is used as the backbone for a simple yet robust visual servoing agent, which we deploy on a differential drive mobile robot to perform two tasks: lane following and obstacle avoidance.
翻訳日:2022-03-09 14:25:40 公開日:2022-03-07
# No Regretとのマッチングを学ぶ - マルコフマッチング市場における強化学習

Learn to Match with No Regret: Reinforcement Learning in Markov Matching Markets ( http://arxiv.org/abs/2203.03684v1 )

ライセンス: Link先を確認
Yifei Min, Tianhao Wang, Ruitu Xu, Zhaoran Wang, Michael I. Jordan, Zhuoran Yang(参考訳) 我々は、市場の両側でプランナーと戦略エージェントのセットを含むマルコフマッチング市場について検討する。 各ステップでエージェントは動的コンテキストで表示され、そこでコンテキストがユーティリティを決定する。 プランナーは、累積的社会福祉を最大化するためにコンテキストの遷移を制御し、エージェントは各ステップで筋力安定マッチングを見つけることを目指している。 このような設定は、ライドシェアリングプラットフォームを含むさまざまなアプリケーションをキャプチャする。 本稿では,楽観的な値反復と最大重みマッチングを組み合わせた強化学習フレームワークを提案する。 提案アルゴリズムは, 逐次探索, 整合安定性, 関数近似といった課題に対処する。 アルゴリズムがサブ線形後悔を実現することを証明する。

We study a Markov matching market involving a planner and a set of strategic agents on the two sides of the market. At each step, the agents are presented with a dynamical context, where the contexts determine the utilities. The planner controls the transition of the contexts to maximize the cumulative social welfare, while the agents aim to find a myopic stable matching at each step. Such a setting captures a range of applications including ridesharing platforms. We formalize the problem by proposing a reinforcement learning framework that integrates optimistic value iteration with maximum weight matching. The proposed algorithm addresses the coupled challenges of sequential exploration, matching stability, and function approximation. We prove that the algorithm achieves sublinear regret.
翻訳日:2022-03-09 14:17:28 公開日:2022-03-07
# 個人差分学習におけるセキュアアグリゲーションの基本的価格

The Fundamental Price of Secure Aggregation in Differentially Private Federated Learning ( http://arxiv.org/abs/2203.03761v1 )

ライセンス: Link先を確認
Wei-Ning Chen, Christopher A. Choquette-Choo, Peter Kairouz, Ananda Theertha Suresh(参考訳) 分散ディファレンシャルプライバシ(dp)を備えた,分散ディファレンシャルプライバシ(d$ dimensional model)をトレーニングする問題を考える。そこではセキュアアグリゲーション(secagg)を使用して,トレーニングラウンド毎に,サーバがノイズの多いモデル更新の合計値のみを確認する。 secaggが課す制約を考慮して、$\varepsilon$ central dp(すなわち、完全信頼されたサーバ下で通信制約なし)で実現可能な最高の精度を得るために必要な基本的な通信コストを特徴付ける。 その結果、クライアント毎の$\tilde{o}\left( \min(n^2\varepsilon^2, d) \right)$bitsは十分かつ必要であり、この基本的な極限はスパースランダム射影に基づく線形スキームによって達成できることがわかった。 これは、クライアントごとに$\tilde{o}(d\log(d/\varepsilon ^2))$bitを使用する、最先端のsecagg分散dpスキームと比較して大幅に改善される。 実世界のフェデレーション学習における提案手法を実証的に評価した。 我々の理論分析は実際はよく一致している。 特に、テスト時間性能を低下させることなく、現実的なプライバシ設定において、通信コストをパラメータあたり12ドル以下に大幅に削減できることを示す。 したがって、我々の研究はSecAggを使用する基本的な価格を理論的かつ実証的に特定する。

We consider the problem of training a $d$ dimensional model with distributed differential privacy (DP) where secure aggregation (SecAgg) is used to ensure that the server only sees the noisy sum of $n$ model updates in every training round. Taking into account the constraints imposed by SecAgg, we characterize the fundamental communication cost required to obtain the best accuracy achievable under $\varepsilon$ central DP (i.e. under a fully trusted server and no communication constraints). Our results show that $\tilde{O}\left( \min(n^2\varepsilon^2, d) \right)$ bits per client are both sufficient and necessary, and this fundamental limit can be achieved by a linear scheme based on sparse random projections. This provides a significant improvement relative to state-of-the-art SecAgg distributed DP schemes which use $\tilde{O}(d\log(d/\varepsilon ^2))$ bits per client. Empirically, we evaluate our proposed scheme on real-world federated learning tasks. We find that our theoretical analysis is well matched in practice. In particular, we show that we can reduce the communication cost significantly to under $1.2$ bits per parameter in realistic privacy settings without decreasing test-time performance. Our work hence theoretically and empirically specifies the fundamental price of using SecAgg.
翻訳日:2022-03-09 13:49:37 公開日:2022-03-07
# 慣れ親しんだ概念の構築による分類器の説明

Explaining Classifiers by Constructing Familiar Concepts ( http://arxiv.org/abs/2203.04109v1 )

ライセンス: Link先を確認
Johannes Schneider and Michail Vlachos(参考訳) 深層学習における多数のニューロンの解釈は困難である。 提案する'classifier-decoder&# x27;アーキテクチャ(cladec)は、任意のニューロン層またはそのサブセットの出力の理解を容易にする。 これはデコーダを使用し、与えられたニューロンの理解不能な表現を、人間が慣れ親しんだ領域に近い表現に変換する。 画像認識問題において、cladecの再構成された画像と、参照となる従来のオートエンコーダ(ae)の画像とを対比することにより、レイヤが保持する情報(または概念)を認識することができる。 ClaDecの拡張により、取引の理解性と忠実性が可能になる。 畳み込みニューラルネットワークを用いた画像分類手法の評価を行った。 分類器からのエンコーディングを用いて再構成した可視化は,従来のAEよりも関連性の高い分類情報を取得することを示す。 AEには、元の入力に関するより多くの情報が含まれている。 ユーザスタディでは,非専門家でさえ,分類器に関連する(あるいは無関係)イメージに含まれるさまざまな概念を識別できることを強調した。 また,概念よりもピクセルの関連性に着目したサラマンシーベース手法と比較した。 ClaDecは分類器アーキテクチャに依存するが,より関連性の高い入力領域に注目する傾向がある。 コードは \url{https://github.com/j ohntailor/cladec}

Interpreting a large number of neurons in deep learning is difficult. Our proposed `CLAssifier-DECoder&# x27; architecture (ClaDec) facilitates the understanding of the output of an arbitrary layer of neurons or subsets thereof. It uses a decoder that transforms the incomprehensible representation of the given neurons to a representation that is more similar to the domain a human is familiar with. In an image recognition problem, one can recognize what information (or concepts) a layer maintains by contrasting reconstructed images of ClaDec with those of a conventional auto-encoder(AE) serving as reference. An extension of ClaDec allows trading comprehensibility and fidelity. We evaluate our approach for image classification using convolutional neural networks. We show that reconstructed visualizations using encodings from a classifier capture more relevant classification information than conventional AEs. This holds although AEs contain more information on the original input. Our user study highlights that even non-experts can identify a diverse set of concepts contained in images that are relevant (or irrelevant) for the classifier. We also compare against saliency based methods that focus on pixel relevance rather than concepts. We show that ClaDec tends to highlight more relevant input areas to classification though outcomes depend on classifier architecture. Code is at \url{https://github.com/J ohnTailor/ClaDec}
翻訳日:2022-03-09 13:46:14 公開日:2022-03-07
# HyperMixer: トランスフォーマーに代わるMLPベースのグリーンAI

HyperMixer: An MLP-based Green AI Alternative to Transformers ( http://arxiv.org/abs/2203.03691v1 )

ライセンス: Link先を確認
Florian Mai, Arnaud Pannatier, Fabio Fehr, Haolin Chen, Francois Marelli, Francois Fleuret, James Henderson(参考訳) トランスフォーマーベースのアーキテクチャは自然言語理解に最適なモデルであるが、入力長の2次複雑性があり、チューニングが難しいため、かなりのコストがかかる。 Green AI の追求において,単純な MLP ベースのアーキテクチャについて検討する。 MLPMixerのような既存のアーキテクチャは、各機能に独立して適用される静的MLPを通じてトークンの混合を実現するが、自然言語理解に必要な帰納的バイアスから分離しすぎている。 本稿では,ハイパーネットを用いたトークン混合MLPを動的に生成する,シンプルな変種HyperMixerを提案する。 実験により、我々のモデルは代替のMLPモデルよりも優れた性能を示し、トランスフォーマーと同等の性能を示す。 トランスフォーマーとは対照的に、ハイパーミキサーは処理時間、トレーニングデータ、ハイパーパラメータチューニングといった面で、これらをかなり低いコストで達成する。

Transformer-based architectures are the model of choice for natural language understanding, but they come at a significant cost, as they have quadratic complexity in the input length and can be difficult to tune. In the pursuit of Green AI, we investigate simple MLP-based architectures. We find that existing architectures such as MLPMixer, which achieves token mixing through a static MLP applied to each feature independently, are too detached from the inductive biases required for natural language understanding. In this paper, we propose a simple variant, HyperMixer, which forms the token mixing MLP dynamically using hypernetworks. Empirically, we demonstrate that our model performs better than alternative MLP-based models, and on par with Transformers. In contrast to Transformers, HyperMixer achieves these results at substantially lower costs in terms of processing time, training data, and hyperparameter tuning.
翻訳日:2022-03-09 13:14:41 公開日:2022-03-07
# 心・脳画像解析における評価と説明可能性向上に向けた教師なし画像登録

Unsupervised Image Registration Towards Enhancing Performance and Explainability in Cardiac And Brain Image Analysis ( http://arxiv.org/abs/2203.03638v1 )

ライセンス: Link先を確認
Chengjia Wang, Guang Yang, Giorgos Papanastasiou(参考訳) 磁気共鳴イメージング(MRI)は通常、複数のシーケンスをリクルートする(ここではモダリティと定義する)。 それぞれのモダリティは解剖学的および機能的な臨床情報を提供するように設計されているため、モダリティ間の画像内容に明らかな相違がある。 インターモダリティアフィンおよび非リジッド画像登録は臨床イメージングにおいて必須の医用画像解析プロセスであり、例えば、画像バイオマーカーを異なるmriモダリティ、時間相、スライス間で誘導し、臨床的に評価する必要がある。 実際の臨床シナリオでは一般的に必要とされるが、アフィンおよび非剛体画像登録は、単一の教師なしモデルアーキテクチャを用いて広く研究されていない。 本研究では,アフィンおよび非剛性変換を同時に正確にモデル化できる教師なしディープラーニング登録手法を提案する。 さらに、逆一貫性は、ディープラーニング登録アルゴリズムでは考慮されない基本的なモダリティ間登録特性である。 逆整合性に対処するため,本手法では,2つの因子化変換ネットワークと逆整合損失を伴い,位相保存型解剖学的変換を学習する。 総じて、本モデル(FIRE)は、マルチモーダル脳2Dおよび3D MRIおよびモード内心臓4D MRIデータ実験における基準基準基準法に対する性能改善を示す。

Magnetic Resonance Imaging (MRI) typically recruits multiple sequences (defined here as "modalities"). As each modality is designed to offer different anatomical and functional clinical information, there are evident disparities in the imaging content across modalities. Inter- and intra-modality affine and non-rigid image registration is an essential medical image analysis process in clinical imaging, as for example before imaging biomarkers need to be derived and clinically evaluated across different MRI modalities, time phases and slices. Although commonly needed in real clinical scenarios, affine and non-rigid image registration is not extensively investigated using a single unsupervised model architecture. In our work, we present an un-supervised deep learning registration methodology which can accurately model affine and non-rigid trans-formations, simultaneously. Moreover, inverse-consistency is a fundamental inter-modality registration property that is not considered in deep learning registration algorithms. To address inverse-consistency, our methodology performs bi-directional cross-modality image synthesis to learn modality-invariant latent rep-resentations, while involves two factorised transformation networks and an inverse-consistency loss to learn topology-preserving anatomical transformations. Overall, our model (named "FIRE") shows improved performances against the reference standard baseline method on multi-modality brain 2D and 3D MRI and intra-modality cardiac 4D MRI data experiments.
翻訳日:2022-03-09 13:14:08 公開日:2022-03-07
# boltzmannマシンによるグラフクラスタリング

Graph clustering with Boltzmann machines ( http://arxiv.org/abs/2203.02471v2 )

ライセンス: Link先を確認
Pierre Miasnikof, Mohammad Bagherbeik, Ali Sheikholeslami(参考訳) グラフクラスタリングは、頂点をクラスタと呼ばれる密結合集合にグループ化するプロセスである。 我々は2つの数学的プログラミングの定式化を文献からこの問題に仕立て上げた。 これにより,クラスタ内密度最大化問題に対するヒューリスティック近似が得られる。 ボルツマン機械ヒューリスティックの2つの変種を用いて数値解を得る。 ベンチマークのために,商用解法 gurobi を用いて得られた解の質と計算性能を比較した。 また,Louvainモジュラリティ最大化法を用いて得られたクラスタと比較した。 最初の結果は問題定式化の優位性を明確に示している。 彼らはまた、従来の正確な解法よりもボルツマンマシンの優位性を確立する。 より小さな複素グラフの場合、ボルツマンマシンはgurobiと同じ解を提供するが、解時間は桁違いに低い。 より大きく複雑なグラフの場合、グロビは妥当な時間枠内で有意義な結果を返すことができない。 最後に、我々のクラスタリングの定式化、距離最小化、および$k$-medoidsは、luuvainアルゴリズムで得られたものよりも優れた品質のクラスタを産出する。

Graph clustering is the process of grouping vertices into densely connected sets called clusters. We tailor two mathematical programming formulations from the literature, to this problem. In doing so, we obtain a heuristic approximation to the intra-cluster density maximization problem. We use two variations of a Boltzmann machine heuristic to obtain numerical solutions. For benchmarking purposes, we compare solution quality and computational performances to those obtained using a commercial solver, Gurobi. We also compare clustering quality to the clusters obtained using the popular Louvain modularity maximization method. Our initial results clearly demonstrate the superiority of our problem formulations. They also establish the superiority of the Boltzmann machine over the traditional exact solver. In the case of smaller less complex graphs, Boltzmann machines provide the same solutions as Gurobi, but with solution times that are orders of magnitude lower. In the case of larger and more complex graphs, Gurobi fails to return meaningful results within a reasonable time frame. Finally, we also note that both our clustering formulations, the distance minimization and $K$-medoids, yield clusters of superior quality to those obtained with the Louvain algorithm.
翻訳日:2022-03-09 11:33:48 公開日:2022-03-07
# (参考訳) HAR-GCNN:高度にラベル付けされたモバイルセンサデータから人間の活動認識のためのディープグラフCNN [全文訳有]

HAR-GCNN: Deep Graph CNNs for Human Activity Recognition From Highly Unlabeled Mobile Sensor Data ( http://arxiv.org/abs/2203.03087v1 )

ライセンス: CC BY 4.0
Abduallah Mohamed, Fernando Lejarza, Stephanie Cahail, Christian Claudel, Edison Thomaz(参考訳) モバイルセンサデータからの人間の活動認識の問題は、健康モニタリング、個人のフィットネス、日常生活記録、高齢者ケアなど、複数の領域に適用される。 ヒューマンアクティビティ認識モデルのトレーニングにおける重要な課題は、データ品質である。 正確な活動ラベルを含むバランスのとれたデータセットを取得するには、人間が正しく注釈を付け、リアルタイムで被験者の通常の活動に干渉する必要がある。 誤った注釈やその欠如の可能性にもかかわらず、しばしば人間の行動に固有の年表が存在する。 例えば、運動後にシャワーを浴びます。 この暗黙の年代学は未知のラベルを学習し、将来の活動の分類に利用できる。 本研究では,時系列に隣接したセンサ計測値間の相関を利用して,少なくとも1つのアクティビティラベルを有する未分類アクティビティの正確なラベルを予測するディープグラフcnnモデルであるhar-gccnを提案する。 そこで本研究では,モデルが未知の活動ラベルを予測するための新たなトレーニング戦略を提案する。 HAR-GCCNは、これまで使用されていたベースライン手法と比較して優れた性能を示し、分類精度を25%改善し、異なるデータセットで最大68%向上した。 コードは \url{https://github.com/a bduallahmohamed/har- gcnn} で入手できる。

The problem of human activity recognition from mobile sensor data applies to multiple domains, such as health monitoring, personal fitness, daily life logging, and senior care. A critical challenge for training human activity recognition models is data quality. Acquiring balanced datasets containing accurate activity labels requires humans to correctly annotate and potentially interfere with the subjects' normal activities in real-time. Despite the likelihood of incorrect annotation or lack thereof, there is often an inherent chronology to human behavior. For example, we take a shower after we exercise. This implicit chronology can be used to learn unknown labels and classify future activities. In this work, we propose HAR-GCCN, a deep graph CNN model that leverages the correlation between chronologically adjacent sensor measurements to predict the correct labels for unclassified activities that have at least one activity label. We propose a new training strategy enforcing that the model predicts the missing activity labels by leveraging the known ones. HAR-GCCN shows superior performance relative to previously used baseline methods, improving classification accuracy by about 25% and up to 68% on different datasets. Code is available at \url{https://github.com/a bduallahmohamed/HAR- GCNN}.
翻訳日:2022-03-09 03:27:22 公開日:2022-03-07
# (参考訳) SurvSet: オープンソースの時系列データセットリポジトリ [全文訳有]

SurvSet: An open-source time-to-event dataset repository ( http://arxiv.org/abs/2203.03094v1 )

ライセンス: CC BY 4.0
Erik Drysdale(参考訳) Time-to-event (T2E) 分析は、イベントが発生するまでの時間をモデル化する統計学の分野である。 このようなイベントには、死、失業、製品失敗などの結果が含まれる。 決定木やカーネルメソッドのような現代の機械学習(ML)アルゴリズムは、データサイエンスソフトウェア(ピソンとR)でT2Eモデリングをサポートする。 これらの開発を補完するため、SurvSetはMLアルゴリズムと統計手法の迅速なベンチマークのために設計された、最初のオープンソースT2Eデータセットリポジトリである。 SurvSetのデータは一貫してフォーマットされており、単一のプリプロセッシングメソッドがすべてのデータセットで機能する。 現在、SurvSetには76のデータセットがあり、次元、時間依存性、背景(その大部分はバイオメディシンに由来する)が異なる。 SurvSetはPyPIで利用可能で、pip install SurvSetでインストールできる。 Rユーザは、対応するgitリポジトリから直接データをダウンロードすることができる。

Time-to-event (T2E) analysis is a branch of statistics that models the duration of time it takes for an event to occur. Such events can include outcomes like death, unemployment, or product failure. Most modern machine learning (ML) algorithms, like decision trees and kernel methods, are supported for T2E modelling with data science software (python and R). To complement these developments, SurvSet is the first open-source T2E dataset repository designed for a rapid benchmarking of ML algorithms and statistical methods. The data in SurvSet have been consistently formatted so that a single preprocessing method will work for all datasets. SurvSet currently has 76 datasets which vary in dimensionality, time dependency, and background (the majority of which come from biomedicine). SurvSet is available on PyPI and can be installed with pip install SurvSet. R users can download the data directly from the corresponding git repository.
翻訳日:2022-03-09 03:13:33 公開日:2022-03-07
# (参考訳) 特異値摂動とディープネットワーク最適化

Singular Value Perturbation and Deep Network Optimization ( http://arxiv.org/abs/2203.03099v1 )

ライセンス: CC BY 4.0
Rudolf H. Riedi, Randall Balestriero, Richard G. Baraniuk(参考訳) 我々は,行列摂動の新たな理論的結果を開発し,アーキテクチャが深層ネットワークの性能に与える影響を明らかにする。 特に、ディープラーニング実践者が長年経験的に観察してきたものについて分析的に説明する: 深いアーキテクチャ(残留ネットワーク、ResNet、DenseNetsなど)のパラメータは他のもの(畳み込みネットワーク、ConvNetsなど)よりも最適化が容易である。 ディープネットワークと連続的な断片的なアフィンスプラインをつなぐ初期の研究に基づいて、スペクトルの一方の端にコンブネット、他方に再ネットと高密度ネットを含む、現代のディープネットワークのファミリーのためのディープネットワーク層の正確な局所的表現を開発する。 二乗誤差損失を最適化する回帰タスクでは、局所線形表現の関数である行列の特異値によって局所的な形状が支配される、現代のディープネットワークの最適化損失曲面がパラメータの分割二乗であることを示す。 我々は,このような行列の特異な値がどのように振る舞うかを,ある対角行列の個数と乗算を加味して新たな摂動結果を作成する。 より安定した特異値とより少ない条件数のおかげで、ResNet や DenseNet の局所的な損失面は不安定ではなく、偏心性が低く、勾配に基づく最適化に配慮した局所的なミニマが特徴である。 また,異なる非線形活性化関数がディープネットワークの特異値に与える影響について,そのアーキテクチャによらず新たな光を当てた。

We develop new theoretical results on matrix perturbation to shed light on the impact of architecture on the performance of a deep network. In particular, we explain analytically what deep learning practitioners have long observed empirically: the parameters of some deep architectures (e.g., residual networks, ResNets, and Dense networks, DenseNets) are easier to optimize than others (e.g., convolutional networks, ConvNets). Building on our earlier work connecting deep networks with continuous piecewise-affine splines, we develop an exact local linear representation of a deep network layer for a family of modern deep networks that includes ConvNets at one end of a spectrum and ResNets and DenseNets at the other. For regression tasks that optimize the squared-error loss, we show that the optimization loss surface of a modern deep network is piecewise quadratic in the parameters, with local shape governed by the singular values of a matrix that is a function of the local linear representation. We develop new perturbation results for how the singular values of matrices of this sort behave as we add a fraction of the identity and multiply by certain diagonal matrices. A direct application of our perturbation results explains analytically why a ResNet is easier to optimize than a ConvNet: thanks to its more stable singular values and smaller condition number, the local loss surface of a ResNet or DenseNet is less erratic, less eccentric, and features local minima that are more accommodating to gradient-based optimization. Our results also shed new light on the impact of different nonlinear activation functions on a deep network's singular values, regardless of its architecture.
翻訳日:2022-03-09 03:02:11 公開日:2022-03-07
# (参考訳) インテリジェントIoT分析のための個人と共同ネットワークの挙動の組み合わせ [全文訳有]

Combining Individual and Joint Networking Behavior for Intelligent IoT Analytics ( http://arxiv.org/abs/2203.03109v1 )

ライセンス: CC BY 4.0
Jeya Vikranth Jeyakumar and Ludmila Cherkasova and Saina Lajevardi and Moray Allan and Yue Zhao and John Fry and Mani Srivastava(参考訳) 今後10年間の1兆台の接続デバイスに対するIoTビジョンには、信頼性の高いエンドツーエンド接続と自動デバイス管理プラットフォームが必要です。 小規模なiotテストベッドのメンテナンスに成功していますが、大規模デバイスデプロイメントの効率的な管理には複数の課題があります。 何百万ものデバイスを取り入れたIndustrial IoTでは、従来の管理方法はうまくスケールしない。 本稿では,ネットワークレベルで得られるトラフィック特性を用いて,iotデバイス管理のための新しいツールであるit iotelligentの基礎を形成する,一連の新しい機械学習手法を設計することで,これらの課題に対処する。 当社のツールの設計は,IoTデプロイメントを持つ350企業から収集された,1年間のネットワークデータの分析によって進められています。 このデータの探索分析により、IoT環境は、次のような有名なPareto原則に従っていることが明らかになった。 (i)データセット内の企業の10%は、全トラフィックの90%に寄与する。 (ii) セット内の全企業の7%が全デバイスの90%を所有している。 我々は、需要予測のためのCNN、LSTM、畳み込みLSTMモデルを設計、評価し、畳み込みLSTMモデルが最も優れていると結論付けた。 しかし、個々の企業モデルのメンテナンスと更新は高価である。 そこで本研究では, 正規化係数を持つ全企業の組み合わせデータを用いて, 需要予測モデルを構築する, 新たなスケーラブルなアプローチを設計する。 さらに,オートエンコーダに基づくデバイス管理のための新しい手法を提案する。 彼らは関連デバイス機能を自動的に抽出し、異常デバイスにフラグを付けるのと同じような振る舞いをするデバイスグループを特定する。

The IoT vision of a trillion connected devices over the next decade requires reliable end-to-end connectivity and automated device management platforms. While we have seen successful efforts for maintaining small IoT testbeds, there are multiple challenges for the efficient management of large-scale device deployments. With Industrial IoT, incorporating millions of devices, traditional management methods do not scale well. In this work, we address these challenges by designing a set of novel machine learning techniques, which form a foundation of a new tool, it IoTelligent, for IoT device management, using traffic characteristics obtained at the network level. The design of our tool is driven by the analysis of 1-year long networking data, collected from 350 companies with IoT deployments. The exploratory analysis of this data reveals that IoT environments follow the famous Pareto principle, such as: (i) 10% of the companies in the dataset contribute to 90% of the entire traffic; (ii) 7% of all the companies in the set own 90% of all the devices. We designed and evaluated CNN, LSTM, and Convolutional LSTM models for demand forecasting, with a conclusion of the Convolutional LSTM model being the best. However, maintaining and updating individual company models is expensive. In this work, we design a novel, scalable approach, where a general demand forecasting model is built using the combined data of all the companies with a normalization factor. Moreover, we introduce a novel technique for device management, based on autoencoders. They automatically extract relevant device features to identify device groups with similar behavior to flag anomalous devices.
翻訳日:2022-03-09 03:00:53 公開日:2022-03-07
# (参考訳) Kernel Packet: Mat\'ern相関を用いたガウスプロセス回帰のための厳密でスケーラブルなアルゴリズム

Kernel Packet: An Exact and Scalable Algorithm for Gaussian Process Regression with Mat\'ern Correlations ( http://arxiv.org/abs/2203.03116v1 )

ライセンス: CC BY 4.0
Haoyuan Chen, Liang Ding, Rui Tuo(参考訳) 滑らか度パラメータ$\nu$が半整数であるようなMat\'ern相関を用いた1次元ガウス過程回帰の正確かつスケーラブルなアルゴリズムを開発した。 提案されたアルゴリズムは$\mathcal{o}(\nu^3 n)$演算と$\mathcal{o}(\nu n)$ストレージのみを必要とする。 これは、$\nu$ が修正され、通常ほとんどのアプリケーションで非常に小さいため、線形コストの解法をもたらす。 提案手法は, フルグリッドやスパースグリッドを用いた場合の多次元問題に適用可能である。 提案手法は,Mat\'ern相関関数の新たな理論に基づく。 これらの相関関数の適切な再配置は、カーネルパケットと呼ばれるコンパクトにサポートされた関数を生成することができる。 基底関数としてカーネルパケットの集合を用いると、共分散行列がスパース表現され、アルゴリズムが提案される。 シミュレーション研究により、提案アルゴリズムは適用可能な場合、計算時間と予測精度の両方において既存のアルゴリズムよりも大幅に優れていることが示された。

We develop an exact and scalable algorithm for one-dimensional Gaussian process regression with Mat\'ern correlations whose smoothness parameter $\nu$ is a half-integer. The proposed algorithm only requires $\mathcal{O}(\nu^3 n)$ operations and $\mathcal{O}(\nu n)$ storage. This leads to a linear-cost solver since $\nu$ is chosen to be fixed and usually very small in most applications. The proposed method can be applied to multi-dimensional problems if a full grid or a sparse grid design is used. The proposed method is based on a novel theory for Mat\'ern correlation functions. We find that a suitable rearrangement of these correlation functions can produce a compactly supported function, called a "kernel packet". Using a set of kernel packets as basis functions leads to a sparse representation of the covariance matrix that results in the proposed algorithm. Simulation studies show that the proposed algorithm, when applicable, is significantly superior to the existing alternatives in both the computational time and predictive accuracy.
翻訳日:2022-03-09 02:49:41 公開日:2022-03-07
# (参考訳) 対話状態追跡におけるマルチターン対話と評価基準のミスマッチ [全文訳有]

Mismatch between Multi-turn Dialogue and its Evaluation Metric in Dialogue State Tracking ( http://arxiv.org/abs/2203.03123v1 )

ライセンス: CC BY 4.0
Takyoung Kim, Hoonsang Yoon, Yukyung Lee, Pilsung Kang, Misuk Kim(参考訳) 対話状態追跡(DST)は,多方向対話状況から重要な情報を抽出し,適切な行動を取ることを目的としている。 信念状態は、情報の中核の1つであり、主題とその特定の内容を指し、 \texttt{ domain-slot-value} の形で現れる。 トレーニングされたモデルは,各ターンに蓄積された信念状態を予測し,共同目標精度とスロット精度を主に予測評価に用いているが,対話の進行に伴って蓄積された信念状態を評価する場合,特に最もよく使用されるマルチWOZデータセットにおいて,現在の評価指標が臨界限界を有することを明記する。 さらに,既存のメトリクスを補完する‘textbf{relative slot accuracy’を提案する。 相対スロット精度は予め定義されたスロット数に依存しず、対話の順番に応じて相対スコアを割り当てることで直感的な評価を可能にする。 本研究は,共同目標精度の報告だけでなく,現実的な評価のために,DSTタスクにおける様々な相補的指標も推奨する。

Dialogue state tracking (DST) aims to extract essential information from multi-turn dialogue situations and take appropriate actions. A belief state, one of the core pieces of information, refers to the subject and its specific content, and appears in the form of \texttt{domain-slot-value}. The trained model predicts "accumulated" belief states in every turn, and joint goal accuracy and slot accuracy are mainly used to evaluate the prediction; however, we specify that the current evaluation metrics have a critical limitation when evaluating belief states accumulated as the dialogue proceeds, especially in the most used MultiWOZ dataset. Additionally, we propose \textbf{relative slot accuracy} to complement existing metrics. Relative slot accuracy does not depend on the number of predefined slots, and allows intuitive evaluation by assigning relative scores according to the turn of each dialogue. This study also encourages not solely the reporting of joint goal accuracy, but also various complementary metrics in DST tasks for the sake of a realistic evaluation.
翻訳日:2022-03-09 02:48:37 公開日:2022-03-07
# (参考訳) GNNベースのジョブスケジューリングのスケーラブルな検証 [全文訳有]

Scalable Verification of GNN-based Job Schedulers ( http://arxiv.org/abs/2203.03153v1 )

ライセンス: CC BY 4.0
Haoze Wu, Clark Barrett, Mahmood Sharif, Nina Narodytska, Gagandeep Singh(参考訳) 近年、グラフニューラルネットワーク(GNN)は、手作りのヒューリスティックよりも優れたパフォーマンスを達成するクラスタ上のジョブのスケジューリングに応用されている。 印象的なパフォーマンスにもかかわらず、ブラックボックスの性質から、現実の環境にデプロイする場合の信頼性に対する懸念は残る。 これらの限界に対処するために,本研究における戦略証明や局所性などの期待値の形式的検証について検討する。 我々は、画像およびnlp分類器の既存の検証器が遭遇しないより深いネットワークやリッチな仕様など、いくつかのドメイン固有の課題に対処する。 我々は,これらのスケジューラの1ステップおよび複数ステップ特性を検証するための最初の汎用フレームワークであるgnn-verifyを開発した。 試行錯誤ベンチマーク実験の結果,提案手法は最先端のGNNベースのスケジューラの信頼性について,正確かつスケーラブルな形式保証を提供できることが示された。

Recently, Graph Neural Networks (GNNs) have been applied for scheduling jobs over clusters achieving better performance than hand-crafted heuristics. Despite their impressive performance, concerns remain over their trustworthiness when deployed in a real-world environment due to their black-box nature. To address these limitations, we consider formal verification of their expected properties such as strategy proofness and locality in this work. We address several domain-specific challenges such as deeper networks and richer specifications not encountered by existing verifiers for image and NLP classifiers. We develop GNN-Verify, the first general framework for verifying both single-step and multi-step properties of these schedulers based on carefully designed algorithms that combine abstractions, refinements, solvers, and proof transfer. Our experimental results on challenging benchmarks show that our approach can provide precise and scalable formal guarantees on the trustworthiness of state-of-the-art GNN-based scheduler.
翻訳日:2022-03-09 02:34:05 公開日:2022-03-07
# (参考訳) ロバストオンライン対話応答生成に向けて [全文訳有]

Towards Robust Online Dialogue Response Generation ( http://arxiv.org/abs/2203.03168v1 )

ライセンス: CC BY 4.0
Leyang Cui, Fandong Meng, Yijin Liu, Jie Zhou, Yue Zhang(参考訳) 事前訓練されたシーケンス・ツー・シーケンスモデルは対話応答生成において大きな成功を収めているが、チャットボットは現実の実践、特にマルチターン設定において一貫性のない応答を生成することに苦慮している。 これはトレーニングと実世界のテストの相違によって引き起こされる可能性がある、と私たちは主張する。 トレーニング時にチャットボットはゴールデンコンテキストで応答を生成し、実際のテスト中にユーザの発話とモデルが予測した発話の両方からなるコンテキストに基づいて生成する必要がある。 発話数の増加に伴い、この不一致はマルチターン設定においてより深刻になる。 本稿では,発話レベルのサンプリングと半発話レベルのサンプリングの両方からなる階層的なサンプリングベース手法を提案する。 さらに,強化学習と再ランキング手法を採用し,訓練と推論の対話コヒーレンスを明示的に最適化する。 実運用におけるチャットボットのロバスト性向上のための提案手法の有効性を示す実験を行った。

Although pre-trained sequence-to-sequence models have achieved great success in dialogue response generation, chatbots still suffer from generating inconsistent responses in real-world practice, especially in multi-turn settings. We argue that this can be caused by a discrepancy between training and real-world testing. At training time, chatbot generates the response with the golden context, while it has to generate based on the context consisting of both user utterances and the model predicted utterances during real-world testing. With the growth of the number of utterances, this discrepancy becomes more serious in the multi-turn settings. In this paper, we propose a hierarchical sampling-based method consisting of both utterance-level sampling and semi-utterance-level sampling, to alleviate the discrepancy, which implicitly increases the dialogue coherence. We further adopt reinforcement learning and re-ranking methods to explicitly optimize the dialogue coherence during training and inference, respectively. Empirical experiments show the effectiveness of the proposed methods for improving the robustness of chatbots in real practice.
翻訳日:2022-03-09 02:01:45 公開日:2022-03-07
# (参考訳) Adaptive Siamese Trackingにおける変化検出による動的テンプレート選択 [全文訳有]

Dynamic Template Selection Through Change Detection for Adaptive Siamese Tracking ( http://arxiv.org/abs/2203.03181v1 )

ライセンス: CC BY 4.0
Madhu Kiran, Le Thanh Nguyen-Meidine, Rajat Sahay, Rafael Menelau Oliveira E Cruz, Louis-Antoine Blais-Morin, Eric Granger(参考訳) ディープ・シャム・トラッカーは最近、高速で視覚物体を追跡できるため、多くの注目を集めている。 さらに、オンライン学習にトラッカーが収集したターゲットサンプルを用いる適応的追跡手法は、最先端の精度を実現している。 しかし、ターゲットオブジェクトの外観の変化や変形のため、シングルオブジェクトトラッキング(SOT)は現実のアプリケーションでは難しい課題である。 すべてのサンプルを学習することで、破滅的な忘れを招き、追跡モデルを破損させる可能性がある。 本稿では,SOTをオンラインインクリメンタル学習問題として定式化する。 テンプレート破損を防止し,動的サンプル選択とメモリリプレイを行う新しい手法を提案する。 特に,物体の出現の段階的な変化を検知し,オンライン適応のためのサンプルを選択するための変化検出機構を提案する。 さらに、メモリ再生のための多様化された補助バッファを維持するために、エントロピーに基づくサンプル選択戦略を導入する。 提案手法は,モデル適応にオンライン学習を利用する任意のオブジェクト追跡アルゴリズムに統合できる。 OTB-100、LaSOT、UAV123、TrackingNetデータセットで実施された大規模な実験は、主要なコンポーネントの寄与とともに、我々の手法のコスト効果を強調した。 その結果,提案手法を最先端適応型シームズトラッカーに統合することにより,テンプレート更新戦略のメリットを向上し,性能を著しく向上できることがわかった。

Deep Siamese trackers have recently gained much attention in recent years since they can track visual objects at high speeds. Additionally, adaptive tracking methods, where target samples collected by the tracker are employed for online learning, have achieved state-of-the-art accuracy. However, single object tracking (SOT) remains a challenging task in real-world application due to changes and deformations in a target object's appearance. Learning on all the collected samples may lead to catastrophic forgetting, and thereby corrupt the tracking model. In this paper, SOT is formulated as an online incremental learning problem. A new method is proposed for dynamic sample selection and memory replay, preventing template corruption. In particular, we propose a change detection mechanism to detect gradual changes in object appearance and select the corresponding samples for online adaption. In addition, an entropy-based sample selection strategy is introduced to maintain a diversified auxiliary buffer for memory replay. Our proposed method can be integrated into any object tracking algorithm that leverages online learning for model adaptation. Extensive experiments conducted on the OTB-100, LaSOT, UAV123, and TrackingNet datasets highlight the cost-effectiveness of our method, along with the contribution of its key components. Results indicate that integrating our proposed method into state-of-art adaptive Siamese trackers can increase the potential benefits of a template update strategy, and significantly improve performance.
翻訳日:2022-03-09 01:17:43 公開日:2022-03-07
# (参考訳) covariate-balancing- aware cognitable deep learning modelによる治療効果評価 [全文訳有]

Covariate-Balancing- Aware Interpretable Deep Learning models for Treatment Effect Estimation ( http://arxiv.org/abs/2203.03185v1 )

ライセンス: CC BY 4.0
Kan Chen, Qishuo Yin, Qi Long(参考訳) 治療効果の推定は、観察データを用いた多くの生体医学的応用において非常に重要である。 特に、治療効果の解釈可能性は多くの生体医学研究者にとって好ましい。 本稿では,まず理論解析を行い,強い無知性仮定の下での平均処理効果推定のバイアスの上限について提案する。 提案する上限は, 実測結果のトレーニング誤差と, 処理分布と制御分布との距離の2つの部分から構成される。 重み付きエネルギー距離(wed)を用いて2つの分布間の距離を測定する。 本稿では, ニューラルネットワークの表現性, 一般化された加法モデルの解釈可能性, 推定調整のためのバランススコアの充足性, および, 処理および制御分布の共変量バランス特性を組み合わせ, 観測データからの平均処理効果を推定する。 さらに、非パラメトリック理論に基づくいわゆる重み付け正規化手順を課し、いくつかの望ましい漸近特性を得る。 提案手法は,因果推論のためのベンチマークデータセットを再検討し,最先端よりも優れることを示す。

Estimating treatment effects is of great importance for many biomedical applications with observational data. Particularly, interpretability of the treatment effects is preferable to many biomedical researchers. In this paper, we first give a theoretical analysis and propose an upper bound for the bias of average treatment effect estimation under the strong ignorability assumption. The proposed upper bound consists of two parts: training error for factual outcomes, and the distance between treated and control distributions. We use the Weighted Energy Distance (WED) to measure the distance between two distributions. Motivated by the theoretical analysis, we implement this upper bound as an objective function being minimized by leveraging a novel additive neural network architecture, which combines the expressivity of deep neural network, the interpretability of generalized additive model, the sufficiency of the balancing score for estimation adjustment, and covariate balancing properties of treated and control distributions, for estimating average treatment effects from observational data. Furthermore, we impose a so-called weighted regularization procedure based on non-parametric theory, to obtain some desirable asymptotic properties. The proposed method is illustrated by re-examining the benchmark datasets for causal inference, and it outperforms the state-of-art.
翻訳日:2022-03-09 01:02:57 公開日:2022-03-07
# (参考訳) 子どものための人工知能とロボティクスにおける多様性と包括的ワークショップの試行 [全文訳有]

Piloting Diversity and Inclusion Workshops in Artificial Intelligence and Robotics for Children ( http://arxiv.org/abs/2203.03204v1 )

ライセンス: CC BY-SA 4.0
A. Badillo-Perez, D. Badillo-Perez, D. Coyotzi-Molina, D. Cruz, R. Montenegro, L. Vazquez and Miguel Xochicale(参考訳) 本稿では,開発途上国における人工知能とロボット工学(air4children)の基礎の多様性と包括性を促進することを目的としたパイロットワークショップの予備研究について述べる。 資金不足と発展途上国でAIやロボティクスを教える専門職の不足を考えると、フリーのオープンソースハードウェアとソフトウェア、オープンな教育リソース、代替教育プログラムに基づくリソースを提供する。 とはいえ、この研究の貢献は、平均年齢7.64歳の14人の子どものジェンダーバランスの小さなサンプルに、子供向けのaiとロボティクスを教えることにおける多様性と包括性を促進する4つのレッスンのパイロットワークショップである。 参加者,インストラクター,コーディネーター,親は,途上国のワークショップに適切なリソースを持ち,今後の作業を行うというさまざまな課題を指摘して,パイロットワークショップに積極的に参加している。

In this paper, we present preliminary work from a pilot workshop that aimed to promote diversity and inclusion for fundamentals of Artificial Intelligence and Robotics for Children (air4children) in the context of developing countries. Considering the scarcity of funding and the little to none availability of specialised professionals to teach AI and robotics in developing countries, we present resources based on free open-source hardware and software, open educational resources, and alternative education programs. That said, the contribution of this work is the pilot workshop of four lessons that promote diversity and inclusion on teaching AI and Robotics for children to a small gender-balanced sample of 14 children of an average age of 7.64 years old. We conclude that participant, instructors, coordinators and parents engaged well in the pilot workshop noting the various challenges of having the right resources for the workshops in developing countries and posing future work.
翻訳日:2022-03-09 00:27:18 公開日:2022-03-07
# (参考訳) 有向および非有向グラフに対する一般化スペクトルクラスタリング [全文訳有]

Generalized Spectral Clustering for Directed and Undirected Graphs ( http://arxiv.org/abs/2203.03221v1 )

ライセンス: CC BY 4.0
Harry Sevi, Matthieu Jonckeere, Argyris Kalogeratos(参考訳) スペクトルクラスタリングは、無向グラフをクラスタリングするための一般的なアプローチであるが、有向グラフ (digraphs) への拡張はより困難である。 典型的な回避策は、有向グラフの隣接行列を鼻でシミュレートすることであり、しかしながら、エッジ指向性によってもたらされる貴重な情報を破棄することができる。 本稿では,有向グラフと無向グラフの両方に対応可能な一般化スペクトルクラスタリングフレームワークを提案する。 本手法は,グラフ関数の一般化ディリクレエネルギーとして導入する新たな関数のスペクトル緩和と,グラフエッジ上の任意の正の正則化測度に基づく。 また,グラフ上の自然ランダムウォークの反復力から構築した正規化測度の実用的パラメトリゼーションを提案する。 我々は,不均衡クラスの設定におけるフレームワークの効率性を説明するために,理論的な議論を行う。 実データセットから構築した有向k-nnグラフを用いた実験により、グラフ分割法が全てのケースで一貫して機能することが示された。

Spectral clustering is a popular approach for clustering undirected graphs, but its extension to directed graphs (digraphs) is much more challenging. A typical workaround is to naively symmetrize the adjacency matrix of the directed graph, which can however lead to discarding valuable information carried by edge directionality. In this paper, we present a generalized spectral clustering framework that can address both directed and undirected graphs. Our approach is based on the spectral relaxation of a new functional that we introduce as the generalized Dirichlet energy of a graph function, with respect to an arbitrary positive regularizing measure on the graph edges. We also propose a practical parametrization of the regularizing measure constructed from the iterated powers of the natural random walk on the graph. We present theoretical arguments to explain the efficiency of our framework in the challenging setting of unbalanced classes. Experiments using directed K-NN graphs constructed from real datasets show that our graph partitioning method performs consistently well in all cases, while outperforming existing approaches in most of them.
翻訳日:2022-03-09 00:17:53 公開日:2022-03-07
# (参考訳) 絵画における意味セグメンテーション [全文訳有]

Semantic Segmentation in Art Paintings ( http://arxiv.org/abs/2203.03238v1 )

ライセンス: CC BY-SA 4.0
Nadav Cohen, Yael Newman, Ariel Shamir(参考訳) 写真に教師付きで訓練しても意味的セグメンテーションは難しい課題である。 本稿では,芸術絵画のセマンティックセグメンテーション(セマンティックセグメンテーション)の問題に取り組み,色,テクスチャ,形状の多様性がはるかに大きく,また,セグメンテーションのための根拠となる真理アノテーションが存在しないため,さらに課題となる。 領域適応を用いた絵画のセマンティックセグメンテーションの教師なし手法を提案する。 提案手法は,PASCAL VOC 2012データセットのスタイルトランスファーを用いて,特定の芸術様式の擬似絵画のトレーニングセットを作成し,PASCAL VOC 2012と実際の絵画とのドメイン混同を適用した。 これらの2つのステップは、DRAM(Diverse Realism in Art Movements)と呼ばれる新しいデータセットの上に構築されています。 新しい絵画を分割するために,各サブドメインを個別に訓練し,推論時間にその解を構成する複合多領域適応法を提案する。 本手法は,DRAMの特定の芸術的動作だけでなく,他の見えない動作に対しても,より良いセグメンテーション結果を提供する。 本手法を代替手法と比較し,絵画における意味セグメンテーションの適用例を示す。 このアプローチのコードとモデルは、https://github.com/N adavc220/SemanticSeg mentationInArtPainti ngsで公開されています。

Semantic segmentation is a difficult task even when trained in a supervised manner on photographs. In this paper, we tackle the problem of semantic segmentation of artistic paintings, an even more challenging task because of a much larger diversity in colors, textures, and shapes and because there are no ground truth annotations available for segmentation. We propose an unsupervised method for semantic segmentation of paintings using domain adaptation. Our approach creates a training set of pseudo-paintings in specific artistic styles by using style-transfer on the PASCAL VOC 2012 dataset, and then applies domain confusion between PASCAL VOC 2012 and real paintings. These two steps build on a new dataset we gathered called DRAM (Diverse Realism in Art Movements) composed of figurative art paintings from four movements, which are highly diverse in pattern, color, and geometry. To segment new paintings, we present a composite multi-domain adaptation method that trains on each sub-domain separately and composes their solutions during inference time. Our method provides better segmentation results not only on the specific artistic movements of DRAM, but also on other, unseen ones. We compare our approach to alternative methods and show applications of semantic segmentation in art paintings. The code and models for our approach are publicly available at: https://github.com/N adavc220/SemanticSeg mentationInArtPainti ngs.
翻訳日:2022-03-08 23:58:25 公開日:2022-03-07
# (参考訳) 対面インタラクションシナリオにおける人の動きと姿勢予測の時空間モデルの比較

Comparison of Spatio-Temporal Models for Human Motion and Pose Forecasting in Face-to-Face Interaction Scenarios ( http://arxiv.org/abs/2203.03245v1 )

ライセンス: CC BY 4.0
German Barquero and Johnny N\'u\~nez and Zhen Xu and Sergio Escalera and Wei-Wei Tu and Isabelle Guyon and Cristina Palmero(参考訳) 人間と人間の相互作用における人間の行動予測は、ロボットや仮想エージェントに社会知性を提供する上で最も重要である。 この問題は、対人ダイナミクスによって高度に駆動されるシナリオでは特に難しい。 本稿では,行動予測のための最先端手法の体系的比較を行った。 そのために私たちは、最近リリースされたudiva v0.5から全身アノテーション(顔、体、手)を活用しています。 UDIVA v0.5の最先端性能を実現する。 短期的な未来(400ms)で訓練された手法で未来を自動回帰予測することで、かなり長期的な未来(最大2秒)でもベースラインを上回ります。 また,この傾向は,非常にノイズの多いアノテーションが使用される場合にも現れ,弱い教師付き学習の利用への新たな道筋を開く。 大規模なデータセットと組み合わせることで、この分野の進歩を促進することができる。

Human behavior forecasting during human-human interactions is of utmost importance to provide robotic or virtual agents with social intelligence. This problem is especially challenging for scenarios that are highly driven by interpersonal dynamics. In this work, we present the first systematic comparison of state-of-the-art approaches for behavior forecasting. To do so, we leverage whole-body annotations (face, body, and hands) from the very recently released UDIVA v0.5, which features face-to-face dyadic interactions. Our best attention-based approaches achieve state-of-the-art performance in UDIVA v0.5. We show that by autoregressively predicting the future with methods trained for the short-term future (<400ms), we outperform the baselines even for a considerably longer-term future (up to 2s). We also show that this finding holds when highly noisy annotations are used, which opens new horizons towards the use of weakly-supervised learning. Combined with large-scale datasets, this may help boost the advances in this field.
翻訳日:2022-03-08 23:29:04 公開日:2022-03-07
# (参考訳) モデル融合のためのアート, 予測アンサンブル, およびメタラーニング戦略の評価 [全文訳有]

Evaluating State of the Art, Forecasting Ensembles- and Meta-learning Strategies for Model Fusion ( http://arxiv.org/abs/2203.03279v1 )

ライセンス: CC BY 4.0
Pieter Cawood, Terence van Zyl(参考訳) ハイブリダイゼーションとアンサンブル学習のテクニックは、予測手法の予測力を向上させるために人気のあるモデル融合技術である。 この2つの有望なアプローチを組み合わせるための限られた研究により、異なるアンサンブルのためのベースモデルのプールにおける指数型スムーシング・リカレントニューラルネットワーク(es-rnn)の有用性に焦点を当てた。 ベンチマークとして平均化手法と算術モデルを比較した。 我々は,10万の時系列のM4予測データセットを用いて実験を行い,特徴に基づく予測モデル平均化(FFORMA)がES-RNNとの遅延データ融合に最適であることを示す。 しかし、M4のデイリー・サブセットを考えると、すべてのベースモデルのパフォーマンスが類似しているケースを扱う上で唯一成功したアンサンブルであった。 実験の結果,N-BEATSをベンチマークとして比較すると,アート予測の結果が得られた。 モデル平均化はモデル選択や積み重ね戦略よりも堅牢なアンサンブルであると結論付けている。 さらに,アンサンブル学習戦略の実装において,勾配向上が優れていることを示す。

Techniques of hybridisation and ensemble learning are popular model fusion techniques for improving the predictive power of forecasting methods. With limited research that instigates combining these two promising approaches, this paper focuses on the utility of the Exponential-Smoothin g-Recurrent Neural Network (ES-RNN) in the pool of base models for different ensembles. We compare against some state of the art ensembling techniques and arithmetic model averaging as a benchmark. We experiment with the M4 forecasting data set of 100,000 time-series, and the results show that the Feature-based Forecast Model Averaging (FFORMA), on average, is the best technique for late data fusion with the ES-RNN. However, considering the M4's Daily subset of data, stacking was the only successful ensemble at dealing with the case where all base model performances are similar. Our experimental results indicate that we attain state of the art forecasting results compared to N-BEATS as a benchmark. We conclude that model averaging is a more robust ensemble than model selection and stacking strategies. Further, the results show that gradient boosting is superior for implementing ensemble learning strategies.
翻訳日:2022-03-08 23:27:31 公開日:2022-03-07
# (参考訳) ニューラルネットワークにおける解釈可能な部分階層構造と概念論的関係 [全文訳有]

Interpretable part-whole hierarchies and conceptual-semantic relationships in neural networks ( http://arxiv.org/abs/2203.03282v1 )

ライセンス: CC BY 4.0
Nicola Garau, Niccol\`o Bisagno, Zeno Sambugaro and Nicola Conci(参考訳) ディープニューラルネットワークは、多くのタスクで優れた結果をもたらし、しばしば人間のエキスパートを上回っています。 しかし、現在のニューラルネットワークアーキテクチャの既知の制限は、与えられた入力に対するネットワーク応答を理解し、解釈するためのアクセシビリティの不足である。 これは、大量の変数と、しばしばブラックボックスとして使用される神経モデルの非線型性に直接関係している。 自律運転、セキュリティ、安全、医療、健康といった重要な応用において、ネットワークの動作の解釈可能性の欠如は、与えられたタスクにおけるシステムの正確な性能にもかかわらず、懐疑的および限定的な信頼性を誘導する傾向がある。 さらに、分類精度のような単一の計量は、実世界のシナリオのほとんどを説明不能に評価する。 本稿では,ニューラルネットワークにおける解釈可能性への一歩を踏み出し,その動作を解釈するための新しいツールを提供したい。 本稿では,視覚情報から部分階層の表現を提供し,クラス間の概念・概念階層構造に適合する入力分布を整理するフレームワークagglomeratorを提案する。 本研究では,SmallNORB,MNIST,Fas hionMNIST,CIFAR-10,C IFAR-100といった一般的なデータセット上での手法の評価を行った。

Deep neural networks achieve outstanding results in a large variety of tasks, often outperforming human experts. However, a known limitation of current neural architectures is the poor accessibility to understand and interpret the network response to a given input. This is directly related to the huge number of variables and the associated non-linearities of neural models, which are often used as black boxes. When it comes to critical applications as autonomous driving, security and safety, medicine and health, the lack of interpretability of the network behavior tends to induce skepticism and limited trustworthiness, despite the accurate performance of such systems in the given task. Furthermore, a single metric, such as the classification accuracy, provides a non-exhaustive evaluation of most real-world scenarios. In this paper, we want to make a step forward towards interpretability in neural networks, providing new tools to interpret their behavior. We present Agglomerator, a framework capable of providing a representation of part-whole hierarchies from visual cues and organizing the input distribution matching the conceptual-semantic hierarchical structure between classes. We evaluate our method on common datasets, such as SmallNORB, MNIST, FashionMNIST, CIFAR-10, and CIFAR-100, providing a more interpretable model than other state-of-the-art approaches.
翻訳日:2022-03-08 23:08:36 公開日:2022-03-07
# (参考訳) 機械学習によるスマートシャツの異常検出:システムレビュー [全文訳有]

Machine Learning based Anomaly Detection for Smart Shirt: A Systematic Review ( http://arxiv.org/abs/2203.03300v1 )

ライセンス: CC BY 4.0
E. C. Nunes(参考訳) 近年では、人工知能(ai)の人気と利用、および医療機器のインターネット(iomt)への大規模な投資が、スマートソックス、スマートパンツ、スマートシャツなどの製品の使用に共通している。 これらの製品はスマートテキスタイル(smart textile)やe-textile(e-textile) と呼ばれ、身体が発する信号をモニターし収集する能力がある。 これらの信号は、この領域で重要な役割を果たす機械学習(ML)技術を用いて、異種成分の抽出を可能にする。 本研究は,スマートシャートにおけるML手法を用いた異常検出に関するSLR(Systematic Review of the Literature)を提案する。 SLRの目的は次のとおりである。 (i)どのタイプのスマートシャツが異常であるかを特定すること。 (ii) ML技術が使われているもの (iii) データセットが使用されているもの 四 スマートシャツ又は信号取得装置を識別すること。 (v) mlモデルを評価するのに使用される性能指標を一覧する。 (vi)技術全般の結果 2017年から2021年にかけて、SLRは11種類のMLアルゴリズムを選択した。 その結果,6種類の異常が同定され,秋の異常が最も引用された。 Support VectorMachines (SVM)アルゴリズムが最も使われている。 主要な研究の多くは公的または私的なデータセットを使用しており、ヘキソスキンのスマートシャツが最も引用された。 最もよく使われるメートル法の性能は精度であった。 平均して、ほとんどの初等研究は90%以上の結果を示し、すべての初等研究はスーパービジョン型MLを使用した。

In recent years, the popularity and use of Artificial Intelligence (AI) and large investments on theInternet of Medical Things (IoMT) will be common to use products such as smart socks, smartpants, and smart shirts. These products are known as Smart Textile or E-textile, which has theability to monitor and collect signals that our body emits. These signals make it possible to extractanomalous components using Machine Learning (ML) techniques that play an essential role in thisarea. This study presents a Systematic Review of the Literature (SLR) on Anomaly Detection usingML techniques in Smart Shirt. The objectives of the SLR are: (i) to identify what type of anomalythe smart shirt; (ii) what ML techniques are being used; (iii) which datasets are being used; (iv)identify smart shirt or signal acquisition devices; (v) list the performance metrics used to evaluatethe ML model; (vi) the results of the techniques in general; (vii) types of ML algorithms are beingapplied.The SLR selected 11 primary studies published between 2017-2021. The results showed that6 types of anomalies were identified, with the Fall anomaly being the most cited. The Support VectorMachines (SVM) algorithm is most used. Most of the primary studies used public or private datasets.The Hexoskin smart shirt was most cited. The most used metric performance was Accuracy. Onaverage, almost all primary studies presented a result above 90%, and all primary studies used theSupervisioned type of ML.
翻訳日:2022-03-08 22:48:30 公開日:2022-03-07
# (参考訳) PAC-Bayesian Lifelong Learning for Multi-Armed Bandits [全文訳有]

PAC-Bayesian Lifelong Learning For Multi-Armed Bandits ( http://arxiv.org/abs/2203.03303v1 )

ライセンス: CC BY 4.0
Hamish Flynn, David Reeb, Melih Kandemir and Jan Peters(参考訳) 生涯学習におけるPAC-Bayesian分析について述べる。 生涯学習問題では、学習タスクのシーケンスを1回ずつ観察し、前回のタスクから取得した情報を新しい学習タスクに転送することを目的としている。 各学習タスクがマルチアームのバンディット問題である場合を考える。 我々は、与えられた複数の腕を持つbanditアルゴリズムが、特定の前処理といくつかのステップで新しいタスクで実行された場合に得られる期待平均報酬の下限を導出する。 我々は,新たな境界を学習目的とする生涯学習アルゴリズムを提案する。 提案アルゴリズムは, 生涯にわたるマルチアームバンディット問題において評価され, 一般化境界を用いないベースライン法よりも優れた性能を示した。

We present a PAC-Bayesian analysis of lifelong learning. In the lifelong learning problem, a sequence of learning tasks is observed one-at-a-time, and the goal is to transfer information acquired from previous tasks to new learning tasks. We consider the case when each learning task is a multi-armed bandit problem. We derive lower bounds on the expected average reward that would be obtained if a given multi-armed bandit algorithm was run in a new task with a particular prior and for a set number of steps. We propose lifelong learning algorithms that use our new bounds as learning objectives. Our proposed algorithms are evaluated in several lifelong multi-armed bandit problems and are found to perform better than a baseline method that does not use generalisation bounds.
翻訳日:2022-03-08 22:33:36 公開日:2022-03-07
# (参考訳) 新規クラス発見によるオープンセットドメイン適応 [全文訳有]

Open Set Domain Adaptation By Novel Class Discovery ( http://arxiv.org/abs/2203.03329v1 )

ライセンス: CC BY 4.0
Jingyu Zhuang, Ziliang Chen, Pengxu Wei, Guanbin Li, Liang Lin(参考訳) Open Set Domain Adaptation (OSDA)では、ソースドメインに存在しない暗黙のカテゴリから大量のターゲットサンプルが引き出される。 特定の属がないため、既存のメソッドは無差別に単一のクラスとして認識している。 我々は、暗黙のカテゴリー間の決定境界が完全に無視されているため、予期せぬ有害な影響を引き起こすような、広く受け入れられたこの実践に挑戦する。 その代わりに、暗黙のクラスを徐々に発見し、それらを組み込んで分類器を再構築し、ドメイン適応機能を反復的に更新することでOSDAを実現するセルフ教師付きクラス発見アダプタ(SCDA)を提案する。 SCDAは暗黙のクラス発見と自己教師型OSDAの2つのステップを実行する。 2つのタスクを共同で最適化することにより、SCDAはOSDAの最先端を達成し、暗黙のターゲットクラスを探索する競合性能を示す。

In Open Set Domain Adaptation (OSDA), large amounts of target samples are drawn from the implicit categories that never appear in the source domain. Due to the lack of their specific belonging, existing methods indiscriminately regard them as a single class unknown. We challenge this broadly-adopted practice that may arouse unexpected detrimental effects because the decision boundaries between the implicit categories have been fully ignored. Instead, we propose Self-supervised Class-Discovering Adapter (SCDA) that attempts to achieve OSDA by gradually discovering those implicit classes, then incorporating them to restructure the classifier and update the domain-adaptive features iteratively. SCDA performs two alternate steps to achieve implicit class discovery and self-supervised OSDA, respectively. By jointly optimizing for two tasks, SCDA achieves the state-of-the-art in OSDA and shows a competitive performance to unearth the implicit target classes.
翻訳日:2022-03-08 21:59:19 公開日:2022-03-07
# (参考訳) L2CS-Net:非拘束環境における微粒迷路推定 [全文訳有]

L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments ( http://arxiv.org/abs/2203.03339v1 )

ライセンス: CC BY 4.0
Ahmed A.Abdelrahman, Thorsten Hempel, Aly Khalifa, Ayoub Al-Hamadi(参考訳) 人間の視線は、人間とロボットの相互作用や仮想現実など、さまざまなアプリケーションで使われる重要な手がかりである。 近年,畳み込みニューラルネットワーク (CNN) による視線方向の予測が顕著に進んでいる。 しかし, 目視の特異性, 雷条件, 頭部の姿勢や視線方向の多様性などにより, 視覚内視線の推定はいまだに難しい課題である。 本稿では,制約のない設定で視線を予測するためのロバストなcnnモデルを提案する。 本稿では,それぞれの視角を別々に調整して,視線毎の予測精度を向上させることを提案する。 さらに,ネットワーク学習の改善と一般化の促進のために,各角度毎の2つの同一損失を用いる。 我々は、制約のない設定で収集された2つの人気のあるデータセットを用いて、モデルを評価する。 提案モデルは,mpiigaze と gaze360 のデータセット上で 3.92{\deg} と 10.41{\deg} の最先端精度を実現する。 コードはhttps://github.com/a hmednull/l2cs-netでオープンソースにします。

Human gaze is a crucial cue used in various applications such as human-robot interaction and virtual reality. Recently, convolution neural network (CNN) approaches have made notable progress in predicting gaze direction. However, estimating gaze in-the-wild is still a challenging problem due to the uniqueness of eye appearance, lightning conditions, and the diversity of head pose and gaze directions. In this paper, we propose a robust CNN-based model for predicting gaze in unconstrained settings. We propose to regress each gaze angle separately to improve the per-angel prediction accuracy, which will enhance the overall gaze performance. In addition, we use two identical losses, one for each angle, to improve network learning and increase its generalization. We evaluate our model with two popular datasets collected with unconstrained settings. Our proposed model achieves state-of-the-art accuracy of 3.92{\deg} and 10.41{\deg} on MPIIGaze and Gaze360 datasets, respectively. We make our code open source at https://github.com/A hmednull/L2CS-Net.
翻訳日:2022-03-08 21:44:56 公開日:2022-03-07
# (参考訳) コントラスト学習による地中分散マルチエージェントコミュニケーションの学習 [全文訳有]

Learning to Ground Decentralized Multi-Agent Communication with Contrastive Learning ( http://arxiv.org/abs/2203.03344v1 )

ライセンス: CC BY 4.0
Yat Long Lo and Biswa Sengupta(参考訳) コミュニケーションが成功するためには、エージェント間で共通言語が要求され、互いに通信される情報を理解する。 共通言語の出現を促すことは、マルチエージェント学習システムにとって難しい課題である。 本稿では,エージェント間で送信されるコミュニケーションメッセージに対して,環境状態の異なる不完全なビューとして別の視点を導入する。 そこで本研究では,与えられた経路のメッセージ間の相互情報を最大化することにより,共通言語の出現を誘導する簡単な手法を提案する。 本手法をコミュニケーション必須環境で評価することにより,本手法が学習性能と速度の向上にどのようにつながるかを実証的に示し,学習パラメータを付加することなく,既存の手法よりも一貫性のある共通言語を学ぶ。

For communication to happen successfully, a common language is required between agents to understand information communicated by one another. Inducing the emergence of a common language has been a difficult challenge to multi-agent learning systems. In this work, we introduce an alternative perspective to the communicative messages sent between agents, considering them as different incomplete views of the environment state. Based on this perspective, we propose a simple approach to induce the emergence of a common language by maximizing the mutual information between messages of a given trajectory in a self-supervised manner. By evaluating our method in communication-essent ial environments, we empirically show how our method leads to better learning performance and speed, and learns a more consistent common language than existing methods, without introducing additional learning parameters.
翻訳日:2022-03-08 21:36:04 公開日:2022-03-07
# (参考訳) トランスファーエンパワーメントの社会的本質的動機づけによるパートナーの行動への信頼感 [全文訳有]

Reliably Re-Acting to Partner's Actions with the Social Intrinsic Motivation of Transfer Empowerment ( http://arxiv.org/abs/2203.03355v1 )

ライセンス: CC BY 4.0
Tessa van der Heiden, Herke van Hoof, Efstratios Gavves, Christoph Salge(参考訳) 協調コミュニケーションと協調作業のためのマルチエージェント強化学習(MARL)を検討する。 MARLエージェントは、トレーニングパートナーのポリシーに過度に適合できるため、脆くすることができる。 この過剰フィッティングは、他のエージェントが行動に反応するのではなく、ある方法で行動することを期待して行動するポリシーを採用するエージェントを生み出す可能性がある。 我々の目標は、学習プロセスから他のエージェントの行動に対する反応性戦略を見つけることにある。 トランスファーエンパワメントという手法は,エージェントの行動間の潜在的な影響を測定する。 3つのシミュレートされた協調シナリオの結果は、転送エンパワーメントがMARL性能を向上させるという仮説を支持する。 我々は,伝達エンパワーメントが,パートナーへの反応性を確保することで,マルチエージェント協調を導く上で有用な原理である可能性について論じる。

We consider multi-agent reinforcement learning (MARL) for cooperative communication and coordination tasks. MARL agents can be brittle because they can overfit their training partners' policies. This overfitting can produce agents that adopt policies that act under the expectation that other agents will act in a certain way rather than react to their actions. Our objective is to bias the learning process towards finding reactive strategies towards other agents' behaviors. Our method, transfer empowerment, measures the potential influence between agents' actions. Results from three simulated cooperation scenarios support our hypothesis that transfer empowerment improves MARL performance. We discuss how transfer empowerment could be a useful principle to guide multi-agent coordination by ensuring reactiveness to one's partner.
翻訳日:2022-03-08 21:28:56 公開日:2022-03-07
# (参考訳) Multi-CPR: パス検索のためのマルチドメイン中国語データセット [全文訳有]

Multi-CPR: A Multi Domain Chinese Dataset for Passage Retrieval ( http://arxiv.org/abs/2203.03367v1 )

ライセンス: CC BY 4.0
Dingkun Long, Qiong Gao, Kuan Zou, Guangwei Xu, Pengjun Xie, Ruijie Guo, Jian Xu, Guanjun Jiang, Luxi Xing, Ping Yang(参考訳) 情報検索は情報検索(IR)研究における基本的な課題であり,近年注目されている。 英語の分野では、大規模な注釈付きデータセット(MS MARCOなど)が利用可能となり、深い事前訓練された言語モデル(BERTなど)が出現し、既存のパス検索システムが大幅に改善された。 しかし、中国の分野、特に特定の領域においては、品質アノテートデータセットが規模によって制限されているため、通路検索システムは未成熟である。 そこで本稿では,経路検索のための新しい多領域中国語データセット(Multi-CPR)を提案する。 データセットはEコマース、エンターテイメントビデオ、メディカルを含む3つの異なるドメインから収集される。 各データセットには数百万のパスと、人間の注釈付きクエリパス関連ペアが含まれている。 本研究は,様々な代表経路検索手法をベースラインとして実装する。 一般ドメインからのデータセットでトレーニングされた検索モデルの性能は、特定のドメインで必然的に低下する。 にもかかわらず、in-domain annotated dataset上に構築されたパッセージ検索システムは、大幅な改善を達成でき、さらなる最適化のためにドメインラベル付きデータが必要となる。 我々は,Multi-CPRデータセットのリリースによって,特定の領域における中国語通訳検索タスクをベンチマークし,今後の研究の進展を期待する。

Passage retrieval is a fundamental task in information retrieval (IR) research, which has drawn much attention recently. In English field, the availability of large-scale annotated dataset (e.g, MS MARCO) and the emergence of deep pre-trained language models (e.g, BERT) have resulted in a substantial improvement of existing passage retrieval systems. However, in Chinese field, especially for specific domain, passage retrieval systems are still immature due to quality-annotated dataset being limited by scale. Therefore, in this paper, we present a novel multi-domain Chinese dataset for passage retrieval (Multi-CPR). The dataset is collected from three different domains, including E-commerce, Entertainment video and Medical. Each dataset contains millions of passages and a certain amount of human annotated query-passage related pairs. We implement various representative passage retrieval methods as baselines. We find that the performance of retrieval models trained on dataset from general domain will inevitably decrease on specific domain. Nevertheless, passage retrieval system built on in-domain annotated dataset can achieve significant improvement, which indeed demonstrates the necessity of domain labeled data for further optimization. We hope the release of the Multi-CPR dataset could benchmark Chinese passage retrieval task in specific domain and also make advances for future studies.
翻訳日:2022-03-08 21:12:33 公開日:2022-03-07
# (参考訳) 適応距離アライメントを用いた時空間歩行特性 [全文訳有]

Spatio-temporal Gait Feature with Adaptive Distance Alignment ( http://arxiv.org/abs/2203.03376v1 )

ライセンス: CC BY 4.0
Xuelong Li, Yifan Chen, Jingran Su, Yang Zhao(参考訳) 歩行認識はカモフラージュが簡単ではなく、被験者の認識に協力する必要がないため、重要な認識技術である。 しかし、歩容認識には依然として深刻な課題があり、同じような歩行姿勢の人は誤認識されることが多い。 本稿では,歩行姿勢が類似する被験者の認識効率を向上させるために,ネットワーク構造の最適化と抽出された歩行特徴の洗練という2つの側面から,異なる被験者の歩行特徴の差異を増大させる。 そこで本研究では,sfeが時間的特徴融合 (tff) と細粒度特徴抽出 (ffe) を用いて生シルエットから時空間的特徴を効果的に抽出する時空間的特徴抽出 (sfe) と適応的距離アライメント (ada) からなる手法を提案する。 ミニOUMVLPとCASIA-Bの大規模な実験により,いくつかの最先端手法よりも良好な結果が得られた。

Gait recognition is an important recognition technology, because it is not easy to camouflage and does not need cooperation to recognize subjects. However, there are still serious challenges in gait recognition, that is, people with similar walking posture are often recognized incorrectly. In this paper, We try to increase the difference of gait features of different subjects from two aspects: the optimization of network structure and the refinement of extracted gait features, so as to increase the recognition efficiency of subjects with similar walking posture. So our method is proposed, it consists of Spatio-temporal Feature Extraction (SFE) and Adaptive Distance Alignment (ADA), which SFE uses Temporal Feature Fusion (TFF) and Fine-grained Feature Extraction (FFE) to effectively extract the spatio-temporal features from raw silhouettes, ADA uses a large number of unlabeled gait data in real life as a benchmark to refine the extracted spatio-temporal features to make them have low inter-class similarity and high intra-class similarity. Extensive experiments on mini-OUMVLP and CASIA-B have proved that we have a good result than some state-of-the-art methods.
翻訳日:2022-03-08 20:51:37 公開日:2022-03-07
# (参考訳) シーンテキスト認識のためのグリフ駆動トポロジー拡張ネットワーク [全文訳有]

A Glyph-driven Topology Enhancement Network for Scene Text Recognition ( http://arxiv.org/abs/2203.03382v1 )

ライセンス: CC BY 4.0
Tongkun Guan, Chaochen Gu, Jingzheng Tu, Xue Yang, Qi Feng(参考訳) 1次元(1次元)と2次元(2次元)のメカニズムをエンコーダ-デコーダフレームワークで確立した注意に基づく手法は、暗黙的な言語表現を構築する能力から、シーンテキスト認識(str)タスクを支配してきた。 しかし、1Dの注意に基づくメカニズムは、後者の文字のアライメントドリフトに悩まされる。 2次元注意に基づくメカニズムは、詳細なトポロジー構造を掘削することなく、文字の空間領域のみに焦点を合わせ、視覚性能を低下させる。 以上の問題を緩和するために,新しいGlyph-driven Topology Enhancement Network (GTEN) を提案し,STRの視覚モデルにおけるトポロジ的特徴表現を改善する。 具体的には、まず1次元のシーケンスアライメント重みを利用するために教師なしの手法を用いる。 第2に,文字レベルのアノテーションを伴わずに,グリフの2次元順序および画素ワイズトポロジ情報を取得するための教師付きセグメンテーションモジュールを構築する。 第三に、これらの出力は、STRのセマンティックな特徴表現を豊かにするために、拡張されたトポロジ的特徴を融合させる。 実験により、GTENはIIIT5K-Words、Street View Text、ICDAR-Series、SVT Perspective、CUTE80データセット上での競合性能を実証した。

Attention-based methods by establishing one-dimensional (1D) and two-dimensional (2D) mechanisms with an encoder-decoder framework have dominated scene text recognition (STR) tasks due to their capabilities of building implicit language representations. However, 1D attention-based mechanisms suffer from alignment drift on latter characters. 2D attention-based mechanisms only roughly focus on the spatial regions of characters without excavating detailed topological structures, which reduces the visual performance. To mitigate the above issues, we propose a novel Glyph-driven Topology Enhancement Network (GTEN) to improve topological features representations in visual models for STR. Specifically, an unsupervised method is first employed to exploit 1D sequence-aligned attention weights. Second, we construct a supervised segmentation module to capture 2D ordered and pixel-wise topological information of glyphs without extra character-level annotations. Third, these resulting outputs fuse enhanced topological features to enrich semantic feature representations for STR. Experiments demonstrate that GTEN achieves competitive performance on IIIT5K-Words, Street View Text, ICDAR-series, SVT Perspective, and CUTE80 datasets.
翻訳日:2022-03-08 20:31:09 公開日:2022-03-07
# (参考訳) 多様性を考慮した言語科学・技術のための多言語対話コーパスの構築 [全文訳有]

Building large multilingual conversational corpora for diversity-aware language science and technology ( http://arxiv.org/abs/2203.03399v1 )

ライセンス: CC BY 4.0
Andreas Liesenfeld, Mark Dingemanse(参考訳) 本稿では,自然言語における会話音声の多様性を考慮した研究のために,66ヶ国語,32ヶ国語を対象とする対話音声の多言語データセットを構築するためのパイプラインとツールを提案する。 言語ドキュメンテーションのプロジェクトやプラットフォームに基づいて、主にオープンアクセスリソースのコンパイルとフォーマットを説明し、この種のリソースの構築を支援するためにオープンソースのツールである‘convo-parse’をリリースした。 本稿では,多言語データセットが対話型言語学と音声認識技術にどのように影響を与えるかという2つの応用を概説し,言語科学の実証的基盤の拡大に寄与する。

We present a pipeline and tools to build a large multilingual data sets of conversational speech that covers 66 languages and varieties from 32 phyla for the diversity-aware study of conversational speech in naturalistic settings. We describe compilation and format of the largely open-access resource based on language documentation projects and platforms and release an open-source tool `convo-parse' to help building this type of resource. We conclude with outlining two applications of how massively multilingual data sets can inform interactional linguistics and speech recognition technology and thus contribute to broadening the empirical foundations of language sciences and technologies of the future.
翻訳日:2022-03-08 20:13:43 公開日:2022-03-07
# (参考訳) パラフレーズ生成のための階層的スケッチ誘導 [全文訳有]

Hierarchical Sketch Induction for Paraphrase Generation ( http://arxiv.org/abs/2203.03463v1 )

ライセンス: CC BY 4.0
Tom Hosking, Hao Tang, Mirella Lapata(参考訳) 本稿では,明示的な構文的スケッチを条件づけることで,構文的多様性を促進するパラフレーズ生成モデルを提案する。 本研究では,高次符号化の分解を離散的潜在変数列として学習する手法である階層的改良量子化変分オートエンコーダ(hrq-vae)を提案する。 このコード階層はエンドツーエンドのトレーニングを通じて学習され、入力に関する詳細な情報を表す。 HRQ-VAEを用いて、入力文の構文形式を階層化の経路としてエンコードすることで、テスト時の構文スケッチをより容易に予測できる。 ヒトの評価を含む広範囲な実験により、HRQ-VAEは入力空間の階層的な表現を学び、以前のシステムよりも高い品質のパラフレーズを生成する。

We propose a generative model of paraphrase generation, that encourages syntactic diversity by conditioning on an explicit syntactic sketch. We introduce Hierarchical Refinement Quantized Variational Autoencoders (HRQ-VAE), a method for learning decompositions of dense encodings as a sequence of discrete latent variables that make iterative refinements of increasing granularity. This hierarchy of codes is learned through end-to-end training, and represents fine-to-coarse grained information about the input. We use HRQ-VAE to encode the syntactic form of an input sentence as a path through the hierarchy, allowing us to more easily predict syntactic sketches at test time. Extensive experiments, including a human evaluation, confirm that HRQ-VAE learns a hierarchical representation of the input space, and generates paraphrases of higher quality than previous systems.
翻訳日:2022-03-08 20:00:50 公開日:2022-03-07
# (参考訳) ブロック粒子フィルタリングのための制約スペクトルクラスタリングに基づく状態空間分割 [全文訳有]

State space partitioning based on constrained spectral clustering for block particle filtering ( http://arxiv.org/abs/2203.03475v1 )

ライセンス: CC BY 4.0
Rui Min, Christelle Garnier, Fran\c{c}ois Septier, John Klein(参考訳) 粒子フィルタ(pf)は非線形および非ガウス問題におけるフィルタ分布の推定に広く用いられている強力な推論ツールである。 PFの次元性の呪いを克服するため、ブロックPF(BPF)は、状態空間を複数の部分空間またはより小さな次元のブロックに分割するブロッキングステップを挿入し、各部分空間上で補正および再サンプリングステップを独立に行うことができる。 小さいサイズでブロックを使用すると、フィルタリング分布推定のばらつきが減少するが、ブロック間の相関が壊れ、バイアスが生じる。 状態変数間の依存関係が不明な場合、状態空間をブロックに分割する方法を決定することは明らかではない。 本稿では,BPFにおける分割問題をクラスタリング問題として定式化し,スペクトルクラスタリング(SC)に基づく状態空間分割法を提案する。 我々は2つの新しいステップを含む一般化BPFアルゴリズムを設計する。 (i)予測粒子からの状態ベクトル相関行列の推定 (ii) この推定を類似度行列として用いて適切な分割を決定する。 さらに、SCが大きすぎるブロックを提供しないように、最大クラスタサイズに制約が課される。 提案手法は, 同一ブロックにおいて最も相関性の高い状態変数を結合し, 次元の呪いを回避できることを示す。

The particle filter (PF) is a powerful inference tool widely used to estimate the filtering distribution in non-linear and/or non-Gaussian problems. To overcome the curse of dimensionality of PF, the block PF (BPF) inserts a blocking step to partition the state space into several subspaces or blocks of smaller dimension so that the correction and resampling steps can be performed independently on each subspace. Using blocks of small size reduces the variance of the filtering distribution estimate, but in turn the correlation between blocks is broken and a bias is introduced. When the dependence relationships between state variables are unknown, it is not obvious to decide how to split the state space into blocks and a significant error overhead may arise from a poor choice of partitioning. In this paper, we formulate the partitioning problem in the BPF as a clustering problem and we propose a state space partitioning method based on spectral clustering (SC). We design a generalized BPF algorithm that contains two new steps: (i) estimation of the state vector correlation matrix from predicted particles, (ii) SC using this estimate as the similarity matrix to determine an appropriate partition. In addition, a constraint is imposed on the maximal cluster size to prevent SC from providing too large blocks. We show that the proposed method can bring together in the same blocks the most correlated state variables while successfully escaping the curse of dimensionality.
翻訳日:2022-03-08 19:44:00 公開日:2022-03-07
# (参考訳) DATGAN:人工表データのための知識を深層学習に統合する

DATGAN: Integrating expert knowledge into deep learning for synthetic tabular data ( http://arxiv.org/abs/2203.03489v1 )

ライセンス: CC BY 4.0
Gael Lederrey, Tim Hillel, Michel Bierlaire(参考訳) 合成データは、バイアスデータセットの修正や、シミュレーション目的の不足したオリジナルデータの置換など、さまざまなアプリケーションで使用することができる。 GAN(Generative Adversarial Networks)は、生成モデルを開発するための最先端技術である。 しかし、これらのディープラーニングモデルはデータ駆動であり、生成プロセスを制御することは困難である。 したがって、生成されたデータにおける表現性の欠如、バイアスの導入、そしてサンプルのノイズを過剰に満たす可能性である。 本稿では,合成表データ生成のための深層学習モデルに専門知識を統合することで,これらの制約に対処するために,有向非循環表型gan(datgan)を提案する。 このアプローチは、DAG(Directed Acyclic Graph)を使用して変数間の相互作用を明示的に指定することを可能にする。 DAGは、複数の入力を受け入れるために、改良されたLong Short-Term Memory (LSTM) セルのネットワークに変換される。 複数のDATGANバージョンは、複数の評価指標で体系的にテストされる。 DATGANの最良のバージョンは、複数のケーススタディにおいて最先端の生成モデルよりも優れていることを示す。 最後に、DAGが仮説合成データセットを作成する方法を示す。

Synthetic data can be used in various applications, such as correcting bias datasets or replacing scarce original data for simulation purposes. Generative Adversarial Networks (GANs) are considered state-of-the-art for developing generative models. However, these deep learning models are data-driven, and it is, thus, difficult to control the generation process. It can, therefore, lead to the following issues: lack of representativity in the generated data, the introduction of bias, and the possibility of overfitting the sample's noise. This article presents the Directed Acyclic Tabular GAN (DATGAN) to address these limitations by integrating expert knowledge in deep learning models for synthetic tabular data generation. This approach allows the interactions between variables to be specified explicitly using a Directed Acyclic Graph (DAG). The DAG is then converted to a network of modified Long Short-Term Memory (LSTM) cells to accept multiple inputs. Multiple DATGAN versions are systematically tested on multiple assessment metrics. We show that the best versions of the DATGAN outperform state-of-the-art generative models on multiple case studies. Finally, we show how the DAG can create hypothetical synthetic datasets.
翻訳日:2022-03-08 19:22:21 公開日:2022-03-07
# (参考訳) 近辺分類における関連点探索の改善 [全文訳有]

Improved Search of Relevant Points for Nearest-Neighbor Classification ( http://arxiv.org/abs/2203.03567v1 )

ライセンス: CC BY 4.0
Alejandro Flores-Velazco(参考訳) トレーニングセット $p \subset \mathbb{r}^d$ が与えられると、最も近いneighbor分類器は、クエリポイント $q \in \mathbb{r}^d$ を最も近いポイントのクラスに$p$ で割り当てる。 これらの分類クエリに答えるために、いくつかのトレーニングポイントは他のものよりも関連性が高い。 トレーニングポイントが、トレーニングセットからの欠落が$\mathbb{r}^d$のクエリポイントの誤分類を引き起こす可能性がある場合、意味があると言う。 これらの関連点は一般に境界点として知られ、異なるクラスの点を分離する$P$のボロノイ図形の境界を定義する。 この点集合を効率的に計算できることは、最寄りの分類器の精度に影響を与えることなく、トレーニングセットのサイズを減らすことが重要である。 クラークソンによる何十年もの結果を改善するために、eppsteinの最近の論文において、出力に敏感なアルゴリズムが提案され、k$がそのような集合のサイズである$o(n^2 + nk^2 )$ time に$p$という境界点の集合を見つける。 本稿では,このアルゴリズムを,$O(nk^2 )$と同等の時間複雑性を持つように改良し,そのアルゴリズムの最初のステップが$O(nk^2 )$時間であることを示す。

Given a training set $P \subset \mathbb{R}^d$, the nearest-neighbor classifier assigns any query point $q \in \mathbb{R}^d$ to the class of its closest point in $P$. To answer these classification queries, some training points are more relevant than others. We say a training point is relevant if its omission from the training set could induce the misclassification of some query point in $\mathbb{R}^d$. These relevant points are commonly known as border points, as they define the boundaries of the Voronoi diagram of $P$ that separate points of different classes. Being able to compute this set of points efficiently is crucial to reduce the size of the training set without affecting the accuracy of the nearest-neighbor classifier. Improving over a decades-long result by Clarkson, in a recent paper by Eppstein an output-sensitive algorithm was proposed to find the set of border points of $P$ in $O( n^2 + nk^2 )$ time, where $k$ is the size of such set. In this paper, we improve this algorithm to have time complexity equal to $O( nk^2 )$ by proving that the first steps of their algorithm, which require $O( n^2 )$ time, are unnecessary.
翻訳日:2022-03-08 19:21:09 公開日:2022-03-07
# (参考訳) 個人的リスク最小化のための連続的およびスライディングウィンドウリリース [全文訳有]

Continual and Sliding Window Release for Private Empirical Risk Minimization ( http://arxiv.org/abs/2203.03594v1 )

ライセンス: CC BY 4.0
Lauren Watson, Abhirup Ghosh, Benedek Rozemberczki, Rik Sarkar(参考訳) プライバシーを維持しながら、プライベート機械学習モデルを新しいデータで継続的に更新することは困難である。 データは、繰り返し計算で使用されるとき、プライバシーの損失(差分プライバシーによって測定される)を増大させる。 本稿では,最近のデータウインドウのモデルを継続的にリリースする経験的リスク最小化アルゴリズムについて述べる。 アルゴリズムの1つのバージョンは、最近のウィンドウのモデルを改善するためにデータ履歴全体を使用する。 2番目のバージョンでは、一定のサイズのスライディングウィンドウを使用してモデルを改善し、データの進化時により適切なモデルを保証する。 アルゴリズムは確率的勾配降下の枠組みで動作する。 無限の時間軸上で各時間ステップでモデルをリリースしても、任意のデータポイントのプライバシコストは一定の$\epsilon$差分プライバシで制限され、出力モデルの精度は最適に近いことが証明される。 MNISTとArxivの出版データの実験は、理論と一致した結果を示している。

It is difficult to continually update private machine learning models with new data while maintaining privacy. Data incur increasing privacy loss -- as measured by differential privacy -- when they are used in repeated computations. In this paper, we describe regularized empirical risk minimization algorithms that continually release models for a recent window of data. One version of the algorithm uses the entire data history to improve the model for the recent window. The second version uses a sliding window of constant size to improve the model, ensuring more relevant models in case of evolving data. The algorithms operate in the framework of stochastic gradient descent. We prove that even with releasing a model at each time-step over an infinite time horizon, the privacy cost of any data point is bounded by a constant $\epsilon$ differential privacy, and the accuracy of the output models are close to optimal. Experiments on MNIST and Arxiv publications data show results consistent with the theory.
翻訳日:2022-03-08 19:09:07 公開日:2022-03-07
# e-detectors: オンラインチェンジポイント検出のための非パラメトリックフレームワーク

E-detectors: a nonparametric framework for online changepoint detection ( http://arxiv.org/abs/2203.03532v1 )

ライセンス: Link先を確認
Jaehyeok Shin, Aaditya Ramdas, Alessandro Rinaldo(参考訳) 逐次変化点検出は、様々な応用において古典的な問題である。 しかし、先行研究の大部分は指数関数族に焦点をあてたパラメトリックなものであった。 我々は,変更前の分布と変更後の分布が非パラメトリックに指定される場合,変更点検出のための基本的かつ汎用的なフレームワークを開発した。 私たちの手順は、平均走行距離(誤報の頻度)のクリーンで無症状な境界が伴います。 ある種の非パラメトリック(準ガウスや準指数など)の場合、変化点の後の検出遅延についてほぼ最適境界を与える。 私たちが導入する主要な技術ツールはe-detectorと呼ばれ、これは、連続的に開始されるe-プロセスの総和(非負の超行列の基本的な一般化)からなる。 まず,シリャーエフ・ロバーツとCUSUM型e-detectorを導入し,統計的および計算効率の両立を図った。 本研究は,複数シーズンにわたるスポーツチームのパフォーマンス追跡に応用した,有界確率変数の平均値の変化を仮定せずに検出する効果を実証する。

Sequential changepoint detection is a classical problem with a variety of applications. However, the majority of prior work has been parametric, for example, focusing on exponential families. We develop a fundamentally new and general framework for changepoint detection when the pre- and post-change distributions are nonparametrically specified (and thus composite). Our procedures come with clean, nonasymptotic bounds on the average run length (frequency of false alarms). In certain nonparametric cases (like sub-Gaussian or sub-exponential), we also provide near-optimal bounds on the detection delay following a changepoint. The primary technical tool that we introduce is called an e-detector, which is composed of sums of e-processes -- a fundamental generalization of nonnegative supermartingales -- that are started at consecutive times. We first introduce simple Shiryaev-Roberts and CUSUM-style e-detectors, and then show how to design their mixtures in order to achieve both statistical and computational efficiency. We demonstrate their efficacy in detecting changes in the mean of a bounded random variable without any i.i.d. assumptions, with an application to tracking the performance of a sports team over multiple seasons.
翻訳日:2022-03-08 18:42:45 公開日:2022-03-07
# 音声の非線形予測ベクトル量子化

Non-linear predictive vector quantization of speech ( http://arxiv.org/abs/2203.02506v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy(参考訳) 本稿では,多層パーセプトロンに基づく音声符号化のための非線形予測ベクトル量子化器(pvq)を提案する。 また,量子化器が適切に設計されているか,連続出力間の相関を利用して評価する手法を提案する。 非線形PVQの結果は非線形スカラー予測器の結果を改善しないが、PVQの改善の余地があることを確認する。

In this paper we propose a Non-Linear Predictive Vector quantizer (PVQ) for speech coding, based on Multi-Layer Perceptrons. We also propose a method to evaluate if a quantizer is well designed, and if it exploits the correlation between consecutive outputs. Although the results of the Non-linear PVQ do not improve the results of the non-linear scalar predictor, we check that there is some room for the PVQ improvement.
翻訳日:2022-03-08 18:42:26 公開日:2022-03-07
# バイレベルプログラミングに基づくFew-Shot時系列自動予測

Automated Few-Shot Time Series Forecasting based on Bi-level Programming ( http://arxiv.org/abs/2203.03328v1 )

ライセンス: Link先を確認
Jiangjiao Xu, Ke Li(参考訳) 再生可能エネルギー源と蓄電池システムを備えた新しいマイクログリッド設計は、温室効果ガス排出の改善と運用コストの削減に役立つ。 エネルギー生成と負荷需要の双方を効果的に短期・長期に予測する上で、時系列予測モデリングが計画及び運用の最適な意思決定を導く重要なツールの1つである。 時系列再生可能エネルギー予測の重要な課題の1つは、適切な予測モデルを訓練するための履歴データがないことである。 さらに、機械学習モデルの性能は、対応するハイパーパラメータの選択に敏感である。 これらのことを念頭に置いて,バイレベルプログラミングの観点から数発の学習パイプラインの最適設計を自動化するBiLO-Auto-TSF/MLフレームワークを開発した。 特に、低レベルメタラーニングは、低レベルのハイパーパラメータ最適化が、ベースとメタリーナーの両方の最適なハイパーパラメータ構成を積極的に探索する一方で、小さなデータ課題を軽減するためのベースリーナーの促進に役立ちます。 提案フレームワークは汎用的であるため,既製の機械学習手法をプラグイン方式で使用することができる。 提案するBiLO-Auto-TSF/MLフレームワークの有効性を総合的に検証し,各種エネルギー源を対象とした高性能な複数ショット学習パイプラインを提案する。

New micro-grid design with renewable energy sources and battery storage systems can help improve greenhouse gas emissions and reduce the operational cost. To provide an effective short-/long-term forecasting of both energy generation and load demand, time series predictive modeling has been one of the key tools to guide the optimal decision-making for planning and operation. One of the critical challenges of time series renewable energy forecasting is the lack of historical data to train an adequate predictive model. Moreover, the performance of a machine learning model is sensitive to the choice of its corresponding hyperparameters. Bearing these considerations in mind, this paper develops a BiLO-Auto-TSF/ML framework that automates the optimal design of a few-shot learning pipeline from a bi-level programming perspective. Specifically, the lower-level meta-learning helps boost the base-learner to mitigate the small data challenge while the hyperparameter optimization at the upper level proactively searches for the optimal hyperparameter configurations for both base- and meta-learners. Note that the proposed framework is so general that any off-the-shelf machine learning method can be used in a plug-in manner. Comprehensive experiments fully demonstrate the effectiveness of our proposed BiLO-Auto-TSF/ML framework to search for a high-performance few-shot learning pipeline for various energy sources.
翻訳日:2022-03-08 18:40:11 公開日:2022-03-07
# エネルギー最小化による制御問題の学習解多様体

Learning Solution Manifolds for Control Problems via Energy Minimization ( http://arxiv.org/abs/2203.03432v1 )

ライセンス: Link先を確認
Miguel Zamora, Roi Poranne, Stelian Coros(参考訳) 逆運動学(IK)、軌道最適化(TO)、モデル予測制御(MPC)といった様々な制御タスクは、エネルギー最小化問題として一般的に定式化されている。 このような問題の数値解は確立されている。 しかし、これらはリアルタイムアプリケーションで直接使用されるには遅すぎることが多い。 もう一つの方法は、オフライン段階における制御問題に対する解多様体の学習である。 この蒸留プロセスは, 模擬学習環境において, 行動クローニング(BC)問題として自明に定式化することができるが, 不整合性ローカル・ミニマ, 補間アーティファクト, 状態空間のカバー不足など, 数多くの重大な欠点を浮き彫りにしている。 本稿では,高効率で数値的に頑健なbcの代替案を提案する。 我々は、関心のある問題の空間上で統合された制御対象のエネルギー項の最小化として解多様体の学習を定式化する。 このエネルギー積分をモンテカルロに触発された適応サンプリング戦略と、制御タスクの個々のインスタンスを解く導関数を組み合わせた新しい手法で最小化する。 我々は,複雑性を増大させる一連のロボット制御問題に対する定式化の性能評価を行い,行動クローンやデータセットアグリゲーション(Dagger)といった従来の手法との比較を通じて,その利点を強調した。

A variety of control tasks such as inverse kinematics (IK), trajectory optimization (TO), and model predictive control (MPC) are commonly formulated as energy minimization problems. Numerical solutions to such problems are well-established. However, these are often too slow to be used directly in real-time applications. The alternative is to learn solution manifolds for control problems in an offline stage. Although this distillation process can be trivially formulated as a behavioral cloning (BC) problem in an imitation learning setting, our experiments highlight a number of significant shortcomings arising due to incompatible local minima, interpolation artifacts, and insufficient coverage of the state space. In this paper, we propose an alternative to BC that is efficient and numerically robust. We formulate the learning of solution manifolds as a minimization of the energy terms of a control objective integrated over the space of problems of interest. We minimize this energy integral with a novel method that combines Monte Carlo-inspired adaptive sampling strategies with the derivatives used to solve individual instances of the control task. We evaluate the performance of our formulation on a series of robotic control problems of increasing complexity, and we highlight its benefits through comparisons against traditional methods such as behavioral cloning and Dataset aggregation (Dagger).
翻訳日:2022-03-08 18:39:51 公開日:2022-03-07
# 位置対応スケジューリングのための強化学習

Reinforcement Learning for Location-Aware Scheduling ( http://arxiv.org/abs/2203.03480v1 )

ライセンス: Link先を確認
Stelios Stavroulakis and Biswa Sengupta(参考訳) 動的スケジューリングと資源管理の最近の技術は、高い時間分解能でタスクを整理・優先順位付けできるため、倉庫環境に応用されている。 深層強化学習の台頭は、学習パラダイムとして、分散エージェント集団が複雑な協調戦略を発見することを可能にした。 しかし,観察空間や行動空間が指数関数的に大きくなるにつれて,複数のエージェントの訓練は同時に多くの障害をもたらす。 本研究では,倉庫環境の様々な側面(フロアプランの複雑さ,エージェントの居住地に関する情報,タスクの並列性レベルなど)がパフォーマンスと実行優先度にどのように影響するかを実験的に定量化する。 そこで我々は,各エージェントが自己とタスク座標のみの知識を持ち,したがってマルコフ決定プロセスの部分的可観測性のみを有する,位置認識マルチエージェントシステムの状態と動作空間のコンパクトな表現を提案する。 最後に, ある環境で訓練されたエージェントが, 完全に見えない環境で性能を維持する方法を示し, フロアプラン形状と性能劣化の相関関係を示す。

Recent techniques in dynamical scheduling and resource management have found applications in warehouse environments due to their ability to organize and prioritize tasks in a higher temporal resolution. The rise of deep reinforcement learning, as a learning paradigm, has enabled decentralized agent populations to discover complex coordination strategies. However, training multiple agents simultaneously introduce many obstacles in training as observation and action spaces become exponentially large. In our work, we experimentally quantify how various aspects of the warehouse environment (e.g., floor plan complexity, information about agents' live location, level of task parallelizability) affect performance and execution priority. To achieve efficiency, we propose a compact representation of the state and action space for location-aware multi-agent systems, wherein each agent has knowledge of only self and task coordinates, hence only partial observability of the underlying Markov Decision Process. Finally, we show how agents trained in certain environments maintain performance in completely unseen settings and also correlate performance degradation with floor plan geometry.
翻訳日:2022-03-08 18:39:28 公開日:2022-03-07
# 電極関係の注意グラフから得られる脳波とfMRI合成効果

EEG to fMRI Synthesis Benefits from Attentional Graphs of Electrode Relationships ( http://arxiv.org/abs/2203.03481v1 )

ライセンス: Link先を確認
David Calhas, Rui Henriques(参考訳) 地形構造はエンティティ間の接続を表し、複雑なシステムの包括的設計を提供する。 現在、これらの構造は神経活動と血行動態の相関関係を発見するのに使われている。 本研究では, 電気生理学的活動を用いて, 神経処理技術を用いて回帰処理を行う。 この目的のために、我々は、よりフーリエな特徴、注意機構、モダリティ間の共有空間、潜在表現におけるスタイルの導入を用いる。 これらの手法を組み合わせることで、休息状態とタスクベースの記録設定において、タスクの現在の最先端を著しく上回るモデルを提案する。 我々は,どの脳波電極が回帰作業に最も関係があり,どの関係が最も影響したかを報告する。 また,頭皮におけるhaemodynamic activityは,皮質下領域とは対照的に,学習した共有空間に関係していることを観察した。 これらの結果から,脳波電極の関係は血行動態の検索に必要な情報を保持するために重要であることが示唆された。

Topographical structures represent connections between entities and provide a comprehensive design of complex systems. Currently these structures are used to discover correlates of neuronal and haemodynamical activity. In this work, we incorporate them with neural processing techniques to perform regression, using electrophysiological activity to retrieve haemodynamics. To this end, we use Fourier features, attention mechanisms, shared space between modalities and incorporation of style in the latent representation. By combining these techniques, we propose several models that significantly outperform current state-of-the-art of this task in resting state and task-based recording settings. We report which EEG electrodes are the most relevant for the regression task and which relations impacted it the most. In addition, we observe that haemodynamic activity at the scalp, in contrast with sub-cortical regions, is relevant to the learned shared space. Overall, these results suggest that EEG electrode relationships are pivotal to retain information necessary for haemodynamical activity retrieval.
翻訳日:2022-03-08 18:39:10 公開日:2022-03-07
# ctから磁気共鳴への自動治療計画の領域適応

Domain Adaptation of Automated Treatment Planning from Computed Tomography to Magnetic Resonance ( http://arxiv.org/abs/2203.03576v1 )

ライセンス: Link先を確認
Aly Khalifa, Jeff Winter, Inmaculada Navarro, Chris McIntosh, Thomas G. Purdie(参考訳) 目的: 機械学習(ML)に基づく放射線治療(RT)プランニングは、従来の逆計画の反復性と時間的特性に対処する。 磁気共鳴(MR)治療計画ワークフローの重要性が高まる中,我々は,CT画像で訓練したMLベースの治療計画モデルが,領域適応を通じてMRに応用できるかどうかを判断しようとした。 方法: MRリニア・アクセルを用いた前立腺癌55例を対象に, MRおよびCT画像の収集を行った。 RayStation 8B の市販モデルを用いて,CT と MR 画像の両方の患者に対してML ベースのプランを作成した。 施設用線量量評価基準を用いて,mrおよびctベースプランの線量分布と受入率を比較した。 MRプランとCTプランのドシメトリックな差異は,設定,コホート,画像領域の構成要素にさらに分解された。 結果: MRプランは, 評価基準の93.1%をCTプランの96.3%と比較し, 膀胱壁, 陰茎球, 小腸, 直腸壁の1基準(p<0.05。 入力画像のモダリティ(ドメイン成分)の変化は,MRIとCTで観察されたドシメトリの約半分に過ぎなかった。 MLトレーニングセットとMRリナックコホート(コホート成分)の解剖学的差異も有意な寄与であった。 意義:CTを訓練したMLモデルを用いて高い許容率のMRベースの治療計画を作成することができたが,臨床的にCTベースの計画から有意な線量偏差が観察された。

Objective: Machine learning (ML) based radiation treatment (RT) planning addresses the iterative and time-consuming nature of conventional inverse planning. Given the rising importance of Magnetic resonance (MR) only treatment planning workflows, we sought to determine if an ML based treatment planning model, trained on computed tomography (CT) imaging, could be applied to MR through domain adaptation. Methods: In this study, MR and CT imaging was collected from 55 prostate cancer patients treated on an MR linear accelerator. ML based plans were generated for each patient on both CT and MR imaging using a commercially available model in RayStation 8B. The dose distributions and acceptance rates of MR and CT based plans were compared using institutional dose-volume evaluation criteria. The dosimetric differences between MR and CT plans were further decomposed into setup, cohort, and imaging domain components. Results: MR plans were highly acceptable, meeting 93.1% of all evaluation criteria compared to 96.3% of CT plans, with dose equivalence for all evaluation criteria except for the bladder wall, penile bulb, small and large bowel, and one rectum wall criteria (p<0.05). Changing the input imaging modality (domain component) only accounted for about half of the dosimetric differences observed between MR and CT plans. Anatomical differences between the ML training set and the MR linac cohort (cohort component) were also a significant contributor. Significance: We were able to create highly acceptable MR based treatment plans using a CT-trained ML model for treatment planning, although clinically significant dose deviations from the CT based plans were observed.
翻訳日:2022-03-08 18:37:10 公開日:2022-03-07
# i-gcn: 島化による実行時の局所性向上を備えたグラフ畳み込みネットワークアクセラレータ

I-GCN: A Graph Convolutional Network Accelerator with Runtime Locality Enhancement through Islandization ( http://arxiv.org/abs/2203.03606v1 )

ライセンス: Link先を確認
Tong Geng, Chunshu Wu, Yongan Zhang, Cheng Tan, Chenhao Xie, Haoran You, Martin C. Herbordt, Yingyan Lin, Ang Li(参考訳) グラフ畳み込みネットワーク(GCN)は、過去3年間、大きな注目を集めてきた。 他のディープラーニングのモダリティと比較すると、GCNの高速ハードウェアアクセラレーションは重要であるが、さらに難しい。 ハードルは、大きなサイズ、高い空間性、および現実世界のグラフの不規則な非ゼロ分布のために、データの局所性と冗長な計算によって生じる。 本稿では,データローカリティを大幅に改善し,不要な計算量を削減する,新しいgcn推論用ハードウェアアクセラレータ i-gcn を提案する。 このメカニズムは、我々が島化と呼ぶ新しいオンライングラフ再構成アルゴリズムである。 提案アルゴリズムは,内部接続が強いが外部接続が弱いノード群を探索する。 島化プロセスには2つの大きな利点がある。 まず、個々のノードではなくアイランドを処理することで、オンチップデータの再利用が向上し、オフチップメモリアクセスが少なくなる。 第二に、島内の共通/共有隣人の集約を再利用できるため、冗長な計算は少ない。 graph islandsの並列検索、識別、活用はすべて、インクリメンタルパイプラインで動作する実行時のハードウェアで純粋に処理される。 これは、グラフデータの事前処理やGCNモデル構造の調整なしに行われる。 実験結果から、I-GCNはオフチップアクセスと38%のアグリゲーション操作を著しく削減でき、CPU、GPU、前回のアートGCNアクセラレータ5549x、403x、および5.7xでそれぞれ性能が向上することが示された。

Graph Convolutional Networks (GCNs) have drawn tremendous attention in the past three years. Compared with other deep learning modalities, high-performance hardware acceleration of GCNs is as critical but even more challenging. The hurdles arise from the poor data locality and redundant computation due to the large size, high sparsity, and irregular non-zero distribution of real-world graphs. In this paper we propose a novel hardware accelerator for GCN inference, called I-GCN, that significantly improves data locality and reduces unnecessary computation. The mechanism is a new online graph restructuring algorithm we refer to as islandization. The proposed algorithm finds clusters of nodes with strong internal but weak external connections. The islandization process yields two major benefits. First, by processing islands rather than individual nodes, there is better on-chip data reuse and fewer off-chip memory accesses. Second, there is less redundant computation as aggregation for common/shared neighbors in an island can be reused. The parallel search, identification, and leverage of graph islands are all handled purely in hardware at runtime working in an incremental pipeline. This is done without any preprocessing of the graph data or adjustment of the GCN model structure. Experimental results show that I-GCN can significantly reduce off-chip accesses and prune 38% of aggregation operations, leading to performance speedups over CPUs, GPUs, the prior art GCN accelerators of 5549x, 403x, and 5.7x on average, respectively.
翻訳日:2022-03-08 18:36:44 公開日:2022-03-07
# 拡張現実とロボット:ARとロボットのインタラクションとロボットインタフェースに関する調査と分類

Augmented Reality and Robotics: A Survey and Taxonomy for AR-enhanced Human-Robot Interaction and Robotic Interfaces ( http://arxiv.org/abs/2203.03254v1 )

ライセンス: Link先を確認
Ryo Suzuki, Adnan Karim, Tian Xia, Hooman Hedayati, Nicolai Marquardt(参考訳) 本研究は,460件の研究論文に基づく拡張現実とロボティクスの分類に寄与する。 Augmented and Mixed Reality (AR/MR)は、人間-ロボットインタラクション(HRI)とロボットインターフェース(例えば、アクティベートおよび形状変化するインタフェース)を強化する新しい方法として登場した。 近年、hci、hri、ロボティクスにおける研究が増えているが、arが人とロボットの相互作用を改善する方法を示している。 しかし、個別の探索や重要な設計戦略に焦点を絞った研究が残っていることが多く、研究課題が体系的に分析されることは稀である。 本稿では,この研究分野を以下の次元で合成し,分類する。 1) 現実を増すためのアプローチ 2)ロボットの特徴 3) 目的と利益 4) 提示された情報の分類 5) 視覚増強のための設計部品及び戦略 6) 相互作用技術及びモダリティ 7) 出願ドメイン,及び 8) 評価戦略。 我々は、ARとロボティクスにおける将来の研究をガイドし、伝えるための重要な課題と機会を定式化します。

This paper contributes to a taxonomy of augmented reality and robotics based on a survey of 460 research papers. Augmented and mixed reality (AR/MR) have emerged as a new way to enhance human-robot interaction (HRI) and robotic interfaces (e.g., actuated and shape-changing interfaces). Recently, an increasing number of studies in HCI, HRI, and robotics have demonstrated how AR enables better interactions between people and robots. However, often research remains focused on individual explorations and key design strategies, and research questions are rarely analyzed systematically. In this paper, we synthesize and categorize this research field in the following dimensions: 1) approaches to augmenting reality; 2) characteristics of robots; 3) purposes and benefits; 4) classification of presented information; 5) design components and strategies for visual augmentation; 6) interaction techniques and modalities; 7) application domains; and 8) evaluation strategies. We formulate key challenges and opportunities to guide and inform future research in AR and robotics.
翻訳日:2022-03-08 18:35:36 公開日:2022-03-07
# 医用画像における機械学習に基づく精器官分割のための新しい形状的損失関数

A novel shape-based loss function for machine learning-based seminal organ segmentation in medical imaging ( http://arxiv.org/abs/2203.03336v1 )

ライセンス: Link先を確認
Reza Karimzadeh, Emad Fatemizadeh, Hossein Arabi(参考訳) 医療画像の自動分割は臨床における診断と治療の迅速化に欠かせない課題である。 深部畳み込みニューラルネットワークは、正確かつ自動セミナルセグメンテーションにおいて有望な性能を示した。 セグメンテーションのタスクでは、これらの手法は通常、推定目標と専門家によって規定された地道マスクとの重なりを最大化するために設計されたコスト/損失関数を最小化する。 重なりの程度(すなわちサイス計量)に基づく単純な損失関数は、対象対象の基本的な形状や形態や現実的・自然な変化を考慮に入れず、ボクセル、穴、非現実的な形状や変形といった形で準最適セグメンテーションの結果が観察される。 この観点から、セグメンテーションの結果を精錬/後処理し、初期推測を、外れ値や非現実的な推定を避けるための事前知識として考える多くの研究がなされている。 そこで本研究では,ネットワークが対象構造の有効かつ現実的な推定を行うために,基礎となる形状特徴の学習/取得を奨励する新たな形状ベースコスト関数を提案する。 そこで,ベクトル化学習データセット上で主成分分析(pca)を行い,対象者の固有値と固有ベクトルを抽出する。 鍵となるアイデアは、リコンストラクションの重みを使って、外れ値/誤推定から正当な結果を判別することであった。

Automated medical image segmentation is an essential task to aid/speed up diagnosis and treatment procedures in clinical practices. Deep convolutional neural networks have exhibited promising performance in accurate and automatic seminal segmentation. For segmentation tasks, these methods normally rely on minimizing a cost/loss function that is designed to maximize the overlap between the estimated target and the ground-truth mask delineated by the experts. A simple loss function based on the degrees of overlap (i.e., Dice metric) would not take into account the underlying shape and morphology of the target subject, as well as its realistic/natural variations; therefore, suboptimal segmentation results would be observed in the form of islands of voxels, holes, and unrealistic shapes or deformations. In this light, many studies have been conducted to refine/post-process the segmentation outcome and consider an initial guess as prior knowledge to avoid outliers and/or unrealistic estimations. In this study, a novel shape-based cost function is proposed which encourages/constrain s the network to learn/capture the underlying shape features in order to generate a valid/realistic estimation of the target structure. To this end, the Principal Component Analysis (PCA) was performed on a vectorized training dataset to extract eigenvalues and eigenvectors of the target subjects. The key idea was to use the reconstruction weights to discriminate valid outcomes from outliers/erroneous estimations.
翻訳日:2022-03-08 18:35:20 公開日:2022-03-07
# 深部畳み込み神経ネットワークによる複数MR配列からの関節性脳腫瘍のセグメンテーション

Joint brain tumor segmentation from multi MR sequences through a deep convolutional neural network ( http://arxiv.org/abs/2203.03338v1 )

ライセンス: Link先を確認
Farzaneh Dehghani, Alireza Karimian, Hossein Arabi(参考訳) 脳腫瘍の分節は診断と治療計画に非常に寄与する。 手動脳腫瘍除去は時間を要する退屈な作業であり、放射線技師のスキルによって異なる。 自動脳腫瘍セグメンテーションは重要であり、観察内または観察内の両方に依存しない。 本研究の目的は,freir,t1重み付き,t2重み付き,t1重み付きコントラスト強調型mr配列からの脳腫瘍のデライン化を深層学習アプローチにより自動化することであり,どのmr配列のみか,その組み合わせが最高精度をもたらすかの判定に焦点をあてることである。

Brain tumor segmentation is highly contributive in diagnosing and treatment planning. The manual brain tumor delineation is a time-consuming and tedious task and varies depending on the radiologists skill. Automated brain tumor segmentation is of high importance, and does not depend on either inter or intra-observation. The objective of this study is to automate the delineation of brain tumors from the FLAIR, T1 weighted, T2 weighted, and T1 weighted contrast-enhanced MR sequences through a deep learning approach, with a focus on determining which MR sequence alone or which combination thereof would lead to the highest accuracy therein.
翻訳日:2022-03-08 18:34:54 公開日:2022-03-07
# 2領域画像分割のためのマンガテキスト進化

Cartoon-texture evolution for two-region image segmentation ( http://arxiv.org/abs/2203.03513v1 )

ライセンス: Link先を確認
Laura Antonelli, Valentina De Simone, Marco Viola(参考訳) 2領域イメージセグメンテーション(two-region image segmentation)は、画像を2つの関心領域、すなわち前景と背景に分割するプロセスである。 この目的のために、Chan et al。 [chan, esedo\=glu, nikolova, siam journal on applied mathematics 66(5), 1632-1648, 2006] 滑らかな画像に適したモデルを設計した。 このモデルの欠点の1つは、イメージが振動成分を含むと、セグメンテーションが悪いことである。 セグメント化される画像のマンガ・テクスチャ分解に基づいて,テクスチャのようなノイズや振動情報を含む画像の正確なセグメンテーションを生成できる新しいモデルを提案する。 新たなモデルでは,ADMM法を用いて解いた非滑らかな制約付き最適化問題を導出する。 数値スキームの収束性も証明されている。 滑らか,ノイズ,およびテクスチャ画像に関する実験により,提案手法の有効性が示された。

Two-region image segmentation is the process of dividing an image into two regions of interest, i.e., the foreground and the background. To this aim, Chan et al. [Chan, Esedo\=glu, Nikolova, SIAM Journal on Applied Mathematics 66(5), 1632-1648, 2006] designed a model well suited for smooth images. One drawback of this model is that it may produce a bad segmentation when the image contains oscillatory components. Based on a cartoon-texture decomposition of the image to be segmented, we propose a new model that is able to produce an accurate segmentation of images also containing noise or oscillatory information like texture. The novel model leads to a non-smooth constrained optimization problem which we solve by means of the ADMM method. The convergence of the numerical scheme is also proved. Several experiments on smooth, noisy, and textural images show the effectiveness of the proposed model.
翻訳日:2022-03-08 18:33:31 公開日:2022-03-07
# 機械学習分子運動による輸送特性の予測

Prediction of transport property via machine learning molecular movements ( http://arxiv.org/abs/2203.03103v1 )

ライセンス: Link先を確認
Ikki Yasuda, Yusei Kobayashi, Katsuhiro Endo, Yoshihiro Hayakawa, Kazuhiko Fujiwara, Kuniaki Yajima, Noriyoshi Arai, Kenji Yasuoka(参考訳) 分子動力学(MD)シミュレーションと機械学習(ML)を組み合わせることで材料特性を予測している。 MDから得られる分子構成は熱力学特性などの複数の特徴で表され、ML入力として使用される。 しかし、入力出力パターンを正確に見つけるためには、MLモデルの複雑さに依存する十分なサイズのデータセットが必要である。 MDシミュレーションからこのような大規模なデータセットを生成するのは、計算コストが高いため理想的ではない。 本研究では,材料の輸送特性を予測するためのシンプルな教師付きML法を提案する。 モデルを簡単にするため、教師なしML法は分子運動の効率的な表現を得る。 この手法を用いて, せん断流に閉じ込められた潤滑剤分子の粘度を予測した。 さらに、単純さは粘性の分子力学を理解するためのモデルの解釈を促進する。 低粘度に寄与する2種類の分子機構を明らかにした。

Molecular dynamics (MD) simulations are increasingly being combined with machine learning (ML) to predict material properties. The molecular configurations obtained from MD are represented by multiple features, such as thermodynamic properties, and are used as the ML input. However, to accurately find the input--output patterns, ML requires a sufficiently sized dataset that depends on the complexity of the ML model. Generating such a large dataset from MD simulations is not ideal because of their high computation cost. In this study, we present a simple supervised ML method to predict the transport properties of materials. To simplify the model, an unsupervised ML method obtains an efficient representation of molecular movements. This method was applied to predict the viscosity of lubricant molecules in confinement with shear flow. Furthermore, simplicity facilitates the interpretation of the model to understand the molecular mechanics of viscosity. We revealed two types of molecular mechanisms that contribute to low viscosity.
翻訳日:2022-03-08 18:30:56 公開日:2022-03-07
# 項目応答理論の精度評価のための行列分解視点

Matrix Decomposition Perspective for Accuracy Assessment of Item Response Theory ( http://arxiv.org/abs/2203.03112v1 )

ライセンス: Link先を確認
Hideo Hirose(参考訳) 項目応答理論は、0/1値要素からなる観測項目応答行列を用いて、検査者の能力および問題の難易度パラメータに対する推定値とその信頼区間を求める。 多くの論文が見積もりのパフォーマンスについて論じている。 しかし、この論文はそうではない。 最大推定値を用いて,推定項目応答行列を再構築する。 次に,この再構成行列の観測応答行列に対する精度を行列分解の観点から評価する。 すなわち,再構成された応答行列の性能に着目した。 項目応答理論の性能を他と比べるために, 観測された応答行列を近似し, 応答行列が完全行列である場合の特異値分解法, 応答行列が不完全行列である場合の行列, 応答行列が行列分解法を経由する行列という2種類の低ランク応答行列を提案した。 まず, 応答行列が完全行列である場合, 特異値分解法と行列分解法の性能はほぼ同じであることが判明した。 ここでは, 根平均二乗誤差と精度を用いて, 2つの行列間の密接性を測定した。 第二に,各行列に対する項目応答理論から得られた再構成行列の近接性は,k=,k=2の行列分解法から得られた2つの近似された低階応答行列と観測行列との間にあり,kは分解行列で使用される最初のk列を示す。

The item response theory obtains the estimates and their confidence intervals for parameters of abilities of examinees and difficulties of problems by using the observed item response matrix consisting of 0/1 value elements. Many papers discuss the performance of the estimates. However, this paper does not. Using the maximum likelihood estimates, we can reconstruct the estimated item response matrix. Then we can assess the accuracy of this reconstructed matrix to the observed response matrix from the matrix decomposition perspective. That is, this paper focuses on the performance of the reconstructed response matrix. To compare the performance of the item response theory with others, we provided the two kinds of low rank response matrix by approximating the observed response matrix; one is the matrix via the singular value decomposition method when the response matrix is a complete matrix, and the other is the matrix via the matrix decomposition method when the response matrix is an incomplete matrix. We have, firstly, found that the performance of the singular value decomposition method and the matrix decomposition method is almost the same when the response matrix is a complete matrix. Here, the performance is measured by the closeness between the two matrices using the root mean squared errors and the accuracy. Secondary, we have seen that the closeness of the reconstructed matrix obtained from the item response theory to the observed matrix is located between the two approximated low rank response matrices obtained from the matrix decomposition method of k= and k=2 to the observed matrix, where k indicates the first k columns use in the decomposed matrices.
翻訳日:2022-03-08 18:30:23 公開日:2022-03-07
# 自然に崩壊した帯域:レグレットとロバスト最適化アルゴリズムの低い境界

Bandits Corrupted by Nature: Lower Bounds on Regret and Robust Optimistic Algorithm ( http://arxiv.org/abs/2203.03186v1 )

ライセンス: Link先を確認
Debabrota Basu, Odalric-Ambrym Maillard, Timoth\'ee Mathieu(参考訳) 本稿では, 確率的バンディット問題を, 時間不変な汚職分布を持つ未知のヘビーテール, 破損した報酬分布, 腕を用いて検討する。 各イテレーションで、プレイヤーは腕を選択する。 アームが与えられると、環境は、確率1-\varepsilon$と、確率$\varepsilon$で任意に破損した報酬を返される。 我々の設定では、破壊されていない報酬は重く、腐敗した報酬は無拘束であるかもしれない。 腐敗し重い尾の帯状物は、腐敗していない帯状物や軽い尾状帯状物よりも厳格に硬いことを示す後悔の限界が下方にあることを証明した。 我々は,環境を,準最適ギャップ$\delta$,分散$\sigma$,汚職率$\epsilon$に応じて,ハードネスレジームに分類できることを観察した。 次に,Huber の推定器を頑健な平均推定に利用する UCB 型アルゴリズムである HuberUCB を設計する。 HuberUCBは、提案された腐敗した重尾の環境での後悔について、厳しい上限に達した。 上界を導出するために、ハマー推定器の新たな濃度不等式を証明し、これは独立な興味を持つかもしれない。

In this paper, we study the stochastic bandits problem with $k$ unknown heavy-tailed and corrupted reward distributions or arms with time-invariant corruption distributions. At each iteration, the player chooses an arm. Given the arm, the environment returns an uncorrupted reward with probability $1-\varepsilon$ and an arbitrarily corrupted reward with probability $\varepsilon$. In our setting, the uncorrupted reward might be heavy-tailed and the corrupted reward might be unbounded. We prove a lower bound on the regret indicating that the corrupted and heavy-tailed bandits are strictly harder than uncorrupted or light-tailed bandits. We observe that the environments can be categorised into hardness regimes depending on the suboptimality gap $\Delta$, variance $\sigma$, and corruption proportion $\epsilon$. Following this, we design a UCB-type algorithm, namely HuberUCB, that leverages Huber's estimator for robust mean estimation. HuberUCB leads to tight upper bounds on regret in the proposed corrupted and heavy-tailed setting. To derive the upper bound, we prove a novel concentration inequality for Huber's estimator, which might be of independent interest.
翻訳日:2022-03-08 18:29:54 公開日:2022-03-07
# 線形予測モデルと非線形予測モデルの組み合わせによる話者認識

Speaker recognition by means of a combination of linear and nonlinear predictive models ( http://arxiv.org/abs/2203.03190v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy(参考訳) 本稿では,非線形予測モデルと従来のLPCCパラメータ化を組み合わせた話者認識手法を提案する。 LPCC係数上で定義される測度と予測分析残差信号上で定義される測度の組み合わせは、LPCC係数のみを考慮した古典的手法よりも改善されることを示した。 線形予測解析から残差信号を得た場合、その改善率は2.63%(誤差率は6.31%から3.68%)であり、非線形予測ニューラルネットに基づくモデルで計算すると3.68%改善となる。 また,計算負荷を削減する効率的なアルゴリズムを提案する。

This paper deals the combination of nonlinear predictive models with classical LPCC parameterization for speaker recognition. It is shown that the combination of both a measure defined over LPCC coefficients and a measure defined over predictive analysis residual signal gives rise to an improvement over the classical method that considers only the LPCC coefficients. If the residual signal is obtained from a linear prediction analysis, the improvement is 2.63% (error rate drops from 6.31% to 3.68%) and if it is computed through a nonlinear predictive neural nets based model, the improvement is 3.68%. An efficient algorithm for reducing the computational burden is also proposed.
翻訳日:2022-03-08 18:29:24 公開日:2022-03-07
# ニューラルネットワークによる閉じ込め粒子のスペクトル関数と複素極の再構成

Neural network approach to reconstructing spectral functions and complex poles of confined particles ( http://arxiv.org/abs/2203.03293v1 )

ライセンス: Link先を確認
Thibault Lechien, David Dudal(参考訳) プロパゲータデータからスペクトル関数を再構成することは、解析継続問題を解くか、逆積分変換を適用することが不条件問題である。 近年の研究では、ニューラルネットワークを用いてこの問題を解決し、他の手法のパフォーマンスの一致や改善など、有望な結果を示している。 我々は、スペクトル関数を再構成するだけでなく、複雑な極の対や赤外(IR)遮断によって、このアプローチを一般化する。 我々は,物理的に動機づけられたおもちゃの機能をネットワークでトレーニングし,復元精度を調べ,その頑健性を確認した。 グルーオンプロパゲータのおもちゃ関数と真の格子QCDデータの両方において、この手法が現在の最先端手法よりも大幅に改善される可能性が示唆された。

Reconstructing spectral functions from propagator data is difficult as solving the analytic continuation problem or applying an inverse integral transformation are ill-conditioned problems. Recent work has proposed using neural networks to solve this problem and has shown promising results, either matching or improving upon the performance of other methods. We generalize this approach by not only reconstructing spectral functions, but also (possible) pairs of complex poles or an infrared (IR) cutoff. We train our network on physically motivated toy functions, examine the reconstruction accuracy and check its robustness to noise. Encouraging results are found on both toy functions and genuine lattice QCD data for the gluon propagator, suggesting that this approach may lead to significant improvements over current state-of-the-art methods.
翻訳日:2022-03-08 18:29:13 公開日:2022-03-07
# 因子グラフに基づくシンボル検出のニューラルエンハンスメント

Neural Enhancement of Factor Graph-based Symbol Detection ( http://arxiv.org/abs/2203.03333v1 )

ライセンス: Link先を確認
Luca Schmid and Laurent Schmalen(参考訳) シンボル検出のための因子グラフフレームワークの線形シンボル間干渉チャネルへの応用について検討する。 巡回因子グラフは、低複雑度記号検出器を生成する可能性を持つが、ユビキタスな和生成アルゴリズムを適用すると最適となる。 本稿では,ニューラルエンハンスメントを用いて,循環係数グラフに基づく記号検出アルゴリズムの性能を向上させるための戦略を提示し,評価する。 特に,因子グラフ内のサイクルの効果に対抗する効果的な方法として,神経信念伝播を適用する。 さらに,チャネル出力の線形プリプロセッサの適用と最適化について提案する。 観察モデルを変更することで、前処理は基礎となる因子グラフを効果的に変更し、検出性能を大幅に向上し、複雑さを低減できる。

We study the application of the factor graph framework for symbol detection on linear inter-symbol interference channels. Cyclic factor graphs have the potential to yield low-complexity symbol detectors, but are suboptimal if the ubiquitous sum-product algorithm is applied. In this paper, we present and evaluate strategies to improve the performance of cyclic factor graph-based symbol detection algorithms by means of neural enhancement. In particular, we apply neural belief propagation as an effective way to counteract the effect of cycles within the factor graph. We further propose the application and optimization of a linear preprocessor of the channel output. By modifying the observation model, the preprocessing can effectively change the underlying factor graph, thereby significantly improving the detection performance as well as reducing the complexity.
翻訳日:2022-03-08 18:28:57 公開日:2022-03-07
# テンソルプログラムV:ゼロショットハイパーパラメータ転送による大規模ニューラルネットワークのチューニング

Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer ( http://arxiv.org/abs/2203.03466v1 )

ライセンス: Link先を確認
Greg Yang, Edward J. Hu, Igor Babuschkin, Szymon Sidor, Xiaodong Liu, David Farhi, Nick Ryder, Jakub Pachocki, Weizhu Chen, Jianfeng Gao(参考訳) ディープラーニングにおけるハイパーパラメータ(HP)チューニングは高価なプロセスであり、数十億のパラメータを持つニューラルネットワーク(NN)では違法である。 最近発見された最大更新パラメトリゼーション(muP)では、モデルサイズが変化しても最適なHPが安定している。 ターゲットモデルを muP でパラメータ化し、小さなモデルで間接的に HP をチューニングし、ゼロショットは後者を直接チューニングすることなくフルサイズのモデルに転送する。 我々は Transformer と ResNet で muTransfer を検証する。 例えば 1) プレトレーニングHPを13Mパラメータのモデルから転送することにより, BERT-large(350Mパラメータ)の数を1回に1回, BERT-largeを1回, 総チューニングコストを1回に1回, 比較した。 2) 40M パラメータの転送により,6.7B の GPT-3 モデルの数値を上回り,チューニングコストはトレーニング前コストの 7% に過ぎなかった。 本手法のPytorch実装はgithub.com/microsoft /mupで,‘pip install mup’経由でインストール可能である。

Hyperparameter (HP) tuning in deep learning is an expensive process, prohibitively so for neural networks (NNs) with billions of parameters. We show that, in the recently discovered Maximal Update Parametrization (muP), many optimal HPs remain stable even as model size changes. This leads to a new HP tuning paradigm we call muTransfer: parametrize the target model in muP, tune the HP indirectly on a smaller model, and zero-shot transfer them to the full-sized model, i.e., without directly tuning the latter at all. We verify muTransfer on Transformer and ResNet. For example, 1) by transferring pretraining HPs from a model of 13M parameters, we outperform published numbers of BERT-large (350M parameters), with a total tuning cost equivalent to pretraining BERT-large once; 2) by transferring from 40M parameters, we outperform published numbers of the 6.7B GPT-3 model, with tuning cost only 7% of total pretraining cost. A Pytorch implementation of our technique can be found at github.com/microsoft /mup and installable via `pip install mup`.
翻訳日:2022-03-08 18:28:32 公開日:2022-03-07
# 量子局所微分プライバシーと量子統計的クエリモデル

Quantum Local Differential Privacy and Quantum Statistical Query Model ( http://arxiv.org/abs/2203.03591v1 )

ライセンス: Link先を確認
Armando Angrisani and Elham Kashefi(参考訳) 個人学習の問題は古典的コンピュータ科学で広く研究されてきた。 特に,局所的な差分学習と統計的クエリ学習の有意な等価性が示されている。 さらに、統計クエリモデルも最近量子計算に拡張されている。 本研究では,量子局所微分プライバシーを形式的に定義し,上記の結果を量子計算に拡張する。

The problem of private learning has been extensively studied in classical computer science. Notably, a striking equivalence between local differentially private learning and statistical query learning has been shown. In addition, the statistical query model has been recently extended to quantum computation. In this work, we give a formal definition of quantum local differential privacy and we extend the aforementioned result to quantum computation.
翻訳日:2022-03-08 18:28:04 公開日:2022-03-07
# 量子および量子インスパイアされたアルゴリズムにおける差分プライバシー増幅

Differential Privacy Amplification in Quantum and Quantum-inspired Algorithms ( http://arxiv.org/abs/2203.03604v1 )

ライセンス: Link先を確認
Armando Angrisani, Mina Doosti and Elham Kashefi(参考訳) ディファレンシャルプライバシは、アウトプットがすべてのユーザに関する最小限の情報を明らかにする方法で、約n$ユーザに関するデータセットを処理するための理論的フレームワークを提供する。 このようなプライバシーの概念は、通常ノイズ付加機構によって保証され、サブサンプリング、シャッフル、反復、混合、拡散を含むいくつかのプロセスによって増幅される。 本研究では、量子および量子に着想を得たアルゴリズムに対するプライバシー増幅バウンダリを提供する。 特に,古典データセットの量子エンコーディング上で実行されるアルゴリズムや,量子インスパイアされた古典的サンプリングの結果が,微分プライバシーを増幅することを示す。 さらに, 量子チャネルの構成によって微分プライバシーの量子バージョンが増幅されることを証明し, 混合条件を満たすことを条件とした。

Differential privacy provides a theoretical framework for processing a dataset about $n$ users, in a way that the output reveals a minimal information about any single user. Such notion of privacy is usually ensured by noise-adding mechanisms and amplified by several processes, including subsampling, shuffling, iteration, mixing and diffusion. In this work, we provide privacy amplification bounds for quantum and quantum-inspired algorithms. In particular, we show for the first time, that algorithms running on quantum encoding of a classical dataset or the outcomes of quantum-inspired classical sampling, amplify differential privacy. Moreover, we prove that a quantum version of differential privacy is amplified by the composition of quantum channels, provided that they satisfy some mixing conditions.
翻訳日:2022-03-08 18:27:24 公開日:2022-03-07
# ディープニューラルネットワークを用いたデータ駆動型ロバスト統計調停戦略の検出

Detecting data-driven robust statistical arbitrage strategies with deep neural networks ( http://arxiv.org/abs/2203.03179v1 )

ライセンス: Link先を確認
Ariel Neufeld, Julian Sester, Daiying Yin(参考訳) 我々は、金融市場における堅牢な統計的仲裁戦略を識別できるディープニューラルネットワークに基づくアプローチを提案する。 ロバストな統計仲裁戦略は、モデルあいまいさの下で利益のある取引を可能にする自己金融取引戦略を指す。 提示された新しい手法は、次元の呪いに苦しめられず、統合された資産のペアの識別に依存しないため、高次元金融市場や古典的なペア取引アプローチが失敗する市場においても適用可能である。 さらに、観測された市場データから導出可能な許容確率尺度のあいまい性セットを構築する方法を提案する。 したがって、このアプローチはモデルフリーであり、データ駆動であると考えることができる。 金融危機時の50次元においても高い利益率の取引実績と資産対の合併関係が持続しなくなった場合においても,実証調査を行うことにより,本手法の適用性を示す。

We present an approach, based on deep neural networks, that allows identifying robust statistical arbitrage strategies in financial markets. Robust statistical arbitrage strategies refer to self-financing trading strategies that enable profitable trading under model ambiguity. The presented novel methodology does not suffer from the curse of dimensionality nor does it depend on the identification of cointegrated pairs of assets and is therefore applicable even on high-dimensional financial markets or in markets where classical pairs trading approaches fail. Moreover, we provide a method to build an ambiguity set of admissible probability measures that can be derived from observed market data. Thus, the approach can be considered as being model-free and entirely data-driven. We showcase the applicability of our method by providing empirical investigations with highly profitable trading performances even in 50 dimensions, during financial crises, and when the cointegration relationship between asset pairs stops to persist.
翻訳日:2022-03-08 18:26:59 公開日:2022-03-07
# 完全非線形偏微分方程式に対する深い分岐解法

A deep branching solver for fully nonlinear partial differential equations ( http://arxiv.org/abs/2203.03234v1 )

ライセンス: Link先を確認
Jiang Yu Nguwi, Guillaume Penent, and Nicolas Privault(参考訳) 完全非線形PDEの数値解に対する確率分岐アルゴリズムの多次元ディープラーニング実装を提案する。 このアプローチは、ニューラルネットワークとモンテカルロ分岐アルゴリズムを組み合わせることにより、任意の順序の勾配項を含む機能的非線形性に取り組むように設計されている。 他のディープラーニングPDEソルバと比較して、学習したニューラルネットワーク機能の一貫性を確認することもできる。 数値実験により, このアルゴリズムは, 後方確率微分方程式やガレルキン法に基づくディープラーニング手法よりも優れており, 完全非線形例では得られない解推定値を提供する。

We present a multidimensional deep learning implementation of a stochastic branching algorithm for the numerical solution of fully nonlinear PDEs. This approach is designed to tackle functional nonlinearities involving gradient terms of any orders by combining the use of neural networks with a Monte Carlo branching algorithm. In comparison with other deep learning PDE solvers, it also allows us to check the consistency of the learned neural network function. Numerical experiments presented show that this algorithm can outperform deep learning approaches based on backward stochastic differential equations or the Galerkin method, and provide solution estimates that are not obtained by those methods in fully nonlinear examples.
翻訳日:2022-03-08 18:26:37 公開日:2022-03-07
# 分散線形フィルタリングと予測のための可観測性と最適利得設計について

On observability and optimal gain design for distributed linear filtering and prediction ( http://arxiv.org/abs/2203.03521v1 )

ライセンス: Link先を確認
Subhro Das(参考訳) 本稿では,分散線形フィルタリングと予測に対する新しいアプローチを提案する。 検討中の問題は、ネットワークがスパースであるセンサのマルチエージェントネットワークで観測されるランダムな力学系である。 本稿では,コンセンサス+革新型分散推定手法にヒントを得て,コンセンサスとイノベーションの概念を融合させる新しいアルゴリズムを提案する。 本稿では,提案アルゴリズムが要求する分散可観測性の定義について紹介する。これはグローバル可観測性と接続ネットワークの仮定を組み合わせるよりも弱い仮定である。 最初の原理に従うと、最適ゲイン行列は各エージェントで平均二乗誤差を最小化するように設計され、代数リカティ方程式の分散バージョンはゲインを計算するために導かれる。

This paper presents a new approach to distributed linear filtering and prediction. The problem under consideration consists of a random dynamical system observed by a multi-agent network of sensors where the network is sparse. Inspired by the consensus+innovations type of distributed estimation approaches, this paper proposes a novel algorithm that fuses the concepts of consensus and innovations. The paper introduces a definition of distributed observability, required by the proposed algorithm, which is a weaker assumption than that of global observability and connected network assumptions combined together. Following first principles, the optimal gain matrices are designed such that the mean-squared error of estimation is minimized at each agent and the distributed version of the algebraic Riccati equation is derived for computing the gains.
翻訳日:2022-03-08 18:26:26 公開日:2022-03-07
# (参考訳) 制限順序ブックマーケットにおける中間価格ダイナミクス予測のためのベイズバイリニアニューラルネットワーク [全文訳有]

Bayesian Bilinear Neural Network for Predicting the Mid-price Dynamics in Limit-Order Book Markets ( http://arxiv.org/abs/2203.03613v1 )

ライセンス: CC BY 4.0
Martin Magris, Mostafa Shabani, Alexandros Iosifidis(参考訳) 金融市場の予測は困難だが重要な課題である。 現代の電子駆動市場では、伝統的な時系列計量法は価格のダイナミクスを駆動する多レベル相互作用の真の複雑さを捉えることができないように見える。 近年の研究では、金融アプリケーションにおける従来の機械学習(ml)モデルの有効性が確立されているが、不確実性を扱う本質的な能力の欠如は、econometrics researchや実際のビジネスアプリケーションにおいて大きな関心事となっている。 ベイズ的手法は自然に、確率論的に指向したエコノメトリー研究の実践でML手法の予測能力を伝達する適切な治療法として現れる。 最先端の2次最適化アルゴリズムを採用することで、超高頻度のリミテッドオーダーブックマーケットにおける中価格変動を予測するための挑戦的な時系列タスクに適した、時間的注意を伴うベイズバイリニアニューラルネットワークを訓練する。 予測分布を用いて推定パラメータとモデル予測に関連する誤差や不確実性を解析することにより、ベイズモデルと従来のML代替品を徹底的に比較する。 本研究は,ベイズ深層学習手法の実現可能性と,複雑な計量的タスクにおける予測的・決定的優位性について述べる。

The prediction of financial markets is a challenging yet important task. In modern electronically-drive n markets traditional time-series econometric methods often appear incapable of capturing the true complexity of the multi-level interactions driving the price dynamics. While recent research has established the effectiveness of traditional machine learning (ML) models in financial applications, their intrinsic inability in dealing with uncertainties, which is a great concern in econometrics research and real business applications, constitutes a major drawback. Bayesian methods naturally appear as a suitable remedy conveying the predictive ability of ML methods with the probabilistically-or iented practice of econometric research. By adopting a state-of-the-art second-order optimization algorithm, we train a Bayesian bilinear neural network with temporal attention, suitable for the challenging time-series task of predicting mid-price movements in ultra-high-frequency limit-order book markets. By addressing the use of predictive distributions to analyze errors and uncertainties associated with the estimated parameters and model forecasts, we thoroughly compare our Bayesian model with traditional ML alternatives. Our results underline the feasibility of the Bayesian deep learning approach and its predictive and decisional advantages in complex econometric tasks, prompting future research in this direction.
翻訳日:2022-03-08 18:25:45 公開日:2022-03-07
# PathBenchを用いた経路計画アルゴリズムの体系的比較

Systematic Comparison of Path Planning Algorithms using PathBench ( http://arxiv.org/abs/2203.03092v1 )

ライセンス: Link先を確認
Hao-Ya Hsueh, Alexandru-Iosif Toma, Hussein Ali Jaafar, Edward Stow, Riku Murai, Paul H.J. Kelly and Sajad Saeedi(参考訳) パスプランニングはモバイルロボティクスの重要な構成要素である。 wavefrontやrapid-exploring random tree(rrt)といった古典的な経路計画アルゴリズムは、自律ロボットに多く使われている。 機械学習の最近の進歩により、学習に基づく経路計画アルゴリズムの開発は急速に成長している。 既存のアルゴリズムと新しいアルゴリズムの開発とベンチマークを容易にする統一パス計画インタフェースが必要である。 本稿では,2次元および3次元グリッド環境における既存および将来の古典的および学習的パス計画アルゴリズムの開発,可視化,トレーニング,テスト,ベンチマークを行うプラットフォームであるPathBenchについて述べる。 A*、Dijkstra、ウェイポイント計画ネットワーク、バリューイテレーションネットワーク、ゲートパス計画ネットワークなど、多くの既存のパス計画アルゴリズムがサポートされている。 本稿では,PathBenchマップやゲームマップ,実世界のデータベースからのマップなど,5つの異なるハードウェアシステムと3つの異なるマップタイプにまたがるアルゴリズムを比較し,PathBenchのベンチマーク能力について検討する。 アルゴリズムの評価にはパス長、成功率、計算時間などの指標が用いられた。 アルゴリズム解析は、pathbenchのrobot operating system(ros)サポートを実世界ロボットで実証するためにも行われた。 PathBenchはオープンソースである。

Path planning is an essential component of mobile robotics. Classical path planning algorithms, such as wavefront and rapidly-exploring random tree (RRT) are used heavily in autonomous robots. With the recent advances in machine learning, development of learning-based path planning algorithms has been experiencing rapid growth. An unified path planning interface that facilitates the development and benchmarking of existing and new algorithms is needed. This paper presents PathBench, a platform for developing, visualizing, training, testing, and benchmarking of existing and future, classical and learning-based path planning algorithms in 2D and 3D grid world environments. Many existing path planning algorithms are supported; e.g. A*, Dijkstra, waypoint planning networks, value iteration networks, gated path planning networks; and integrating new algorithms is easy and clearly specified. The benchmarking ability of PathBench is explored in this paper by comparing algorithms across five different hardware systems and three different map types, including built-in PathBench maps, video game maps, and maps from real world databases. Metrics, such as path length, success rate, and computational time, were used to evaluate algorithms. Algorithmic analysis was also performed on a real world robot to demonstrate PathBench's support for Robot Operating System (ROS). PathBench is open source.
翻訳日:2022-03-08 17:51:56 公開日:2022-03-07
# 動的・不均一パラメータに対するエージェントモデルの自動校正フレームワーク

Automatic Calibration Framework of Agent-Based Models for Dynamic and Heterogeneous Parameters ( http://arxiv.org/abs/2203.03147v1 )

ライセンス: Link先を確認
Dongjun Kim, Tae-Sub Yun, Il-Chul Moon, Jang Won Bae(参考訳) エージェントベースモデル(abms)は、質的顔検証や定量的実証検証など、シミュレーション検証の重要性を強調している。 特に,ABMのシミュレーション入力パラメータの調整による定量的検証に着目した。 本研究では,動的キャリブレーション法と不均一キャリブレーション法を組み合わせた自動キャリブレーション手法を提案する。 具体的には、適切なシミュレーション時間を自動的に捉えてシミュレーションパラメータを調整することにより、シミュレーション結果を実世界データに適合させる。 一方, 不均一キャリブレーションは, エージェント関連パラメータをクラスタワイズに調整することにより, シミュレーションと実世界の個人間の分布差を低減させる。

Agent-based models (ABMs) highlight the importance of simulation validation, such as qualitative face validation and quantitative empirical validation. In particular, we focused on quantitative validation by adjusting simulation input parameters of the ABM. This study introduces an automatic calibration framework that combines the suggested dynamic and heterogeneous calibration methods. Specifically, the dynamic calibration fits the simulation results to the real-world data by automatically capturing suitable simulation time to adjust the simulation parameters. Meanwhile, the heterogeneous calibration reduces the distributional discrepancy between individuals in the simulation and the real world by adjusting agent related parameters cluster-wisely.
翻訳日:2022-03-08 17:51:33 公開日:2022-03-07
# 次の位置予測データセットにおける軌道テスト-トレイン重なり

Trajectory Test-Train Overlap in Next-Location Prediction Datasets ( http://arxiv.org/abs/2203.03208v1 )

ライセンス: Link先を確認
Massimiliano Luca, Luca Pappalardo, Bruno Lepri, Gianni Barlacchi(参考訳) ユーザの位置を過去の軌跡から予測する次の位置予測は、都市計画、ジオマーケティング、疾病の拡散など、いくつかの分野で重要な意味を持つ。 ディープラーニングに基づく最終世代など、この問題に対処するいくつかの予測器がここ数年提案されている。 本稿では,これらの予測器の一般化機能をパブリックモビリティデータセット上でテストし,テストセットの軌跡がトレーニングセットに完全か部分的に現れるかによって,データセットの階層化を行う。 我々は,すべての解析データセットにおける軌道重なりの深刻な問題を一貫して発見し,予測者が一般化能力の制限を保ちながら軌跡を記憶できることを強調した。 そこで本稿では,空間移動パターンに基づく次位置予測器の出力を再現する手法を提案する。 これらの手法により,予測器の一般化能力を大幅に向上し,記憶できない軌道上での精度を96.15%向上させた(トレーニングセットとの重なりが低い)。

Next-location prediction, consisting of forecasting a user's location given their historical trajectories, has important implications in several fields, such as urban planning, geo-marketing, and disease spreading. Several predictors have been proposed in the last few years to address it, including last-generation ones based on deep learning. This paper tests the generalization capability of these predictors on public mobility datasets, stratifying the datasets by whether the trajectories in the test set also appear fully or partially in the training set. We consistently discover a severe problem of trajectory overlapping in all analyzed datasets, highlighting that predictors memorize trajectories while having limited generalization capacities. We thus propose a methodology to rerank the outputs of the next-location predictors based on spatial mobility patterns. With these techniques, we significantly improve the predictors' generalization capability, with a relative improvement on the accuracy up to 96.15% on the trajectories that cannot be memorized (i.e., low overlap with the training set).
翻訳日:2022-03-08 17:49:53 公開日:2022-03-07
# ハイパーグラフニューラルネットワークによるマルチエージェントゲームにおける効率的な協調戦略生成

Efficient Cooperation Strategy Generation in Multi-Agent Video Games via Hypergraph Neural Network ( http://arxiv.org/abs/2203.03265v1 )

ライセンス: Link先を確認
Bin Zhang, Yunpeng Bai, Zhiwei Xu, Dapeng Li, Guoliang Fan(参考訳) シングルエージェントビデオゲームにおける深層強化学習(DRL)の性能は、逐次的な意思決定課題に対処する利点から驚くべきものである。 しかし、研究者はマルチエージェント環境でビデオゲームを扱う際にさらに困難を抱えている。 現在取り組まれている最も差し迫った問題の1つは、多数のエージェントとシナリオにおいて、異なるエージェント間の十分なコラボレーションを実現する方法である。 この問題を解決するために,エージェントのハイパーグラフ構造に適応し,ハイパーグラフ畳み込みを用いてエージェント間の情報特徴抽出と表現を完了し,効率的に協調するアクタ・クリティック法に基づく新しいアルゴリズムを提案する。 HGACとATT-HGACのアルゴリズムは,異なるハイパーグラフ構造を生成する方法に基づいている。 我々は,既存の手法に対するアプローチの利点を実証する。 アブレーションと可視化の研究はアルゴリズムの各成分の関連性も確認している。

The performance of deep reinforcement learning (DRL) in single-agent video games is astounding due to its benefits in dealing with sequential decision-making challenges. However, researchers have extra difficulties while working with video games in multi-agent environments. One of the most pressing issues presently being addressed is how to create sufficient collaboration between different agents in a scenario with numerous agents. To address this issue, we propose a novel algorithm based on the actor-critic method, which adapts the hypergraph structure of agents and employs hypergraph convolution to complete information feature extraction and representation between agents, resulting in efficient collaboration. Based on distinct generating methods of hypergraph structure, HGAC and ATT-HGAC algorithms are given. We demonstrate the advantages of our approach over other existing methods. Ablation and visualization studies also confirm the relevance of each component of the algorithm.
翻訳日:2022-03-08 17:49:36 公開日:2022-03-07
# stdpに基づくスパイキングニューラルネットワークのための教師付き学習アルゴリズム

An STDP-Based Supervised Learning Algorithm for Spiking Neural Networks ( http://arxiv.org/abs/2203.03379v1 )

ライセンス: Link先を確認
Zhanhao Hu, Tao Wang, Xiaolin Hu(参考訳) レートベースの人工ニューラルネットワークと比較すると、スパイキングニューラルネットワーク(SNN)は脳に対してより生物学的に可能なモデルを提供する。 しかし、教師付き学習の実施方法はまだ不明だ。 近年のBengioらの業績に触発されて,Leaky Integrate-and-fire(L IF)ニューロンからなる階層SNNに対して,Spike-Timing Dependent Plasticity(STDP)に基づく教師付き学習アルゴリズムを提案する。 時間ウィンドウはシナプス前ニューロンのために設計されており、このウィンドウ内のスパイクのみがSTDP更新プロセスに参加する。 モデルはMNISTデータセットに基づいてトレーニングされる。 分類精度は、標準バックプロパゲーションアルゴリズムによって訓練された類似アーキテクチャを持つ多層パーセプトロン(MLP)にアプローチする。

Compared with rate-based artificial neural networks, Spiking Neural Networks (SNN) provide a more biological plausible model for the brain. But how they perform supervised learning remains elusive. Inspired by recent works of Bengio et al., we propose a supervised learning algorithm based on Spike-Timing Dependent Plasticity (STDP) for a hierarchical SNN consisting of Leaky Integrate-and-fire (LIF) neurons. A time window is designed for the presynaptic neuron and only the spikes in this window take part in the STDP updating process. The model is trained on the MNIST dataset. The classification accuracy approach that of a Multilayer Perceptron (MLP) with similar architecture trained by the standard back-propagation algorithm.
翻訳日:2022-03-08 17:49:22 公開日:2022-03-07
# 制約の重要性--差分進化以降における実現不可能な解を扱う

The importance of being constrained: dealing with infeasible solutions in Differential Evolution and beyond ( http://arxiv.org/abs/2203.03512v1 )

ライセンス: Link先を確認
Anna V. Kononova, Diederick Vermetten, Fabio Caraffini, Madalina-A. Mitran and Daniela Zaharie(参考訳) 単純なボックス制約の場合であっても、アルゴリズムがドメイン外で生成されたソリューションで何をすべきかを完全に特定しなければ、ヒューリスティックな最適化アルゴリズムによって生成された結果は再現可能であるとは考えられない。 現在、ヒューリスティック最適化の分野では、この問題の自明さや重要さを前提として、そのような仕様が言及されることは稀である。 ここでは,少なくとも微分進化に基づくアルゴリズムでは,この選択が,パフォーマンス,破壊性,集団多様性の観点から,特に異なる行動を引き起こすことを実証する。 これは、選択圧力のない標準微分進化に対して(可能ならば)理論的に示され、特殊テスト関数 $f_0$ と BBOB のベンチマークスイート上で、それぞれ標準微分進化と最先端微分進化の変種について実験的に示される。 さらに, この選択の重要性は, 問題の次元によって急速に増大することを示した。 上記のアルゴリズムの選択によって、他のヒューリスティックなオプティマイザが等しく影響を受けるわけではないと仮定する理由はない。 したがって、ヒューリスティック最適化の分野において、ヒューリスティック最適化における新しいアルゴリズムコンポーネントの考え方を定式化し、採用するよう促す。 このコンポーネントは一貫して (a) 結果の再現性を保証するためのアルゴリズム記述 (b)より広い意味でアルゴリズムの性能への影響をよりよく理解するために研究した。 (c) アルゴリズム設計(自動)に含まれる。 これらのすべては、ボックス制約の問題でも行うべきです。

We argue that results produced by a heuristic optimisation algorithm cannot be considered reproducible unless the algorithm fully specifies what should be done with solutions generated outside the domain, even in the case of simple box constraints. Currently, in the field of heuristic optimisation, such specification is rarely mentioned or investigated due to the assumed triviality or insignificance of this question. Here, we demonstrate that, at least in algorithms based on Differential Evolution, this choice induces notably different behaviours - in terms of performance, disruptiveness and population diversity. This is shown theoretically (where possible) for standard Differential Evolution in the absence of selection pressure and experimentally for the standard and state-of-the-art Differential Evolution variants on special test function $f_0$ and BBOB benchmarking suite, respectively. Moreover, we demonstrate that the importance of this choice quickly grows with problem's dimensionality. Different Evolution is not at all special in this regard - there is no reason to presume that other heuristic optimisers are not equally affected by the aforementioned algorithmic choice. Thus, we urge the field of heuristic optimisation to formalise and adopt the idea of a new algorithmic component in heuristic optimisers, which we call here a strategy of dealing with infeasible solutions. This component needs to be consistently (a) specified in algorithmic descriptions to guarantee reproducibility of results, (b) studied to better understand its impact on algorithm's performance in a wider sense and (c) included in the (automatic) algorithmic design. All of these should be done even for problems with box constraints.
翻訳日:2022-03-08 17:49:09 公開日:2022-03-07
# 雨中のスイッチング:予測型無線x-haulネットワーク再構成

Switching in the Rain: Predictive Wireless x-haul Network Reconfiguration ( http://arxiv.org/abs/2203.03383v1 )

ライセンス: Link先を確認
Igor Kadota, Dror Jacoby, Hagit Messer, Gil Zussman and Jonatan Ostrometzky(参考訳) 無線x-haulネットワークは、超高データレートと超低レイテンシをサポートするために、4gおよび5gのベースステーション間のマイクロ波およびミリ波リンクに依存している。 これらの高周波リンクに関連する大きな課題は、気象条件に対する感受性である。 特に降水は深刻な信号減衰を引き起こし、ネットワーク性能を著しく低下させる。 本稿では,各リンクの将来状態を予測するために履歴データを用いた予測ネットワーク再構成(pnr)フレームワークを開発し,差し迫った障害に対してネットワークを事前準備する。 PNRフレームワークには2つのコンポーネントがある。 (i)減衰予測(ap)機構、及び (ii)マルチステップネットワーク再構成(msnr)アルゴリズム。 APメカニズムはエンコーダ-デコーダロング短期メモリ(LSTM)モデルを用いて、各リンクの将来の減衰レベルのシーケンスを予測する。 MSNRアルゴリズムはこれらの予測を利用して、ネットワーク利用の最大化を目的としたルーティングと入出力制御の決定を動的に最適化し、ネットワークを共有するベースステーション間の最大値の公平性を保ち、再ルーティングによって引き起こされる過度な混雑を防ぐ。 我々は,現実世界の都市規模バックホールネットワークから収集された200万以上のデータを含むデータセットを用いて,PNRフレームワークを訓練,検証,評価する。 結果は、フレームワークが示す。 i)高い精度で減衰を予測し、RMSEは0.4dB未満で50秒の予測水平線を予測する。 (ii)将来の障害に関する情報を活用できないリアクティブネットワーク再構成アルゴリズムと比較して、即時ネットワーク利用を200%以上改善することができる。

Wireless x-haul networks rely on microwave and millimeter-wave links between 4G and/or 5G base-stations to support ultra-high data rate and ultra-low latency. A major challenge associated with these high frequency links is their susceptibility to weather conditions. In particular, precipitation may cause severe signal attenuation, which significantly degrades the network performance. In this paper, we develop a Predictive Network Reconfiguration (PNR) framework that uses historical data to predict the future condition of each link and then prepares the network ahead of time for imminent disturbances. The PNR framework has two components: (i) an Attenuation Prediction (AP) mechanism; and (ii) a Multi-Step Network Reconfiguration (MSNR) algorithm. The AP mechanism employs an encoder-decoder Long Short-Term Memory (LSTM) model to predict the sequence of future attenuation levels of each link. The MSNR algorithm leverages these predictions to dynamically optimize routing and admission control decisions aiming to maximize network utilization, while preserving max-min fairness among the base-stations sharing the network and preventing transient congestion that may be caused by re-routing. We train, validate, and evaluate the PNR framework using a dataset containing over 2 million measurements collected from a real-world city-scale backhaul network. The results show that the framework: (i) predicts attenuation with high accuracy, with an RMSE of less than 0.4 dB for a prediction horizon of 50 seconds; and (ii) can improve the instantaneous network utilization by more than 200% when compared to reactive network reconfiguration algorithms that cannot leverage information about future disturbances.
翻訳日:2022-03-08 17:48:42 公開日:2022-03-07
# 知識蒸留を用いたデュアルモードモデルによる言語識別

Enhance Language Identification using Dual-mode Model with Knowledge Distillation ( http://arxiv.org/abs/2203.03218v1 )

ライセンス: Link先を確認
Hexin Liu, Leibny Paola Garcia Perera, Andy W.H. Khong, Justin Dauwels, Suzy J. Styles, Sanjeev Khudanpur(参考訳) 本稿では,x-vector self-attention (XSA-LID) モデルに知識蒸留 (KD) を用いた二重モードフレームワークを用いて,長音と短音の両方で言語識別 (LID) 性能を向上させることを提案する。 両モードXSA-LIDモデルは、各入力がフル長の音声と特定のブールマスクによって抽出されたショートクリップとで、フルモードとショートモードの両方を共同最適化し、KDを適用して、短い発話の性能をさらに向上させる。 さらに、模倣音声クリップの長さと位置からLID性能の変動を分析することにより、LIDに対するクリップワイド言語的変動と語彙的整合性の影響について検討した。 我々はNIST 2017 LREのMLS14データに対するアプローチを評価した。 提案手法は,3s,10s,30sのXSA-LIDモデルと比較して,平均コストが19.23%,21.52%,8.37%向上した。

In this paper, we propose to employ a dual-mode framework on the x-vector self-attention (XSA-LID) model with knowledge distillation (KD) to enhance its language identification (LID) performance for both long and short utterances. The dual-mode XSA-LID model is trained by jointly optimizing both the full and short modes with their respective inputs being the full-length speech and its short clip extracted by a specific Boolean mask, and KD is applied to further boost the performance on short utterances. In addition, we investigate the impact of clip-wise linguistic variability and lexical integrity for LID by analyzing the variation of LID performance in terms of the lengths and positions of the mimicked speech clips. We evaluated our approach on the MLS14 data from the NIST 2017 LRE. With the 3~s random-location Boolean mask, our proposed method achieved 19.23%, 21.52% and 8.37% relative improvement in average cost compared with the XSA-LID model on 3s, 10s, and 30s speech, respectively.
翻訳日:2022-03-08 17:46:27 公開日:2022-03-07
# CPPF:野生におけるロバストなカテゴリーレベル9Dポス推定に向けて

CPPF: Towards Robust Category-Level 9D Pose Estimation in the Wild ( http://arxiv.org/abs/2203.03089v1 )

ライセンス: Link先を確認
Yang You, Ruoxi Shi, Weiming Wang, Cewu Lu(参考訳) 本稿では,1つのRGB-Dフレームを考慮し,カテゴリーレベルの9Dポーズ推定の問題に取り組む。 実世界の9dポーズの教師付きデータの使用は、退屈で誤ったものであり、目に見えないシナリオに一般化することができない。 さらに、カテゴリレベルのポーズ推定には、テスト時に見えないオブジェクトに一般化できるメソッドが必要であるが、これも難しい。 本稿では,従来の点対特徴(ppfs)から着想を得た新しいカテゴリーレベルのppf(cppf)投票法を考案し,実環境において高精度でロバストで一般化可能な9次元ポーズ推定を実現する。 頑健なポーズ推定を得るためには,オブジェクト上に多数の点対をサンプリングし,各ペアに対して,オブジェクト中心,向き,スケールに関するSE(3)不変投票統計量を予測する。 ノイズの多い点対サンプルを除去し, 個体群から最終予測を生成するため, 新たな粗粒間投票アルゴリズムを提案する。 配向投票プロセスにおいて偽陽性を除去するために、各サンプル点対に対して補助的二項曖昧化分類タスクを導入する。 野生の物体を検出するため、オブジェクトが幾何にあいまいなポーズをとらない限り、合成ポイントクラウドのみをトレーニングすることで、sim-to-realパイプラインを慎重に設計します。 この状況下では、色情報はこれらのポーズを曖昧にするために利用される。 標準ベンチマークの結果,本手法は実世界のトレーニングデータと同等であることが判明した。 さらに広範な実験により,提案手法は雑音に対して頑健であり,極めて困難なシナリオにおいて有望な結果が得られることを示した。 私たちのコードはhttps://github.com/q q456cvb/CPPFで利用可能です。

In this paper, we tackle the problem of category-level 9D pose estimation in the wild, given a single RGB-D frame. Using supervised data of real-world 9D poses is tedious and erroneous, and also fails to generalize to unseen scenarios. Besides, category-level pose estimation requires a method to be able to generalize to unseen objects at test time, which is also challenging. Drawing inspirations from traditional point pair features (PPFs), in this paper, we design a novel Category-level PPF (CPPF) voting method to achieve accurate, robust and generalizable 9D pose estimation in the wild. To obtain robust pose estimation, we sample numerous point pairs on an object, and for each pair our model predicts necessary SE(3)-invariant voting statistics on object centers, orientations and scales. A novel coarse-to-fine voting algorithm is proposed to eliminate noisy point pair samples and generate final predictions from the population. To get rid of false positives in the orientation voting process, an auxiliary binary disambiguating classification task is introduced for each sampled point pair. In order to detect objects in the wild, we carefully design our sim-to-real pipeline by training on synthetic point clouds only, unless objects have ambiguous poses in geometry. Under this circumstance, color information is leveraged to disambiguate these poses. Results on standard benchmarks show that our method is on par with current state of the arts with real-world training data. Extensive experiments further show that our method is robust to noise and gives promising results under extremely challenging scenarios. Our code is available on https://github.com/q q456cvb/CPPF.
翻訳日:2022-03-08 17:42:46 公開日:2022-03-07
# 顔のプライバシーを守る:スタイルロバストメイクアップ転送による敵のアイデンティティマスクの生成

Protecting Facial Privacy: Generating Adversarial Identity Masks via Style-robust Makeup Transfer ( http://arxiv.org/abs/2203.03121v1 )

ライセンス: Link先を確認
Shengshan Hu, Xiaogeng Liu, Yechao Zhang, Minghui Li, Leo Yu Zhang, Hai Jin, Libing Wu(参考訳) 深層顔認識(deep face recognition, fr)システムは、識別と検証において驚くべきパフォーマンスを示しているが、特にソーシャルネットワークに広く普及している公開顔画像において、ユーザに対する過度な監視に対するプライバシーの懸念も高めている。 近年,写真が無許可の顔認識システムによって識別されるのを防ぐために,敵対的な例を採用する研究もある。 しかし、既存の対向的な顔画像生成方法は、目障りな視覚、ホワイトボックス設定、転送性が弱く、実際の顔プライバシーを保護するために適用が難しいなど、多くの制限に苦しめられている。 本稿では,より強力なブラックボックス転送性と視覚的品質を同時に維持する対向顔画像構築を目的とした,新しい顔保護手法であるAMT-GANを提案する。 amt-ganはgan(generative adversarial networks)を利用して、参照画像からメークアップされた顔画像を生成する。 特に,新しい正則化モジュールと,逆騒音とメークアップ転送におけるサイクル構成損失との競合を解消し,攻撃強度と視覚変化との望ましいバランスを実現するための合同トレーニング戦略を導入する。 AMT-GANは、最先端のアートと比較して、快適な視覚的品質を維持するだけでなく、Face++、Aliyun、Microsoftといった商用FR APIよりも高い攻撃成功率を達成することができる。

While deep face recognition (FR) systems have shown amazing performance in identification and verification, they also arouse privacy concerns for their excessive surveillance on users, especially for public face images widely spread on social networks. Recently, some studies adopt adversarial examples to protect photos from being identified by unauthorized face recognition systems. However, existing methods of generating adversarial face images suffer from many limitations, such as awkward visual, white-box setting, weak transferability, making them difficult to be applied to protect face privacy in reality. In this paper, we propose adversarial makeup transfer GAN (AMT-GAN), a novel face protection method aiming at constructing adversarial face images that preserve stronger black-box transferability and better visual quality simultaneously. AMT-GAN leverages generative adversarial networks (GAN) to synthesize adversarial face images with makeup transferred from reference images. In particular, we introduce a new regularization module along with a joint training strategy to reconcile the conflicts between the adversarial noises and the cycle consistence loss in makeup transfer, achieving a desirable balance between the attack strength and visual changes. Extensive experiments verify that compared with state of the arts, AMT-GAN can not only preserve a comfortable visual quality, but also achieve a higher attack success rate over commercial FR APIs, including Face++, Aliyun, and Microsoft.
翻訳日:2022-03-08 17:42:17 公開日:2022-03-07
# サイドインフォメーションガイドによるMRI画像再構成

Undersampled MRI Reconstruction with Side Information-Guided Normalisation ( http://arxiv.org/abs/2203.03196v1 )

ライセンス: Link先を確認
Xinwen Liu, Jing Wang, Cheng Peng, Shekhar S. Chandra, Feng Liu, S. Kevin Zhou(参考訳) 磁気共鳴(mr)画像は、異なる取得プロトコル、ビュー、製造者、走査パラメータなどの要素に基づいて、様々なコントラストと外観を示す。 この外観関連情報は、ディープラーニングに基づくアンダーサンプド磁気共鳴画像(MRI)再構成フレームワークに影響を及ぼすが、現在のほとんどの研究で見過ごされている。 本稿では、畳み込みニューラルネットワーク(CNN)における正規化パラメータとしてそのような情報を用いて、アンダーサンプルMRI再構成を改善する。 具体的には,レイヤ数が少ないSIGN(Side Information-Guided Normalisation)モジュールを提案し,その情報を効率的に符号化し,正規化パラメータを出力する。 このようなモジュールがD5C5とOUCRの2つの一般的な再構成アーキテクチャに与える影響を検討する。 様々な加速度速度で脳と膝の画像を実験した結果,提案手法は対応するベースライン構造を著しく改善することが示された。

Magnetic resonance (MR) images exhibit various contrasts and appearances based on factors such as different acquisition protocols, views, manufacturers, scanning parameters, etc. This generally accessible appearance-related side information affects deep learning-based undersampled magnetic resonance imaging (MRI) reconstruction frameworks, but has been overlooked in the majority of current works. In this paper, we investigate the use of such side information as normalisation parameters in a convolutional neural network (CNN) to improve undersampled MRI reconstruction. Specifically, a Side Information-Guided Normalisation (SIGN) module, containing only few layers, is proposed to efficiently encode the side information and output the normalisation parameters. We examine the effectiveness of such a module on two popular reconstruction architectures, D5C5 and OUCR. The experimental results on both brain and knee images under various acceleration rates demonstrate that the proposed method improves on its corresponding baseline architectures with a significant margin.
翻訳日:2022-03-08 17:41:48 公開日:2022-03-07
# 奥行き完了のための最小二乗推定ネットワーク

Least Square Estimation Network for Depth Completion ( http://arxiv.org/abs/2203.03317v1 )

ライセンス: Link先を確認
Xianze Fang, Zexi Chen, Yunkai Wang, Yue Wang, Rong Xiong(参考訳) 深度完了はコンピュータビジョンとロボティクス研究の基本的な課題である。 従来の多くの研究はニューラルネットワークで直接深度マップを完成させたが、その多くは解釈不能であり、異なる状況にうまく一般化できない。 本稿では,深度完了タスクのための効率的な画像表現法を提案する。 システムの入力は単眼カメラフレームと同期スパース深度マップである。 私たちのシステムの出力は、フレームのピクセル当たりの深さマップです。 まず、ニューラルネットワークを使って各ピクセルを特徴ベクトルに変換し、基本関数と呼ぶ。 次に、既知のピクセルの基底関数とその深さ値を選択する。 基本関数と深さ値に合わせるために線形最小二乗アルゴリズムを用いる。 そして、最小二乗アルゴリズムから推定される重みを得る。 最後に、重みを画像全体に適用し、最終深度マップを予測します。 我々の方法は解釈可能であるので、うまく一般化できる。 実験の結果,nyu-depth-v2データセットの精度と実行時間の両方において,最先端の値を打ち負かした。 さらに,本手法は,異なる数のスパース点と異なるデータセットをうまく一般化できることを示す実験を行った。

Depth completion is a fundamental task in computer vision and robotics research. Many previous works complete the dense depth map with neural networks directly but most of them are non-interpretable and can not generalize to different situations well. In this paper, we propose an effective image representation method for depth completion tasks. The input of our system is a monocular camera frame and the synchronous sparse depth map. The output of our system is a dense per-pixel depth map of the frame. First we use a neural network to transform each pixel into a feature vector, which we call base functions. Then we pick out the known pixels' base functions and their depth values. We use a linear least square algorithm to fit the base functions and the depth values. Then we get the weights estimated from the least square algorithm. Finally, we apply the weights to the whole image and predict the final depth map. Our method is interpretable so it can generalize well. Experiments show that our results beat the state-of-the-art on NYU-Depth-V2 dataset both in accuracy and runtime. Moreover, experiments show that our method can generalize well on different numbers of sparse points and different datasets.
翻訳日:2022-03-08 17:41:30 公開日:2022-03-07
# 視覚・ライダーセンサを用いた空中画像の連続的自己ローカライゼーション

Continuous Self-Localization on Aerial Images Using Visual and Lidar Sensors ( http://arxiv.org/abs/2203.03334v1 )

ライセンス: Link先を確認
Florian Fervers, Sebastian Bullinger, Christoph Bodensteiner, Michael Arens, Rainer Stiefelhagen(参考訳) 本論文では,車両のセンサ情報を対象領域の空中画像に登録することにより,屋外環境における連続的距離自己位置推定を行う新しい手法を提案する。 ジオトラッキング手法は、グローバルナビゲーション衛星システム(GNSS)からノイズの多い信号に取って代わる可能性があり、通常この目的に使用される以前の地図を維持するのが高価で困難である。 提案手法は、車載カメラとライダーセンサーから得られたデータをジオ登録された写真と整列させて車両を連続的に位置決めする。 我々は、地上および空中画像から視覚的特徴を抽出するために、計量学習環境でモデルを訓練する。 地上の特徴はライダーポイントを介してトップダウンの視点に投影され、空中の特徴と一致して車両と正光線の相対的なポーズを決定する。 本手法は, 両端の微分可能モデルを用いて, 撮影した直交写真における距離自己局所化を行う最初の方法である。 強固な一般化を示し、環境の変化に頑健であり、基礎的な真理としてジオポスのみを必要とする。 我々は,KITTI-360データセットに対する我々のアプローチを評価し,平均絶対位置誤差0.94mを達成した。 さらに,KITTIオドメトリデータセットに対する従来のアプローチと比較し,ジオトラッキングタスクにおける最先端の成果を得た。

This paper proposes a novel method for geo-tracking, i.e. continuous metric self-localization in outdoor environments by registering a vehicle's sensor information with aerial imagery of an unseen target region. Geo-tracking methods offer the potential to supplant noisy signals from global navigation satellite systems (GNSS) and expensive and hard to maintain prior maps that are typically used for this purpose. The proposed geo-tracking method aligns data from on-board cameras and lidar sensors with geo-registered orthophotos to continuously localize a vehicle. We train a model in a metric learning setting to extract visual features from ground and aerial images. The ground features are projected into a top-down perspective via the lidar points and are matched with the aerial features to determine the relative pose between vehicle and orthophoto. Our method is the first to utilize on-board cameras in an end-to-end differentiable model for metric self-localization on unseen orthophotos. It exhibits strong generalization, is robust to changes in the environment and requires only geo-poses as ground truth. We evaluate our approach on the KITTI-360 dataset and achieve a mean absolute position error (APE) of 0.94m. We further compare with previous approaches on the KITTI odometry dataset and achieve state-of-the-art results on the geo-tracking task.
翻訳日:2022-03-08 17:41:16 公開日:2022-03-07
# FloorGenT:ロボットのためのフロアプランの生成ベクトルグラフモデル

FloorGenT: Generative Vector Graphic Model of Floor Plans for Robotics ( http://arxiv.org/abs/2203.03385v1 )

ライセンス: Link先を確認
Ludvig Ericson, Patric Jensfelt(参考訳) フロアプランは、屋内環境に関する推論とコミュニケーションの基礎である。 本稿では, フロアプランを特定の視点から見たラインセグメントのシーケンスとしてモデル化することにより, 近年の自己回帰シーケンスモデリングの進歩をフロアプランのモデル化と予測に活用できることを示す。 行セグメントは標準化され、トークンのシーケンスに変換され、注目ベースのニューラルネットワークが次のトークン上のワンステップ分布に適合するために使用される。 提案手法は,大規模床計画の集合から得られたシーケンスにネットワークを適合させ,新しい床計画生成,部分的に観測された床計画の完成,模擬センサデータからの床計画の生成,そして,最短距離と環境に関する部分的知識の予測における床計画モデルの適用性という4つのシナリオでモデルの能力を示す。

Floor plans are the basis of reasoning in and communicating about indoor environments. In this paper, we show that by modelling floor plans as sequences of line segments seen from a particular point of view, recent advances in autoregressive sequence modelling can be leveraged to model and predict floor plans. The line segments are canonicalized and translated to sequence of tokens and an attention-based neural network is used to fit a one-step distribution over next tokens. We fit the network to sequences derived from a set of large-scale floor plans, and demonstrate the capabilities of the model in four scenarios: novel floor plan generation, completion of partially observed floor plans, generation of floor plans from simulated sensor data, and finally, the applicability of a floor plan model in predicting the shortest distance with partial knowledge of the environment.
翻訳日:2022-03-08 17:40:56 公開日:2022-03-07
# 深度SIMS:半パラメトリック画像と深度合成

Depth-SIMS: Semi-Parametric Image and Depth Synthesis ( http://arxiv.org/abs/2203.03405v1 )

ライセンス: Link先を確認
Valentina Musat, Daniele De Martini, Matthew Gadd and Paul Newman(参考訳) 本稿では,RGBキャンバスを高画質のRGB画像に変換し,スパース深度マップを画素ワイド深度マップに変換するインペイントネットワークと組み合わせて,適切に整列されたセグメンテーションマップとスパース深度マップを生成する合成画像合成手法を提案する。 構造アライメントと画質の面でのベンチマークを行い,SOTAよりもmIoUが3.7%増加し,競争力の高いFIDが得られた。 さらに,意味的セグメンテーションと深度補完のためのトレーニングデータとして生成されたデータの品質を分析し,本手法が他の手法よりも適していることを示す。

In this paper we present a compositing image synthesis method that generates RGB canvases with well aligned segmentation maps and sparse depth maps, coupled with an in-painting network that transforms the RGB canvases into high quality RGB images and the sparse depth maps into pixel-wise dense depth maps. We benchmark our method in terms of structural alignment and image quality, showing an increase in mIoU over SOTA by 3.7 percentage points and a highly competitive FID. Furthermore, we analyse the quality of the generated data as training data for semantic segmentation and depth completion, and show that our approach is more suited for this purpose than other methods.
翻訳日:2022-03-08 17:40:39 公開日:2022-03-07
# (参考訳) 6次元ポーズ推定のためのキーポイントの弱教師付き学習 [全文訳有]

Weakly Supervised Learning of Keypoints for 6D Object Pose Estimation ( http://arxiv.org/abs/2203.03498v1 )

ライセンス: CC BY 4.0
Meng Tian and Gim Hee Lee(参考訳) 6Dオブジェクトのポーズ推定のための最先端のアプローチは、ディープネットワークをトレーニングするために大量のラベル付きデータを必要とする。 しかし、6dオブジェクトのポーズアノテーションの取得は退屈で、大量の労力を要する。 そこで本研究では,2次元キーポイント検出に基づく6次元物体ポーズ推定手法を提案する。 提案手法は,視線間の相対変換が既知の画像対のみを学習する。 具体的には、各未知のターゲット3dオブジェクトを表すために任意に選択された3dキーポイントを割り当て、相対的なカメラ視点に準拠した2d投影を検出するネットワークを学習する。 推論中、ネットワークはまずクエリ画像とラベル付き参照画像から2dキーポイントを推測する。 次に、これらの2Dキーポイントと任意に選択された3Dキーポイントを使用して、6Dオブジェクトのポーズを推測する。 広範な実験により,我々のアプローチが最先端の完全教師付きアプローチと同等のパフォーマンスを達成できることが証明された。

State-of-the-art approaches for 6D object pose estimation require large amounts of labeled data to train the deep networks. However, the acquisition of 6D object pose annotations is tedious and labor-intensive in large quantity. To alleviate this problem, we propose a weakly supervised 6D object pose estimation approach based on 2D keypoint detection. Our method trains only on image pairs with known relative transformations between their viewpoints. Specifically, we assign a set of arbitrarily chosen 3D keypoints to represent each unknown target 3D object and learn a network to detect their 2D projections that comply with the relative camera viewpoints. During inference, our network first infers the 2D keypoints from the query image and a given labeled reference image. We then use these 2D keypoints and the arbitrarily chosen 3D keypoints retained from training to infer the 6D object pose. Extensive experiments demonstrate that our approach achieves comparable performance with state-of-the-art fully supervised approaches.
翻訳日:2022-03-08 17:39:02 公開日:2022-03-07
# 多粒運動特徴の統合に基づく行動認識

Behavior Recognition Based on the Integration of Multigranular Motion Features ( http://arxiv.org/abs/2203.03097v1 )

ライセンス: Link先を確認
Lizong Zhang, Yiming Wang, Bei Hui, Xiujian Zhang, Sijuan Liu and Shuxin Feng(参考訳) ビデオにおける行動の認識は、通常、時間次元におけるオブジェクトに関する空間情報とその動的行動情報の組合せ解析を必要とする。 特に、行動認識は、近距離と遠距離の運動を含む時間的情報のモデリングに依存する可能性があり、これは空間情報の理解に焦点を当てた画像を含むコンピュータビジョンのタスクと対照的である。 しかし、現在の解法はビデオにおいて、隣接するフレームと長時間の時間的アグリゲーションの間の短距離運動を共同かつ包括的に分析することができない。 本稿では,多粒性(IMG)運動特徴の統合に基づく行動認識手法を提案する。 特に,チャネルアテンションに基づく短期動作機能拡張モジュール(CMEM)とケースド長期動作機能統合モジュール(CLIM)の相乗効果により,信頼性の高い動作情報モデリングを実現する。 我々は,HMDB51,Something,UC F101など,いくつかの行動認識ベンチマークを用いて評価を行った。 実験の結果,本手法は従来の最先端手法よりも優れており,その有効性と効率性が確認できた。

The recognition of behaviors in videos usually requires a combinatorial analysis of the spatial information about objects and their dynamic action information in the temporal dimension. Specifically, behavior recognition may even rely more on the modeling of temporal information containing short-range and long-range motions; this contrasts with computer vision tasks involving images that focus on the understanding of spatial information. However, current solutions fail to jointly and comprehensively analyze short-range motion between adjacent frames and long-range temporal aggregations at large scales in videos. In this paper, we propose a novel behavior recognition method based on the integration of multigranular (IMG) motion features. In particular, we achieve reliable motion information modeling through the synergy of a channel attention-based short-term motion feature enhancement module (CMEM) and a cascaded long-term motion feature integration module (CLIM). We evaluate our model on several action recognition benchmarks such as HMDB51, Something-Something and UCF101. The experimental results demonstrate that our approach outperforms the previous state-of-the-art methods, which confirms its effectiveness and efficiency.
翻訳日:2022-03-08 17:17:40 公開日:2022-03-07
# MSDN: ゼロショット学習のための相互意味蒸留ネットワーク

MSDN: Mutually Semantic Distillation Network for Zero-Shot Learning ( http://arxiv.org/abs/2203.03137v1 )

ライセンス: Link先を確認
Shiming Chen, Ziming Hong, Guo-Sen Xie, Wenhan Wang, Qinmu Peng, Kai Wang, Jian Zhao, Xinge You(参考訳) ゼロショット学習(zsl)の鍵となる課題は、目に見えるクラスにおける視覚的特徴と属性特徴の間の潜在的な意味的知識をどのように推測するかである。 以前の研究は、画像のグローバルな特徴と関連するクラスセマンティックベクターを結びつけるか、あるいは一方向の注意を使って限定された潜在意味表現を学ぶかのいずれかであり、視覚的特徴と属性的特徴の間に固有の意味知識(属性セマンティクスなど)を効果的に発見できなかった。 上記のジレンマを解決するために,ZSL の視覚的特徴と属性的特徴の間の固有意味表現を段階的に蒸留する Mutually Semantic Distillation Network (MSDN) を提案する。 MSDNには属性ベースの視覚特徴を学習する属性$\rightarrow$visual attentionサブネットと、視覚ベースの属性特徴を学習するビジュアル$\rightarrow$attribu te attentionサブネットが含まれている。 さらに、セマンティック蒸留損失を導入することにより、2つの相互注意サブネットが協調的に学習し、訓練過程を通じて相互に指導することができる。 提案されたMSDNは、強力なベースラインよりも大幅に改善され、CUB、SUN、AWA2という3つの人気のある挑戦的ベンチマークにおいて、最先端のパフォーマンスが新たに導入された。 私たちのコードは、 \url{https://github.com/s himing-chen/msdn} で利用可能です。

The key challenge of zero-shot learning (ZSL) is how to infer the latent semantic knowledge between visual and attribute features on seen classes, and thus achieving a desirable knowledge transfer to unseen classes. Prior works either simply align the global features of an image with its associated class semantic vector or utilize unidirectional attention to learn the limited latent semantic representations, which could not effectively discover the intrinsic semantic knowledge e.g., attribute semantics) between visual and attribute features. To solve the above dilemma, we propose a Mutually Semantic Distillation Network (MSDN), which progressively distills the intrinsic semantic representations between visual and attribute features for ZSL. MSDN incorporates an attribute$\rightarro w$visual attention sub-net that learns attribute-based visual features, and a visual$\rightarrow$a ttribute attention sub-net that learns visual-based attribute features. By further introducing a semantic distillation loss, the two mutual attention sub-nets are capable of learning collaboratively and teaching each other throughout the training process. The proposed MSDN yields significant improvements over the strong baselines, leading to new state-of-the-art performances on three popular challenging benchmarks, i.e., CUB, SUN, and AWA2. Our codes have been available at: \url{https://github.com/s himing-chen/MSDN}.
翻訳日:2022-03-08 17:17:25 公開日:2022-03-07
# 時空間グラフニューラルネットワークによるエンドツーエンドビデオインスタンスセグメンテーション

End-to-end video instance segmentation via spatial-temporal graph neural networks ( http://arxiv.org/abs/2203.03145v1 )

ライセンス: Link先を確認
Tao Wang, Ning Xu, Kean Chen and Weiyao Lin(参考訳) ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。 既存の手法では、検出とセグメンテーションのための単一のフレーム情報のみに依存するか、トラッキングを別の処理ステップとして扱うかのどちらかであり、すべてのサブプロブレムに対して有用な空間的-時間的情報を完全に活用し共有する能力を制限する。 本稿では,前述の制限を扱うための新しいグラフニューラルネットワーク(gnn)ベースの手法を提案する。 具体的には、インスタンス特徴を表すグラフノードが検出とセグメンテーションに、インスタンス関係を表すグラフエッジがトラッキングに使用される。 フレーム内情報とフレーム内情報はグラフ更新によって効果的に伝播し共有され、全てのサブプロブレム(検出、セグメンテーション、トラッキング)は統合されたフレームワークで共同で最適化される。 提案手法の性能は,既存の手法と比較してYoutubeVIS検証データセットを大幅に改善し,ResNet-50バックボーンで35.2%のAPを実現し,22FPSで動作する。 コードはhttp://github.com/lu caswithai/visgraph.g itで入手できる。

Video instance segmentation is a challenging task that extends image instance segmentation to the video domain. Existing methods either rely only on single-frame information for the detection and segmentation subproblems or handle tracking as a separate post-processing step, which limit their capability to fully leverage and share useful spatial-temporal information for all the subproblems. In this paper, we propose a novel graph-neural-network (GNN) based method to handle the aforementioned limitation. Specifically, graph nodes representing instance features are used for detection and segmentation while graph edges representing instance relations are used for tracking. Both inter and intra-frame information is effectively propagated and shared via graph updates and all the subproblems (i.e. detection, segmentation and tracking) are jointly optimized in an unified framework. The performance of our method shows great improvement on the YoutubeVIS validation dataset compared to existing methods and achieves 35.2% AP with a ResNet-50 backbone, operating at 22 FPS. Code is available at http://github.com/lu caswithai/visgraph.g it .
翻訳日:2022-03-08 17:16:58 公開日:2022-03-07
# SingleSketch2Mesh : スケッチから3Dメッシュモデルを生成する

SingleSketch2Mesh : Generating 3D Mesh model from Sketch ( http://arxiv.org/abs/2203.03157v1 )

ライセンス: Link先を確認
Nitish Bhardwaj, Dhornala Bharadwaj, Alpana Dubey(参考訳) スケッチは設計プロセスにおいて重要な活動である。 設計者とステークホルダは手書きのスケッチを通じてアイデアを共有します。 これらのスケッチは、3dモデルの作成にも使われる。 スケッチから3Dモデルを生成する現在の方法は、手動またはタイトに3Dモデリングプラットフォームと結合されている。 そのため、ユーザーはこうしたプラットフォーム上でスケッチを体験する必要がある。 さらに、既存のアプローチのほとんどは幾何学的操作に基づいているため、一般化はできない。 我々は手描きスケッチから3Dモデルを生成するための新しいAIベースのアンサンブルアプローチであるSingleSketch2Meshを提案する。 このアプローチは生成ネットワークとエンコーダ-デコーダアーキテクチャに基づいて,手書きスケッチから3次元メッシュモデルを生成する。 既存のソリューションでソリューションを評価します。 提案手法は,定量評価基準と定性評価基準の両方において既存手法より優れている。

Sketching is an important activity in any design process. Designers and stakeholders share their ideas through hand-drawn sketches. These sketches are further used to create 3D models. Current methods to generate 3D models from sketches are either manual or tightly coupled with 3D modeling platforms. Therefore, it requires users to have an experience of sketching on such platform. Moreover, most of the existing approaches are based on geometric manipulation and thus cannot be generalized. We propose a novel AI based ensemble approach, SingleSketch2Mesh, for generating 3D models from hand-drawn sketches. Our approach is based on Generative Networks and Encoder-Decoder Architecture to generate 3D mesh model from a hand-drawn sketch. We evaluate our solution with existing solutions. Our approach outperforms existing approaches on both - quantitative and qualitative evaluation criteria.
翻訳日:2022-03-08 17:16:35 公開日:2022-03-07
# croon:道路シーンにおけるマルチライダー自動キャリブレーションと改良手法

CROON: Automatic Multi-LiDAR Calibration and Refinement Method in Road Scene ( http://arxiv.org/abs/2203.03182v1 )

ライセンス: Link先を確認
Pengjin Wei, Guohang Yan, Yikang Li, Kun Fang, Wei Liu, Xinyu Cai, Jie Yang(参考訳) センサに基づく環境認識は、自動運転システムにおいて重要な部分である。 周囲の環境に対する優れた認識を得るために、インテリジェントシステムは複数のLiDAR(3D Light Detection and Ranging)を設定し、車の遠距離と近距離をカバーした。 知覚の精度はセンサーの校正の質に依存する。 本研究の目的は,一般道路における複数のLiDARシステムに対する精度,自動,堅牢な校正戦略の開発である。 そこで本研究では,粗度と精細度を含む二段法であるcroon(automatic multi-lidar calibration and improving method in road scene)を提案する。 第1段は任意の初期ポーズからセンサを校正することができ、第2段はセンサーを正確に校正することができる。 具体的には,CROONは道路景観の特性を活用して,大規模環境に適用し易い。 実世界およびシミュレーションデータを用いた実験により,本手法の信頼性と精度を示す。 関連するデータセットとコードはGithubのウェブサイトhttps://github.com/O penCalib/LiDAR2LiDAR で公開されている。

Sensor-based environmental perception is a crucial part of the autonomous driving system. In order to get an excellent perception of the surrounding environment, an intelligent system would configure multiple LiDARs (3D Light Detection and Ranging) to cover the distant and near space of the car. The precision of perception relies on the quality of sensor calibration. This research aims at developing an accurate, automatic, and robust calibration strategy for multiple LiDAR systems in the general road scene. We thus propose CROON (automatiC multi-LiDAR CalibratiOn and Refinement method in rOad sceNe), a two-stage method including rough and refinement calibration. The first stage can calibrate the sensor from an arbitrary initial pose, and the second stage is able to precisely calibrate the sensor iteratively. Specifically, CROON utilize the nature characteristics of road scene so that it is independent and easy to apply in large-scale conditions. Experimental results on real-world and simulated data sets demonstrate the reliability and accuracy of our method. All the related data sets and codes are open-sourced on the Github website https://github.com/O penCalib/LiDAR2LiDAR .
翻訳日:2022-03-08 17:16:18 公開日:2022-03-07
# GANによる経験的分布の研究のための署名とログシグナチャ

Signature and Log-signature for the Study of Empirical Distributions Generated with GANs ( http://arxiv.org/abs/2203.03226v1 )

ライセンス: Link先を確認
J. de Curt\`o and I. de Zarz\`a and Hong Yan(参考訳) 本稿では,火星表面でNASA Perseveranceが採取したサンプルを探索し,解析するための新しい体系的手法を開発する。 この文脈において,PCA適応型t-SNEと,サンプル分布の適合性を研究するための統計的尺度の導入が提案されている。 元の地形分布に類似したStylegan2-ADAを用いて合成画像を生成することで、可視化を超えていく。 また,最近導入された Scored-based Generative Modeling を用いて合成画像生成を行う。 我々は,最近開発されたシグネチャ変換を,画像分布の類似性を測定する手段として利用し,詳細な知名度と広範な評価を提供する。 我々は、GAN収束を測定する代替手段としてRMSEおよびMAE署名およびログ署名の先駆者となった。 DeepLabv3モデルを使用したサンプルの最先端インスタンスセグメンテーションに関する洞察も提供される。

In this paper, we develop a new and systematic method to explore and analyze samples taken by NASA Perseverance on the surface of the planet Mars. A novel in this context PCA adaptive t-SNE is proposed, as well as the introduction of statistical measures to study the goodness of fit of the sample distribution. We go beyond visualization by generating synthetic imagery using Stylegan2-ADA that resemble the original terrain distribution. We also conduct synthetic image generation using the recently introduced Scored-based Generative Modeling. We bring forward the use of the recently developed Signature Transform as a way to measure the similarity between image distributions and provide detailed acquaintance and extensive evaluations. We are the first to pioneer RMSE and MAE Signature and log-signature as an alternative to measure GAN convergence. Insights on state-of-the-art instance segmentation of the samples by the use of a model DeepLabv3 are also given.
翻訳日:2022-03-08 17:15:57 公開日:2022-03-07
# 地理情報と時間情報を利用した微細画像分類のための動的MLP

Dynamic MLP for Fine-Grained Image Classification by Leveraging Geographical and Temporal Information ( http://arxiv.org/abs/2203.03253v1 )

ライセンス: Link先を確認
Lingfeng Yang, Xiang Li, Renjie Song, Borui Zhao, Juntian Tao, Shihao Zhou, Jiajun Liang, Jian Yang(参考訳) きめ細かい画像分類は、様々な種が類似した視覚的外観を共有し、視覚的手がかりのみに基づいて誤分類される、難しいコンピュータビジョンタスクである。 したがって、データ撮影の場所や日付などの追加情報を活用することは、容易にアクセスすることができるが、まれに悪用されることはない。 本稿では,既存のマルチモーダル手法が単一次元のみに複数の特徴を融合させることを最初に実証する。 マルチモーダル情報の可能性を十分に探究するために,画像表現の上に動的mlpを提案し,高次元および広い次元でマルチモーダル特徴と相互作用する。 動的MLPは、可変位置と日付の学習された埋め込みによってパラメータ化される効率的な構造である。 視覚タスクにおいてより識別的な画像表現を生成するための適応非線形投影と見なすことができる。 最善の知識を得るためには、きめ細かな画像分類タスクでマルチモーダル情報を利用する動的ネットワークのアイデアを探求する最初の試みである。 広範な実験により本手法の有効性が実証された。 t-sneアルゴリズムは,視覚的に類似するがカテゴリが異なる画像表現の認識性が向上することを示す。 さらに、複数のきめ細かいデータセットにまたがる出版作品の中で、動的MLPは一貫してSOTA結果 https://paperswithco de.com/dataset/inatu ralist を達成し、FGVC8 https://www.kaggle.c om/c/inaturalist-202 1/ LeaderboardでiNaturalistチャレンジで3位にランクインしている。 コードはhttps://github.com/y lingfeng/DynamicMLP. gitで入手できる。

Fine-grained image classification is a challenging computer vision task where various species share similar visual appearances, resulting in misclassification if merely based on visual clues. Therefore, it is helpful to leverage additional information, e.g., the locations and dates for data shooting, which can be easily accessible but rarely exploited. In this paper, we first demonstrate that existing multimodal methods fuse multiple features only on a single dimension, which essentially has insufficient help in feature discrimination. To fully explore the potential of multimodal information, we propose a dynamic MLP on top of the image representation, which interacts with multimodal features at a higher and broader dimension. The dynamic MLP is an efficient structure parameterized by the learned embeddings of variable locations and dates. It can be regarded as an adaptive nonlinear projection for generating more discriminative image representations in visual tasks. To our best knowledge, it is the first attempt to explore the idea of dynamic networks to exploit multimodal information in fine-grained image classification tasks. Extensive experiments demonstrate the effectiveness of our method. The t-SNE algorithm visually indicates that our technique improves the recognizability of image representations that are visually similar but with different categories. Furthermore, among published works across multiple fine-grained datasets, dynamic MLP consistently achieves SOTA results https://paperswithco de.com/dataset/inatu ralist and takes third place in the iNaturalist challenge at FGVC8 https://www.kaggle.c om/c/inaturalist-202 1/leaderboard. Code is available at https://github.com/y lingfeng/DynamicMLP. git
翻訳日:2022-03-08 17:15:42 公開日:2022-03-07
# 深層学習に基づく3次元点雲の補完処理と解析に関する総合的考察

Comprehensive Review of Deep Learning-Based 3D Point Clouds Completion Processing and Analysis ( http://arxiv.org/abs/2203.03311v1 )

ライセンス: Link先を確認
Ben Fei, Weidong Yang, Wenming Chen, Zhijun Li, Yikang Li, Tao Ma, Xing Hu, Lipeng Ma(参考訳) ポイント・クラウド・コンプリート(point cloud completion)は、3dコンピュータ・ビジョンにおけるアプリケーションにおいて重要な役割を果たす部分的ポイント・クラウドに由来する生成と推定の問題である。 ディープラーニング(DL)の進歩は、ポイントクラウド補完の能力と堅牢性を大幅に改善しました。 しかし, 実用的利用を実現するためには, 完成点雲の品質をさらに高める必要がある。 そこで本研究では,ポイントベース,畳み込みベース,グラフベース,生成モデルベースなど,様々な手法に関する総合的な調査を行う。 この調査は、これらの方法の比較を要約し、さらなる研究の洞察を与えます。 さらに、このレビューは一般的に使われているデータセットをまとめ、ポイントクラウド補完の応用について説明する。 最終的に、この急速に拡大する分野における研究動向についても論じる。

Point cloud completion is a generation and estimation issue derived from the partial point clouds, which plays a vital role in the applications in 3D computer vision. The progress of deep learning (DL) has impressively improved the capability and robustness of point cloud completion. However, the quality of completed point clouds is still needed to be further enhanced to meet the practical utilization. Therefore, this work aims to conduct a comprehensive survey on various methods, including point-based, convolution-based, graph-based, and generative model-based approaches, etc. And this survey summarizes the comparisons among these methods to provoke further research insights. Besides, this review sums up the commonly used datasets and illustrates the applications of point cloud completion. Eventually, we also discussed possible research trends in this promptly expanding field.
翻訳日:2022-03-08 17:14:25 公開日:2022-03-07
# 物理世界の人物検出器を騙すための逆テクスチャ

Adversarial Texture for Fooling Person Detectors in the Physical World ( http://arxiv.org/abs/2203.03373v1 )

ライセンス: Link先を確認
Zhanhao Hu, Siyuan Huang, Xiaopei Zhu, Xiaolin Hu, Fuchun Sun, Bo Zhang(参考訳) 今日では、AIシステムを搭載したカメラが、画像をキャプチャして分析して人を自動的に検出できる。 しかし、AIシステムは現実世界で故意に設計されたパターン、すなわち物理的敵の例を受け取る際に間違いを犯すことがある。 以前の研究では、DNNベースの人検知器を避けるために、服に敵のパッチを印刷できることが示されている。 しかし、これらの対向的な例は、視角(カメラの物体に対する角度)が変化すると、攻撃成功率に壊滅的な低下をもたらす可能性がある。 マルチアングル攻撃を行うために,Adversarial Texture(AdvTexture)を提案する。 AdvTextureは、任意の形状の衣服をカバーできるので、そのような服を着ている人は、さまざまな角度から人検知器から隠れることができる。 本稿では,反復構造を持つAdvTextureを構築するために,Toroidal-Cropping-b ased Expandable Generative Attack (TC-EGA) という生成手法を提案する。 私たちはAdvTexureでいくつかの布を印刷し、物理世界でTシャツ、スカート、ドレスを作りました。 実験により、この服は物理的世界の人物検出器を騙すことができることがわかった。

Nowadays, cameras equipped with AI systems can capture and analyze images to detect people automatically. However, the AI system can make mistakes when receiving deliberately designed patterns in the real world, i.e., physical adversarial examples. Prior works have shown that it is possible to print adversarial patches on clothes to evade DNN-based person detectors. However, these adversarial examples could have catastrophic drops in the attack success rate when the viewing angle (i.e., the camera's angle towards the object) changes. To perform a multi-angle attack, we propose Adversarial Texture (AdvTexture). AdvTexture can cover clothes with arbitrary shapes so that people wearing such clothes can hide from person detectors from different viewing angles. We propose a generative method, named Toroidal-Cropping-ba sed Expandable Generative Attack (TC-EGA), to craft AdvTexture with repetitive structures. We printed several pieces of cloth with AdvTexure and then made T-shirts, skirts, and dresses in the physical world. Experiments showed that these clothes could fool person detectors in the physical world.
翻訳日:2022-03-08 17:14:11 公開日:2022-03-07
# スクリーントン保存マンガリターゲティング

Screentone-Preserved Manga Retargeting ( http://arxiv.org/abs/2203.03396v1 )

ライセンス: Link先を確認
Minshan Xie, Menghan Xia, Xueting Liu, Tien-Tsin Wong(参考訳) マンガは人気漫画のスタイルとして、ビトンパターンやスクリーントーンの豊富なセットをイラストに活用してユニークな印象を与えている。 しかし、スクリーントンは再サンプリング後の視覚的不快なエイリアスやぼかしによって容易に汚染され、多様な解像度のディスプレイ上での可視化に悪影響を及ぼす。 そこで本研究では,スクリーントーンを維持しつつ,再スケールしたマンガ画像を合成する最初のマンガ再ターゲティング手法を提案する。 正確な領域分割は依然として困難である。 幸運なことに、再スケールされたマンガは、元のマンガと同じ領域的なスクリーントーン対応を共有しており、アンカーベースの提案選択および再配置問題として、スクリーントーン合成問題を単純化することができる。 具体的には,オリジナルと再スケールしたマンガの対応関係を接続する階層的グリッドベースのアンカーに基づいて,エイリアスフリーなスクリーントーン提案を生成する新しいマンガサンプリング戦略を設計する。 さらに,これらの提案を適応的に統合するために,RPSM (Recurrent Proposal Selection Module) を提案する。 また,スクリーントーンの翻訳過敏性に対処するため,学習収束を容易にするために,翻訳不可変スクリーントーン損失を提案する。 本手法の有効性を検証するために広範囲な質的・定量的実験を行い,既存の代替手法と比較して特に説得力のある結果を得た。

As a popular comic style, manga offers a unique impression by utilizing a rich set of bitonal patterns, or screentones, for illustration. However, screentones can easily be contaminated with visual-unpleasant aliasing and/or blurriness after resampling, which harms its visualization on displays of diverse resolutions. To address this problem, we propose the first manga retargeting method that synthesizes a rescaled manga image while retaining the screentone in each screened region. This is a non-trivial task as accurate region-wise segmentation remains challenging. Fortunately, the rescaled manga shares the same region-wise screentone correspondences with the original manga, which enables us to simplify the screentone synthesis problem as an anchor-based proposals selection and rearrangement problem. Specifically, we design a novel manga sampling strategy to generate aliasing-free screentone proposals, based on hierarchical grid-based anchors that connect the correspondences between the original and the target rescaled manga. Furthermore, a Recurrent Proposal Selection Module (RPSM) is proposed to adaptively integrate these proposals for target screentone synthesis. Besides, to deal with the translation insensitivity nature of screentones, we propose a translation-invarian t screentone loss to facilitate the training convergence. Extensive qualitative and quantitative experiments are conducted to verify the effectiveness of our method, and notably compelling results are achieved compared to existing alternative techniques.
翻訳日:2022-03-08 17:13:53 公開日:2022-03-07
# ピラミッドと意味的注意による非バイアスマルチラベルゼロショット学習に向けて

Towards Unbiased Multi-label Zero-Shot Learning with Pyramid and Semantic Attention ( http://arxiv.org/abs/2203.03483v1 )

ライセンス: Link先を確認
Ziming Liu, Song Guo, Jingcai Guo, Yuanyuan Xu, Fushuo Huo(参考訳) マルチラベルゼロショット学習(multi-label zero-shot learning)は、従来のシングルラベルゼロショット学習をより現実的なシナリオに拡張する。 既存の作品は通常、注意機構を利用して異なるラベル間の相関を生成する。 しかしながら、ほとんどのクラスはいくつかの主要なクラスに偏っているが、入力サンプルで同じ重要性を持つマイナークラスの大部分を無視しているため、マイナークラスを十分にカバーできない過度に拡散した注意マップをもたらす可能性がある。 我々は、主要なクラスとマイナークラスの関係を無視して、それぞれがグローバル情報とローカル情報に対応していることが問題の原因であると主張している。 本稿では,分類器の学習過程を校正するために,様々なクラス固有の領域を考慮し,非バイアスなマルチラベルゼロショット学習の枠組みを提案する。 具体的には、各クラスの存在のバランスをとるために、サンプルのグローバル情報とローカル情報との相関関係を構築するために、ピラミッド特徴注意(PFA)を提案する。 一方,入力サンプルから生成された意味表現に対して,これらのベクトル間の要素間相関を強化するための意味的注意(sa)を提案し,それらの協調表現を促進する。 NUS-WIDE と Open-Image による大規模マルチラベルゼロショットベンチマークの大規模な実験により,提案手法が他の代表的な手法をはるかに上回ることを示した。

Multi-label zero-shot learning extends conventional single-label zero-shot learning to a more realistic scenario that aims at recognizing multiple unseen labels of classes for each input sample. Existing works usually exploit attention mechanism to generate the correlation among different labels. However, most of them are usually biased on several major classes while neglect most of the minor classes with the same importance in input samples, and may thus result in overly diffused attention maps that cannot sufficiently cover minor classes. We argue that disregarding the connection between major and minor classes, i.e., correspond to the global and local information, respectively, is the cause of the problem. In this paper, we propose a novel framework of unbiased multi-label zero-shot learning, by considering various class-specific regions to calibrate the training process of the classifier. Specifically, Pyramid Feature Attention (PFA) is proposed to build the correlation between global and local information of samples to balance the presence of each class. Meanwhile, for the generated semantic representations of input samples, we propose Semantic Attention (SA) to strengthen the element-wise correlation among these vectors, which can encourage the coordinated representation of them. Extensive experiments on the large-scale multi-label zero-shot benchmarks NUS-WIDE and Open-Image demonstrate that the proposed method surpasses other representative methods by significant margins.
翻訳日:2022-03-08 17:13:29 公開日:2022-03-07
# 逆気象条件下でのマルチモーダル2次元物体検出のための教師なし領域適応手法

An Unsupervised Domain Adaptive Approach for Multimodal 2D Object Detection in Adverse Weather Conditions ( http://arxiv.org/abs/2203.03568v1 )

ライセンス: Link先を確認
George Eskandar, Robert A. Marsden, Pavithran Pandiyan, Mario D\"obler, Karim Guirguis and Bin Yang(参考訳) 補完的なセンシングモダリティから異なる表現を統合することは、自律運転におけるロバストなシーン解釈に不可欠である。 2次元物体検出のための視覚と射程データを融合するディープラーニングアーキテクチャは近年発展してきているが、悪天候や照明条件で対応するモダリティは低下し、最終的には性能が低下する。 ドメイン適応法は、ソースとターゲットドメイン間のドメインギャップを埋めようとするが、不均一なデータ分布に容易に拡張することはできない。 本研究では,rgbおよびlidarセンサ用の2次元物体検出器を,気象条件が悪くなる1つ以上の対象領域に適用する,教師なし領域適応フレームワークを提案する。 提案手法は3つの成分からなる。 まず、気象歪みをシミュレートするデータ拡張スキームを考案し、ドメインの混乱を追加し、ソースデータへの過剰フィットを防止する。 第2に,クロスドメインフォアグラウンドオブジェクトアライメントを促進するため,マルチスケールエントロピー重み付きドメイン判別器を用いて,複数のモダリティの相補的特徴を活用する。 最後に、慎重に設計されたプリテキストタスクを使用して、ターゲットドメインデータのより堅牢な表現を学びます。 高密度データセットを用いた実験では,stda(single-target domain adaptation)とmtda(general multi-target domain adaptation)設定における領域ギャップを実質的に軽減できることを示した。

Integrating different representations from complementary sensing modalities is crucial for robust scene interpretation in autonomous driving. While deep learning architectures that fuse vision and range data for 2D object detection have thrived in recent years, the corresponding modalities can degrade in adverse weather or lighting conditions, ultimately leading to a drop in performance. Although domain adaptation methods attempt to bridge the domain gap between source and target domains, they do not readily extend to heterogeneous data distributions. In this work, we propose an unsupervised domain adaptation framework, which adapts a 2D object detector for RGB and lidar sensors to one or more target domains featuring adverse weather conditions. Our proposed approach consists of three components. First, a data augmentation scheme that simulates weather distortions is devised to add domain confusion and prevent overfitting on the source data. Second, to promote cross-domain foreground object alignment, we leverage the complementary features of multiple modalities through a multi-scale entropy-weighted domain discriminator. Finally, we use carefully designed pretext tasks to learn a more robust representation of the target domain data. Experiments performed on the DENSE dataset show that our method can substantially alleviate the domain gap under the single-target domain adaptation (STDA) setting and the less explored yet more general multi-target domain adaptation (MTDA) setting.
翻訳日:2022-03-08 17:13:05 公開日:2022-03-07
# 多類半教師付きセグメンテーションにおけるエントロピーに基づく不確かさの落とし穴について

On the pitfalls of entropy-based uncertainty for multi-class semi-supervised segmentation ( http://arxiv.org/abs/2203.03587v1 )

ライセンス: Link先を確認
Martin Van Waerebeke, Gregory Lodygensky and Jose Dolz(参考訳) 半教師付き学習は、限られた監督で深層モデルを訓練するための魅力的な戦略として登場した。 この学習パラダイムの下でのほとんどの先行文学は、教師と学生の二重構造からなるデュアルベースアーキテクチャーに依拠している。 学生の学習を促進するために、これらのモデルの多くは、予測のエントロピーから導かれるアレオータ的不確実性を利用する。 これはバイナリシナリオでうまく機能することを示しているが、この戦略がマルチクラスのコンテキストにおいて、より現実的で難しい設定において、最適以下の結果をもたらすことを示す。 実際、これらのアプローチはクラス間重なりの存在下での誤った不確実性近似のために過小評価されていると論じている。 さらに,クラス間重なりを考慮した発散距離に基づいて,多クラス設定における不確実性を計算するための代替解を提案する。 提案手法は,難解なマルチクラスセグメンテーションデータセットと,不確実性に基づく2つのセグメンテーション手法を用いて評価する。 報告した結果から,不確実性を計算するためのメカニズムを単に置き換えることによって,提案手法はテスト設定を大幅に改善することを示した。

Semi-supervised learning has emerged as an appealing strategy to train deep models with limited supervision. Most prior literature under this learning paradigm resorts to dual-based architectures, typically composed of a teacher-student duple. To drive the learning of the student, many of these models leverage the aleatoric uncertainty derived from the entropy of the predictions. While this has shown to work well in a binary scenario, we demonstrate in this work that this strategy leads to suboptimal results in a multi-class context, a more realistic and challenging setting. We argue, indeed, that these approaches underperform due to the erroneous uncertainty approximations in the presence of inter-class overlap. Furthermore, we propose an alternative solution to compute the uncertainty in a multi-class setting, based on divergence distances and which account for inter-class overlap. We evaluate the proposed solution on a challenging multi-class segmentation dataset and in two well-known uncertainty-based segmentation methods. The reported results demonstrate that by simply replacing the mechanism used to compute the uncertainty, our proposed solution brings substantial improvement on tested setups.
翻訳日:2022-03-08 17:10:55 公開日:2022-03-07
# DINO: エンドツーエンドオブジェクト検出のためのデノイングアンカーボックスの改善によるDETR

DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection ( http://arxiv.org/abs/2203.03605v1 )

ライセンス: Link先を確認
Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, Heung-Yeung Shum(参考訳) DINO(\textbf{D}ETR with \textbf{I}mproved de\textbf{N}oising anch\textbf{O}r box)は最先端のエンドツーエンドオブジェクト検出器である。 %であった。 dinoは従来のdetrライクなモデルよりも性能と効率を向上し、同期トレーニングの対照的な方法、アンカー初期化のための混合クエリ選択法、ボックス予測のための前方2重スキームを用いる。 DINO は ResNet-50 のバックボーンとマルチスケール機能を備えた COCO 上で 18.3$AP in 12$ epochs と 51.0$AP in 36$ epochs を達成し、過去最高の DETR モデルである DN-DETR に対して $\textbf{+4.9}$\textbf{AP} と $\textbf{+2.4}$\textbf{AP} を大幅に改善した。 DINOはモデルサイズとデータサイズの両方でうまくスケールする。 SwinLのバックボーンでObjects365データセットを事前トレーニングした後、DINOはCOCO \texttt{val2017} ($\textbf{63.2}$\textbf{AP})と \texttt{test-dev} (\textbf{$\textbf{63.3}$AP})の両方で最高の結果を得る。 リーダーボードの他のモデルと比較して、dinoはモデルサイズと事前トレーニングデータサイズを大幅に削減し、より良い結果を得る。 私たちのコードは \url{https://github.com/I DEACVR/DINO} で利用可能です。

We present DINO (\textbf{D}ETR with \textbf{I}mproved de\textbf{N}oising anch\textbf{O}r boxes), a state-of-the-art end-to-end object detector. % in this paper. DINO improves over previous DETR-like models in performance and efficiency by using a contrastive way for denoising training, a mixed query selection method for anchor initialization, and a look forward twice scheme for box prediction. DINO achieves $48.3$AP in $12$ epochs and $51.0$AP in $36$ epochs on COCO with a ResNet-50 backbone and multi-scale features, yielding a significant improvement of $\textbf{+4.9}$\textbf{AP} and $\textbf{+2.4}$\textbf{AP}, respectively, compared to DN-DETR, the previous best DETR-like model. DINO scales well in both model size and data size. Without bells and whistles, after pre-training on the Objects365 dataset with a SwinL backbone, DINO obtains the best results on both COCO \texttt{val2017} ($\textbf{63.2}$\textbf{AP}) and \texttt{test-dev} (\textbf{$\textbf{63.3}$AP}). Compared to other models on the leaderboard, DINO significantly reduces its model size and pre-training data size while achieving better results. Our code will be available at \url{https://github.com/I DEACVR/DINO}.
翻訳日:2022-03-08 17:10:35 公開日:2022-03-07
# HintNet:異種時空間データに基づく交通事故予測のための階層的知識伝達ネットワーク

HintNet: Hierarchical Knowledge Transfer Networks for Traffic Accident Forecasting on Heterogeneous Spatio-Temporal Data ( http://arxiv.org/abs/2203.03100v1 )

ライセンス: Link先を確認
Bang An, Amin Vahedian, Xun Zhou, W. Nick Street, Yanhua Li(参考訳) 交通事故予測は交通管理と公共安全にとって重要な問題である。 しかし, 空間的不均一性や空間的・時間的事故の空間的不均一性から, この問題は困難である。 交通事故の発生は、空間的・時間的特徴間の複雑な依存関係に影響される。 近年の交通事故予測手法では, 深層学習モデルによる精度向上が試みられている。 しかし、これらの手法のほとんどは、人口の多い都市のような小規模で均質な地域に焦点を当てるか、あるいは大きな地域での不均一性を扱うのに不十分なスライディングウインドウベースのアンサンブル法を用いる。 これらの制約に対処するために,不規則な不均一パターンをよりよく捉えるために,階層的知識伝達ネットワーク(HintNet)モデルを提案する。 HintNetは、異なるリスクを持つサブリージョンを分離するためのマルチレベル空間分割を行い、時空間とグラフの畳み込みを用いて各レベルのディープネットワークモデルを学ぶ。 hintnetはレベル間の知識転送を通じて、高い精度と高いトレーニング効率の両方をアーカイブする。 アイオワ州の実際の事故データセットに関する大規模な実験は、HintNetが空間的に不均一で大規模な領域で最先端の手法より優れていることを示した。

Traffic accident forecasting is a significant problem for transportation management and public safety. However, this problem is challenging due to the spatial heterogeneity of the environment and the sparsity of accidents in space and time. The occurrence of traffic accidents is affected by complex dependencies among spatial and temporal features. Recent traffic accident prediction methods have attempted to use deep learning models to improve accuracy. However, most of these methods either focus on small-scale and homogeneous areas such as populous cities or simply use sliding-window-based ensemble methods, which are inadequate to handle heterogeneity in large regions. To address these limitations, this paper proposes a novel Hierarchical Knowledge Transfer Network (HintNet) model to better capture irregular heterogeneity patterns. HintNet performs a multi-level spatial partitioning to separate sub-regions with different risks and learns a deep network model for each level using spatio-temporal and graph convolutions. Through knowledge transfer across levels, HintNet archives both higher accuracy and higher training efficiency. Extensive experiments on a real-world accident dataset from the state of Iowa demonstrate that HintNet outperforms the state-of-the-art methods on spatially heterogeneous and large-scale areas.
翻訳日:2022-03-08 17:07:21 公開日:2022-03-07
# 線形および非線形予測を伴う複数のADPCMスキームの比較研究

A comparative study of several ADPCM schemes with linear and nonlinear prediction ( http://arxiv.org/abs/2203.03189v1 )

ライセンス: Link先を確認
Oscar Oliva, Marcos Faundez-Zanuy(参考訳) 本稿では,いくつかの線形予測法とニューラルネットワークに基づく非線形予測法と,いくつかの線形予測法に基づく古典的adcm法を比較した。 適応量子化(2ビットから5ビット)を用いたadpcm方式の主な研究動向は次のとおりである: -forward vs backward-sample adaptive vs block adaptive

In this paper we compare several ADPCM schemes with nonlinear prediction based on neural nets with the classical ADPCM schemes based on several linear prediction schemes. Main studied variations of the ADPCM scheme with adaptive quantization (2 to 5 bits) are: -forward vs backward -sample adaptive vs block adaptive
翻訳日:2022-03-08 17:07:00 公開日:2022-03-07
# Nested SparsityによるTinyデバイス上の動的ConvNet

Dynamic ConvNets on Tiny Devices via Nested Sparsity ( http://arxiv.org/abs/2203.03324v1 )

ライセンス: Link先を確認
Matteo Grimaldi, Luca Mocerino, Antonio Cipolletta, Andrea Calimera(参考訳) この研究は、インターネット・オブ・シングスの端にあるリソース制約されたデバイスにデプロイされる推論タスクに適した、動的畳み込みニューラルネットワーク(convnets)のクラスであるnested sparse convnetsを構築するための、新しいトレーニングと圧縮パイプラインを導入する。 nested sparse convnetは、matryoshka dollのようなnested weightsサブセットを持つnのスパースサブネットワークを含む単一のconvnetアーキテクチャで構成されており、モデルのスパース性を動的ノブとして使用することで、実行時のレイテンシをトレードオフできる。 トレーニング時に高い精度を達成するために,ネスト重み部分集合に学習信号を最適にルーティングする勾配マスキング手法を提案する。 ストレージフットプリントを最小化し、推定時に得られるモデルを効率的に処理するために、ネスト重みサブセットの特性を実効的に活用する専用計算カーネルを備えた新しいスパース行列圧縮フォーマットを導入する。 arm-m7マイクロコントローラユニット(mcu)のイメージ分類とオブジェクト検出タスクでテストされたnested sparse convnetsは、スタンドアロンインスタンスとしてトレーニングされた単一のスパースモデルを組み立てることで、可変遅延ソリューションよりも優れている。 (i)同等の精度。 (二)ストレージの大幅な節約、及び (iii)ハイパフォーマンス。 さらに、動的プルーニングや層幅スケーリングといった最先端の動的戦略と比較すると、Nested Sparse ConvNetsは、精度とレイテンシ空間の精度でPareto最適であることが判明した。

This work introduces a new training and compression pipeline to build Nested Sparse ConvNets, a class of dynamic Convolutional Neural Networks (ConvNets) suited for inference tasks deployed on resource-constrained devices at the edge of the Internet-of-Things. A Nested Sparse ConvNet consists of a single ConvNet architecture containing N sparse sub-networks with nested weights subsets, like a Matryoshka doll, and can trade accuracy for latency at run time, using the model sparsity as a dynamic knob. To attain high accuracy at training time, we propose a gradient masking technique that optimally routes the learning signals across the nested weights subsets. To minimize the storage footprint and efficiently process the obtained models at inference time, we introduce a new sparse matrix compression format with dedicated compute kernels that fruitfully exploit the characteristic of the nested weights subsets. Tested on image classification and object detection tasks on an off-the-shelf ARM-M7 Micro Controller Unit (MCU), Nested Sparse ConvNets outperform variable-latency solutions naively built assembling single sparse models trained as stand-alone instances, achieving (i) comparable accuracy, (ii) remarkable storage savings, and (iii) high performance. Moreover, when compared to state-of-the-art dynamic strategies, like dynamic pruning and layer width scaling, Nested Sparse ConvNets turn out to be Pareto optimal in the accuracy vs. latency space.
翻訳日:2022-03-08 17:06:55 公開日:2022-03-07
# 遅延グラフ推論を用いた多変量時系列予測

Multivariate Time Series Forecasting with Latent Graph Inference ( http://arxiv.org/abs/2203.03423v1 )

ライセンス: Link先を確認
Victor Garcia Satorras, Syama Sundar Rangapuram, Tim Januschowski(参考訳) 本稿では,時系列間の関係を推定・活用する多変量時系列予測の新しい手法を提案する。 そのモジュラリティにより、現在の不定値メソッドと統合できる。 本手法は, 完全連結グラフの極端な推論や, 極端な二部グラフを提示することで, 徐々に精度と計算効率をトレードオフすることができる。 潜在的に完全連結の場合、最良予測精度をもたらす時系列間の全てのペアワイズ相互作用を考える。 逆に、バイパルタイトの場合、我々は導入したK個の補助ノードを通してN時系列を相互通信することで依存構造を利用する。 これにより、従来のグラフ推論手法であるO(N^2)からO(NK)への時間とメモリの複雑さが小さくなる。 予測精度と時間効率の両モデルが従来のグラフ推論手法よりも優れた,あるいは非常に競争力のある,さまざまなデータセットにおいて,本モデルの有効性を実証する。

This paper introduces a new approach for Multivariate Time Series forecasting that jointly infers and leverages relations among time series. Its modularity allows it to be integrated with current univariate methods. Our approach allows to trade-off accuracy and computational efficiency gradually via offering on one extreme inference of a potentially fully-connected graph or on another extreme a bipartite graph. In the potentially fully-connected case we consider all pair-wise interactions among time-series which yields the best forecasting accuracy. Conversely, the bipartite case leverages the dependency structure by inter-communicating the N time series through a small set of K auxiliary nodes that we introduce. This reduces the time and memory complexity w.r.t. previous graph inference methods from O(N^2) to O(NK) with a small trade-off in accuracy. We demonstrate the effectiveness of our model in a variety of datasets where both of its variants perform better or very competitively to previous graph inference methods in terms of forecasting accuracy and time efficiency.
翻訳日:2022-03-08 17:06:24 公開日:2022-03-07
# 残響エラーのレンズによる一般化

Generalization Through The Lens Of Leave-One-Out Error ( http://arxiv.org/abs/2203.03443v1 )

ライセンス: Link先を確認
Gregor Bachmann, Thomas Hofmann, Aur\'elien Lucchi(参考訳) 様々な学習課題を解くための深層学習モデルの実証的な成功にもかかわらず、その一般化能力に関する理論的理解は非常に限られている。 VC次元やRademacher複雑性といったツールに基づいた古典的な一般化境界は、今のところディープモデルには不適であり、これらのテクニックが最も理想主義的な設定(Nagarajan & Kolter, 2019)でも厳密な境界が得られるかどうかは疑わしい。 そこで本研究では,カーネルシステムにおける深層モデルの一般化能力を測定するために,LOO(Left-one-out)誤差の概念を再検討する。 統計学では人気があるが、LOOの誤差はディープラーニングの文脈では見過ごされている。 最近確立されたニューラルネットワークとカーネル学習の接続の上に構築することで、残欠エラーに対してクローズドフォーム式を活用し、テストエラーの効率的なプロキシへのアクセスを可能にします。 理論上も経験的にも,二重降下やランダムラベル,転送学習など,一般化理論における様々な現象を捉えることができることを示した。 そこで本研究は, カーネルシステムにおけるディープニューラルネットワークの一般化能力を推定し, 一般化分野における新たな研究方向の扉を開くための, 難解な方法であることを示す。

Despite the tremendous empirical success of deep learning models to solve various learning tasks, our theoretical understanding of their generalization ability is very limited. Classical generalization bounds based on tools such as the VC dimension or Rademacher complexity, are so far unsuitable for deep models and it is doubtful that these techniques can yield tight bounds even in the most idealistic settings (Nagarajan & Kolter, 2019). In this work, we instead revisit the concept of leave-one-out (LOO) error to measure the generalization ability of deep models in the so-called kernel regime. While popular in statistics, the LOO error has been largely overlooked in the context of deep learning. By building upon the recently established connection between neural networks and kernel learning, we leverage the closed-form expression for the leave-one-out error, giving us access to an efficient proxy for the test error. We show both theoretically and empirically that the leave-one-out error is capable of capturing various phenomena in generalization theory, such as double descent, random labels or transfer learning. Our work therefore demonstrates that the leave-one-out error provides a tractable way to estimate the generalization ability of deep neural networks in the kernel regime, opening the door to potential, new research directions in the field of generalization.
翻訳日:2022-03-08 17:06:10 公開日:2022-03-07
# (参考訳) Kubric: スケーラブルなデータセットジェネレータ [全文訳有]

Kubric: A scalable dataset generator ( http://arxiv.org/abs/2203.03570v1 )

ライセンス: CC BY 4.0
Klaus Greff, Francois Belletti, Lucas Beyer, Carl Doersch, Yilun Du, Daniel Duckworth, David J. Fleet, Dan Gnanapragasam, Florian Golemo, Charles Herrmann, Thomas Kipf, Abhijit Kundu, Dmitry Lagun, Issam Laradji, Hsueh-Ti (Derek) Liu, Henning Meyer, Yishu Miao, Derek Nowrouzezahrai, Cengiz Oztireli, Etienne Pot, Noha Radwan, Daniel Rebain, Sara Sabour, Mehdi S. M. Sajjadi, Matan Sela, Vincent Sitzmann, Austin Stone, Deqing Sun, Suhani Vora, Ziyu Wang, Tianhao Wu, Kwang Moo Yi, Fangcheng Zhong, Andrea Tagliasacchi(参考訳) データとは機械学習の推進力であり、トレーニングデータの量と品質は、アーキテクチャやトレーニングの詳細よりもシステムのパフォーマンスにとって重要であることが多い。 しかし、実際のデータを大規模に収集、処理、注釈することは難しく、費用がかかり、しばしばプライバシー、公正、法的懸念が高まる。 合成データは、これらの欠点に対処できる強力なツールです。 1)安い 2) リッチな接地構文アノテーションをサポート 3)データを完全に制御し、 4) バイアス、プライバシー、ライセンスに関する問題を回避または緩和することができる。 残念なことに、効率的なデータ生成のためのソフトウェアツールは、アーキテクチャ設計やトレーニングのツールほど成熟していないため、生成の断片化に繋がる。 これらの問題に対処するために、オープンソースのPythonフレームワークKubricを紹介します。これは、PyBulletとBlenderとインターフェースして、リッチなアノテーションでフォトリアリスティックなシーンを生成し、数千台のマシンに分散された大規模なジョブにシームレスにスケールし、データTBを生成する。 本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。 使用済みの資産、すべての生成コード、および再利用と修正のためのレンダリングデータセットであるKubricをリリースします。

Data is the driving force of machine learning, with the amount and quality of training data often being more important for the performance of a system than architecture and training details. But collecting, processing and annotating real data at scale is difficult, expensive, and frequently raises additional privacy, fairness and legal concerns. Synthetic data is a powerful tool with the potential to address these shortcomings: 1) it is cheap 2) supports rich ground-truth annotations 3) offers full control over data and 4) can circumvent or mitigate problems regarding bias, privacy and licensing. Unfortunately, software tools for effective data generation are less mature than those for architecture design and training, which leads to fragmented generation efforts. To address these problems we introduce Kubric, an open-source Python framework that interfaces with PyBullet and Blender to generate photo-realistic scenes, with rich annotations, and seamlessly scales to large jobs distributed over thousands of machines, and generating TBs of data. We demonstrate the effectiveness of Kubric by presenting a series of 13 different generated datasets for tasks ranging from studying 3D NeRF models to optical flow estimation. We release Kubric, the used assets, all of the generation code, as well as the rendered datasets for reuse and modification.
翻訳日:2022-03-08 17:04:13 公開日:2022-03-07
# SemEval-2022 Task 11: Gazetteer-Adapted Integration Network for Multilingual Complex Named Entity Recognition

USTC-NELSLIP at SemEval-2022 Task 11: Gazetteer-Adapted Integration Network for Multilingual Complex Named Entity Recognition ( http://arxiv.org/abs/2203.03216v1 )

ライセンス: Link先を確認
Beiduo Chen, Jun-Yu Ma, Jiajun Qi, Wu Guo, Zhen-Hua Ling, Quan Liu(参考訳) 本稿では,SemEval-2022 Task 11 Multilingual Complex Named Entity Recognition (MultiCoNER)のためにUSTC-NELSLIPチームが開発したシステムについて述べる。 複雑な名前付きエンティティを認識するための言語モデルの性能を向上させるために,ガゼッタ対応統合ネットワーク(gain)を提案する。 この手法はまず,KLの発散を最小限に抑え,ガゼターネットワークの表現を言語モデルの表現に適応させる。 適応後、これらの2つのネットワークはバックエンド管理されたエンティティ認識(NER)トレーニングに統合される。 提案手法は,Wikidata で構築したガゼッタを用いた最先端の Transformer ベースの NER モデルに適用され,それらの一般化能力を示す。 最終的な予測は、これらの訓練されたモデルの集合から導かれる。 実験結果と詳細な解析により,提案手法の有効性が検証された。 公式の結果,本システムは3トラック (china, code-mixed, bangla) で第1位,他の10トラックで第2位となった。

This paper describes the system developed by the USTC-NELSLIP team for SemEval-2022 Task 11 Multilingual Complex Named Entity Recognition (MultiCoNER). We propose a gazetteer-adapted integration network (GAIN) to improve the performance of language models for recognizing complex named entities. The method first adapts the representations of gazetteer networks to those of language models by minimizing the KL divergence between them. After adaptation, these two networks are then integrated for backend supervised named entity recognition (NER) training. The proposed method is applied to several state-of-the-art Transformer-based NER models with a gazetteer built from Wikidata, and shows great generalization ability across them. The final predictions are derived from an ensemble of these trained models. Experimental results and detailed analysis verify the effectiveness of the proposed method. The official results show that our system ranked 1st on three tracks (Chinese, Code-mixed and Bangla) and 2nd on the other ten tracks in this task.
翻訳日:2022-03-08 16:21:42 公開日:2022-03-07
# タスク指向対話理解における事前認識:将来の文脈による後部正規化

Precognition in Task-oriented Dialogue Understanding: Posterior Regularization by Future Context ( http://arxiv.org/abs/2203.03244v1 )

ライセンス: Link先を確認
Nan Su, Yuchi Zhang, Chao Liu, Bingzhu Du, Yongliang Wang(参考訳) 近年,タスク指向対話システムが圧倒的に普及している。 対話理解はタスク指向対話システムにおけるユーザの意図、感情、対話状態を理解するために広く使われている。 これまでのほとんどの作業は、現在のクエリや歴史的な会話をモデル化するだけである。 たとえ対話フロー全体がモデル化されたとしても、将来のコンテキストがこのようなケースでは見えないため、実際のタスク指向の会話には適さない。 本稿では, 後続正則化手法を用いて, 過去の情報と将来の情報を共同でモデル化することを提案する。 具体的には、現在の発話と過去の文脈を事前としてモデル化し、対話の流れ全体を後方として、これらの分布間のKL距離を最適化し、トレーニング中にモデルを規則化する。 そして、推論には歴史的情報のみを使用する。 2つの対話データセットに関する広範囲な実験により,提案手法の有効性を検証し,すべてのベースラインモデルと比較して優れた結果を得た。

Task-oriented dialogue systems have become overwhelmingly popular in recent researches. Dialogue understanding is widely used to comprehend users' intent, emotion and dialogue state in task-oriented dialogue systems. Most previous works on such discriminative tasks only models current query or historical conversations. Even if in some work the entire dialogue flow was modeled, it is not suitable for the real-world task-oriented conversations as the future contexts are not visible in such cases. In this paper, we propose to jointly model historical and future information through the posterior regularization method. More specifically, by modeling the current utterance and past contexts as prior, and the entire dialogue flow as posterior, we optimize the KL distance between these distributions to regularize our model during training. And only historical information is used for inference. Extensive experiments on two dialogue datasets validate the effectiveness of our proposed method, achieving superior results compared with all baseline models.
翻訳日:2022-03-08 16:21:23 公開日:2022-03-07
# 何て言ったの? Task-Oriented Dialog Datasetsは会話的ではない!?

What Did You Say? Task-Oriented Dialog Datasets Are Not Conversational!? ( http://arxiv.org/abs/2203.03431v1 )

ライセンス: Link先を確認
Alice Shoshana Jakobovits, Francesco Piccinno and Yasemin Altun(参考訳) タスク指向ダイアログのための高品質なデータセットは、仮想アシスタントの開発に不可欠である。 ダイアログ状態の更新は、ダイアログ履歴を無視して、現在のユーザの発話のみを考慮するモデルによって、大幅に追跡することができる。 本稿では,近年広く使われているタスク指向の対話データセットの中で,MultiWOZ,SGD,SMCalF lowの対話効果と文脈効果の分類を概説する。 データセットをモデルに依存しない方法で分析し,強固なテキスト間ベースライン(t5)を用いて実験的に照合する。 我々は、MultiWOZのターンの4%未満、SGDのターンの10%が会話的であり、SMCalFlowは現在のリリースでは会話的ではないが、ダイアログ状態追跡タスクは単一交換セマンティックパーシングに還元できることを示した。 最後にdesiderataを真に会話的な対話データセットとして概説する。

High-quality datasets for task-oriented dialog are crucial for the development of virtual assistants. Yet three of the most relevant large scale dialog datasets suffer from one common flaw: the dialog state update can be tracked, to a great extent, by a model that only considers the current user utterance, ignoring the dialog history. In this work, we outline a taxonomy of conversational and contextual effects, which we use to examine MultiWOZ, SGD and SMCalFlow, among the most recent and widely used task-oriented dialog datasets. We analyze the datasets in a model-independent fashion and corroborate these findings experimentally using a strong text-to-text baseline (T5). We find that less than 4% of MultiWOZ's turns and 10% of SGD's turns are conversational, while SMCalFlow is not conversational at all in its current release: its dialog state tracking task can be reduced to single exchange semantic parsing. We conclude by outlining desiderata for truly conversational dialog datasets.
翻訳日:2022-03-08 16:20:17 公開日:2022-03-07
# SOCIOFILLMORE: 視点を明らかにするツール

SOCIOFILLMORE: A Tool for Discovering Perspectives ( http://arxiv.org/abs/2203.03438v1 )

ライセンス: Link先を確認
Gosse Minnema, Sara Gemelli, Chiara Zanchi, Tommaso Caselli, Malvina Nissim(参考訳) SOCIOFILLMOREは、テキストがイベントを描写する際に表現する焦点や視点をフォアに持ち込むのに役立つ多言語ツールである。 我々のツールは、人間の判断を大量に集めることで、理論的にはフレームセマンティクスと認知言語学に基づいており、LOMEフレームセマンティクスパーサを用いて実装されている。 我々は,SOCIOFILLMOREの開発と機能について述べるとともに,非NLP研究者がツールを容易に操作できることを示し,システムにすでに組み込まれているいくつかの事例研究と,視覚化可能な分析方法を紹介する。

SOCIOFILLMORE is a multilingual tool which helps to bring to the fore the focus or the perspective that a text expresses in depicting an event. Our tool, whose rationale we also support through a large collection of human judgements, is theoretically grounded on frame semantics and cognitive linguistics, and implemented using the LOME frame semantic parser. We describe SOCIOFILLMORE's development and functionalities, show how non-NLP researchers can easily interact with the tool, and present some example case studies which are already incorporated in the system, together with the kind of analysis that can be visualised.
翻訳日:2022-03-08 16:19:59 公開日:2022-03-07
# 音声から音声へのコーパスの作成

Creating Speech-to-Speech Corpus from Dubbed Series ( http://arxiv.org/abs/2203.03601v1 )

ライセンス: Link先を確認
Massa Baali, Wassim El-Hajj, Ahmed Ali(参考訳) 近年,大手メディアサービスプロバイダの強い支持を得て,ダブドシリーズの人気が高まっている。 このような人気は、テレビ番組のタイトル付きバージョンが字幕付き番組よりも人気があることを示す研究によって加速されている。 本稿では,短いセグメントレベルに基づく音声対音声コーパスを構築し,ソース言語とターゲット言語で並列音声コーパスを作成するための教師なし手法を提案する。 提案手法は,ビデオフレーム,音声認識,機械翻訳,ノイズフレーム除去アルゴリズムを用いて,両言語のセグメントをマッチングする。 提案手法の性能を検証するため,提案手法を長大で短大なクリップに適用した。 36時間のtr-arコールシリーズのうち、パイプラインは17時間のペアセグメントを生成し、コーパスの約47%を占めた。 提案手法を他の言語ペアであるEN-ARに適用し,特定の言語や特定のコーパスに調整されないような堅牢性を確保する。 言語ペアにかかわらず,人間の主観的評価を用いて評価すると,ペアセグメントの精度は約70%であった。 コーパスは研究コミュニティに無償で提供される。

Dubbed series are gaining a lot of popularity in recent years with strong support from major media service providers. Such popularity is fueled by studies that showed that dubbed versions of TV shows are more popular than their subtitled equivalents. We propose an unsupervised approach to construct speech-to-speech corpus, aligned on short segment levels, to produce a parallel speech corpus in the source- and target- languages. Our methodology exploits video frames, speech recognition, machine translation, and noisy frames removal algorithms to match segments in both languages. To verify the performance of the proposed method, we apply it on long and short dubbed clips. Out of 36 hours TR-AR dubbed series, our pipeline was able to generate 17 hours of paired segments, which is about 47% of the corpus. We applied our method on another language pair, EN-AR, to ensure it is robust enough and not tuned for a specific language or a specific corpus. Regardless of the language pairs, the accuracy of the paired segments was around 70% when evaluated using human subjective evaluation. The corpus will be freely available for the research community.
翻訳日:2022-03-08 16:19:48 公開日:2022-03-07
# 将来への道を見つける - 言語に指示されたセマンティックマップナビゲータ

Find a Way Forward: a Language-Guided Semantic Map Navigator ( http://arxiv.org/abs/2203.03183v1 )

ライセンス: Link先を確認
Zehao Wang, Mingxiao Li, Minye Wu, Marie-Francine Moens, Tinne Tuytelaars(参考訳) 本稿では,ロボットが自然言語の指示を実行し,地図観測に基づいて目標位置へ移動できる新しい意味的ナビゲーションマップを用いて,新たな視点で言語誘導ナビゲーションの課題に対処する。 この問題を部分分解し、対応する部分問題を解くために3つの異なるモジュールを導入する。 提案手法は地図情報を利用して決定論的経路候補の提案を行い,解空間を縮小する。 ロボットの動きを段階的に予測する従来の手法と異なり、注意に基づく言語駆動識別器を設計し、経路候補を評価し、最終結果として最適経路を決定する。 モダリティアライメント改善のための経路に沿った地図観察を表現するために,セマンティックナビゲーションマップ用に調整された新しい経路特徴符号化方式を提案する。 累積誤差を発生させる従来の手法と異なり,グローバル情報に基づく経路計画手法は,これらの問題を著しく緩和することができる。 提案手法は特に長距離ナビゲーションの場合において顕著な性能向上をもたらす。 また、その訓練効率は他の方法に比べて著しく高い。

This paper attacks the problem of language-guided navigation in a new perspective by using novel semantic navigation maps, which enables robots to carry out natural language instructions and move to a target position based on the map observations. We break down this problem into parts and introduce three different modules to solve the corresponding subproblems. Our approach leverages map information to provide Deterministic Path Candidate Proposals to reduce the solution space. Different from traditional methods that predict robots' movements toward the target step-by-step, we design an attention-based Language Driven Discriminator to evaluate path candidates and determine the best path as the final result. To represent the map observations along a path for a better modality alignment, a novel Path Feature Encoding scheme tailored for semantic navigation maps is proposed. Unlike traditional methods that tend to produce cumulative errors or be stuck in local decisions, our method which plans paths based on global information can greatly alleviate these problems. The proposed approach has noticeable performance gains, especially in long-distance navigation cases. Also, its training efficiency is significantly higher than of other methods.
翻訳日:2022-03-08 16:18:49 公開日:2022-03-07
# エンティティアライメントのための深層強化学習

Deep Reinforcement Learning for Entity Alignment ( http://arxiv.org/abs/2203.03315v1 )

ライセンス: Link先を確認
Lingbing Guo and Yuqiang Han and Qiang Zhang and Huajun Chen(参考訳) 埋め込みに基づく手法は、最近のエンティティアライメント(EA)研究で注目を集めている。 素晴らしい約束はできるが、まだいくつかの制限がある。 最も注目すべきは、コサイン類似性に基づいて整列した実体を識別し、埋め込み自体の根底にある意味を無視することである。 さらに、これらのメソッドはショートワイトされ、ターゲットとして最も近いエンティティをヒューリスティックに選択し、複数のエンティティが同じ候補にマッチできるようにする。 これらの制約に対処するために,エージェントが表現ベクトルに基づいて2つのエンティティがマッチするかミスマッチするかを順次決定する,逐次的意思決定タスクとしてエンティティアライメントをモデル化する。 提案した強化学習(RL)に基づくエンティティアライメントフレームワークは、ほとんどの埋め込みベースのEA手法に柔軟に適用できる。 実験の結果、hit@1で最大31.1%向上し、最先端手法の性能を一貫して向上させることが示されている。

Embedding-based methods have attracted increasing attention in recent entity alignment (EA) studies. Although great promise they can offer, there are still several limitations. The most notable is that they identify the aligned entities based on cosine similarity, ignoring the semantics underlying the embeddings themselves. Furthermore, these methods are shortsighted, heuristically selecting the closest entity as the target and allowing multiple entities to match the same candidate. To address these limitations, we model entity alignment as a sequential decision-making task, in which an agent sequentially decides whether two entities are matched or mismatched based on their representation vectors. The proposed reinforcement learning (RL)-based entity alignment framework can be flexibly adapted to most embedding-based EA methods. The experimental results demonstrate that it consistently advances the performance of several state-of-the-art methods, with a maximum improvement of 31.1% on Hits@1.
翻訳日:2022-03-08 16:18:32 公開日:2022-03-07
# 探索計画を用いた行動モデルの自己学習

Self-directed Learning of Action Models using Exploratory Planning ( http://arxiv.org/abs/2203.03485v1 )

ライセンス: Link先を確認
Dustin Dannenhauer, Matthew Molineaux, Michael W. Floyd, Noah Reifsnyder, David W. Aha(参考訳) 複雑な実世界のドメインはエージェントのために完全にモデル化されないかもしれない。 そのようなドメインにおいて効果的に計画し行動するエージェントの能力は、いつ特定のアクションを実行し、それらのアクションの効果を発揮できるかという知識に影響される。 専門家の足跡や目標がなくても,行動の前提条件や効果を学習できる新たな探索計画エージェントについて述べる。 エージェントのアーキテクチャは、探索的行動とゴール指向の行動の両方を実行することができ、探索的計画と目標計画の制御方法や、エージェントの振る舞いがチームメイトにどのように説明されるべきかに関して重要な考慮が開かれる。 この研究の貢献には、lifted linked clausesと呼ばれるコンテキストの新しい表現、これらの節を用いた新しい探索アクション選択アプローチ、lifted linked clausesを目標として新たな状態に到達するための探索プランナー、lifted linked clausesが非計画的なベースラインエージェントに対する探索とアクションモデル学習を改善することの実証的評価が含まれる。

Complex, real-world domains may not be fully modeled for an agent, especially if the agent has never operated in the domain before. The agent's ability to effectively plan and act in such a domain is influenced by its knowledge of when it can perform specific actions and the effects of those actions. We describe a novel exploratory planning agent that is capable of learning action preconditions and effects without expert traces or a given goal. The agent's architecture allows it to perform both exploratory actions as well as goal-directed actions, which opens up important considerations for how exploratory planning and goal planning should be controlled, as well as how the agent's behavior should be explained to any teammates it may have. The contributions of this work include a new representation for contexts called Lifted Linked Clauses, a novel exploration action selection approach using these clauses, an exploration planner that uses lifted linked clauses as goals in order to reach new states, and an empirical evaluation in a scenario from an exploration-focused video game demonstrating that lifted linked clauses improve exploration and action model learning against non-planning baseline agents.
翻訳日:2022-03-08 16:17:35 公開日:2022-03-07
# (参考訳) ZippyPoint: 混合精度離散化による高速な関心点検出、記述、マッチング [全文訳有]

ZippyPoint: Fast Interest Point Detection, Description, and Matching through Mixed Precision Discretization ( http://arxiv.org/abs/2203.03610v1 )

ライセンス: CC BY 4.0
Simon Maurer, Menelaos Kanakis, Matteo Spallanzani, Ajad Chhatkuli, Luc Van Gool(参考訳) より複雑で強力なニューラルネットワークモデルの設計は、局所的な特徴検出と記述において最先端の進歩を遂げた。 これらの進歩は、より深いネットワーク、セルフスーパービジョンによるトレーニング方法論の改善、あるいは機能マッチングのためのグラフニューラルネットワークのような新しいビルディングブロックの導入に起因する可能性がある。 しかし、性能向上を追求する中で、軽量ディスクリプタを生成する効率的なアーキテクチャは驚くほど注目されていない。 本稿では,組込みプラットフォームでの使用を可能にするために,検出と記述に必要なニューラルネットワークの適応について検討する。 そこで本研究では,ネットワーク量子化手法をリアルタイムアプリケーションに適用する。 さらに、ディスクリプタ量子化における一般的なプラクティスを再検討し、バイナリ記述子正規化層の使用を提案し、特徴ある長さ不変なバイナリ記述子の生成を可能にする。 私たちの効率的なネットワークZippyPointは、Apple M1 CPU上で47.2fpsで動作する。 これは、他の学習された検出および記述モデルよりも最大5倍高速で、これが唯一のリアルタイム学習ネットワークとなる。 zippypointは、視覚的ローカライゼーションとホモグラフィ推定タスクにおいて、他のすべてのバイナリ検出およびディスクリプタメソッドを一貫して上回っている。 コードとトレーニングされたモデルは公開時にリリースされる。

The design of more complex and powerful neural network models has significantly advanced the state-of-the-art in local feature detection and description. These advances can be attributed to deeper networks, improved training methodologies through self-supervision, or the introduction of new building blocks, such as graph neural networks for feature matching. However, in the pursuit of increased performance, efficient architectures that generate lightweight descriptors have received surprisingly little attention. In this paper, we investigate the adaptations neural networks for detection and description require in order to enable their use in embedded platforms. To that end, we investigate and adapt network quantization techniques for use in real-time applications. In addition, we revisit common practices in descriptor quantization and propose the use of a binary descriptor normalization layer, enabling the generation of distinctive length-invariant binary descriptors. ZippyPoint, our efficient network, runs at 47.2 fps on the Apple M1 CPU. This is up to 5x faster than other learned detection and description models, making it the only real-time learned network. ZippyPoint consistently outperforms all other binary detection and descriptor methods in visual localization and homography estimation tasks. Code and trained models will be released upon publication.
翻訳日:2022-03-08 16:14:31 公開日:2022-03-07
# カスケードギャップ:リスク感性強化学習のためのギャップ依存レグレクトを目指して

Cascaded Gaps: Towards Gap-Dependent Regret for Risk-Sensitive Reinforcement Learning ( http://arxiv.org/abs/2203.03110v1 )

ライセンス: Link先を確認
Yingjie Fei, Ruitu Xu(参考訳) 本稿では,エントロピー的リスク尺度に基づくリスク依存型強化学習におけるギャップ依存的後悔保証について検討する。 そこで,我々はカスケードギャップと呼ぶサブ最適ギャップの新たな定義を提案し,問題の根底構造に適応する重要なコンポーネントについて考察する。 カスケードされたギャップに基づいて、マルコフ決定過程の下での2つのモデル自由アルゴリズムに対する非漸近的および対数的後悔境界を導出する。 適切な設定で、これらの境界はギャップに依存しない既存の境界よりも指数関数的に改善されていることを示す。 また、上界の近似最適性を証明するような、ギャップ依存的な下界も証明する。

In this paper, we study gap-dependent regret guarantees for risk-sensitive reinforcement learning based on the entropic risk measure. We propose a novel definition of sub-optimality gaps, which we call cascaded gaps, and we discuss their key components that adapt to the underlying structures of the problem. Based on the cascaded gaps, we derive non-asymptotic and logarithmic regret bounds for two model-free algorithms under episodic Markov decision processes. We show that, in appropriate settings, these bounds feature exponential improvement over existing ones that are independent of gaps. We also prove gap-dependent lower bounds, which certify the near optimality of the upper bounds.
翻訳日:2022-03-08 15:59:02 公開日:2022-03-07
# 補間規則における最小方形に対するマルチパスSGDのリスク境界

Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation Regime ( http://arxiv.org/abs/2203.03159v1 )

ライセンス: Link先を確認
Difan Zou and Jingfeng Wu and Vladimir Braverman and Quanquan Gu and Sham M. Kakade(参考訳) 確率勾配降下 (sgd) は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。 既存の一般化分析のほとんどは、一般的に使用されるマルチパスsgdに比べて実用的でないsgd用である。 さらに、マルチパスSGDの理論解析は、ある特定の問題に対して優れた一般化能力を説明するのに悲観的な問題群における最悪の事例をしばしば扱う。 本研究の目的は,反復数,ステップサイズ,データ共分散の関数として表される補間系において,最小二乗のインスタンス依存過剰リスクを開発することで,マルチパスSGDの一般化を著しく特徴付けることである。 sgd の過剰なリスクは gd の過剰なリスクと正のゆらぎ誤差に正確に分解され、一般化において sgd が常に gd よりもインスタンス的に悪い結果をもたらすことを示唆する。 一方,SGDは,同じリスクレベルを達成するためにGDよりも多くのイテレーションを必要とするが,確率的勾配評価の回数を減らし,計算時間の観点からも好適であることを示す。

Stochastic gradient descent (SGD) has achieved great success due to its superior performance in both optimization and generalization. Most of existing generalization analyses are made for single-pass SGD, which is a less practical variant compared to the commonly-used multi-pass SGD. Besides, theoretical analyses for multi-pass SGD often concern a worst-case instance in a class of problems, which may be pessimistic to explain the superior generalization ability for some particular problem instance. The goal of this paper is to sharply characterize the generalization of multi-pass SGD, by developing an instance-dependent excess risk bound for least squares in the interpolation regime, which is expressed as a function of the iteration number, stepsize, and data covariance. We show that the excess risk of SGD can be exactly decomposed into the excess risk of GD and a positive fluctuation error, suggesting that SGD always performs worse, instance-wisely, than GD, in generalization. On the other hand, we show that although SGD needs more iterations than GD to achieve the same level of excess risk, it saves the number of stochastic gradient evaluations, and therefore is preferable in terms of computational time.
翻訳日:2022-03-08 15:58:52 公開日:2022-03-07
# 非アルコール性脂肪性肝炎(nash)検出のための縦型処方と医療クレームを用いた機械学習

Machine learning using longitudinal prescription and medical claims for the detection of nonalcoholic steatohepatitis (NASH) ( http://arxiv.org/abs/2203.03365v1 )

ライセンス: Link先を確認
Ozge Yasar, Patrick Long, Brett Harder, Hanna Marshall, Sanjay Bhasin, Suyin Lee, Mark Delegge, Stephanie Roy, Orla Doyle, Nadea Leavitt, John Rigg(参考訳) 非アルコール性脂肪性肝炎(nash)の診断スクリーニングと臨床管理のための機械学習モデルの開発と評価を目的とした。 方法】2型糖尿病 (T2DM) , メタボリック障害, 非アルコール性脂肪肝 (NAFL) を指標として, 1,463,089人の管理的医療クレームデータを用いて, 肥満, 糖尿病, 糖尿病, 糖尿病, 非アルコール性脂肪肝 (NAFL) の患者からNASH患者を検出できるように, 傾斜式決定木を訓練した。 at-risk患者、または前回のnafl診断(non-nafl at-risk患者)なしでサブセット内でnashを検出できるように訓練された。 モデルは, 振り返り医療クレームデータを用いて訓練, 評価を行い, 高精度リコールおよび受信特性曲線(AUPRC, AUROCs)に基づく評価を行った。 結果:nashは1,437例に1例,非nafl患者2,127例に1例であった。 AUPRCは95%CI 0.0104-0.011で,AUROCは0.84であった。 10%のリコールでは、モデル精度は4.3%であり、NASHの60倍である。 非NAFL患者のNASH検出訓練モデルは、AUPRCが0.003(95% CI 0.0029 - 0.0031)、AUROCが0.78であった。 10%リコール時のモデル精度は1%であり,NASHの20倍であった。 結論 医療クレームデータにおけるNASHの頻度は,臨床におけるNASHの診断パターンと相関する。 クレームベースの機械学習は、診断検査と疾患管理のためにnash患者を検出するのに役立つ。

Objectives To develop and evaluate machine learning models to detect suspected undiagnosed nonalcoholic steatohepatitis (NASH) patients for diagnostic screening and clinical management. Methods In this retrospective observational noninterventional study using administrative medical claims data from 1,463,089 patients, gradient-boosted decision trees were trained to detect likely NASH patients from an at-risk patient population with a history of obesity, type 2 diabetes mellitus (T2DM), metabolic disorder, or nonalcoholic fatty liver (NAFL). Models were trained to detect likely NASH in all at-risk patients or in the subset without a prior NAFL diagnosis (non-NAFL at-risk patients). Models were trained and validated using retrospective medical claims data and assessed using area under precision recall and receiver operating characteristic curves (AUPRCs, AUROCs). Results The 6-month incidence of NASH in claims data was 1 per 1,437 at-risk patients and 1 per 2,127 non-NAFL at-risk patients. The model trained to detect NASH in all at-risk patients had an AUPRC of 0.0107 (95% CI 0.0104 - 0.011) and an AUROC of 0.84. At 10% recall, model precision was 4.3%, which is 60x above NASH incidence. The model trained to detect NASH in non-NAFL patients had an AUPRC of 0.003 (95% CI 0.0029 - 0.0031) and an AUROC of 0.78. At 10% recall, model precision was 1%, which is 20x above NASH incidence. Conclusion The low incidence of NASH in medical claims data corroborates the pattern of NASH underdiagnosis in clinical practice. Claims-based machine learning could facilitate the detection of probable NASH patients for diagnostic testing and disease management.
翻訳日:2022-03-08 15:58:31 公開日:2022-03-07
# 推定とモデル誤特定: フェイクと欠落の機能

Estimation and Model Misspecification: Fake and Missing Features ( http://arxiv.org/abs/2203.03398v1 )

ライセンス: Link先を確認
Martin Hellkvist, Ay\c{c}a \"Oz\c{c}elikkale, Anders Ahl\'en(参考訳) 本研究では,データを生成する基盤システムと推定時に使用するモデルとの間に,モデルミスマッチが存在する場合のモデルミスセプションに基づく推定について検討する。 そこで本研究では,偽物や欠落した特徴のモデル誤特定型と,未知物や雑音に対する不正確な共分散仮定の同時処理を可能にするモデル誤特定フレームワークを提案する。 ここでは、モデルに含まれているが、基盤システムには存在しない特徴と、モデルには含まれないが基盤システムには存在しない特徴を、それぞれ偽の特徴と欠落した特徴とみなす。 この枠組みでは, 推定性能を特徴付けるとともに, 欠落した特徴と偽の特徴とのトレードオフを明らかにする。 間違った共分散の仮定や欠けている機能に焦点を当てた既存の作業とは対照的に、フェイク機能は私たちのフレームワークの中心的なコンポーネントです。 その結果,基礎となるシステムの特徴とは関係なくとも,フェイク機能は推定性能を大幅に向上できることがわかった。 特に,モデルが過度にパラメータ化されている点,すなわち,観測値よりも未知量が多い点においても,モデルに偽の特徴を含めることで,推定誤差を低減できることを示す。

We consider estimation under model misspecification where there is a model mismatch between the underlying system, which generates the data, and the model used during estimation. We propose a model misspecification framework which enables a joint treatment of the model misspecification types of having fake and missing features, as well as incorrect covariance assumptions on the unknowns and the noise. Here, features which are included in the model but are not present in the underlying system, and features which are not included in the model but are present in the underlying system, are referred to as fake and missing features, respectively. Under this framework, we characterize the estimation performance and reveal trade-offs between the missing and fake features and the possibly incorrect noise level assumption. In contrast to existing work focusing on incorrect covariance assumptions or missing features, fake features is a central component of our framework. Our results show that fake features can significantly improve the estimation performance, even though they are not correlated with the features in the underlying system. In particular, we show that the estimation error can be decreased by including more fake features in the model, even to the point where the model is overparametrized, i.e., the model contains more unknowns than observations.
翻訳日:2022-03-08 15:57:55 公開日:2022-03-07
# アンサンブル平均学習による未知力学系のロバストモデリング

Robust Modeling of Unknown Dynamical Systems via Ensemble Averaged Learning ( http://arxiv.org/abs/2203.03458v1 )

ライセンス: Link先を確認
Victor Churchill, Steve Manns, Zhen Chen, Dongbin Xiu(参考訳) 近年の研究では、ディープニューラルネットワーク(dnn)による未知システムの進化に関するデータ駆動学習に重点を置いており、未知システムの進化の長期予測を目標としている。 一般化誤差の低いDNNのトレーニングは、時間とともにエラーが蓄積されるため、特に重要なタスクである。 DNNトレーニングにおける固有ランダム性(主に確率的最適化)のため、結果の予測には不確実性があり、したがって一般化誤差がある。 したがって、一般化誤差は確率分布のある確率変数と見なすことができる。 良く訓練されたDNN、特に多くのハイパーパラメータを持つものは、一般にバイアスが低いがばらつきが高い一般化誤差の確率分布をもたらす。 高いばらつきは、訓練されたDNNの結果において変動を引き起こす。 本稿では,一般化誤差の分散を低減し,DNNモデルの信頼性を改善して一貫した一般化を行う計算手法を提案する。 提案するアンサンブル平均化法では,複数のモデルを独立に訓練し,各タイミングでモデル予測を行う。 局所的切断誤差の分布に関する結果を含む, この手法の数学的基礎を提示する。 さらに,3つの時間依存微分方程式問題を数値例として考察し,DNN予測のばらつきを抑える手法の有効性を示す。

Recent work has focused on data-driven learning of the evolution of unknown systems via deep neural networks (DNNs), with the goal of conducting long time prediction of the evolution of the unknown system. Training a DNN with low generalization error is a particularly important task in this case as error is accumulated over time. Because of the inherent randomness in DNN training, chiefly in stochastic optimization, there is uncertainty in the resulting prediction, and therefore in the generalization error. Hence, the generalization error can be viewed as a random variable with some probability distribution. Well-trained DNNs, particularly those with many hyperparameters, typically result in probability distributions for generalization error with low bias but high variance. High variance causes variability and unpredictably in the results of a trained DNN. This paper presents a computational technique which decreases the variance of the generalization error, thereby improving the reliability of the DNN model to generalize consistently. In the proposed ensemble averaging method, multiple models are independently trained and model predictions are averaged at each time step. A mathematical foundation for the method is presented, including results regarding the distribution of the local truncation error. In addition, three time-dependent differential equation problems are considered as numerical examples, demonstrating the effectiveness of the method to decrease variance of DNN predictions generally.
翻訳日:2022-03-08 15:57:32 公開日:2022-03-07
# 仮想対現実:胸部CTにおけるXCATファントムを用いたCOVID-19分類器の外的検証

Virtual vs. Reality: External Validation of COVID-19 Classifiers using XCAT Phantoms for Chest Computed Tomography ( http://arxiv.org/abs/2203.03074v1 )

ライセンス: Link先を確認
Fakrul Islam Tushar, Ehsan Abadi, Saman Sotoudeh-Paima, Rafael B. Fricks, Maciej A. Mazurowski, W. Paul Segars, Ehsan Samei, Joseph Y. Lo(参考訳) 医療画像における人工知能モデルの研究は、一般化の貧弱さによって妨げられている。 この問題は、新型コロナウイルス(covid-19)の診断にディープラーニングを多用した昨年から特に問題になっている。 vits(virtual imaging trials)は、これらのモデルの客観的評価のためのソリューションを提供する。 本研究は, CVIT-COVIDデータセットを用いて, シミュレーションされたCOVID-19および正常ファントムモデルからの180個の仮想画像計算断層撮影(CT)画像と, 異なる形態および画像特性のCVIT-COVIDデータセットを作成する。 本研究では,多施設データで学習したウォータールー大学のオープンソースディープラーニングモデルと,mosmedと呼ばれるオープン臨床データセットでトレーニングされた社内モデルの性能評価を行った。 さらに,305ct画像のオープン臨床データに対するモデルの性能の検証を行い,実際の臨床データと仮想データの比較を行った。 オープンソースのモデルは、オリジナルのWaterlooデータセットでほぼ完全なパフォーマンスで公開されたが、別の臨床データセット(AUC=0.77)とシミュレーションCVIT-COVIDデータセット(AUC=0.55)で外部テストが一貫したパフォーマンス低下を示した。 社内モデルは内部テストセット(MosMedテストセット)のテスト中に0.87のAUCを達成した。 しかし, cvit-covidデータセットを用いた臨床評価ではauc 0.65 と 0.69 に低下した。 VIT フレームワークでは画像条件の制御が可能で,CT の露出が 28.5 から 57 mAs に変化したため,性能に変化は見られなかった。 VITフレームワークはまたボクセルレベルの地上真実も提供し、AUC=0.87では2.65%の肺容積と2.65%の局所疾患では2.65%の肺容積がAUC=0.52よりも高い性能を示した。 仮想イメージングフレームワークにより、モデル性能の厳密な分析が可能となった。

Research studies of artificial intelligence models in medical imaging have been hampered by poor generalization. This problem has been especially concerning over the last year with numerous applications of deep learning for COVID-19 diagnosis. Virtual imaging trials (VITs) could provide a solution for objective evaluation of these models. In this work utilizing the VITs, we created the CVIT-COVID dataset including 180 virtually imaged computed tomography (CT) images from simulated COVID-19 and normal phantom models under different COVID-19 morphology and imaging properties. We evaluated the performance of an open-source, deep-learning model from the University of Waterloo trained with multi-institutional data and an in-house model trained with the open clinical dataset called MosMed. We further validated the model's performance against open clinical data of 305 CT images to understand virtual vs. real clinical data performance. The open-source model was published with nearly perfect performance on the original Waterloo dataset but showed a consistent performance drop in external testing on another clinical dataset (AUC=0.77) and our simulated CVIT-COVID dataset (AUC=0.55). The in-house model achieved an AUC of 0.87 while testing on the internal test set (MosMed test set). However, performance dropped to an AUC of 0.65 and 0.69 when evaluated on clinical and our simulated CVIT-COVID dataset. The VIT framework offered control over imaging conditions, allowing us to show there was no change in performance as CT exposure was changed from 28.5 to 57 mAs. The VIT framework also provided voxel-level ground truth, revealing that performance of in-house model was much higher at AUC=0.87 for diffuse COVID-19 infection size >2.65% lung volume versus AUC=0.52 for focal disease with <2.65% volume. The virtual imaging framework enabled these uniquely rigorous analyses of model performance.
翻訳日:2022-03-08 15:55:02 公開日:2022-03-07
# 局所正規化とスパシフィケーションによる差分私的フェデレーション学習

Differentially Private Federated Learning with Local Regularization and Sparsification ( http://arxiv.org/abs/2203.03106v1 )

ライセンス: Link先を確認
Anda Cheng, Peisong Wang, Xi Sheryl Zhang, Jian Cheng(参考訳) ユーザレベルの差分プライバシー(DP)は、フェデレーション学習においてユーザーのデータに固有の情報に対して、認証されたプライバシー保証を提供する。 ユーザレベルのDPを保証する既存の方法では、精度が著しく低下する。 本稿では,ユーザレベルのDP保証下でのフェデレーション学習におけるモデル性能劣化の原因について検討する。 この問題を解決する鍵は、DPを保証する操作を実行する前に、ローカル更新の規範を自然に制限することにある。 そこで我々は,プライバシを犠牲にすることなくモデル品質を向上させるために,局所更新正規化と局所更新スパーシフィケーションという2つの手法を提案する。 フレームワークの収束に関する理論的分析を行い、厳密なプライバシー保証を提供します。 大規模な実験により,我々のフレームワークは,ユーザレベルのDP保証を伴うフェデレート学習における最先端技術とのトレードオフを大幅に改善することが示された。

User-level differential privacy (DP) provides certifiable privacy guarantees to the information that is specific to any user's data in federated learning. Existing methods that ensure user-level DP come at the cost of severe accuracy decrease. In this paper, we study the cause of model performance degradation in federated learning under user-level DP guarantee. We find the key to solving this issue is to naturally restrict the norm of local updates before executing operations that guarantee DP. To this end, we propose two techniques, Bounded Local Update Regularization and Local Update Sparsification, to increase model quality without sacrificing privacy. We provide theoretical analysis on the convergence of our framework and give rigorous privacy guarantees. Extensive experiments show that our framework significantly improves the privacy-utility trade-off over the state-of-the-arts for federated learning with user-level DP guarantee.
翻訳日:2022-03-08 15:54:28 公開日:2022-03-07
# 一般化付加モデルとディープニューラルネットワークを用いた高分解能ピーク需要推定

High-Resolution Peak Demand Estimation Using Generalized Additive Models and Deep Neural Networks ( http://arxiv.org/abs/2203.03342v1 )

ライセンス: Link先を確認
Jonathan Berrisch, Micha{\l} Narajewski, Florian Ziel(参考訳) 本稿では,低分解能データを用いた高分解能ピーク需要推定手法を提案する。 この技術は、イギリスの流通ネットワークオペレーターであるWestern Power Distributionが主催するデータコンテストで優勝した。 この演習は、単一サブステーションにおける最小および最大負荷値をできるだけ正確に1分間の解像度で推定することであった。 対照的に、データは半時間解像度と半時間解像度で与えられる。 入賞方法は、負荷予測に人気がある一般化加算モデル(GAM)とディープ人工知能ニューラルネットワーク(DNN)を組み合わせる。 我々は,負荷,天気,季節の影響に着目した入力パラメータの重要性を含む,予測モデルに関する広範な分析を行った。 また,ロバスト性を分析するために,競争枠を超えた厳密な評価研究を行う。 その結果, 提案手法は, シングル競争月だけでなく, 有意義な評価研究においても優れていることがわかった。

This paper presents a method for estimating high-resolution electricity peak demand given lower resolution data. The technique won a data competition organized by the British distribution network operator Western Power Distribution. The exercise was to estimate the minimum and maximum load values in a single substation in a one-minute resolution as precisely as possible. In contrast, the data was given in half-hourly and hourly resolutions. The winning method combines generalized additive models (GAM) and deep artificial neural networks (DNN) which are popular in load forecasting. We provide an extensive analysis of the prediction models, including the importance of input parameters with a focus on load, weather, and seasonal effects. In addition, we provide a rigorous evaluation study that goes beyond the competition frame to analyze the robustness. The results show that the proposed methods are superior, not only in the single competition month but also in the meaningful evaluation study.
翻訳日:2022-03-08 15:52:09 公開日:2022-03-07
# (参考訳) 視覚環境再構築のためのヒューマンアウェアオブジェクト配置 [全文訳有]

Human-Aware Object Placement for Visual Environment Reconstruction ( http://arxiv.org/abs/2203.03609v1 )

ライセンス: CC BY 4.0
Hongwei Yi and Chun-Hao P. Huang and Dimitrios Tzionas and Muhammed Kocabas and Mohamed Hassan and Siyu Tang and Justus Thies and Michael J. Black(参考訳) 人間は、地球を通り抜け、それと対話するときに、常に世界と接触している。 この接触は、3D人間、3Dシーン、そしてそれらの相互作用を理解するための重要な情報源である。 実際、これらのヒューマン・シーン・インタラクション(HSI)は、モノクラーRGBビデオからシーンの3D再構成を改善するために有効であることを示す。 私たちの重要なアイデアは、ある人物がシーンを移動してそれと相互作用すると、複数の入力画像にhsisを蓄積し、3dシーンを最適化し、一貫性があり、物理的に妥当で機能的な3dシーンレイアウトを再構築することです。 最適化に基づくアプローチでは,(1)シーン内を移動する人間は物体を遮蔽または遮蔽する,(2)被写体の奥行き順序を定義する,(2)自由空間を移動して物体を貫通しない,(3)人間と物体が接触する場合,接触面は空間内で同じ位置を占める,という3つのhsi制約を利用する。 これらの制約を全観察の最適化定式化に利用することにより,3次元シーンレイアウトの再構成を著しく改善した。 さらに,初期3次元人間のポーズ・形状推定(HPS)の精度向上に,シーン再構築が有効であることを示す。 ProXおよびPiGraphsデータセットを用いて3次元シーンレイアウトの再構築とHPS推定を質的,定量的に評価した。 コードとデータは、https://mover.is.tue .mpg.de/で研究目的に利用できる。

Humans are in constant contact with the world as they move through it and interact with it. This contact is a vital source of information for understanding 3D humans, 3D scenes, and the interactions between them. In fact, we demonstrate that these human-scene interactions (HSIs) can be leveraged to improve the 3D reconstruction of a scene from a monocular RGB video. Our key idea is that, as a person moves through a scene and interacts with it, we accumulate HSIs across multiple input images, and optimize the 3D scene to reconstruct a consistent, physically plausible and functional 3D scene layout. Our optimization-based approach exploits three types of HSI constraints: (1) humans that move in a scene are occluded or occlude objects, thus, defining the depth ordering of the objects, (2) humans move through free space and do not interpenetrate objects, (3) when humans and objects are in contact, the contact surfaces occupy the same place in space. Using these constraints in an optimization formulation across all observations, we significantly improve the 3D scene layout reconstruction. Furthermore, we show that our scene reconstruction can be used to refine the initial 3D human pose and shape (HPS) estimation. We evaluate the 3D scene layout reconstruction and HPS estimation qualitatively and quantitatively using the PROX and PiGraphs datasets. The code and data are available for research purposes at https://mover.is.tue .mpg.de/.
翻訳日:2022-03-08 15:49:28 公開日:2022-03-07
# 教師付き学習を改善するデータ拡張の不変性の規則化

Regularising for invariance to data augmentation improves supervised learning ( http://arxiv.org/abs/2203.03304v1 )

ライセンス: Link先を確認
Aleksander Botev, Matthias Bauer, Soham De(参考訳) データ拡張は機械学習でラベル保存変換の分類器を不変にするために使われる。 通常、この不変性はトレーニング中に単一の拡張入力を含めることによって暗黙的にのみ促進される。 しかし、近年のいくつかの研究は、入力毎に複数の拡張を使用することで一般化を改善したり、より明確に不変性を組み込むことができることを示した。 本研究では,最近提案された対象を,明示的あるいは暗黙的正規化に依存するか,不変性を符号化する予測器のレベルによって異なるものと比較した。 提案手法では,同一入力の異なる加算値と比較した場合,最良手法の予測値も最もよく似ていることを示す。 この観察に触発されて、個々のモデル予測のレベルでこの不変性を促進する明示的な正規化器を提案する。 CIFAR-100とImageNetの広範な実験を通して、この明示的な正則性を示す。 (i)一般化と改善 (ii) 検討対象間の性能差を等しくする。 この結果から,ニューラルネットワーク自体のレベルの不変性を促進する目的は,非不変モデルの予測を平均化することによって,不変性を達成する目的よりも一般化されることが示唆された。

Data augmentation is used in machine learning to make the classifier invariant to label-preserving transformations. Usually this invariance is only encouraged implicitly by including a single augmented input during training. However, several works have recently shown that using multiple augmentations per input can improve generalisation or can be used to incorporate invariances more explicitly. In this work, we first empirically compare these recently proposed objectives that differ in whether they rely on explicit or implicit regularisation and at what level of the predictor they encode the invariances. We show that the predictions of the best performing method are also the most similar when compared on different augmentations of the same input. Inspired by this observation, we propose an explicit regulariser that encourages this invariance on the level of individual model predictions. Through extensive experiments on CIFAR-100 and ImageNet we show that this explicit regulariser (i) improves generalisation and (ii) equalises performance differences between all considered objectives. Our results suggest that objectives that encourage invariance on the level of the neural network itself generalise better than those that achieve invariance by averaging predictions of non-invariant models.
翻訳日:2022-03-08 15:26:59 公開日:2022-03-07
# Gibbsによる誘導バイアスの発見:近似ベイズ推論のための診断ツール

Discovering Inductive Bias with Gibbs Priors: A Diagnostic Tool for Approximate Bayesian Inference ( http://arxiv.org/abs/2203.03353v1 )

ライセンス: Link先を確認
Luca Rendsburg, Agustinus Kristiadi, Philipp Hennig, Ulrike von Luxburg(参考訳) 完全なベイズ後部は解析的に解析可能であることは滅多になく、実世界のベイズ推定は近似技術に大きく依存している。 近似は一般に真の後方と異なり、推論がまだ信頼できるかどうかを評価する診断ツールが必要である。 近似ミスマッチは,近似を厳密に扱い,対応する事前をリバースエンジニアリングすることにより,帰納バイアスの変化に起因する。 この問題は一見したところより複雑である。なぜなら解は一般に観察に依存するからである。 非互換条件分布の観点で問題を再フレーミングすることで、自然解(gibbs prior)に到達する。 その結果得られた診断は擬似ギブスサンプリングに基づいており、広く適用可能で実装が容易である。 ギブズ・プリアー(gibbs prior)は、制御ガウス系および様々なベイズモデルおよび近似系における帰納的バイアスの発見にどのように用いられるかを示す。

Full Bayesian posteriors are rarely analytically tractable, which is why real-world Bayesian inference heavily relies on approximate techniques. Approximations generally differ from the true posterior and require diagnostic tools to assess whether the inference can still be trusted. We investigate a new approach to diagnosing approximate inference: the approximation mismatch is attributed to a change in the inductive bias by treating the approximations as exact and reverse-engineering the corresponding prior. We show that the problem is more complicated than it appears to be at first glance, because the solution generally depends on the observation. By reframing the problem in terms of incompatible conditional distributions we arrive at a natural solution: the Gibbs prior. The resulting diagnostic is based on pseudo-Gibbs sampling, which is widely applicable and easy to implement. We illustrate how the Gibbs prior can be used to discover the inductive bias in a controlled Gaussian setting and for a variety of Bayesian models and approximations.
翻訳日:2022-03-08 15:26:40 公開日:2022-03-07
# 雑音補間における高速速度は帰納バイアスの影響を再考する必要がある

Fast rates for noisy interpolation require rethinking the effects of inductive bias ( http://arxiv.org/abs/2203.03597v1 )

ライセンス: Link先を確認
Konstantin Donhauser, Nicolo Ruggeri, Stefan Stojanovic and Fanny Yang(参考訳) 高次元データに対する良い一般化性能は、基底真理の単純な構造と、推定器の強い帰納バイアスに強く依存する。 この直観は正規化モデルでは有効であるが、本論文ではノイズの存在下での補間に対する強い帰納的バイアスに注意する。 具体的には、疎基底真理を持つ線形回帰と分類の両方について、最小$\ell_p$-normと最大$\ell_p$-marginの補間が、$p = 1$の対数率と比較して1/n$ for $p > 1$までの高速多項式率を達成することを証明している。 最後に、このトレードオフが、実際に使用される非線形補間モデルを理解する上で重要な役割を果たす可能性があることを実験的に示す。

Good generalization performance on high-dimensional data crucially hinges on a simple structure of the ground truth and a corresponding strong inductive bias of the estimator. Even though this intuition is valid for regularized models, in this paper we caution against a strong inductive bias for interpolation in the presence of noise: Our results suggest that, while a stronger inductive bias encourages a simpler structure that is more aligned with the ground truth, it also increases the detrimental effect of noise. Specifically, for both linear regression and classification with a sparse ground truth, we prove that minimum $\ell_p$-norm and maximum $\ell_p$-margin interpolators achieve fast polynomial rates up to order $1/n$ for $p > 1$ compared to a logarithmic rate for $p = 1$. Finally, we provide experimental evidence that this trade-off may also play a crucial role in understanding non-linear interpolating models used in practice.
翻訳日:2022-03-08 15:26:25 公開日:2022-03-07
# GlideNet:マルチカテゴリ属性予測のためのグローバル,ローカル,イントロなDense EmbeddingNETwork

GlideNet: Global, Local and Intrinsic based Dense Embedding NETwork for Multi-category Attributes Prediction ( http://arxiv.org/abs/2203.03079v1 )

ライセンス: Link先を確認
Kareem Metwaly, Aerin Kim, Elliot Branson and Vishal Monga(参考訳) 属性(色、形、状態、動作など)をオブジェクトカテゴリにアタッチすることは重要なコンピュータビジョン問題である。 属性予測は近年エキサイティングな進歩を見せており、しばしば多ラベル分類問題として定式化されている。 しかし、重要な課題が残っている。 1)複数のカテゴリにわたる多様な属性の予測 2)属性-カテゴリ依存性のモデリング 3)グローバルシーンとローカルシーンの両方をキャプチャし、 4) 画素数の低いオブジェクトの属性の予測。 これらの問題に対処するため,我々は3つの特徴抽出器を含む新しい多カテゴリー属性予測ディープアーキテクチャ glidenet を提案する。 グローバル特徴抽出器はシーン内に存在するオブジェクトを認識するが、ローカル特徴抽出器は関心対象を囲む領域に注目している。 一方、本質的な特徴抽出器は、Informed Convolutionと呼ばれる標準の畳み込みを拡張して、低いピクセル数を持つオブジェクトの特徴を検索する。 glidenetでは、バイナリマスクと自己学習したカテゴリ埋め込みによるゲーティング機構を使用して、密結合を組み合わせる。 総じて、グローバル・ローカル・インタリンシックブロックは、興味のあるローカル・オブジェクトの特性に順応しながら、シーンのグローバル・コンテキストを理解する。 最後に、組み合わせた特徴を用いて、インタプリタが属性を予測し、出力の長さがカテゴリによって決定され、不要な属性を除去する。 GlideNetは、大規模な属性予測のために、最近の2つの挑戦的なデータセット(VAWとCAR)で魅力的な結果を得ることができる。 例えば、平均リコール(mr)メトリックにおいて、アートの状態よりも5\%以上のゲインが得られる。 glidenetの利点は、ピクセル数の低いオブジェクトの属性や、グローバルなコンテキスト理解を必要とする属性を予測する場合に特に顕著である。 最後に、GlideNetは実世界のシナリオの訓練に優れていることを示す。

Attaching attributes (such as color, shape, state, action) to object categories is an important computer vision problem. Attribute prediction has seen exciting recent progress and is often formulated as a multi-label classification problem. Yet significant challenges remain in: 1) predicting diverse attributes over multiple categories, 2) modeling attributes-category dependency, 3) capturing both global and local scene context, and 4) predicting attributes of objects with low pixel-count. To address these issues, we propose a novel multi-category attribute prediction deep architecture named GlideNet, which contains three distinct feature extractors. A global feature extractor recognizes what objects are present in a scene, whereas a local one focuses on the area surrounding the object of interest. Meanwhile, an intrinsic feature extractor uses an extension of standard convolution dubbed Informed Convolution to retrieve features of objects with low pixel-count. GlideNet uses gating mechanisms with binary masks and its self-learned category embedding to combine the dense embeddings. Collectively, the Global-Local-Intrins ic blocks comprehend the scene's global context while attending to the characteristics of the local object of interest. Finally, using the combined features, an interpreter predicts the attributes, and the length of the output is determined by the category, thereby removing unnecessary attributes. GlideNet can achieve compelling results on two recent and challenging datasets -- VAW and CAR -- for large-scale attribute prediction. For instance, it obtains more than 5\% gain over state of the art in the mean recall (mR) metric. GlideNet's advantages are especially apparent when predicting attributes of objects with low pixel counts as well as attributes that demand global context understanding. Finally, we show that GlideNet excels in training starved real-world scenarios.
翻訳日:2022-03-08 15:22:07 公開日:2022-03-07
# 半導体製造における画像回帰問題に対する分布自由予測区間の構築について

On the Construction of Distribution-Free Prediction Intervals for an Image Regression Problem in Semiconductor Manufacturing ( http://arxiv.org/abs/2203.03150v1 )

ライセンス: Link先を確認
Inimfon I. Akpabio, Serap A. Savari(参考訳) 次世代半導体デバイスの大量製造には計測信号解析の進歩が必要である。 2021年のieee international roadmap for devices and systems (irds) report on metrology によると、セミ標準化委員会はこの哲学に賛同するかもしれない。 しかし半導体製造コミュニティは、測定の不確かさを減らすために最先端の統計分析の必要性を伝えている。 回帰モデルの予測性能の信頼性を特徴付ける予測間隔は、決定に影響を与え、機械学習への信頼を築き、他の回帰モデルに適用することができる。 しかし、画像データの重要クラスに対して有効なカバレッジを提供する、有効かつ十分な分散フリーなアプローチを意識していないため、分布フリーな共形予測と共形量子化回帰フレームワークを検討し、ノイズ走査電子顕微鏡画像からラインエッジ粗さ(ler)推定に焦点をあてた画像回帰問題を提案する。 LERは半導体デバイスの性能と信頼性に影響を及ぼし、製造プロセスの収量にも影響を及ぼす。2021 IRDSは、複数の国際焦点チームの報告に言及したり議論したりすることに加えて、白紙をそれに捧げることによるLERの重要な重要性を強調している。 LER推定に正規化共形予測と量子回帰を効果的に活用する方法は、現時点では明らかではない。 本稿では,2022年SEMI先端半導体製造会議において,画像データの分布のない予測間隔を求めるためのモデリング手法について紹介する。

The high-volume manufacturing of the next generation of semiconductor devices requires advances in measurement signal analysis. Many in the semiconductor manufacturing community have reservations about the adoption of deep learning; they instead prefer other model-based approaches for some image regression problems, and according to the 2021 IEEE International Roadmap for Devices and Systems (IRDS) report on Metrology a SEMI standardization committee may endorse this philosophy. The semiconductor manufacturing community does, however, communicate a need for state-of-the-art statistical analyses to reduce measurement uncertainty. Prediction intervals which characterize the reliability of the predictive performance of regression models can impact decisions, build trust in machine learning, and be applied to other regression models. However, we are not aware of effective and sufficiently simple distribution-free approaches that offer valid coverage for important classes of image data, so we consider the distribution-free conformal prediction and conformalized quantile regression framework.The image regression problem that is the focus of this paper pertains to line edge roughness (LER) estimation from noisy scanning electron microscopy images. LER affects semiconductor device performance and reliability as well as the yield of the manufacturing process; the 2021 IRDS emphasizes the crucial importance of LER by devoting a white paper to it in addition to mentioning or discussing it in the reports of multiple international focus teams. It is not immediately apparent how to effectively use normalized conformal prediction and quantile regression for LER estimation. The modeling techniques we apply appear to be novel for finding distribution-free prediction intervals for image data and will be presented at the 2022 SEMI Advanced Semiconductor Manufacturing Conference.
翻訳日:2022-03-08 15:21:41 公開日:2022-03-07
# 教師なし領域適応のための条件独立性の最大化

Maximizing Conditional Independence for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2203.03212v1 )

ライセンス: Link先を確認
Yi-Ming Zhai, You-Wei Luo(参考訳) 教師なしドメイン適応は、学習者をラベル付きソースドメインから異なる分布を持つラベル付きターゲットドメインに転送する方法を研究する。 既存の手法は主に、ソースとターゲットドメインの限界分布のマッチングに重点を置いており、おそらく同じクラスだが異なるドメインからのサンプルのミスアライメントを導く。 本稿では,新しい視点からクラス条件の移動を実現することで,この不整合に対処する。 再生カーネルヒルベルト空間における特徴クラスとドメインクラスの条件独立性を最大化する。 条件付き独立測度の最適化は、特徴と領域の間のある相互情報のサロゲートの最小化と見なすことができる。 条件依存の解釈可能な経験的推定を導出し、非条件ケースに接続する。 さらに,クラス条件分布を考慮した対象誤差の上限を提示することで,ほとんどのクラス条件伝達法に対して新たな理論的洞察を与える。 教師なしのドメイン適応に加えて、このメソッドを自然かつエレガントな方法でマルチソースシナリオに拡張します。 4つのベンチマークに関する広範囲な実験は、教師なしドメイン適応と複数ソースドメイン適応の両方における提案モデルの有効性を検証する。

Unsupervised domain adaptation studies how to transfer a learner from a labeled source domain to an unlabeled target domain with different distributions. Existing methods mainly focus on matching the marginal distributions of the source and target domains, which probably lead a misalignment of samples from the same class but different domains. In this paper, we deal with this misalignment by achieving the class-conditioned transferring from a new perspective. We aim to maximize the conditional independence of feature and domain given class in the reproducing kernel Hilbert space. The optimization of the conditional independence measure can be viewed as minimizing a surrogate of a certain mutual information between feature and domain. An interpretable empirical estimation of the conditional dependence is deduced and connected with the unconditional case. Besides, we provide an upper bound on the target error by taking the class-conditional distribution into account, which provides a new theoretical insight for most class-conditioned transferring methods. In addition to unsupervised domain adaptation, we extend our method to the multi-source scenario in a natural and elegant way. Extensive experiments on four benchmarks validate the effectiveness of the proposed models in both unsupervised domain adaptation and multiple source domain adaptation.
翻訳日:2022-03-08 15:21:13 公開日:2022-03-07
# グラフ表現を用いた画像分類と強化学習のためのグラフニューラルネットワーク

Graph Neural Networks for Image Classification and Reinforcement Learning using Graph representations ( http://arxiv.org/abs/2203.03457v1 )

ライセンス: Link先を確認
Naman Goyal, David Steiner(参考訳) 本稿では,コンピュータビジョンと強化学習の2つの分野において,グラフニューラルネットワークの性能を評価する。 コンピュータビジョンのセクションでは、グラフとしての画像に対する新しい非冗長表現が、グラフレベルの予測グラフ、特に画像分類において、自明なピクセルからノードマッピングへの性能向上を図っている。 強化学習部では,グラフ問題としてルービックキューブの解法を明示的にモデル化することで,帰納バイアスのない標準モデルフリー手法の性能向上を図っている。

In this paper, we will evaluate the performance of graph neural networks in two distinct domains: computer vision and reinforcement learning. In the computer vision section, we seek to learn whether a novel non-redundant representation for images as graphs can improve performance over trivial pixel to node mapping on a graph-level prediction graph, specifically image classification. For the reinforcement learning section, we seek to learn if explicitly modeling solving a Rubik's cube as a graph problem can improve performance over a standard model-free technique with no inductive bias.
翻訳日:2022-03-08 15:20:42 公開日:2022-03-07
# 調音機能を有する低音源テキスト音声のための言語非依存メタラーニング

Language-Agnostic Meta-Learning for Low-Resource Text-to-Speech with Articulatory Features ( http://arxiv.org/abs/2203.03191v1 )

ライセンス: Link先を確認
Florian Lux, Ngoc Thang Vu(参考訳) ニューラル・テキスト・ツー・スパイチシステムは高リソースのシナリオでは著しく機能するが、適切なトレーニングデータがないため、世界中の6,000以上の音声言語の大部分に適用することはできない。 本研究では,言語間で保持される音素表現を学習するために,音素の同一性に由来する埋め込みよりも,調音ベクトルに由来する埋め込みを用いる。 言語に依存しないメタ学習と組み合わせることで、これまで見られなかった話者が話していた、30分間のデータで高品質なテキスト音声モデルを微調整できる。

While neural text-to-speech systems perform remarkably well in high-resource scenarios, they cannot be applied to the majority of the over 6,000 spoken languages in the world due to a lack of appropriate training data. In this work, we use embeddings derived from articulatory vectors rather than embeddings derived from phoneme identities to learn phoneme representations that hold across languages. In conjunction with language agnostic meta learning, this enables us to fine-tune a high-quality text-to-speech model on just 30 minutes of data in a previously unseen language spoken by a previously unseen speaker.
翻訳日:2022-03-08 15:20:32 公開日:2022-03-07
# グラフオートエンコーダ再構成に基づく高速コミュニティ検出

Fast Community Detection based on Graph Autoencoder Reconstruction ( http://arxiv.org/abs/2203.03151v1 )

ライセンス: Link先を確認
Chenyang Qiu, Zhaoci Huang, Wenzhe Xu, Huijia Li(参考訳) ビッグデータの急速な発展に伴い、大規模ネットワークにおける知識発見のための厳密なコミュニティ構造を効率的に正確に発見する方法が注目されている。 本稿では,グラフオートエンコーダ再構成(GAER)に基づくコミュニティ検出フレームワークを初めて提案する。 GAERは、事前情報を必要としない高度にスケーラブルなフレームワークである。 グラフオートエンコーダベースのワンステップエンコーディングを2段階エンコーディングフレームワークに分解し,元のo(n^2)からo(n)への複雑さを低減し,実世界のビッグデータシステムに適用する。 同時にGAERサポートモジュールのプラグ・アンド・プレイ構成とインクリメンタルなコミュニティ検出の利点を生かして、より高速で新しいノードのコミュニティ検出を実現し、モデル推論を6.15倍から14.03倍の速度で高速化する、リアルタイムな大規模グラフのためのピア認識ベースのモジュールを提案する。 最後に、GAERを大規模ネットワークを含む複数の実世界のデータセットに適用する。 実験の結果、GAERは、ほぼ全てのネットワークで優れた性能を達成していることがわかった。

With the rapid development of big data, how to efficiently and accurately discover tight community structures in large-scale networks for knowledge discovery has attracted more and more attention. In this paper, a community detection framework based on Graph AutoEncoder Reconstruction (noted as GAER) is proposed for the first time. GAER is a highly scalable framework which does not require any prior information. We decompose the graph autoencoder-based one-step encoding into the two-stage encoding framework to adapt to the real-world big data system by reducing complexity from the original O(N^2) to O(N). At the same time, based on the advantages of GAER support module plug-and-play configuration and incremental community detection, we further propose a peer awareness based module for real-time large graphs, which can realize the new nodes community detection at a faster speed, and accelerate model inference with the 6.15 times - 14.03 times speed. Finally, we apply the GAER on multiple real-world datasets, including some large-scale networks. The experimental result verified that GAER has achieved the superior performance on almost all networks.
翻訳日:2022-03-08 15:17:08 公開日:2022-03-07
# スライスアウェアモビリティロバストネス最適化のための深層強化学習における知識伝達

Knowledge Transfer in Deep Reinforcement Learning for Slice-Aware Mobility Robustness Optimization ( http://arxiv.org/abs/2203.03227v1 )

ライセンス: Link先を確認
Qi Liao and Tianlun Hu and Dan Wellington(参考訳) 自己組織化ネットワークにおけるレガシーモビリティロバストネス最適化(MRO)は,セル固有のハンドオーバパラメータを最適化してハンドオーバ性能を向上させることを目的としている。 しかし,ネットワークスライシングによる次世代ネットワークの必要性は,受信信号の強度が保証されるだけでなく,スライス毎のサービス品質が保証されないため,そのようなソリューションでは満足できない。 真のシームレスモビリティサービスを提供するため,我々は,スライス特有のハンドオーバパラメータを最適化することで,スライス毎のサービス保証によるハンドオーバ性能を向上させる,深層強化学習に基づくスライスアウェアモビリティロバストネス最適化(samro)手法を提案する。 さらに,効率的なオンライン学習を実現するために,2段階の転校学習方式を開発した。 1)正則なオフライン強化学習、及び 2) 複合体験リプレイによる効果的なオンラインファインチューニング。 システムレベルのシミュレーションでは、従来のMROアルゴリズムと比較すると、SAMROはハンドオーバ性能を最適化しながらスライス対応サービスの継続性を著しく改善する。

The legacy mobility robustness optimization (MRO) in self-organizing networks aims at improving handover performance by optimizing cell-specific handover parameters. However, such solutions cannot satisfy the needs of next-generation network with network slicing, because it only guarantees the received signal strength but not the per-slice service quality. To provide the truly seamless mobility service, we propose a deep reinforcement learning-based slice-aware mobility robustness optimization (SAMRO) approach, which improves handover performance with per-slice service assurance by optimizing slice-specific handover parameters. Moreover, to allow safe and sample efficient online training, we develop a two-step transfer learning scheme: 1) regularized offline reinforcement learning, and 2) effective online fine-tuning with mixed experience replay. System-level simulations show that compared against the legacy MRO algorithms, SAMRO significantly improves slice-aware service continuation while optimizing the handover performance.
翻訳日:2022-03-08 15:16:51 公開日:2022-03-07
# 音響シーン分類のための深層神経決定林

Deep Neural Decision Forest for Acoustic Scene Classification ( http://arxiv.org/abs/2203.03436v1 )

ライセンス: Link先を確認
Jianyuan Sun, Xubo Liu, Xinhao Mei, Jinzheng Zhao, Mark D. Plumbley, Volkan K{\i}l{\i}\c{c}, Wenwu Wang(参考訳) 音響シーン分類(ASC)は、録音環境の特性に基づいて音声クリップを分類することを目的とする。 この点において、深層学習に基づくアプローチは、ASC問題に有用なツールとして現れている。 従来の分類精度の改善には、注意機構、事前訓練されたモデル、複数のサブネットワークのアンサンブルといった補助的な手法の統合が含まれる。 しかし、異なる環境から取得した音声クリップの複雑さのため、一つの分類器だけで既存のディープラーニングモデルに補助的な手法を使わずに、それらのカテゴリを区別することは困難である。 本稿では,深層神経決定林(DNDF)を用いたASCの新しいアプローチを提案する。 DNDFは固定数の畳み込み層と決定林を最終分類器として結合する。 決定林は一定数の決定木分類器から構成されており、いくつかのデータセットでは単一の分類器よりも優れた分類性能が示されている。 特に、決定林は確率的で微分可能であり、バックプロパゲーションを使用してニューラルネットワークで特徴表現を更新および学習することができるため、従来のランダム林とは大きく異なる。 dcase2019およびesc-50データセットにおける実験結果から,提案手法は分類精度の面でasc性能を改善し,最先端のベースラインと比較して競合性能を示す。

Acoustic scene classification (ASC) aims to classify an audio clip based on the characteristic of the recording environment. In this regard, deep learning based approaches have emerged as a useful tool for ASC problems. Conventional approaches to improving the classification accuracy include integrating auxiliary methods such as attention mechanism, pre-trained models and ensemble multiple sub-networks. However, due to the complexity of audio clips captured from different environments, it is difficult to distinguish their categories without using any auxiliary methods for existing deep learning models using only a single classifier. In this paper, we propose a novel approach for ASC using deep neural decision forest (DNDF). DNDF combines a fixed number of convolutional layers and a decision forest as the final classifier. The decision forest consists of a fixed number of decision tree classifiers, which have been shown to offer better classification performance than a single classifier in some datasets. In particular, the decision forest differs substantially from traditional random forests as it is stochastic, differentiable, and capable of using the back-propagation to update and learn feature representations in neural network. Experimental results on the DCASE2019 and ESC-50 datasets demonstrate that our proposed DNDF method improves the ASC performance in terms of classification accuracy and shows competitive performance as compared with state-of-the-art baselines.
翻訳日:2022-03-08 15:16:31 公開日:2022-03-07
# マルチエージェント強化学習における長期行動の影響

Influencing Long-Term Behavior in Multiagent Reinforcement Learning ( http://arxiv.org/abs/2203.03535v1 )

ライセンス: Link先を確認
Dong-Ki Kim, Matthew Riemer, Miao Liu, Jakob N. Foerster, Michael Everett, Chuangchuang Sun, Gerald Tesauro, Jonathan P. How(参考訳) マルチエージェント強化学習の主な課題は、環境の遷移と報酬のダイナミクスに共同で行動を変える他の学習エージェントの存在下で有用な政策を学ぶことの難しさである。 この非定常性に対処するために最近登場した効果的なアプローチは、各エージェントが他の相互作用するエージェントの学習を予測し、自身の利益のために望ましい行動に向けた将来のポリシーの進化に影響を与えることである。 残念なことに、これを達成するための以前のアプローチはすべて、他のエージェントのポリシーにほんの数、あるいは有限の更新しか考慮せずに、近視的評価に苦しめられている。 本稿では,時間が無限に近づくとき,他のエージェントの制限ポリシーを考えるための原則的枠組みを提案する。 具体的には,各エージェントの平均報酬を最大化する新しい最適化目標を策定し,その行動が他のエージェントが採用するポリシーの制限セットに与える影響を直接考慮する。 両分野の総合的,競争的,協力的な設定の完全なスペクトルを含む,最先端のベースラインよりも長期的パフォーマンスが向上した。

The main challenge of multiagent reinforcement learning is the difficulty of learning useful policies in the presence of other simultaneously learning agents whose changing behaviors jointly affect the environment's transition and reward dynamics. An effective approach that has recently emerged for addressing this non-stationarity is for each agent to anticipate the learning of other interacting agents and influence the evolution of their future policies towards desirable behavior for its own benefit. Unfortunately, all previous approaches for achieving this suffer from myopic evaluation, considering only a few or a finite number of updates to the policies of other agents. In this paper, we propose a principled framework for considering the limiting policies of other agents as the time approaches infinity. Specifically, we develop a new optimization objective that maximizes each agent's average reward by directly accounting for the impact of its behavior on the limiting set of policies that other agents will take on. Thanks to our farsighted evaluation, we demonstrate better long-term performance than state-of-the-art baselines in various domains, including the full spectrum of general-sum, competitive, and cooperative settings.
翻訳日:2022-03-08 15:16:10 公開日:2022-03-07
# TIGGER: 時間的相互作用グラフのためのスケーラブルな生成モデル

TIGGER: Scalable Generative Modelling for Temporal Interaction Graphs ( http://arxiv.org/abs/2203.03564v1 )

ライセンス: Link先を確認
Shubham Gupta, Sahil Manchanda, Srikanta Bedathur and Sayan Ranu(参考訳) 近年,グラフ生成モデルの学習が急増している。 静的グラフ上では目覚ましい進歩があったが、時間グラフの生成モデリングの研究は、改善のための大きなスコープを持つ初期段階にある。 まず、既存の生成モデルは、時間軸とノード数の両方でスケールしない。 第二に、既存の技術は本質的にトランスダクティブであり、そのため知識の伝達が容易ではない。 最後に、ソースから生成されたグラフへの1対1のノードマッピングに依存するため、既存のモデルではノード識別情報が漏洩し、ソースグラフサイズをアップスケーリング/ダウンスケーリングすることができない。 本稿では,このギャップをTIGGERと呼ばれる新しい生成モデルで埋める。 TIGGERは、時間点過程と自己回帰モデリングを組み合わせることで、トランスダクティブとインダクティブの両方の変形を可能にする。 実際のデータセットに関する広範な実験を通じて、TIGGERは優れた忠実度のグラフを生成すると同時に、最先端技術よりも最大3桁高速であることを示す。

There has been a recent surge in learning generative models for graphs. While impressive progress has been made on static graphs, work on generative modeling of temporal graphs is at a nascent stage with significant scope for improvement. First, existing generative models do not scale with either the time horizon or the number of nodes. Second, existing techniques are transductive in nature and thus do not facilitate knowledge transfer. Finally, due to relying on one-to-one node mapping from source to the generated graph, existing models leak node identity information and do not allow up-scaling/down-scal ing the source graph size. In this paper, we bridge these gaps with a novel generative model called TIGGER. TIGGER derives its power through a combination of temporal point processes with auto-regressive modeling enabling both transductive and inductive variants. Through extensive experiments on real datasets, we establish TIGGER generates graphs of superior fidelity, while also being up to 3 orders of magnitude faster than the state-of-the-art.
翻訳日:2022-03-08 15:15:29 公開日:2022-03-07
# (参考訳) 階層的強化学習におけるクレジット割り当てについて [全文訳有]

On Credit Assignment in Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2203.03292v1 )

ライセンス: CC BY 4.0
Joery A. de Vries, Thomas M. Moerland, Aske Plaat(参考訳) 階層強化学習(HRL)は、長年にわたって強化学習の推進を約束してきた。 しかし、これらの約束のいくつかを示す実用的なアルゴリズムを開発することは、依然としてかなりの課題である。 HRLの基本的な理解を深めるために,従来の多段階強化学習の観点から階層的信用割当を検討する。 例えば、1ステップの‘階層的バックアップ’を従来のマルチステップバックアップとして見る場合、次の各状態と、その間の最初の独立したアクションを接続する時間に対して、$n$のスキップ接続を持つ方法を示す。 さらに,階層構造を多段階回帰推定法に一般化するには,バックアップパスを構築するために環境トレースを分割する方法を検討する必要がある。 我々はこれらの洞察を活用して新しい階層的アルゴリズムであるHier$Q_k(\lambda)$を開発する。 全体として、私たちの研究は階層的バックアップの性質に関する基本的な洞察を与え、強化学習研究のための追加の基盤として区別します。

Hierarchical Reinforcement Learning (HRL) has held longstanding promise to advance reinforcement learning. Yet, it has remained a considerable challenge to develop practical algorithms that exhibit some of these promises. To improve our fundamental understanding of HRL, we investigate hierarchical credit assignment from the perspective of conventional multistep reinforcement learning. We show how e.g., a 1-step `hierarchical backup' can be seen as a conventional multistep backup with $n$ skip connections over time connecting each subsequent state to the first independent of actions inbetween. Furthermore, we find that generalizing hierarchy to multistep return estimation methods requires us to consider how to partition the environment trace, in order to construct backup paths. We leverage these insight to develop a new hierarchical algorithm Hier$Q_k(\lambda)$, for which we demonstrate that hierarchical credit assignment alone can already boost agent performance (i.e., when eliminating generalization or exploration). Altogether, our work yields fundamental insight into the nature of hierarchical backups and distinguishes this as an additional basis for reinforcement learning research.
翻訳日:2022-03-08 15:11:42 公開日:2022-03-07
# 電子商取引におけるマルチモーダル属性抽出

Multi-Modal Attribute Extraction for E-Commerce ( http://arxiv.org/abs/2203.03441v1 )

ライセンス: Link先を確認
Alo\"is De la Comble, Anuvabh Dutt, Pablo Montalvo, Aghiles Salah(参考訳) オンラインマーケットプレースが提供する無数のオプションをナビゲートする上で、ユーザエクスペリエンスを向上させるためには、適切に整理された製品カタログを持つことが不可欠である。 ひとつ重要な要素は、色や素材などの製品属性が利用できることだ。 しかし、私たちが注目する落天一葉など一部の市場では、属性情報が不完全あるいは欠落していることが多い。 この問題に対する有望な解決策の1つは、大きなコーパスに事前訓練された深層モデルに頼り、製品記述テキストや画像などの非構造化データから属性を予測することである。 しかし,本論文では,本手法で満足な性能を実現することは容易ではなく,いくつかの改良の結果であることがわかった。 本稿では,属性抽出のアプローチについて,強い単一モダリティ法の検討から,テキスト情報と視覚情報を組み合わせた定型マルチモーダルモデルの構築まで,詳細な説明を行う。 マルチモーダルアーキテクチャの重要なコンポーネントのひとつは、単一モダリティ調査から着想を得た、シームレスにモダリティを結合する新しいアプローチです。 実際、この新しいモダリティマージ手法はモダリティ崩壊の問題、すなわち1つのモダリティを無視する可能性があることに気付く。 そこで本研究では,本問題に対する原理的正則化スキームに基づく緩和を提案する。 楽天一葉データを用いた実験は,楽天一葉への展開にも成功している。 また,最近のマルチモーダルベースラインやユニモーダルベースラインと比較して,我々のモデルが競争力があることを示すデータセットの公開結果も報告した。

To improve users' experience as they navigate the myriad of options offered by online marketplaces, it is essential to have well-organized product catalogs. One key ingredient to that is the availability of product attributes such as color or material. However, on some marketplaces such as Rakuten-Ichiba, which we focus on, attribute information is often incomplete or even missing. One promising solution to this problem is to rely on deep models pre-trained on large corpora to predict attributes from unstructured data, such as product descriptive texts and images (referred to as modalities in this paper). However, we find that achieving satisfactory performance with this approach is not straightforward but rather the result of several refinements, which we discuss in this paper. We provide a detailed description of our approach to attribute extraction, from investigating strong single-modality methods, to building a solid multimodal model combining textual and visual information. One key component of our multimodal architecture is a novel approach to seamlessly combine modalities, which is inspired by our single-modality investigations. In practice, we notice that this new modality-merging method may suffer from a modality collapse issue, i.e., it neglects one modality. Hence, we further propose a mitigation to this problem based on a principled regularization scheme. Experiments on Rakuten-Ichiba data provide empirical evidence for the benefits of our approach, which has been also successfully deployed to Rakuten-Ichiba. We also report results on publicly available datasets showing that our model is competitive compared to several recent multimodal and unimodal baselines.
翻訳日:2022-03-08 14:42:40 公開日:2022-03-07
# ILDAE: 評価データのインスタンスレベル問題解析

ILDAE: Instance-Level Difficulty Analysis of Evaluation Data ( http://arxiv.org/abs/2203.03073v1 )

ライセンス: Link先を確認
Neeraj Varshney, Swaroop Mishra, and Chitta Baral(参考訳) 質問の難易度に関する知識は、慎重に選択された質問をすることで、生徒のポテンシャルを素早く推定し、自明で難しい質問を修正して、試験の質を向上させるなど、教師の助けとなる。 nlpのインスタンス難易度というメリットを享受できるでしょうか? この目的のために、23のデータセットを大規模にセットアップしたILDAE(Instance-Level Difficulty Analysis of Evaluation Data)を実施し、その5つの新しい応用を実証する。 1) 計算コストと時間を節約する少ないインスタンスで効率良く正確な評価を行うこと。 2)誤例及び自明例の修正による既存評価データセットの品質向上 3) アプリケーション要件に基づいて最適なモデルを選択する。 4)将来のデータ作成を導くためのデータセット特性の分析 5) ドメイン外のパフォーマンスを確実に見積もる。 これらのアプリケーションに対する総合的な実験は、5%のインスタンス(ILDAE経由で選択される)による評価が、完全なデータセットによる評価と最大0.93のKendall相関、難易度スコアを用いた計算重み付き精度などの興味深い結果をもたらす。 我々は、難易度スコアを公表し、分析と結果が、評価においてインスタンスの難易度を活用するこの重要かつ未検討の分野により多くの注意を向けることを期待する。

Knowledge of questions' difficulty level helps a teacher in several ways, such as estimating students' potential quickly by asking carefully selected questions and improving quality of examination by modifying trivial and hard questions. Can we extract such benefits of instance difficulty in NLP? To this end, we conduct Instance-Level Difficulty Analysis of Evaluation data (ILDAE) in a large-scale setup of 23 datasets and demonstrate its five novel applications: 1) conducting efficient-yet-accura te evaluations with fewer instances saving computational cost and time, 2) improving quality of existing evaluation datasets by repairing erroneous and trivial instances, 3) selecting the best model based on application requirements, 4) analyzing dataset characteristics for guiding future data creation, 5) estimating Out-of-Domain performance reliably. Comprehensive experiments for these applications result in several interesting findings, such as evaluation using just 5% instances (selected via ILDAE) achieves as high as 0.93 Kendall correlation with evaluation using complete dataset and computing weighted accuracy using difficulty scores leads to 5.2% higher correlation with Out-of-Domain performance. We release the difficulty scores and hope our analyses and findings will bring more attention to this important yet understudied field of leveraging instance difficulty in evaluations.
翻訳日:2022-03-08 14:42:12 公開日:2022-03-07
# 一つのモデル、複数のタスク:自然言語理解のための経路

One Model, Multiple Tasks: Pathways for Natural Language Understanding ( http://arxiv.org/abs/2203.03312v1 )

ライセンス: Link先を確認
Duyu Tang, Fan Zhang, Yong Dai, Cong Zhou, Shuangzhi Wu and Shuming Shi(参考訳) 本稿では,複数のタスクを同時に処理するためのPathwaysアプローチを提案する。 我々のアプローチは汎用的でまばらです。 個々のタスクを多用し,新たなタスクに拡張した場合にスクラッチから学習する,汎用的な単一目的モデルとは異なり,既存のスキルを縫い合わせて新しいタスクをより効果的に学ぶための汎用的なアプローチである。 すべてのモデルパラメータを常に活性化する従来の高密度モデルとは異なり、我々のアプローチはわずかに活性化され、モデルの関連する部分(ネットワークを通る経路など)だけが活性化されます。 我々は、自然言語理解を事例研究として捉え、テキストの感情を理解するスキルである『textit{the』や、自然言語の質問を理解するスキルである『textit{the』といった一連のスキルを定義する。 これらのスキルは再利用され、様々なタスクや状況をサポートするために組み合わせられる。 バックボーンとしてTransformerを用いたシステムを開発した。 それぞれのスキルに対して,そのスキルがタスクに関連する場合にのみ有効となる,スキル固有のフィードフォワードネットワークを実装した。 モデルの特徴は, 微調整を緩やかに行うだけでなく, マスク付き言語モデリングと次の文予測を併用して, スキルの訓練も行うことができる点である。 このモデルを \textbf{skillnet} と呼ぶ。 主な発見は3つある。 まず、1つのモデルチェックポイントだけで、SkillNetは6つのタスクでタスク固有の微調整と2つのマルチタスク学習ベースライン(密集モデルとMixture-of-Expertsモデル)よりパフォーマンスがよい。 第二に、わずかにアクティベートされた事前トレーニングにより、全体的なパフォーマンスがさらに向上する。 第3に、skillnetは、新しいタスクに拡張されたときにベースラインシステムを大幅に上回っている。

This paper presents a Pathways approach to handle many tasks at once. Our approach is general-purpose and sparse. Unlike prevailing single-purpose models that overspecialize at individual tasks and learn from scratch when being extended to new tasks, our approach is general-purpose with the ability of stitching together existing skills to learn new tasks more effectively. Different from traditional dense models that always activate all the model parameters, our approach is sparsely activated: only relevant parts of the model (like pathways through the network) are activated. We take natural language understanding as a case study and define a set of skills like \textit{the skill of understanding the sentiment of text} and \textit{the skill of understanding natural language questions}. These skills can be reused and combined to support many different tasks and situations. We develop our system using Transformer as the backbone. For each skill, we implement skill-specific feed-forward networks, which are activated only if the skill is relevant to the task. An appealing feature of our model is that it not only supports sparsely activated fine-tuning, but also allows us to pretrain skills in the same sparse way with masked language modeling and next sentence prediction. We call this model \textbf{SkillNet}. We have three major findings. First, with only one model checkpoint, SkillNet performs better than task-specific fine-tuning and two multi-task learning baselines (i.e., dense model and Mixture-of-Experts model) on six tasks. Second, sparsely activated pre-training further improves the overall performance. Third, SkillNet significantly outperforms baseline systems when being extended to new tasks.
翻訳日:2022-03-08 14:41:49 公開日:2022-03-07
# 事前学習型視覚モデルによる制御の有効性について

The Unsurprising Effectiveness of Pre-Trained Vision Models for Control ( http://arxiv.org/abs/2203.03580v1 )

ライセンス: Link先を確認
Simone Parisi, Aravind Rajeswaran, Senthil Purushwalkam, Abhinav Gupta(参考訳) 近年、コンピュータビジョン、自然言語、音声におけるAIアプリケーションのための強力な抽象化として、事前訓練された表現が出現している。 しかし、制御のためのポリシー学習は依然としてタブララサ学習パラダイムに支配されており、visuo-motorポリシーはしばしばデプロイ環境のデータを使用してスクラッチからトレーニングされる。 この文脈では、制御のための事前訓練された視覚表現、特に大規模コンピュータビジョンデータセットで訓練された表現の役割を再検討し、研究する。 多様なコントロールドメイン(habitat, deepmind control, adroit, franka kitchen)における広範な経験的評価を通じて,異なる表現訓練方法,データ拡張,特徴階層の重要性を分離し,検討した。 全体として、事前訓練された視覚的表現は、制御ポリシーをトレーニングする上で、接地状態表現よりも競争力があるか、あるいは優れていることが分かりました。 これは標準ビジョンデータセットからのドメイン外データのみを使用してはいるが、デプロイメント環境からのドメイン内データはない。 詳細とソースコードはhttps://sites.google .com/view/pvr-contro lで確認できる。

Recent years have seen the emergence of pre-trained representations as a powerful abstraction for AI applications in computer vision, natural language, and speech. However, policy learning for control is still dominated by a tabula-rasa learning paradigm, with visuo-motor policies often trained from scratch using data from deployment environments. In this context, we revisit and study the role of pre-trained visual representations for control, and in particular representations trained on large-scale computer vision datasets. Through extensive empirical evaluation in diverse control domains (Habitat, DeepMind Control, Adroit, Franka Kitchen), we isolate and study the importance of different representation training methods, data augmentations, and feature hierarchies. Overall, we find that pre-trained visual representations can be competitive or even better than ground-truth state representations to train control policies. This is in spite of using only out-of-domain data from standard vision datasets, without any in-domain data from the deployment environments. Additional details and source code is available at https://sites.google .com/view/pvr-contro l
翻訳日:2022-03-08 14:38:41 公開日:2022-03-07
# 製薬業界の予測維持のための軸受の劣化段階予測

Predicting Bearings' Degradation Stages for Predictive Maintenance in the Pharmaceutical Industry ( http://arxiv.org/abs/2203.03259v1 )

ライセンス: Link先を確認
Dovile Juodelyte, Veronika Cheplygina, Therese Graversen, Philippe Bonnet(参考訳) 製薬業界では、生産機械のメンテナンスを規制当局が監査しなければならない。 この文脈では、予測メンテナンスの問題は、マシンをいつ維持するかではなく、ある時点においてどの部分を維持するべきかである。 フォーカスはマシン全体からコンポーネント部分へとシフトし、予測は分類問題となる。 本稿では,転がり要素軸受に着目し,劣化ステージを自動的に予測する枠組みを提案する。 本研究の主な貢献は,オートエンコーダを用いた低次元部分空間に埋め込んだ高周波受動振動信号に基づくK平均寿命分割法である。 高周波振動データを与えると, 軸受劣化ステージ検出のための教師ありモデルの訓練に使用されるラベル付きデータセットを生成する。 femtoのベアリングデータセットに基づく実験結果から,当社のフレームワークはスケーラブルであり,さまざまなベアリングに対して信頼性と実行可能な予測を提供する。

In the pharmaceutical industry, the maintenance of production machines must be audited by the regulator. In this context, the problem of predictive maintenance is not when to maintain a machine, but what parts to maintain at a given point in time. The focus shifts from the entire machine to its component parts and prediction becomes a classification problem. In this paper, we focus on rolling-elements bearings and we propose a framework for predicting their degradation stages automatically. Our main contribution is a k-means bearing lifetime segmentation method based on high-frequency bearing vibration signal embedded in a latent low-dimensional subspace using an AutoEncoder. Given high-frequency vibration data, our framework generates a labeled dataset that is used to train a supervised model for bearing degradation stage detection. Our experimental results, based on the FEMTO Bearing dataset, show that our framework is scalable and that it provides reliable and actionable predictions for a range of different bearings.
翻訳日:2022-03-08 14:38:23 公開日:2022-03-07
# 入力チューニング: 未慣れな入力を凍結事前学習モデルに適用する

Input-Tuning: Adapting Unfamiliar Inputs to Frozen Pretrained Models ( http://arxiv.org/abs/2203.03131v1 )

ライセンス: Link先を確認
Shengnan An, Yifei Li, Zeqi Lin, Qian Liu, Bei Chen, Qiang Fu, Weizhu Chen, Nanning Zheng and Jian-Guang Lou(参考訳) 近年,プロンプトチューニングパラダイムが注目されている。 凍った事前学習された言語モデル(plm)で連続的なプロンプトをチューニングするだけで、プロンプトチューニングは、多数のダウンストリームタスクを提供するために共有凍結plmをデプロイするステップを踏む。 プロンプトチューニングは、特定の自然言語理解(NLU)タスクにおいて優れた性能を示すが、自然言語生成(NLG)タスクに対する効果はまだ未定である。 本稿では,nlgタスクにおけるプロンプトチューニングの発達を妨げる要因の一つとして,不慣れな入力(つまり,入力が事前学習コーパスと言語的に異なる)があると主張する。 例えば,NLGタスクにおいて不慣れな入力が頻繁に発生する場合に,プロンプトチューニングと微調整の間に大きなパフォーマンスギャップが生じる。 これにより、連続的なプロンプトと入力表現の両方を微調整し、不慣れな入力を凍結したPLMに適応させるより効果的な方法が提案される。 提案する入力チューニングは概念上シンプルかつ経験的に強力である。 7つのNLGタスクの実験結果から,インプットチューニングはプロンプトチューニングよりも有意に,一貫して優れていることが示された。 さらに、これらの3つのタスクにおいて、インプットチューニングは微調整よりも同等またはそれ以上のパフォーマンスを達成することができる。

Recently the prompt-tuning paradigm has attracted significant attention. By only tuning continuous prompts with a frozen pre-trained language model (PLM), prompt-tuning takes a step towards deploying a shared frozen PLM to serve numerous downstream tasks. Although prompt-tuning shows good performance on certain natural language understanding (NLU) tasks, its effectiveness on natural language generation (NLG) tasks is still under-explored. In this paper, we argue that one of the factors hindering the development of prompt-tuning on NLG tasks is the unfamiliar inputs (i.e., inputs are linguistically different from the pretraining corpus). For example, our preliminary exploration reveals a large performance gap between prompt-tuning and fine-tuning when unfamiliar inputs occur frequently in NLG tasks. This motivates us to propose input-tuning, which fine-tunes both the continuous prompts and the input representations, leading to a more effective way to adapt unfamiliar inputs to frozen PLMs. Our proposed input-tuning is conceptually simple and empirically powerful. Experimental results on seven NLG tasks demonstrate that input-tuning is significantly and consistently better than prompt-tuning. Furthermore, on three of these tasks, input-tuning can achieve a comparable or even better performance than fine-tuning.
翻訳日:2022-03-08 14:35:55 公開日:2022-03-07
# ショット学習者としての事前学習トークン置換検出モデル

Pre-trained Token-replaced Detection Model as Few-shot Learner ( http://arxiv.org/abs/2203.03235v1 )

ライセンス: Link先を確認
Zicheng Li, Shoushan Li, Guodong Zhou(参考訳) 事前訓練されたマスク付き言語モデルは、数発の学習者として顕著な能力を示した。 本稿では,ELECTRAのような事前訓練されたトークン置換検出モデルを用いた少数ショット学習手法を提案する。 このアプローチでは,分類や回帰タスクをトークン再配置検出問題として再編成する。 具体的には、まず各タスクのテンプレートとラベル記述語を定義し、それらを入力に入力して自然言語プロンプトを作成する。 次に,プリトレーニングされたトークン置換検出モデルを用いて,各ラベル記述語のうち,どのラベル記述語が最もオリジナル(すなわち,少なくとも置き換えられた)であるかをプロンプトで予測する。 16個のデータセットを体系的に評価した結果,事前学習されたマスキング言語モデルを用いて,単文学習と2文学習の両方において,本手法が少数の学習者よりも優れていることが示された。

Pre-trained masked language models have demonstrated remarkable ability as few-shot learners. In this paper, as an alternative, we propose a novel approach to few-shot learning with pre-trained token-replaced detection models like ELECTRA. In this approach, we reformulate a classification or a regression task as a token-replaced detection problem. Specifically, we first define a template and label description words for each task and put them into the input to form a natural language prompt. Then, we employ the pre-trained token-replaced detection model to predict which label description word is the most original (i.e., least replaced) among all label description words in the prompt. A systematic evaluation on 16 datasets demonstrates that our approach outperforms few-shot learners with pre-trained masked language models in both one-sentence and two-sentence learning tasks.
翻訳日:2022-03-08 14:35:33 公開日:2022-03-07
# テキストベースカウンセリングにおけるリアルタイム自動評価

Towards Automated Real-time Evaluation in Text-based Counseling ( http://arxiv.org/abs/2203.03442v1 )

ライセンス: Link先を確認
Anqi Li, Jingsong Ma, Lizhi Ma, Pengfei Fang, Hongliang He, Zhenzhong Lan(参考訳) カウンセラーとクライアントのインタラクションのリアルタイム自動評価は品質カウンセリングの確保に重要であるが,ルールの明確化は困難である。 近年の機械学習手法の進歩は、このようなルールを自動的に学習する可能性を示している。 しかし,これらの手法は大規模かつ高品質なカウンセリングデータを必要とすることが多く,収集が困難である。 この問題に対処するために、私たちはオンラインカウンセリングプラットフォームを構築します。 それと引き換えに、カウンセリングの書き起こしを集めます。 手術から1年以内に,カウンセリングセッションにおいて,最大 (675) 個のカウンセリングセッションが得られた。 貴重なデータをさらに活用するために、粗いラベルときめ細かいラベルの両方を使用してデータセットをラベル付けし、一連の事前トレーニング技術を使用します。 いずれのラベリングシステムにおいても,実用的に有用な精度を実現することができる。

Automated real-time evaluation of counselor-client interaction is important for ensuring quality counseling but the rules are difficult to articulate. Recent advancements in machine learning methods show the possibility of learning such rules automatically. However, these methods often demand large scale and high quality counseling data, which are difficult to collect. To address this issue, we build an online counseling platform, which allows professional psychotherapists to provide free counseling services to those are in need. In exchange, we collect the counseling transcripts. Within a year of its operation, we manage to get one of the largest set of (675) transcripts of counseling sessions. To further leverage the valuable data we have, we label our dataset using both coarse- and fine-grained labels and use a set of pretraining techniques. In the end, we are able to achieve practically useful accuracy in both labeling system.
翻訳日:2022-03-08 14:35:21 公開日:2022-03-07
# 画像レベルの弱教師付き視覚概念認識による未ペア画像キャプション

Unpaired Image Captioning by Image-level Weakly-Supervised Visual Concept Recognition ( http://arxiv.org/abs/2203.03195v1 )

ライセンス: Link先を確認
Peipei Zhu, Xiao Wang, Yong Luo, Zhenglong Sun, Wei-Shi Zheng, Yaowei Wang, and Changwen Chen(参考訳) 非ペア画像キャプション(unpaired image captioning, uic)の目的は、訓練段階で画像キャプチャペアを使用せずに画像を記述することである。 課題はあるものの、視覚的概念に整合した画像のトレーニングセットを活用することで、タスク以外は達成できる。 既存の研究の多くは、トレーニングに使用するバウンディングボックス(bbox)ラベルやリレーショントリップレットラベルの取得に費用がかかるため、市販のアルゴリズムを使用して視覚概念を取得する。 高価なアノテーションの問題を解決するために,コスト効率の高いUICを実現するための新しいアプローチを提案する。 具体的には、UICモデルの最適化に画像レベルのラベルを弱教師付き方式で採用する。 各画像について、画像レベルラベルのみが特定の位置と番号なしで利用可能であると仮定する。 画像レベルラベルを用いて弱教師付きオブジェクト認識モデルを訓練し、画像中のオブジェクト情報(例えば、画像中のオブジェクト情報)を抽出し、抽出されたインスタンスを用いて拡張グラフニューラルネットワーク(gnn)に基づいて異なるオブジェクト間の関係を推測する。 提案手法は,アノテーションコストのかかる従来の手法と比較して,同等あるいはさらに優れた性能を実現する。 さらに,認識されていない物体(UnO)の損失と視覚的概念報酬を組み合わせて,推定対象と画像の関係情報との整合性を改善する。 既存のUICモデルでは、存在しないオブジェクトで文を生成する際の問題を効果的に緩和することができる。 我々の知る限りでは、画像レベルラベルのみに基づくUIC(WS-UIC)のための弱スーパービジョン視覚概念認識の問題を解決するための最初の試みである。 提案したWS-UICモデルがCOCOデータセットのインスピレーションを達成し,ラベリングコストを大幅に低減することを示すため,大規模な実験が実施されている。

The goal of unpaired image captioning (UIC) is to describe images without using image-caption pairs in the training phase. Although challenging, we except the task can be accomplished by leveraging a training set of images aligned with visual concepts. Most existing studies use off-the-shelf algorithms to obtain the visual concepts because the Bounding Box (BBox) labels or relationship-triplet labels used for the training are expensive to acquire. In order to resolve the problem in expensive annotations, we propose a novel approach to achieve cost-effective UIC. Specifically, we adopt image-level labels for the optimization of the UIC model in a weakly-supervised manner. For each image, we assume that only the image-level labels are available without specific locations and numbers. The image-level labels are utilized to train a weakly-supervised object recognition model to extract object information (e.g., instance) in an image, and the extracted instances are adopted to infer the relationships among different objects based on an enhanced graph neural network (GNN). The proposed approach achieves comparable or even better performance compared with previous methods without the expensive cost of annotations. Furthermore, we design an unrecognized object (UnO) loss combined with a visual concept reward to improve the alignment of the inferred object and relationship information with the images. It can effectively alleviate the issue encountered by existing UIC models about generating sentences with nonexistent objects. To the best of our knowledge, this is the first attempt to solve the problem of Weakly-Supervised visual concept recognition for UIC (WS-UIC) based only on image-level labels. Extensive experiments have been carried out to demonstrate that the proposed WS-UIC model achieves inspiring results on the COCO dataset while significantly reducing the cost of labeling.
翻訳日:2022-03-08 14:34:06 公開日:2022-03-07
# クロスモーダル注意と言語を用いた音声視覚一般化ゼロショット学習

Audio-visual Generalised Zero-shot Learning with Cross-modal Attention and Language ( http://arxiv.org/abs/2203.03598v1 )

ライセンス: Link先を確認
Otniel-Bogdan Mercea, Lukas Riesch, A. Sophia Koepke, Zeynep Akata(参考訳) トレーニングデータに含まれないクラス、すなわちビデオベースのゼロショット学習からビデオデータを分類する学習は困難である。 映像データにおける音声と視覚の自然なアライメントは、識別的多様表現を学習するための豊富な訓練信号を提供すると推測する。 音声・視覚的ゼロショット学習の比較的過小評価された課題に着目し,クロスモーダルアテンションを用いて音声・視覚的データからマルチモーダル表現を学習し,テキストラベル埋め込みを利用して見知らぬクラスに知識を伝達する手法を提案する。 さらにこれを一歩進めると、一般化された音声視覚ゼロショット学習環境では、テスト時間検索空間に全てのトレーニングクラスが含まれており、このクラスは邪魔者として機能し、設定をよりリアルにしながら難易度を高めます。 この領域に統一的なベンチマークがないため、さまざまなサイズと難易度を持つ3つのオーディオ視覚データセット(VGGSound、UCF、ActivityNet)にゼロショット学習ベンチマークを導入し、バックボーン深部モデルの教師ありトレーニングに使用されるデータセットには、見当たらないテストクラスが現れないようにした。 複数の関連手法と最近の手法を比較して,提案したAVCAモデルが3つのデータセットすべてに対して最先端の性能を実現することを示す。 コードとデータは \url{https://github.com/E xplainableML/AVCA-GZ SL} で入手できる。

Learning to classify video data from classes not included in the training data, i.e. video-based zero-shot learning, is challenging. We conjecture that the natural alignment between the audio and visual modalities in video data provides a rich training signal for learning discriminative multi-modal representations. Focusing on the relatively underexplored task of audio-visual zero-shot learning, we propose to learn multi-modal representations from audio-visual data using cross-modal attention and exploit textual label embeddings for transferring knowledge from seen classes to unseen classes. Taking this one step further, in our generalised audio-visual zero-shot learning setting, we include all the training classes in the test-time search space which act as distractors and increase the difficulty while making the setting more realistic. Due to the lack of a unified benchmark in this domain, we introduce a (generalised) zero-shot learning benchmark on three audio-visual datasets of varying sizes and difficulty, VGGSound, UCF, and ActivityNet, ensuring that the unseen test classes do not appear in the dataset used for supervised training of the backbone deep models. Comparing multiple relevant and recent methods, we demonstrate that our proposed AVCA model achieves state-of-the-art performance on all three datasets. Code and data will be available at \url{https://github.com/E xplainableML/AVCA-GZ SL}.
翻訳日:2022-03-08 14:33:39 公開日:2022-03-07
# 変圧器を用いた物体検出のための知識融合

Knowledge Amalgamation for Object Detection with Transformers ( http://arxiv.org/abs/2203.03187v1 )

ライセンス: Link先を確認
Haofei Zhang, Feng Mao, Mengqi Xue, Gongfan Fang, Zunlei Feng, Jie Song, Mingli Song(参考訳) 知識融合 (knowledge amalgamation, ka) は,複数の教師から知識を転用することを目的とした,新しい深層モデルである。 現在、これらのアプローチのほとんどは畳み込みニューラルネットワーク(CNN)用に調整されている。 しかし、全く異なるアーキテクチャを持つトランスフォーマは、多くのコンピュータビジョンタスクにおいてcnnの支配に挑戦し始めている傾向があります。 しかし, 従来のKA法を直接変換器に適用すると, 性能が著しく低下する。 本研究では,トランスを用いたオブジェクト検出モデルに対して,より効率的なKA方式を提案する。 具体的には, 変圧器のアーキテクチャ特性を考慮して, KAをシーケンスレベル・アマルガメーション(SA)とタスクレベル・アマルガメーション(TA)の2つの側面に分解することを提案する。 特に、前回のka作品のように、教師シーケンスを冗長に集約するのではなく、教師シーケンスを結合することで、シーケンスレベルのアマルガメーション内でヒントが生成される。 さらに,課題レベルのアマルガメーションにおいて,ソフトターゲットによる異種検出タスクを効率よく学習する。 PASCAL VOCとCOCOの大規模な実験により、このシーケンスレベルのアマルガメーションは学生のパフォーマンスを著しく向上させ、従来の方法では学生に障害を与えていた。 また,不均質な検出タスクを迅速に習得し,その専門化において教師の優れた,あるいは少なくとも同等のパフォーマンスを達成しているため,トランスフォーマティブ・ベースの学生は,融合した知識の習得に長けている。

Knowledge amalgamation (KA) is a novel deep model reusing task aiming to transfer knowledge from several well-trained teachers to a multi-talented and compact student. Currently, most of these approaches are tailored for convolutional neural networks (CNNs). However, there is a tendency that transformers, with a completely different architecture, are starting to challenge the domination of CNNs in many computer vision tasks. Nevertheless, directly applying the previous KA methods to transformers leads to severe performance degradation. In this work, we explore a more effective KA scheme for transformer-based object detection models. Specifically, considering the architecture characteristics of transformers, we propose to dissolve the KA into two aspects: sequence-level amalgamation (SA) and task-level amalgamation (TA). In particular, a hint is generated within the sequence-level amalgamation by concatenating teacher sequences instead of redundantly aggregating them to a fixed-size one as previous KA works. Besides, the student learns heterogeneous detection tasks through soft targets with efficiency in the task-level amalgamation. Extensive experiments on PASCAL VOC and COCO have unfolded that the sequence-level amalgamation significantly boosts the performance of students, while the previous methods impair the students. Moreover, the transformer-based students excel in learning amalgamated knowledge, as they have mastered heterogeneous detection tasks rapidly and achieved superior or at least comparable performance to those of the teachers in their specializations.
翻訳日:2022-03-08 14:32:10 公開日:2022-03-07
# 非パラメトリック値近似による画素からの高速・高効率強化学習

Fast and Data Efficient Reinforcement Learning from Pixels via Non-Parametric Value Approximation ( http://arxiv.org/abs/2203.03078v1 )

ライセンス: Link先を確認
Alexander Long, Alan Blair, Herke van Hoof(参考訳) 離散動作のための強化学習アルゴリズムであるNonparametric Approximation of Inter-Trace Return (NAIT)を提案する。 NAITは、エピソード完了時にエピソードのモンテカルロに匹敵するアップデートを伴う遅延学習アプローチであるが、エピソード進行中の報酬の安定した取り込みを可能にする。 固定されたドメインに依存しない表現、単純な距離に基づく探索、近接グラフに基づくルックアップを利用して、極めて高速な実行を実現する。 我々は、atari100kの26ゲームと57ゲームの両方でnaitを評価し、シンプルさにもかかわらず、ウォールタイムの100倍以上のスピードアップでオンライン環境での競争力を実現した。

We present Nonparametric Approximation of Inter-Trace returns (NAIT), a Reinforcement Learning algorithm for discrete action, pixel-based environments that is both highly sample and computation efficient. NAIT is a lazy-learning approach with an update that is equivalent to episodic Monte-Carlo on episode completion, but that allows the stable incorporation of rewards while an episode is ongoing. We make use of a fixed domain-agnostic representation, simple distance based exploration and a proximity graph-based lookup to facilitate extremely fast execution. We empirically evaluate NAIT on both the 26 and 57 game variants of ATARI100k where, despite its simplicity, it achieves competitive performance in the online setting with greater than 100x speedup in wall-time.
翻訳日:2022-03-08 14:30:41 公開日:2022-03-07
# 包括的信頼性評価によるロバストニューラルネットワークの探索

Searching for Robust Neural Architectures via Comprehensive and Reliable Evaluation ( http://arxiv.org/abs/2203.03128v1 )

ライセンス: Link先を確認
Jialiang Sun, Tingsong Jiang, Chao Li, Weien Zhou, Xiaoya Zhang, Wen Yao, Xiaoqian Chen(参考訳) neural architecture search (nas)はロバストなネットワークアーキテクチャを検索するのに役立ち、ロバスト性評価メトリクスを定義することが重要な手順である。 しかし、NASの現在の堅牢性評価は十分に包括的で信頼性がない。 特に、一般的な慣習は逆雑音とジャコビアン行列のような定量化指標のみを考慮し、一方でモデルが自然雑音のような他の種類のノイズにも脆弱であることを示す研究もある。 さらに, 既存手法ではFGSMやPGDの頑健な精度しか評価できないが, これらの手法では十分な信頼性が得られず, より強力な攻撃下でのモデルの脆弱性が生じる。 上記の問題を緩和するために,我々は,ニューラルネットワーク探索手法を用いた「オート・アドバイサル・アタック・ディフェンス(AAAD)」と呼ばれる新しいフレームワークを提案し,より堅牢なアーキテクチャの発見を支援するために,敵対的ノイズ,自然騒音,システムノイズ,定量化メトリクスを含む4種類のロバストネス評価を検討する。 また, 対向雑音の中で, ランダム探索によって得られた複合対向攻撃を新しい指標として用いて, モデルアーキテクチャの堅牢性を評価する。 CIFAR10データセットの実証結果は、探索された効率的な攻撃がより堅牢なアーキテクチャを見つけるのに役立つことを示している。

Neural architecture search (NAS) could help search for robust network architectures, where defining robustness evaluation metrics is the important procedure. However, current robustness evaluations in NAS are not sufficiently comprehensive and reliable. In particular, the common practice only considers adversarial noise and quantified metrics such as the Jacobian matrix, whereas, some studies indicated that the models are also vulnerable to other types of noises such as natural noise. In addition, existing methods taking adversarial noise as the evaluation just use the robust accuracy of the FGSM or PGD, but these adversarial attacks could not provide the adequately reliable evaluation, leading to the vulnerability of the models under stronger attacks. To alleviate the above problems, we propose a novel framework, called Auto Adversarial Attack and Defense (AAAD), where we employ neural architecture search methods, and four types of robustness evaluations are considered, including adversarial noise, natural noise, system noise and quantified metrics, thereby assisting in finding more robust architectures. Also, among the adversarial noise, we use the composite adversarial attack obtained by random search as the new metric to evaluate the robustness of the model architectures. The empirical results on the CIFAR10 dataset show that the searched efficient attack could help find more robust architectures.
翻訳日:2022-03-08 14:30:26 公開日:2022-03-07
# S-Rocket: 時系列分類のための選択ランダム畳み込みカーネル

S-Rocket: Selective Random Convolution Kernels for Time Series Classification ( http://arxiv.org/abs/2203.03445v1 )

ライセンス: Link先を確認
Hojjat Salehinejad, Yang Wang, Yuanhao Yu, Tang Jin, Shahrokh Valaee(参考訳) ランダム畳み込みカーネル変換(Rocket)は、多数のランダム初期化畳み込みカーネルを用いて、カーネルを訓練することなく、表現された特徴を線形分類器で分類する、時系列特徴抽出のための高速で効率的で斬新なアプローチである。 これらのカーネルはランダムに生成されるため、これらのカーネルの一部がモデルの性能に積極的に寄与することはない。 したがって、最も重要なカーネルの選択と冗長で重要でないカーネルのプルーニングは、計算の複雑さを減少させ、ロケットの推理を加速するために必要である。 これらのカーネルの選択は組合せ最適化の問題である。 本稿では,カーネル選択過程を最適化問題としてモデル化し,最も重要なカーネルを選択するための集団ベースアプローチを提案する。 このアプローチは標準時系列データセットに基づいて評価され、その結果、カーネルの60%以上を刈り取ることで、平均すると元のモデルと同じような性能が得られることが示された。 場合によっては、カーネルのわずか1%で同様のパフォーマンスを達成できる。

Random convolution kernel transform (Rocket) is a fast, efficient, and novel approach for time series feature extraction, using a large number of randomly initialized convolution kernels, and classification of the represented features with a linear classifier, without training the kernels. Since these kernels are generated randomly, a portion of these kernels may not positively contribute in performance of the model. Hence, selection of the most important kernels and pruning the redundant and less important ones is necessary to reduce computational complexity and accelerate inference of Rocket. Selection of these kernels is a combinatorial optimization problem. In this paper, the kernels selection process is modeled as an optimization problem and a population-based approach is proposed for selecting the most important kernels. This approach is evaluated on the standard time series datasets and the results show that on average it can achieve a similar performance to the original models by pruning more than 60% of kernels. In some cases, it can achieve a similar performance using only 1% of the kernels.
翻訳日:2022-03-08 14:30:01 公開日:2022-03-07
# (参考訳) 人間の3D動作予測:サーベイ [全文訳有]

3D Human Motion Prediction: A Survey ( http://arxiv.org/abs/2203.01593v2 )

ライセンス: CC BY 4.0
Kedi Lyu, Haipeng Chen, Zhenguang Liu, Beiqi Zhang, Ruili Wang(参考訳) 3Dの人間の動きを予測することは、コンピュータビジョンとマシンインテリジェンスにおいて大きな重要性と課題の1つであり、機械が人間の振る舞いを理解するのに役立つ。 ディープ・ニューラル・ネットワーク(dnn)の発展と理解の高まり、大規模人間の動きデータセットの利用可能化により、人間の運動予測は学界や産業コミュニティの関心の高まりとともに著しく進歩した。 この文脈では、既存の公開文献から関連する作品を振り返り分析するために、3次元人間の運動予測に関する包括的調査を行う。 さらに,従来の3次元動作予測手法を分類するために,関連する分類法を構築した。 本調査では, 人間のポーズ表現, ネットワーク構造設計, および textit{prediction target} の3つのカテゴリに分類される。 本研究は,2015年以降の人間行動予測分野における関連する学術雑誌および会議論文を網羅的にレビューし,本調査で提案された分類に基づいて詳細に紹介する。 さらに,本論文では,公開ベンチマークデータセットの概要,評価基準,性能比較について述べる。 最先端の手法の限界についても議論し、将来の探査への道を開くことを期待している。

3D human motion prediction, predicting future poses from a given sequence, is an issue of great significance and challenge in computer vision and machine intelligence, which can help machines in understanding human behaviors. Due to the increasing development and understanding of Deep Neural Networks (DNNs) and the availability of large-scale human motion datasets, the human motion prediction has been remarkably advanced with a surge of interest among academia and industrial community. In this context, a comprehensive survey on 3D human motion prediction is conducted for the purpose of retrospecting and analyzing relevant works from existing released literature. In addition, a pertinent taxonomy is constructed to categorize these existing approaches for 3D human motion prediction. In this survey, relevant methods are categorized into three categories: human pose representation, network structure design, and \textit{prediction target}. We systematically review all relevant journal and conference papers in the field of human motion prediction since 2015, which are presented in detail based on proposed categorizations in this survey. Furthermore, the outline for the public benchmark datasets, evaluation criteria, and performance comparisons are respectively presented in this paper. The limitations of the state-of-the-art methods are discussed as well, hoping for paving the way for future explorations.
翻訳日:2022-03-08 14:28:42 公開日:2022-03-07
# (参考訳) 軽量高密度予測ネットワークのための高速ニューラルネットワーク探索 [全文訳有]

Fast Neural Architecture Search for Lightweight Dense Prediction Networks ( http://arxiv.org/abs/2203.01994v2 )

ライセンス: CC BY 4.0
Lam Huynh, Esa Rahtu, Jiri Matas, Janne Heikkila(参考訳) 本稿では,軽量な高密度予測ニューラルアーキテクチャ探索(NAS)フレームワーク LDP を提案する。 LDPは定義済みの一般的なバックボーンから始まり、効率的なアーキテクチャ探索のためにAssisted Tabu Searchという小説を適用している。 ldpは、計算要求または単一のサブタスクにのみデプロイされる以前のnasメソッドとは異なり、様々な密集した推定問題に適している。 LPDの性能は、NYU-Depth-v2、KITTI、Cityscapes、COCO-stuff、DIV2K、Set5、Set14、BSD100、Urban100を含む様々なデータセット上の単眼深度推定、セマンティックセグメンテーション、画像超解像タスクに基づいて評価される。 実験により,提案手法は,従来手法よりもモデルパラメータ数に関して,5\%-315\%$のコンパクトさを保ちながら,すべての密集した予測タスクに対して一貫した改善が得られた。

We present LDP, a lightweight dense prediction neural architecture search (NAS) framework. Starting from a pre-defined generic backbone, LDP applies the novel Assisted Tabu Search for efficient architecture exploration. LDP is fast and suitable for various dense estimation problems, unlike previous NAS methods that are either computational demanding or deployed only for a single subtask. The performance of LPD is evaluated on monocular depth estimation, semantic segmentation, and image super-resolution tasks on diverse datasets, including NYU-Depth-v2, KITTI, Cityscapes, COCO-stuff, DIV2K, Set5, Set14, BSD100, Urban100. Experiments show that the proposed framework yields consistent improvements on all tested dense prediction tasks, while being $5\%-315\%$ more compact in terms of the number of model parameters than prior arts.
翻訳日:2022-03-08 13:08:13 公開日:2022-03-07
# (参考訳) X2T: ユーザフィードバックによるオンライン学習によるX-to-Textタイピングインタフェースのトレーニング [全文訳有]

X2T: Training an X-to-Text Typing Interface with Online Learning from User Feedback ( http://arxiv.org/abs/2203.02072v2 )

ライセンス: CC BY 4.0
Jensen Gao, Siddharth Reddy, Glen Berseth, Nicholas Hardy, Nikhilesh Natraj, Karunesh Ganguly, Anca D. Dragan, Sergey Levine(参考訳) 任意のユーザ入力を望ましいアクションに変換するフレキシブルなアダプティブインターフェースを使用して,ユーザの意図をマシンに伝達することを支援する。 本研究は,ユーザがキーボードを操作できないような補助的タイピングアプリケーションに焦点を当てるが,その代わりに,視覚や脳インプラントによる神経活動を測定するwebカメラ画像など,他の入力を供給できる。 標準メソッドは、ユーザ入力の固定されたデータセット上でモデルをトレーニングし、そのミスから学習しない静的インターフェースをデプロイする。 ユーザからのフィードバックからインタフェースの動作の正確性に関するオンライン学習という,ユーザによる最小限の労力で,そのようなインターフェースを時間とともに改善する簡単なアイデアを考察する。 タイピング領域では、インターフェースが望ましいアクションを実行していないというフィードバックとしてバックスペースを活用します。 我々は,このフィードバック信号の予測モデルを訓練するx-to-text(X2T)と呼ばれるアルゴリズムを提案し,このモデルを用いて既存のデフォルトインターフェースを微調整し,ユーザ入力を単語や文字を選択する動作に変換する。 我々はX2Tを,所望の言葉を見つめて文章を入力した12人の参加者による小規模なオンラインユーザスタディ,60人のユーザによる手書きサンプルの大規模観察,脳-コンピュータインターフェースを用いた1人の参加者によるパイロットスタディを通じて評価した。 その結果、x2tは非適応型デフォルトインターフェースよりも優れ、インターフェースへのユーザの共適応を刺激し、個々のユーザに対するインターフェースをパーソナライズし、デフォルトインターフェースから収集されたオフラインデータを活用し、初期パフォーマンスを改善し、オンライン学習を加速する。

We aim to help users communicate their intent to machines using flexible, adaptive interfaces that translate arbitrary user input into desired actions. In this work, we focus on assistive typing applications in which a user cannot operate a keyboard, but can instead supply other inputs, such as webcam images that capture eye gaze or neural activity measured by a brain implant. Standard methods train a model on a fixed dataset of user inputs, then deploy a static interface that does not learn from its mistakes; in part, because extracting an error signal from user behavior can be challenging. We investigate a simple idea that would enable such interfaces to improve over time, with minimal additional effort from the user: online learning from user feedback on the accuracy of the interface's actions. In the typing domain, we leverage backspaces as feedback that the interface did not perform the desired action. We propose an algorithm called x-to-text (X2T) that trains a predictive model of this feedback signal, and uses this model to fine-tune any existing, default interface for translating user input into actions that select words or characters. We evaluate X2T through a small-scale online user study with 12 participants who type sentences by gazing at their desired words, a large-scale observational study on handwriting samples from 60 users, and a pilot study with one participant using an electrocorticography -based brain-computer interface. The results show that X2T learns to outperform a non-adaptive default interface, stimulates user co-adaptation to the interface, personalizes the interface to individual users, and can leverage offline data collected from the default interface to improve its initial performance and accelerate online learning.
翻訳日:2022-03-08 12:46:00 公開日:2022-03-07
# 階層的cnnとリトレーニングを伴わない野生脳mriのロバストセグメンテーション

Robust Segmentation of Brain MRI in the Wild with Hierarchical CNNs and no Retraining ( http://arxiv.org/abs/2203.01969v2 )

ライセンス: Link先を確認
Benjamin Billot, Magdamo Colin, Sean E. Arnold, Sudeshna Das, Juan. E. Iglesias(参考訳) クリニックで取得した脳MRIスキャンの振り返り分析は、研究データセットよりはるかに大きなサンプルサイズの神経画像研究を可能にする可能性がある。 しかし, 被験者はMRコントラスト, 解像度, 方向など, 非常に可変なプロトコルでスキャンされるため, このような臨床像を「野」で分析することは困難である。 それでも、画像分割のための畳み込みニューラルネットワーク(CNN)とドメインランダム化の最近の進歩は、SynthSegによって最もよく表現されているが、臨床MRIの大規模な形態計測を可能にしている。 本研究では,マサチューセッツ総合病院で取得した1万件以上のスキャンデータを用いて,SynthSegの評価を行った。 一般的にSynthSegは頑健であるが,低信号-雑音比,組織コントラストの低いスキャンではフェールすることが多い。 次に、条件付きセグメンテーションとCNNの階層構造を用いてこれらの問題を緩和する新しい手法であるSynthSeg+を提案する。 この手法はSynthSegよりもかなり頑健であり,カスケードネットワークや最先端セグメンテーション手法よりも優れていることを示す。 最後に,本研究は,質の高い1mm,t1重み付きスキャンで行った研究で観察された萎縮パターンを忠実に再現する,概念実証ボリューム研究に適用する。 コードとトレーニングされたモデルはhttps://github.com/B Billot/SynthSegで公開されている。

Retrospective analysis of brain MRI scans acquired in the clinic has the potential to enable neuroimaging studies with sample sizes much larger than those found in research datasets. However, analysing such clinical images "in the wild" is challenging, since subjects are scanned with highly variable protocols (MR contrast, resolution, orientation, etc.). Nevertheless, recent advances in convolutional neural networks (CNNs) and domain randomisation for image segmentation, best represented by the publicly available method SynthSeg, may enable morphometry of clinical MRI at scale. In this work, we first evaluate SynthSeg on an uncurated, heterogeneous dataset of more than 10,000 scans acquired at Massachusetts General Hospital. We show that SynthSeg is generally robust, but frequently falters on scans with low signal-to-noise ratio or poor tissue contrast. Next, we propose SynthSeg+, a novel method that greatly mitigates these problems using a hierarchy of conditional segmentation and denoising CNNs. We show that this method is considerably more robust than SynthSeg, while also outperforming cascaded networks and state-of-the-art segmentation denoising methods. Finally, we apply our approach to a proof-of-concept volumetric study of ageing, where it closely replicates atrophy patterns observed in research studies conducted on high-quality, 1mm, T1-weighted scans. The code and trained model are publicly available at https://github.com/B Billot/SynthSeg.
翻訳日:2022-03-08 12:20:57 公開日:2022-03-07
# KamNet: KamLAND-Zenにおけるレアイベント検索のための統合時空間深部ニューラルネットワーク

KamNet: An Integrated Spatiotemporal Deep Neural Network for Rare Event Search in KamLAND-Zen ( http://arxiv.org/abs/2203.01870v3 )

ライセンス: Link先を確認
A. Li, Z. Fu, L. A. Winslow, C. P. Grant, H. Song, H. Ozaki, I. Shimizu, A. Takeuchi(参考訳) 希少な事象探索により、他の方法でアクセスできないエネルギースケールで新しい物理を探すことができる。 機械学習は、これらの検出器が提供する情報を最大化する新しいツールを提供する。 情報はスパースであり、このアルゴリズムは最低レベルのデータから始め、検出器内のすべての対称性を利用して結果を生成する。 本研究では,幾何学的深層学習と時空間データ解析のブレークスルーを活かし,ニュートリノのない二重ベータ崩壊を探索するキロトンスケールの球状液体シンチレータ検出器であるkamland-zenの物理学的到達範囲を最大化するために,kamnetを提案する。 KamLANDの簡易な背景モデルを用いて、KamNetはMCシミュレーションのベンチマークにおいて従来のCNNよりも高いロバスト性を持つことを示す。 シミュレーションデータを用いて、KamNetがKamLAND-Zenの感度を$0\nu\beta\beta$と$0\nu\beta\beta$にアップする能力を実証する。 この研究の重要な要素は、背景の拒絶のためにKamNetが使用している物理を解明するための注意機構の追加である。

Rare event searches allow us to search for new physics at energy scales inaccessible with other means by leveraging specialized large-mass detectors. Machine learning provides a new tool to maximize the information provided by these detectors. The information is sparse, which forces these algorithms to start from the lowest level data and exploit all symmetries in the detector to produce results. In this work we present KamNet which harnesses breakthroughs in geometric deep learning and spatiotemporal data analysis to maximize the physics reach of KamLAND-Zen, a kiloton scale spherical liquid scintillator detector searching for neutrinoless double beta decay ($0\nu\beta\beta$). Using a simplified background model for KamLAND we show that KamNet outperforms a conventional CNN on benchmarking MC simulations with an increasing level of robustness. Using simulated data, we then demonstrate KamNet's ability to increase KamLAND-Zen's sensitivity to $0\nu\beta\beta$ and $0\nu\beta\beta$ to excited states. A key component of this work is the addition of an attention mechanism to elucidate the underlying physics KamNet is using for the background rejection.
翻訳日:2022-03-08 12:20:29 公開日:2022-03-07
# 機械学習による量子アニーラの性能向上

Boosting the Performance of Quantum Annealers using Machine Learning ( http://arxiv.org/abs/2203.02360v2 )

ライセンス: Link先を確認
Jure Brence, Dragan Mihailovi\'c, Viktor Kabanov, Ljup\v{c}o Todorovski, Sa\v{s}o D\v{z}eroski, Jaka Vodeb(参考訳) ノイズの多い中間スケール量子(NISQ)デバイスは、第2の量子革命を先導している。 これらのうち、5000量子ビットの商用アプリケーションを提供しているのは量子アニールだけである。 量子アニールによって解くことができる問題の大きさは、主に環境ノイズやプロセッサの固有の欠陥に起因する誤差によって制限される。 本稿では,機械学習手法に基づく新しい誤り訂正手法を用いて,本質的不完全性の問題に対処する。 この手法は入力ハミルトニアンを調整して解を見つける確率を最大化する。 実験では, 提案手法により, 焼鈍性能を最大3桁まで改善し, 従来は難解で, 極端に複雑な問題の解法を可能にした。

Noisy intermediate-scale quantum (NISQ) devices are spearheading the second quantum revolution. Of these, quantum annealers are the only ones currently offering real world, commercial applications on as many as 5000 qubits. The size of problems that can be solved by quantum annealers is limited mainly by errors caused by environmental noise and intrinsic imperfections of the processor. We address the issue of intrinsic imperfections with a novel error correction approach, based on machine learning methods. Our approach adjusts the input Hamiltonian to maximize the probability of finding the solution. In our experiments, the proposed error correction method improved the performance of annealing by up to three orders of magnitude and enabled the solving of a previously intractable, maximally complex problem.
翻訳日:2022-03-08 12:20:03 公開日:2022-03-07