このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220222となっている論文です。

PDF登録状況(公開日: 20220222)

TitleAuthorsAbstract論文公表日・翻訳日
# 有限領域制約拡張によるスプレッドシート計算

Spreadsheet computing with Finite Domain Constraint Enhancements ( http://arxiv.org/abs/2203.10944v1 )

ライセンス: Link先を確認
Ezana N. Beyenne(参考訳) スプレッドシートコンピューティングは、現代の社会において最もポピュラーなコンピューティング方法論の1つである。 スプレッドシートアプリケーションの使いやすさと有用性により、非プログラマは、表形式の「ペンと紙」アプローチをモデルにした親しみやすい設定でプログラミングのようなタスクを実行できる。 しかし、スプレッドシートアプリケーションは、その単一方向のデータフローのため、簿記のようなタスクに限られる。 この論文は、制約満足度問題を解決するために、この制限を克服するスプレッドシートコンピューティングパラダイムの拡張を示す。 本稿では,有限制約解法をスプレッドシート計算パラダイムにシームレスに組み込んだフレームワークを提案する。 このフレームワークにより、スプレッドシート内の個々のセルを有限領域またはセル間の関係を規定する制約にアタッチすることができる。 このフレームワークは制約解決のためのインターフェースを提供し、大規模なスプレッドシートアプリケーション実装のスケーラビリティを制御するのに役立つスプレッドシート固有の制約セットを提供することにより、スプレッドシートコンピューティングパラダイムをさらに強化する。 最後に,スプレッドシート拡張パラダイムの有用性と有用性を示す例を示す。 キーワード:スプレッドシートコンピューティング、制約論理プログラミング、制約満足度、ドメイン特化言語、Excel、SWI Prolog、C#

Spreadsheet computing is one of the more popular computing methodologies in today's modern society. The spreadsheet application's ease of use and usefulness has enabled non-programmers to perform programming-like tasks in a familiar setting modeled after the tabular "pen and paper" approach. However, spreadsheet applications are limited to bookkeeping-like tasks due to their single-direction data flow. This thesis demonstrates an extension of the spreadsheet computing paradigm in overcoming this limitation to solve constraint satisfaction problems. We present a framework seamlessly incorporating a finite constraint solver with the spreadsheet computing paradigm. This framework allows the individual cells in the spreadsheet to be attached to either a finite domain or a constraint specifying the relationship among the cells. The framework provides an interface for constraint solving and further enhances the spreadsheet computing paradigm by providing a set of spreadsheet-specific constraints that will aid in controlling the scalability of large spreadsheet applications implementations. Finally, we provide examples to demonstrate the usability and usefulness of the extended spreadsheet paradigm. Keywords: Spreadsheet computing, Constraint Logic Programming, Constraint satisfaction, Domain-Specific language, Excel, SWI Prolog, C#
翻訳日:2022-03-27 05:44:10 公開日:2022-02-22
# DialMed: 対話型医療勧告のためのデータセット

DialMed: A Dataset for Dialogue-based Medication Recommendation ( http://arxiv.org/abs/2203.07094v1 )

ライセンス: Link先を確認
Zhenfeng He and Yuqiang Han and Zhenqiu Ouyang and Wei Gao and Hongxu Chen and Guandong Xu and Jian Wu(参考訳) 医療勧告は知的医療システムにとって重要な課題である。 従来の研究は主に電子健康記録(EHR)を用いた薬剤を推奨していた。 しかしながら、医師と患者間の相互作用のいくつかの詳細は、自動医薬品推奨に必須の EHR で無視される可能性がある。 そこで我々は,医師と患者との会話で薬を推奨する試みを初めて行った。 本研究では, 医療対話型医薬品推奨タスクのための, 初の高品質データセット dialmed を構築した。 3つの部門から16の共通疾患に関連する11,996の医療対話と70の対応する一般的な薬物が含まれている。 さらに,対話構造と病的知識認識ネットワーク(DDN)を提案し,グラフ注意ネットワークを用いて対話構造をモデル化し,知識グラフを用いて外部疾患知識を導入する。 広範な実験結果から,提案手法は医療対話を伴う薬剤を推奨する有望な解決策であることが示唆された。 データセットとコードはhttps://github.com/h hhhhhhzf/dialmed.com /で入手できる。

Medication recommendation is a crucial task for intelligent healthcare systems. Previous studies mainly recommend medications with electronic health records(EHRs). However, some details of interactions between doctors and patients may be ignored in EHRs, which are essential for automatic medication recommendation. Therefore, we make the first attempt to recommend medications with the conversations between doctors and patients. In this work, we construct DialMed, the first high-quality dataset for medical dialogue-based medication recommendation task. It contains 11,996 medical dialogues related to 16 common diseases from 3 departments and 70 corresponding common medications. Furthermore, we propose a Dialogue structure and Disease knowledge aware Network(DDN), where a graph attention network is utilized to model the dialogue structure and the knowledge graph is used to introduce external disease knowledge. The extensive experimental results demonstrate that the proposed method is a promising solution to recommend medications with medical dialogues. The dataset and code are available at https://github.com/H hhhhhhzf/DialMed.
翻訳日:2022-03-20 23:08:31 公開日:2022-02-22
# 分子特性予測のための構造化マルチタスク学習

Structured Multi-task Learning for Molecular Property Prediction ( http://arxiv.org/abs/2203.04695v1 )

ライセンス: Link先を確認
Shengchao Liu, Meng Qu, Zuobai Zhang, Huiyu Cai, Jian Tang(参考訳) 分子特性予測のためのマルチタスク学習は、薬物発見においてますます重要になりつつある。 しかし、他の領域とは対照的に、薬物発見におけるマルチタスク学習のパフォーマンスは、各タスクのラベル付きデータの数が限られているため、データ不足を補う追加データを要求するため、まだ満足できない。 本稿では,タスク間の関係グラフが利用可能な新しい環境で,分子特性予測のためのマルチタスク学習について検討する。 まず、約400のタスクを含むデータセットと、タスク関係グラフを構築します。 そこで本稿では,SGNN-EBMと呼ばれる2つの視点から構造化タスクモデリングを体系的に研究する手法を提案する。 1) {\displaystyle \emph{latent} 空間において、関係グラフに状態グラフニューラルネットワーク(SGNN)を適用してタスク表現をモデル化する。 2) \emph{output} 空間では,エネルギーベースモデル (EBM) を用いて構造予測を行い,ノイズコントラスト推定 (NCE) 手法を用いて効率よく学習することができる。 実験結果はSGNN-EBMの有効性を正当化する。 コードはhttps://github.com/c hao1224/SGNN-EBMで入手できる。

Multi-task learning for molecular property prediction is becoming increasingly important in drug discovery. However, in contrast to other domains, the performance of multi-task learning in drug discovery is still not satisfying as the number of labeled data for each task is too limited, which calls for additional data to complement the data scarcity. In this paper, we study multi-task learning for molecular property prediction in a novel setting, where a relation graph between tasks is available. We first construct a dataset including around 400 tasks as well as a task relation graph. Then to better utilize such relation graph, we propose a method called SGNN-EBM to systematically investigate the structured task modeling from two perspectives. (1) In the \emph{latent} space, we model the task representations by applying a state graph neural network (SGNN) on the relation graph. (2) In the \emph{output} space, we employ structured prediction with the energy-based model (EBM), which can be efficiently trained through noise-contrastive estimation (NCE) approach. Empirical results justify the effectiveness of SGNN-EBM. Code is available on https://github.com/c hao1224/SGNN-EBM.
翻訳日:2022-03-13 13:50:00 公開日:2022-02-22
# 没入型サイバースペースにおける信頼に値するAIのためのユーザ中心メトリック

Towards User-Centered Metrics for Trustworthy AI in Immersive Cyberspace ( http://arxiv.org/abs/2203.03718v1 )

ライセンス: Link先を確認
Pengyuan Zhou, Benjamin Finley, Lik-Hang Lee, Yong Liao, Haiyong Xie, Pan Hui(参考訳) AIは、現在のサイバースペースと将来の没入型エコシステムにおいて重要な役割を果たす。 したがって、このようなaiシステムの信頼性は、システム内の障害がユーザーの深刻な被害を引き起こす可能性があるため、不可欠である。 現在のサイバースペースでは、信頼できるAI(TAI)メトリクスを探索する関連研究があるが、メタバースのようなユーザー中心のサービスへのエコシステムは、システムパフォーマンスとユーザエクスペリエンスの評価の点ではるかに複雑であり、既存のアプローチの適用性に挑戦する。 したがって、既存のアプローチからの歴史的なパスを越えて、公正さ、プライバシ、堅牢性を見落とします。 最終的には,没入型生態系におけるシステム的かつユーザ中心型TAIの研究課題を提案する。

AI plays a key role in current cyberspace and future immersive ecosystems that pinpoint user experiences. Thus, the trustworthiness of such AI systems is vital as failures in these systems can cause serious user harm. Although there are related works on exploring trustworthy AI (TAI) metrics in the current cyberspace, ecosystems towards user-centered services, such as the metaverse, are much more complicated in terms of system performance and user experience assessment, thus posing challenges for the applicability of existing approaches. Thus, we give an overlook on fairness, privacy and robustness, across the historical path from existing approaches. Eventually, we propose a research agenda towards systematic yet user-centered TAI in immersive ecosystems.
翻訳日:2022-03-13 13:49:40 公開日:2022-02-22
# 事前学習言語モデルからの知識伝達によるCTCに基づく音声認識の改善

Improving CTC-based speech recognition via knowledge transferring from pre-trained language models ( http://arxiv.org/abs/2203.03582v1 )

ライセンス: Link先を確認
Keqi Deng, Songjun Cao, Yike Zhang, Long Ma, Gaofeng Cheng, Ji Xu, Pengyuan Zhang(参考訳) 近年,コネクショニスト時間分類(CTC)に基づくエンドツーエンドの自動音声認識モデルは,特にwav2vec2.0モデルから微調整した場合に顕著な成果を上げている。 条件付き独立仮定のため、CTCベースのモデルは、常に注意に基づくエンコーダデコーダモデルよりも弱く、外部言語モデル(LM)の助けを必要とする。 そこで本研究では, BERT や GPT2 などの事前学習した LM を利用して CTC ベースのモデルを改善する2つの知識伝達手法を提案する。 最初の方法は表現学習に基づいており、CTCベースのモデルはBERTが生成した表現を補助的学習ターゲットとして利用する。 第2の方法は、テキストモデリングのためのgpt2とハイブリッドctc/attentionアーキテクチャを組み合わせた合同分類学習に基づく。 AISHELL-1コーパスの実験では、テストセットで4.2%の文字エラー率(CER)が得られる。 wav2vec2.0モデルから微調整したバニラCTCモデルと比較して、我々の知識伝達法は外部のLMを使わずにCERを16.1%削減する。

Recently, end-to-end automatic speech recognition models based on connectionist temporal classification (CTC) have achieved impressive results, especially when fine-tuned from wav2vec2.0 models. Due to the conditional independence assumption, CTC-based models are always weaker than attention-based encoder-decoder models and require the assistance of external language models (LMs). To solve this issue, we propose two knowledge transferring methods that leverage pre-trained LMs, such as BERT and GPT2, to improve CTC-based models. The first method is based on representation learning, in which the CTC-based models use the representation produced by BERT as an auxiliary learning target. The second method is based on joint classification learning, which combines GPT2 for text modeling with a hybrid CTC/attention architecture. Experiment on AISHELL-1 corpus yields a character error rate (CER) of 4.2% on the test set. When compared to the vanilla CTC-based models fine-tuned from the wav2vec2.0 models, our knowledge transferring method reduces CER by 16.1% relatively without external LMs.
翻訳日:2022-03-13 13:49:27 公開日:2022-02-22
# 音声認識におけるビームサーチリコーリングのための韓国語トークン化

Korean Tokenization for Beam Search Rescoring in Speech Recognition ( http://arxiv.org/abs/2203.03583v1 )

ライセンス: Link先を確認
Kyuhong Shim, Hyewon Bae, Wonyong Sung(参考訳) 自動音声認識(ASR)モデルの性能は、外部言語モデル(LM)を用いた適切なビーム探索デコーディングにより大幅に向上することができる。 韓国語音声認識への関心は高まっているが、デコード処理に焦点が当てられた研究は少ない。 本稿では,韓国asrに使用するニューラルネットワークに基づくlmのための韓国トークン化手法を提案する。 ASRモデルと同様のトークン化手法を用いるのが一般的であるが,韓国語にとって最善の選択肢ではない可能性が示唆された。 韓国語音節に後続子音がない場合,特別なトークンであるskiptcを挿入する新しいトークン化手法を提案する。 提案したSkipTCトークンを利用することで、LMの入力シーケンスを極めて定期的にパターン化し、LMが言語特性をよりよく学習できるようにする。 提案手法は,SkipTCを使わずに同じLMモデルと比較して単語誤り率を低くすることを示す。 さらに,最近導入された大規模7,600h韓国語音声データセットのASR性能を最初に報告した。

The performance of automatic speech recognition (ASR) models can be greatly improved by proper beam-search decoding with external language model (LM). There has been an increasing interest in Korean speech recognition, but not many studies have been focused on the decoding procedure. In this paper, we propose a Korean tokenization method for neural network-based LM used for Korean ASR. Although the common approach is to use the same tokenization method for external LM as the ASR model, we show that it may not be the best choice for Korean. We propose a new tokenization method that inserts a special token, SkipTC, when there is no trailing consonant in a Korean syllable. By utilizing the proposed SkipTC token, the input sequence for LM becomes very regularly patterned so that the LM can better learn the linguistic characteristics. Our experiments show that the proposed approach achieves a lower word error rate compared to the same LM model without SkipTC. In addition, we are the first to report the ASR performance for the recently introduced large-scale 7,600h Korean speech dataset.
翻訳日:2022-03-13 13:49:06 公開日:2022-02-22
# (参考訳) 自然言語処理を用いた排水管評価モデル [全文訳有]

Wastewater Pipe Rating Model Using Natural Language Processing ( http://arxiv.org/abs/2202.13871v1 )

ライセンス: CC0 1.0
Sai Nethra Betgeri, Shashank Reddy Vadyala, Dr. John C. Mattews, Dr. Hongfang Lu(参考訳) この数十年間、クローズド・サーキット・ビデオ(cctv)検査はパイプラインの内部状態を視覚的に評価する最も一般的な技術である。 認定検査官は、CCTV検査に基づいてパイプ修理書類を作成する。 配管補修資料から下水構造条件を評価する従来の手作業は、長い時間を要するため、人的ミスを招きやすい。 必要なテキストの自動識別はほとんど注目されていない。 自然言語処理(nlp)を用いた自動化フレームワークを構築することにより,パイプ補修文書のパイプ欠陥評価の識別を効果的に自動化する手法を提案する。 本研究では,NLP技術を用いてテキスト素材を文法単位に分解する。 さらなる分析では、単語を使ってパイプ欠陥の症状とその頻度を発見し、その情報を1つのスコアにまとめる。 本モデルでは, 精度95.0%, 感度94.9%, 特異度94.4%, 精度95.9%, F1スコア95.7%を達成し, パイプラインの品質向上のために, 高精度かつ効率的なパイプライン故障検出のために, 大規模配管補修資料に使用するモデルの可能性を示した。 キーワード:下水道管検査、欠陥検出、自然言語処理、テキスト認識

Closed-circuit video (CCTV) inspection has been the most popular technique for visually evaluating the interior status of pipelines in recent decades. Certified inspectors prepare the pipe repair document based on the CCTV inspection. The traditional manual method of assessing sewage structural conditions from pipe repair documents takes a long time and is prone to human mistakes. The automatic identification of necessary texts has received little attention. By building an automated framework employing Natural Language Processing (NLP), this study presents an effective technique to automate the identification of the pipe defect rating of the pipe repair documents. NLP technologies are employed to break down textual material into grammatical units in this research. Further analysis entails using words to discover pipe defect symptoms and their frequency and then combining that information into a single score. Our model achieves 95.0% accuracy,94.9% sensitivity, 94.4% specificity, 95.9% precision score, and 95.7% F1 score, showing the potential of the proposed model to be used in large-scale pipe repair documents for accurate and efficient pipeline failure detection to improve the quality of the pipeline. Keywords: Sewer pipe inspection, Defect detection, Natural language processing, Text recognition
翻訳日:2022-03-06 14:07:01 公開日:2022-02-22
# ウェアラブルを用いた人間行動認識の自己監視状態の評価

Assessing the State of Self-Supervised Human Activity Recognition using Wearables ( http://arxiv.org/abs/2202.12938v1 )

ライセンス: Link先を確認
Harish Haresamudram, Irfan Essa and Thomas Pl\"otz(参考訳) ウェアラブルをベースとしたヒューマンアクティビティ認識(HAR)分野における自己教師型学習の出現は、この分野における最も急激な課題、すなわちラベルのないデータを利用して、少量のラベル付きトレーニングサンプルから信頼性の高い認識システムを導出する機会を開いた。 さらに、自己組織化されたメソッドは、例えば、ドメイン適応やセンサー位置、アクティビティ間の転送など、新しいアプリケーションドメインのホストを可能にする。 このように、自己スーパービジョン、すなわち「事前訓練」のパラダイムは、センサーデータの手作り機能を備えた古典的なアクティビティ認識チェーンを使わずに、主要なエンドツーエンドトレーニングアプローチの強力な代替となる可能性を秘めている。 近年、マルチタスク・セルフスーパービジョン、マスケッド・レコンストラクション、CPCなど、HARの分野に自己教師型学習を導入する多くの貢献がなされている。 これらの手法の初期の成功により、その分野に有する潜在的な自己教師付き学習の体系的なインベントリと分析の時が来た。 この論文はまさにそれを提供する。 モデル性能の多面的探索を行うフレームワークを導入することにより,自己監督型HAR研究の進展を評価する。 フレームワークを3つの構成基準を含む3次元に整理し,9種類のベンチマークをキュレートした大規模実験において,最先端の自己教師付き学習手法を評価する。 この調査は,これらの手法の特性に関する洞察の定式化と,多様なシナリオの学習表現への価値の確立につながる。 本研究の成果に基づいて,我々は,身体センサデータから人間活動のモデル化における現在進行中のパラダイム変化の評価を形作るために,コミュニティに協力するよう求めた。

The emergence of self-supervised learning in the field of wearables-based human activity recognition (HAR) has opened up opportunities to tackle the most pressing challenges in the field, namely to exploit unlabeled data to derive reliable recognition systems from only small amounts of labeled training samples. Furthermore, self-supervised methods enable a host of new application domains such as, for example, domain adaptation and transfer across sensor positions, activities etc. As such, self-supervision, i.e., the paradigm of 'pretrain-then-finetu ne' has the potential to become a strong alternative to the predominant end-to-end training approaches, let alone the classic activity recognition chain with hand-crafted features of sensor data. Recently a number of contributions have been made that introduced self-supervised learning into the field of HAR, including, Multi-task self-supervision, Masked Reconstruction, CPC to name but a few. With the initial success of these methods, the time has come for a systematic inventory and analysis of the potential self-supervised learning has for the field. This paper provides exactly that. We assess the progress of self-supervised HAR research by introducing a framework that performs a multi-faceted exploration of model performance. We organize the framework into three dimensions, each containing three constituent criteria, and utilize it to assess state-of-the-art self-supervised learning methods in a large empirical study on a curated set of nine diverse benchmarks. This exploration leads us to the formulation of insights into the properties of these techniques and to establish their value towards learning representations for diverse scenarios. Based on our findings we call upon the community to join our efforts and to contribute towards shaping the evaluation of the ongoing paradigm change in modeling human activities from body-worn sensor data.
翻訳日:2022-03-06 12:47:29 公開日:2022-02-22
# (参考訳) 音声アシスタントシステムにおけるクエリ再構成検索のためのクエリ拡張とエンティティ重み付け [全文訳有]

Query Expansion and Entity Weighting for Query Reformulation Retrieval in Voice Assistant Systems ( http://arxiv.org/abs/2202.13869v1 )

ライセンス: CC BY 4.0
Zhongkai Sun, Sixing Lu, Chengyuan Ma, Xiaohu Liu, Chenlei Guo(参考訳) Alexa、Siri、Google Assistantといった音声アシスタントは世界中で人気が高まっている。 しかし,言語的変化,発話パターンの変動,環境音響条件,その他の要因は,ユーザのクエリを誤解釈するアシスタントと相関することが多い。 ユーザエクスペリエンスを向上させるために,検索ベースのクエリ再構成(QR)システムが広く使用されている。 現在のQRシステムは、通常、ニューラル検索モデルトレーニングや、リフォームのための直接エンティティ検索に焦点を当てている。 しかし,クエリ拡張とエンティティ重み付けを同時に行うことは稀であり,クエリ再構成検索のスコープと精度が制限される可能性がある。 本研究では,エンティティカタログ内のエンティティ間の関係(ユーザのクエリ,アシスタントの応答,および対応するエンティティの構成)を活用してクエリ再構成性能を向上させる新しいクエリ拡張・エンティティ重み付け手法(QEEW)を提案する。 Alexaアノテートデータに関する実験では、クエリ拡張と重み付けを使用しないベースラインと比較して、QEEWがトップ精度のメトリクス、特にトップ10精度の6%改善、およびクエリ拡張と重み付けを使用する他のベースラインと比較して、トップ10精度の5%以上の改善が示されている。

Voice assistants such as Alexa, Siri, and Google Assistant have become increasingly popular worldwide. However, linguistic variations, variability of speech patterns, ambient acoustic conditions, and other such factors are often correlated with the assistants misinterpreting the user's query. In order to provide better customer experience, retrieval based query reformulation (QR) systems are widely used to reformulate those misinterpreted user queries. Current QR systems typically focus on neural retrieval model training or direct entities retrieval for the reformulating. However, these methods rarely focus on query expansion and entity weighting simultaneously, which may limit the scope and accuracy of the query reformulation retrieval. In this work, we propose a novel Query Expansion and Entity Weighting method (QEEW), which leverages the relationships between entities in the entity catalog (consisting of users' queries, assistant's responses, and corresponding entities), to enhance the query reformulation performance. Experiments on Alexa annotated data demonstrate that QEEW improves all top precision metrics, particularly 6% improvement in top10 precision, compared with baselines not using query expansion and weighting; and more than 5% improvement in top10 precision compared with other baselines using query expansion and weighting.
翻訳日:2022-03-06 12:44:14 公開日:2022-02-22
# LLVMコンパイラのインストラクションを組み合わせるための学習

Learning to Combine Instructions in LLVM Compiler ( http://arxiv.org/abs/2202.12379v1 )

ライセンス: Link先を確認
Sandya Mannarswamy, Dibyendu Das(参考訳) Instruction Combinr (IC) は、命令列を基本ブロックレベルで等価で最適化された命令列に置き換える重要なコンパイラ最適化パスである。 新しいコーディングイディオム/アプリケーションや新しいハードウェアが時間とともに進化するにつれて、頻繁に更新する必要がある命令合成パターンは何千もある。 これにより、IC最適化パスの頻繁な更新により、かなりの人的労力と高いソフトウェアメンテナンスコストが発生する。 従来のICにまつわるこれらの課題を軽減するため、我々はNIC(Neural Instruction Combiner)を設計、実装し、標準のLLVMコンパイラ最適化パイプラインに統合することでその実現可能性を示す。 NICは、最適化されたエンコードされたIRシーケンスを最適化されていないエンコードされたIRシーケンスから生成するために、ニューラルシーケンス対シーケンス(Seq2Seq)モデルを利用する。 私たちの知る限りでは、本格的なコンパイラパイプラインに組み込まれたニューラルネットワーク命令コンバータの実現可能性を示す最初の研究です。 このタスクの新規性を考慮して、NICニューラルモデルをトレーニングするための新しいデータセットを構築しました。 NIC は,従来の IC およびニューラルマシン翻訳基準である Bleu の精度スコア 0.94 と比較して,最適化シーケンスに対して 72% の正確な一致率を達成し,実運用コンパイラパイプラインで実現可能であることを示す。

Instruction combiner (IC) is a critical compiler optimization pass, which replaces a sequence of instructions with an equivalent and optimized instruction sequence at basic block level. There can be thousands of instruction-combinin g patterns which need to be frequently updated as new coding idioms/applications and novel hardware evolve over time. This results in frequent updates to the IC optimization pass thereby incurring considerable human effort and high software maintenance costs. To mitigate these challenges associated with the traditional IC, we design and implement a Neural Instruction Combiner (NIC) and demonstrate its feasibility by integrating it into the standard LLVM compiler optimization pipeline. NIC leverages neural sequence-to-sequence (Seq2Seq) models for generating optimized encoded IR sequence from the unoptimized encoded IR sequence. To the best of our knowledge, ours is the first work demonstrating the feasibility of a neural instruction combiner built into a full-fledged compiler pipeline. Given the novelty of this task, we built a new dataset for training our NIC neural model. We show that NIC achieves exact match results percentage of 72% for optimized sequences as compared to traditional IC and neural machine translation metric Bleu precision score of 0.94, demonstrating its feasibility in a production compiler pipeline.
翻訳日:2022-03-06 12:32:49 公開日:2022-02-22
# 音声生成潜在変数モデルのベンチマーク

Benchmarking Generative Latent Variable Models for Speech ( http://arxiv.org/abs/2202.12707v1 )

ライセンス: Link先を確認
Jakob D. Havtorn, Lasse Borgholt, S{\o}ren Hauberg, Jes Frellsen, Lars Maal{\o}e(参考訳) 確率的潜在変数モデル(lvms)は自然画像生成において最先端のパフォーマンスを実現するが、音声における決定論的モデルよりも劣っている。 本稿では,一般的な時相LVMの音声ベンチマークを開発し,それを最先端の決定論的モデルと比較する。 画像領域でよく使われる指標であるが、音声モデルで報告されることは稀であり、しばしば非比較的に報告される。 学習表現の質を評価するために,音素認識におけるその有用性を比較する。 最後に,映像生成のための最先端の時間LVMであるClockwork VAEを音声領域に適用する。 潜在空間においてのみ自己回帰的であるにもかかわらず、クロックワークVAEは従来のLVMよりも優れ、潜在変数の階層を用いて決定論的モデルとのギャップを小さくすることができる。

Stochastic latent variable models (LVMs) achieve state-of-the-art performance on natural image generation but are still inferior to deterministic models on speech. In this paper, we develop a speech benchmark of popular temporal LVMs and compare them against state-of-the-art deterministic models. We report the likelihood, which is a much used metric in the image domain, but rarely, and often incomparably, reported for speech models. To assess the quality of the learned representations, we also compare their usefulness for phoneme recognition. Finally, we adapt the Clockwork VAE, a state-of-the-art temporal LVM for video generation, to the speech domain. Despite being autoregressive only in latent space, we find that the Clockwork VAE can outperform previous LVMs and reduce the gap to deterministic models by using a hierarchy of latent variables.
翻訳日:2022-03-06 12:32:27 公開日:2022-02-22
# 野生の瞬間的ストレス検出における半教師付き学習とデータ拡張

Semi-Supervised Learning and Data Augmentation in Wearable-based Momentary Stress Detection in the Wild ( http://arxiv.org/abs/2202.12935v1 )

ライセンス: Link先を確認
Han Yu, Akane Sano(参考訳) ウェアラブルまたはモバイルセンサーから収集された生理的および行動的データは、自己報告されたストレスレベルを推定するために使用されている。 ストレスアノテーションは通常、研究中に自己報告に依存するため、ラベル付きデータの限られた量は、正確で一般化されたストレス予測モデルを開発する上で障害となる可能性がある。 一方、センサーはアノテーションなしで連続的に信号をキャプチャすることができる。 本研究は,野生のストレス検出にラベルなしのウェアラブルセンサデータを活用することを検討する。 まず,生理的および行動的データにデータ拡張技術を適用し,教師付きストレス検出モデルのロバスト性を改善する。 ラベルなしシーケンスを積極的に選択した自動エンコーダを用いて教師付きモデル構造を事前学習し,ラベルなしサンプルから得られた情報を活用した。 そこで,ラベルなしデータ列を活用した半教師付き学習フレームワークを開発した。 拡張データと元のラベルなしデータに基づいて予測出力の一貫性を強制する一貫性規則化とデータ拡張技術を組み合わせた。 これらの手法を3つのウェアラブル/モバイルセンサデータセットを用いて検証した。 提案手法を組み合わせることで,ベースライン教師付き学習モデルと比較して,評価データセット上でのストレス分類性能が7.7%から13.8%向上した。

Physiological and behavioral data collected from wearable or mobile sensors have been used to estimate self-reported stress levels. Since the stress annotation usually relies on self-reports during the study, a limited amount of labeled data can be an obstacle in developing accurate and generalized stress predicting models. On the other hand, the sensors can continuously capture signals without annotations. This work investigates leveraging unlabeled wearable sensor data for stress detection in the wild. We first applied data augmentation techniques on the physiological and behavioral data to improve the robustness of supervised stress detection models. Using an auto-encoder with actively selected unlabeled sequences, we pre-trained the supervised model structure to leverage the information learned from unlabeled samples. Then, we developed a semi-supervised learning framework to leverage the unlabeled data sequences. We combined data augmentation techniques with consistency regularization, which enforces the consistency of prediction output based on augmented and original unlabeled data. We validated these methods using three wearable/mobile sensor datasets collected in the wild. Our results showed that combining the proposed methods improved stress classification performance by 7.7% to 13.8% on the evaluated datasets, compared to the baseline supervised learning models.
翻訳日:2022-03-06 12:31:40 公開日:2022-02-22
# (参考訳) Automungeによる数値エンコーディングオプション [全文訳有]

Numeric Encoding Options with Automunge ( http://arxiv.org/abs/2202.09496v2 )

ライセンス: CC BY 4.0
Nicholas J. Teague(参考訳) 表データを使った機械学習の主流的プラクティスは、数値集合のスケーリング以外の機能エンジニアリングがディープニューラルネットワークのコンテキストにおいて過剰であるという点で当然のことだ。 本稿では、グラフデータパイプライン用Automungeオープンソースpythonライブラリプラットフォームで利用可能な数値変換の選択肢を調査することで、ディープラーニングにおける数値ストリームのエンコーディングの拡張による潜在的なメリットについて論じる。 Automunge変換オプションには、正規化、ビンニング、ノイズ注入、デリバティブなどが含まれる。 これらの手法のファミリツリー変換集合への集約は、未知の解釈の数値集合を符号化するために用いられるように、様々な情報内容の複数の構成で機械学習に数値特徴を提示するために用いられる。 実験は、表型学習のためのノイズインジェクションによるデータ拡張に対する新しい一般化解の実現を実証する。

Mainstream practice in machine learning with tabular data may take for granted that any feature engineering beyond scaling for numeric sets is superfluous in context of deep neural networks. This paper will offer arguments for potential benefits of extended encodings of numeric streams in deep learning by way of a survey of options for numeric transformations as available in the Automunge open source python library platform for tabular data pipelines, where transformations may be applied to distinct columns in "family tree" sets with generations and branches of derivations. Automunge transformation options include normalization, binning, noise injection, derivatives, and more. The aggregation of these methods into family tree sets of transformations are demonstrated for use to present numeric features to machine learning in multiple configurations of varying information content, as may be applied to encode numeric sets of unknown interpretation. Experiments demonstrate the realization of a novel generalized solution to data augmentation by noise injection for tabular learning, as may materially benefit model performance in applications with underserved training data.
翻訳日:2022-02-26 16:08:52 公開日:2022-02-22
# (参考訳) Automungeでパースされたカテゴリエンコーディング [全文訳有]

Parsed Categoric Encodings with Automunge ( http://arxiv.org/abs/2202.09498v2 )

ライセンス: CC BY 4.0
Nicholas J. Teague(参考訳) タブ形式のデータ前処理のためのAutomungeのオープンソースのpythonライブラリプラットフォームは、数値エンコーディングと欠落したデータ入力による機能エンジニアリングデータ変換を自動化し、列のプロパティに適合するベース上で、推論などのその後のデータパイプラインへの一貫性と効率の確保を目的としている。 変換ライブラリには、自動文字列解析によって有界な分類文字列集合から構造を抽出する手法が含まれており、一意値の集合におけるエントリ間の比較を解析して、ブール重複検出アクティベーションの付加列によってエンコードされる文字サブセットの重複を特定するか、あるいは、文字列エントリを識別された重複分割で置き換える。 さらに文字列解析オプションは、非有界なカテゴリ集合にも適用でき、エントリや検索関数から数値的なサブストリングパーティションを抽出して特定のサブストリングパーティションの存在を特定する。 これらの手法の「ファミリーツリー」変換集合への集約は、人間の介入なしに機械学習のためのカテゴリ文字列セットエンコーディングを作成するように、列内のエントリのセットに関連するカテゴリ文字列合成から構造を自動的に抽出するために使用される。

The Automunge open source python library platform for tabular data pre-processing automates feature engineering data transformations of numerical encoding and missing data infill to received tidy data on bases fit to properties of columns in a designated train set for consistent and efficient application to subsequent data pipelines such as for inference, where transformations may be applied to distinct columns in "family tree" sets with generations and branches of derivations. Included in the library of transformations are methods to extract structure from bounded categorical string sets by way of automated string parsing, in which comparisons between entries in the set of unique values are parsed to identify character subset overlaps which may be encoded by appended columns of boolean overlap detection activations or by replacing string entries with identified overlap partitions. Further string parsing options, which may also be applied to unbounded categoric sets, include extraction of numeric substring partitions from entries or search functions to identify presence of specified substring partitions. The aggregation of these methods into "family tree" sets of transformations are demonstrated for use to automatically extract structure from categoric string compositions in relation to the set of entries in a column, such as may be applied to prepare categoric string set encodings for machine learning without human intervention.
翻訳日:2022-02-26 15:26:02 公開日:2022-02-22
# (参考訳) トランスフォーマーに基づく言語モデルにおける毒性の緩和のためのリワードモデリング [全文訳有]

Reward Modeling for Mitigating Toxicity in Transformer-based Language Models ( http://arxiv.org/abs/2202.09662v2 )

ライセンス: CC BY 4.0
Farshid Faal and Ketra Schmitt(参考訳) トランスフォーマティブベースの言語モデルは、フルーエントテキストを生成することができ、様々な自然言語生成タスクに効率的に適応することができる。 しかし、大規模な未ラベルのウェブテキストコーパスで事前訓練された言語モデルは、有害な内容の変性と社会的偏見の挙動に悩まされ、結果として安全な展開を妨げることが示されている。 言語モデルの毒性を軽減するために様々な解毒法が提案されたが、これらの方法は、性別、人種、宗教に関連する特定の社会的アイデンティティを含むプロンプトを条件に、言語モデルの解毒に苦慮した。 本研究では,言語モデルにおける毒性軽減のための強化学習に基づくReinforce-Detoxifyを提案する。 言語モデルにおける安全性の課題に対処し、有害な内容を検出し、有害性予測における社会的アイデンティティに対する意図しない偏見を軽減する新しい報酬モデルを提案する。 実験により,Reinforce-Detoxify法は,自動評価尺度において既存のデトックス化手法よりも優れており,言語モデルデトックス化における我々のアプローチの能力は,生成コンテンツにおける社会的アイデンティティに対する意図しない偏見に劣ることが示された。

Transformer-based language models are able to generate fluent text and be efficiently adapted across various natural language generation tasks. However, language models that are pretrained on large unlabeled web text corpora have been shown to suffer from degenerating toxic content and social bias behaviors, consequently hindering their safe deployment. Various detoxification methods were proposed to mitigate the language model's toxicity; however, these methods struggled to detoxify language models when conditioned on prompts that contain specific social identities related to gender, race, or religion. In this study, we propose Reinforce-Detoxify; A reinforcement learning-based method for mitigating toxicity in language models. We address the challenge of safety in language models and propose a new reward model that is able to detect toxic content and mitigate unintended bias towards social identities in toxicity prediction. The experiments demonstrate that the Reinforce-Detoxify method for language model detoxification outperforms existing detoxification approaches in automatic evaluation metrics, indicating the ability of our approach in language model detoxification and less prone to unintended bias toward social identities in generated content.
翻訳日:2022-02-26 11:07:46 公開日:2022-02-22
# (参考訳) 画像領域における特徴帰属法の評価

Evaluating Feature Attribution Methods in the Image Domain ( http://arxiv.org/abs/2202.12270v1 )

ライセンス: CC BY 4.0
Arne Gevaert, Axel-Jan Rousseau, Thijs Becker, Dirk Valkenborg, Tijl De Bie, Yvan Saeys(参考訳) 特徴帰属マップ(feature attribution maps)は、与えられたモデルの予測のために画像中の最も重要なピクセルを強調する一般的なアプローチである。 近年の人気が高まり,利用できる方法が増えているにもかかわらず,このような属性マップの客観的評価にはほとんど注意が払われていない。 この領域におけるこれまでの研究に基づいて,既存のメトリクスを調査し,帰属マップの評価のための新しいメトリクスの変種を提案する。 我々は最近、異なる帰属メトリクスが帰属マップの異なる基礎となる概念を計測しているように見えることを確認し、この発見をより多くの帰属メトリクスに拡張した。 また,一方のデータセット上の計量結果が必ずしも他のデータセットに一般化するとは限らないこと,そしてdeepshapのような望ましい理論的性質を持つ手法は計算量的に安価な代替案を必ずしも上回らないことを見出した。 これらの知見に基づき, 与えられたユースケースに対する理想的な特徴属性法を特定するための一般的なベンチマーク手法を提案する。 帰属メトリクスの実装と実験はオンラインで利用可能です。

Feature attribution maps are a popular approach to highlight the most important pixels in an image for a given prediction of a model. Despite a recent growth in popularity and available methods, little attention is given to the objective evaluation of such attribution maps. Building on previous work in this domain, we investigate existing metrics and propose new variants of metrics for the evaluation of attribution maps. We confirm a recent finding that different attribution metrics seem to measure different underlying concepts of attribution maps, and extend this finding to a larger selection of attribution metrics. We also find that metric results on one dataset do not necessarily generalize to other datasets, and methods with desirable theoretical properties such as DeepSHAP do not necessarily outperform computationally cheaper alternatives. Based on these findings, we propose a general benchmarking approach to identify the ideal feature attribution method for a given use case. Implementations of attribution metrics and our experiments are available online.
翻訳日:2022-02-26 10:14:27 公開日:2022-02-22
# (参考訳) prosから学ぶ:放送映像からプロのゴールキーパーテクニックを抽出する [全文訳有]

Learning from the Pros: Extracting Professional Goalkeeper Technique from Broadcast Footage ( http://arxiv.org/abs/2202.12259v1 )

ライセンス: CC BY 4.0
Matthew Wear, Ryan Beal, Tim Matthews, Tim Norman and Sarvapali Ramchurn(参考訳) 草の根サッカーをするアマチュアのゴールキーパーとして、トップのプロのゴールキーパーよりも学ぶべき人はいるか? 本稿では,コンピュータビジョンと機械学習モデルを用いて,低レベルの者が学ぶことのできる方法で,専門家のセーブテクニックを評価する。 放送映像から抽出した3次元ポーズデータを用いて教師なし機械学習モデルを訓練し,プロのゴールキーパー技術を学ぶ。 次に、マッチコンテキストの異なる最適なゴールキーパーテクニックを識別できる「期待保存」モデルを開発した。

As an amateur goalkeeper playing grassroots soccer, who better to learn from than top professional goalkeepers? In this paper, we harness computer vision and machine learning models to appraise the save technique of professionals in a way those at lower levels can learn from. We train an unsupervised machine learning model using 3D body pose data extracted from broadcast footage to learn professional goalkeeper technique. Then, an "expected saves" model is developed, from which we can identify the optimal goalkeeper technique in different match contexts.
翻訳日:2022-02-26 10:13:05 公開日:2022-02-22
# サイン付きグラフによるコミュニティの回復

Exact Community Recovery over Signed Graphs ( http://arxiv.org/abs/2202.12255v1 )

ライセンス: Link先を確認
Xiaolu Wang, Peng Wang, Anthony Man-Cho So(参考訳) 符号付きグラフは、正および負のエッジを持つ異なる実体間の類似性と異性関係を符号化する。 本稿では,符号付き確率ブロックモデル (SSBM) が生み出す符号付きグラフに対するコミュニティ復元の問題について検討する。 提案手法は,ssbmの最大確率推定(mle)に基づいている。 既存の多くのアプローチとは異なり、我々の定式化は符号付きグラフの正の辺と負の辺を不等に扱うべきであることを明らかにする。 次に,正規化mleを解くための単純な二段階反復アルゴリズムを提案する。 対数次数法では,提案アルゴリズムは情報理論の限界において,基礎となるコミュニティをほぼ直線的に正確に復元できることが示されている。 合成データと実データの両方に関する数値的な結果を報告し, 提案手法の有効性を実証し, 理論的発展を補完する。

Signed graphs encode similarity and dissimilarity relationships among different entities with positive and negative edges. In this paper, we study the problem of community recovery over signed graphs generated by the signed stochastic block model (SSBM) with two equal-sized communities. Our approach is based on the maximum likelihood estimation (MLE) of the SSBM. Unlike many existing approaches, our formulation reveals that the positive and negative edges of a signed graph should be treated unequally. We then propose a simple two-stage iterative algorithm for solving the regularized MLE. It is shown that in the logarithmic degree regime, the proposed algorithm can exactly recover the underlying communities in nearly-linear time at the information-theoreti c limit. Numerical results on both synthetic and real data are reported to validate and complement our theoretical developments and demonstrate the efficacy of the proposed method.
翻訳日:2022-02-25 18:16:50 公開日:2022-02-22
# クラスター因果図における効果同定

Effect Identification in Cluster Causal Diagrams ( http://arxiv.org/abs/2202.12263v1 )

ライセンス: Link先を確認
Tara V. Anand, Ad\`ele H. Ribeiro, Jin Tian, Elias Bareinboim(参考訳) 経験的科学の至る所で見られる広汎な課題の一つは、非実験データから介入の効果を決定することである。 因果関係図 (pearl, 2000) で表現される因果関係推論を行うには仮定が必要であることがよく理解されている。 このアプローチの力にもかかわらず、すべての観測変数に対して因果図を特定するために必要な知識は、特に複雑で高次元の領域では利用できない設定がある。 本稿では,クラスタ因果ダイアグラム(略してC-DAG)と呼ばれる新しいタイプのグラフィカルモデルを導入し,限定された事前知識に基づいて変数間の関係を部分的に定義し,完全な因果ダイアグラムを特定するという厳密な要求を緩和する。 C-DAGは変数のクラスタ間の関係を指定し、クラスタ内の変数間の関係は未特定のままである。 C-DAGに対する因果推論のための基礎と機械を開発する。 特に、まずd-セパレーション基準の新しいバージョンを定義し、その健全性と完全性を証明する。 次に,これら新たな分離規則を拡張し,対応するdo計算の有効性を証明する。 最後に、標準識別アルゴリズムは、C-DAGが与えられた観測データから因果効果を体系的に計算する。

One pervasive task found throughout the empirical sciences is to determine the effect of interventions from non-experimental data. It is well-understood that assumptions are necessary to perform causal inferences, which are commonly articulated through causal diagrams (Pearl, 2000). Despite the power of this approach, there are settings where the knowledge necessary to specify a causal diagram over all observed variables may not be available, particularly in complex, high-dimensional domains. In this paper, we introduce a new type of graphical model called cluster causal diagrams (for short, C-DAGs) that allows for the partial specification of relationships among variables based on limited prior knowledge, alleviating the stringent requirement of specifying a full causal diagram. A C-DAG specifies relationships between clusters of variables, while the relationships between the variables within a cluster are left unspecified. We develop the foundations and machinery for valid causal inferences over C-DAGs. In particular, we first define a new version of the d-separation criterion and prove its soundness and completeness. Secondly, we extend these new separation rules and prove the validity of the corresponding do-calculus. Lastly, we show that a standard identification algorithm is sound and complete to systematically compute causal effects from observational data given a C-DAG.
翻訳日:2022-02-25 16:36:29 公開日:2022-02-22
# (参考訳) 深い特徴に基づくクロススライダー登録 [全文訳有]

Deep Feature based Cross-slide Registration ( http://arxiv.org/abs/2202.09971v2 )

ライセンス: CC BY 4.0
Ruqayya Awan, Shan E Ahmed Raza, Johannes Lotz and Nasir M. Rajpoot(参考訳) クロススライダー画像解析は、単一スライド解析と比較して異なるバイオマーカーの発現を分析することで追加情報を提供する。 異なるバイオマーカーで染色されたスライドを並べて分析し、異なるバイオマーカー間の未知の関係を明らかにする。 スライド調製時には、同じ組織ブロックの他の部分と比較して、組織部を任意の方向に配置することができる。 この問題は、組織の内容があるセクションから次のセクションへと変化する可能性があり、いくつかのスライドにユニークなアーティファクトが存在するという事実によって複雑化されている。 これにより、クロススライド分析の前に、同じ組織の参照部への各セクションの登録が重要な前提条件タスクとなる。 本稿では,データ駆動型特徴量を利用して剛性変換を推定するDFBR法を提案する。 我々は登録の質を向上させるための多段階戦略を採用した。 また,異なる倍率で登録されたwsisペアを見るための可視化ツールを開発した。 このツールの助けを借りて、ピラミッド形式で変換されたソースwsiを生成する必要なしに、オンザフライで変換を適用できる。 COMETデータセットにおける手作り機能とデータ駆動機能の性能を比較した。 当社のアプローチでは,画像の登録エラーを低減できる。 一般に、非厳密登録の成功は厳密登録の品質に依存する。 DFBR法の有効性を評価するため,ANHIR勝者のフレームワークの最初の2ステップをDFBRに置き換えて,提案した画像ペアを登録する。 修正されたフレームワークは、チャレンジ優勝チームと同等の結果を生み出します。

Cross-slide image analysis provides additional information by analysing the expression of different biomarkers as compared to a single slide analysis. Slides stained with different biomarkers are analysed side by side which may reveal unknown relations between the different biomarkers. During the slide preparation, a tissue section may be placed at an arbitrary orientation as compared to other sections of the same tissue block. The problem is compounded by the fact that tissue contents are likely to change from one section to the next and there may be unique artefacts on some of the slides. This makes registration of each section to a reference section of the same tissue block an important pre-requisite task before any cross-slide analysis. We propose a deep feature based registration (DFBR) method which utilises data-driven features to estimate the rigid transformation. We adopted a multi-stage strategy for improving the quality of registration. We also developed a visualisation tool to view registered pairs of WSIs at different magnifications. With the help of this tool, one can apply a transformation on the fly without the need to generate transformed source WSI in a pyramidal form. We compared the performance of data-driven features with that of hand-crafted features on the COMET dataset. Our approach can align the images with low registration errors. Generally, the success of non-rigid registration is dependent on the quality of rigid registration. To evaluate the efficacy of the DFBR method, the first two steps of the ANHIR winner's framework are replaced with our DFBR to register challenge provided image pairs. The modified framework produce comparable results to that of challenge winning team.
翻訳日:2022-02-25 08:40:54 公開日:2022-02-22
# (参考訳) ハイブリッド電気自動車の深部強化学習に基づく伝達可能エネルギー管理手法の比較検討 [全文訳有]

A Comparative Study of Deep Reinforcement Learning-based Transferable Energy Management Strategies for Hybrid Electric Vehicles ( http://arxiv.org/abs/2202.11514v1 )

ライセンス: CC BY 4.0
Jingyi Xu, Zirui Li, Li Gao, Junyi Ma, Qi Liu and Yanan Zhao(参考訳) 深層強化学習に基づくエネルギー管理戦略(EMS)はハイブリッド電気自動車(HEV)にとって有望なソリューションとなっている。 運転サイクルが変更されると、ネットワークが再トレーニングされる。 EMSを選択するより効率的な方法は、深層強化学習(DRL)と転送学習を組み合わせることで、あるドメインの知識を他のドメインに転送し、新しいドメインのネットワークが収束値に素早く到達できるようにすることである。 本研究におけるトランスファー学習過程において、動作空間ノイズとパラメータ空間ノイズの付加を含むrlの異なる探索手法を比較検討した。 その結果,ネットワーク付加パラメータ空間雑音は,他よりも安定で収束が速いことがわかった。 結論として, トランスファー可能なemsの最適探索方法はパラメータ空間にノイズを加えることであり, 動作空間ノイズとパラメータ空間ノイズの組み合わせは一般的には不十分である。 私たちのコードはhttps://github.com/B IT-XJY/RL-based-Tran sferable-EMS.gitで利用可能です。

The deep reinforcement learning-based energy management strategies (EMS) has become a promising solution for hybrid electric vehicles (HEVs). When driving cycles are changed, the network will be retrained, which is a time-consuming and laborious task. A more efficient way of choosing EMS is to combine deep reinforcement learning (DRL) with transfer learning, which can transfer knowledge of one domain to the other new domain, making the network of the new domain reach convergence values quickly. Different exploration methods of RL, including adding action space noise and parameter space noise, are compared against each other in the transfer learning process in this work. Results indicate that the network added parameter space noise is more stable and faster convergent than the others. In conclusion, the best exploration method for transferable EMS is to add noise in the parameter space, while the combination of action space noise and parameter space noise generally performs poorly. Our code is available at https://github.com/B IT-XJY/RL-based-Tran sferable-EMS.git.
翻訳日:2022-02-25 07:36:24 公開日:2022-02-22
# (参考訳) Bag Graph:ベイジアングラフニューラルネットワークを用いた複数インスタンス学習 [全文訳有]

Bag Graph: Multiple Instance Learning using Bayesian Graph Neural Networks ( http://arxiv.org/abs/2202.11132v1 )

ライセンス: CC BY 4.0
Soumyasundar Pal, Antonios Valkanas, Florence Regol, Mark Coates(参考訳) 複数インスタンス学習(MIL)は、各インスタンスが独立かつ同一に分散(IID)され、個別にラベル付けされるという従来の教師付き学習とは対照的に、ラベルをインスタンスのセットやバッグに割り当てることを目的とした弱い教師付き学習問題である。 最近の研究は、MIL設定におけるニューラルネットワークモデルの有望な結果を示している。 それぞれのインスタンスに焦点を当てる代わりに、これらのモデルはエンドツーエンドでトレーニングされ、置換不変プール技術とニューラルネットワークアーキテクチャを適切に組み合わせて、効果的な袋レベルの表現を学ぶ。 本稿では,袋間の相互作用をグラフを用いてモデル化し,エンドツーエンド学習を容易にするためにグラフニューラルネットワーク(gnns)を用いる。 バッグ間の依存関係を表す有意義なグラフはめったに利用できないため、グラフに不確実性がある場合やグラフがない場合のシナリオに対して、おそらくグラフ構造を生成することのできるベイズGNNフレームワークを提案する。 実験の結果,いくつかのミルベンチマークタスクと分布回帰タスクにおいて提案手法の有効性が示された。

Multiple Instance Learning (MIL) is a weakly supervised learning problem where the aim is to assign labels to sets or bags of instances, as opposed to traditional supervised learning where each instance is assumed to be independent and identically distributed (IID) and is to be labeled individually. Recent work has shown promising results for neural network models in the MIL setting. Instead of focusing on each instance, these models are trained in an end-to-end fashion to learn effective bag-level representations by suitably combining permutation invariant pooling techniques with neural architectures. In this paper, we consider modelling the interactions between bags using a graph and employ Graph Neural Networks (GNNs) to facilitate end-to-end learning. Since a meaningful graph representing dependencies between bags is rarely available, we propose to use a Bayesian GNN framework that can generate a likely graph structure for scenarios where there is uncertainty in the graph or when no graph is available. Empirical results demonstrate the efficacy of the proposed technique for several MIL benchmark tasks and a distribution regression task.
翻訳日:2022-02-25 06:57:18 公開日:2022-02-22
# (参考訳) MDD患者同定のためのロバスト階層パターン : 多施設共同研究 [全文訳有]

Robust Hierarchical Patterns for identifying MDD patients: A Multisite Study ( http://arxiv.org/abs/2202.11144v1 )

ライセンス: CC BY 4.0
Dushyant Sahoo, Mathilde Antoniades, Cynthia H.Y. Fu, and Christos Davatzikos(参考訳) 機能的磁気共鳴画像(fMRI)データを用いた疾患分類のための多くの教師付き機械学習フレームワークが提案され、重要なバイオマーカーを生み出している。 最近ではデータプーリングが盛んになり、その結果は大きな人口にまたがって一般化した。 しかし、この成功は、主要な研究対象ではないデータのプールによってもたらされる、人口の多様性と変動に依存する。 本稿では,大うつ病(MDD)のバイオマーカーとして階層的スパース接続パターン(hSCP)を考察する。 静止状態fMRIデータから抽出した機能的接続行列からMDD患者を予測するためのhSCPに基づく新しいモデルを提案する。 我々のモデルは3つの結合項からなる。 第1項は、接続行列をヒト脳の同期パターンに対応する階層的な低ランクスパース成分に分解する。 これらのコンポーネントは、データ内の異質性をキャプチャする患者固有の重みによって結合される。 第2の用語は、患者固有の体重を使ってMDD患者と健康な患者を分類する分類損失である。 これらの用語は、hscpの再現性を改善するためのロバストネス損失関数である第3項と組み合わせられる。 これにより、5つの異なるサイトからプールされた大規模データセットの予測精度とパターン安定性において、サイトと人口の多様性(年齢と性別)によってもたらされる変動性が低減される。 結果は,多様性が予測性能に及ぼす影響を示した。 我々のモデルは多様性を低減し、コンポーネントの予測および一般化能力を改善することができる。 その結果,本モデルはmddの特徴である臨床関連パターンを高い再現性でロバストに同定できることがわかった。

Many supervised machine learning frameworks have been proposed for disease classification using functional magnetic resonance imaging (fMRI) data, producing important biomarkers. More recently, data pooling has flourished, making the result generalizable across a large population. But, this success depends on the population diversity and variability introduced due to the pooling of the data that is not a primary research interest. Here, we look at hierarchical Sparse Connectivity Patterns (hSCPs) as biomarkers for major depressive disorder (MDD). We propose a novel model based on hSCPs to predict MDD patients from functional connectivity matrices extracted from resting-state fMRI data. Our model consists of three coupled terms. The first term decomposes connectivity matrices into hierarchical low-rank sparse components corresponding to synchronous patterns across the human brain. These components are then combined via patient-specific weights capturing heterogeneity in the data. The second term is a classification loss that uses the patient-specific weights to classify MDD patients from healthy ones. Both of these terms are combined with the third term, a robustness loss function to improve the reproducibility of hSCPs. This reduces the variability introduced due to site and population diversity (age and sex) on the predictive accuracy and pattern stability in a large dataset pooled from five different sites. Our results show the impact of diversity on prediction performance. Our model can reduce diversity and improve the predictive and generalizing capability of the components. Finally, our results show that our proposed model can robustly identify clinically relevant patterns characteristic of MDD with high reproducibility.
翻訳日:2022-02-25 06:44:27 公開日:2022-02-22
# (参考訳) 異常な失敗のない並列MCMC [全文訳有]

Parallel MCMC Without Embarrassing Failures ( http://arxiv.org/abs/2202.11154v1 )

ライセンス: CC BY 4.0
Daniel Augusto de Souza, Diego Mesquita, Samuel Kaski, Luigi Acerbi(参考訳) 恥ずかしいことに、Markov Chain Monte Carlo (MCMC) は並列計算を利用して、ベイズ推論を2段階のアプローチで大規模データセットに拡張する。 まず、MCMCはデータパーティションで定義された(サブ)ポストで並列に実行される。 そして、サーバはローカルな結果を組み合わせる。 効率的ではあるが、このフレームワークは後部サンプリングの品質に非常に敏感である。 欠落モードや低密度領域の誤表現といった一般的なサンプリング問題は、組み合わせフェーズで修正される代わりに増幅され、破滅的な失敗につながる。 本稿では,この問題を軽減するための新しい組み合わせ戦略を提案する。 当社の戦略である並列能動推論(pai)は,ガウス過程(gp)をモデルとアクティブラーニングに活用する。 GPを後代に適合させた後、PAI i) 欠落モードをカバーするためにGPサロゲート間で情報を共有する。 (ii) 個別に後続近似を洗練するためにアクティブサンプリングを用いる。 重み付きおよびマルチモーダル後部や実世界の計算神経科学への応用など,PAIを挑戦的なベンチマークで検証する。 実証実験の結果,従来の手法が破滅的に失敗し,通信オーバーヘッドが小さかった場合にPAIが成功することが示された。

Embarrassingly parallel Markov Chain Monte Carlo (MCMC) exploits parallel computing to scale Bayesian inference to large datasets by using a two-step approach. First, MCMC is run in parallel on (sub)posteriors defined on data partitions. Then, a server combines local results. While efficient, this framework is very sensitive to the quality of subposterior sampling. Common sampling problems such as missing modes or misrepresentation of low-density regions are amplified -- instead of being corrected -- in the combination phase, leading to catastrophic failures. In this work, we propose a novel combination strategy to mitigate this issue. Our strategy, Parallel Active Inference (PAI), leverages Gaussian Process (GP) surrogate modeling and active learning. After fitting GPs to subposteriors, PAI (i) shares information between GP surrogates to cover missing modes; and (ii) uses active sampling to individually refine subposterior approximations. We validate PAI in challenging benchmarks, including heavy-tailed and multi-modal posteriors and a real-world application to computational neuroscience. Empirical results show that PAI succeeds where previous methods catastrophically fail, with a small communication overhead.
翻訳日:2022-02-25 06:10:16 公開日:2022-02-22
# (参考訳) perspective apiの新世代:効率的な多言語文字レベルトランスフォーマー [全文訳有]

A New Generation of Perspective API: Efficient Multilingual Character-level Transformers ( http://arxiv.org/abs/2202.11176v1 )

ライセンス: CC BY 4.0
Alyssa Lees, Vinh Q. Tran, Yi Tay, Jeffrey Sorensen, Jai Gupta, Donald Metzler, Lucy Vasserman(参考訳) ワールドワイドウェブでは、有害なコンテンツ検知器は、潜在的に憎しみや攻撃的なメッセージに対する重要な防御線である。 そのため、より安全なインターネットを実現するための高効率な分類器の構築は重要な研究分野である。 さらに、webは高度に多言語で異文化のコミュニティであり、時間とともに独自の言語を発展させている。 そのため、様々な言語、用法、スタイルにまたがって効果的なモデルを開発することが不可欠である。 本稿では,Google JigsawのAspective APIの次期バージョンの基礎について述べる。 このアプローチの中心には、さまざまな言語、ドメイン、タスクに適用可能な、単一の多言語トークンフリーなCharformerモデルがあります。 静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。 さらに、このようなバイトレベルのモデルを効率的かつ生産化可能なものにするためのテクニックを概説する。 実際のAPIトラフィックから得られた多言語有毒コメント分類ベンチマークに関する広範な実験と、コードスイッチング、隠蔽毒性、絵文字ベースの憎悪、人間の可読性難読化、分布シフト、バイアス評価設定による評価により、提案手法が強いベースラインより優れていることを示す。 最後に,本システムの本番環境への展開から得られた知見を紹介する。

On the world wide web, toxic content detectors are a crucial line of defense against potentially hateful and offensive messages. As such, building highly effective classifiers that enable a safer internet is an important research area. Moreover, the web is a highly multilingual, cross-cultural community that develops its own lingo over time. As such, it is crucial to develop models that are effective across a diverse range of languages, usages, and styles. In this paper, we present the fundamentals behind the next version of the Perspective API from Google Jigsaw. At the heart of the approach is a single multilingual token-free Charformer model that is applicable across a range of languages, domains, and tasks. We demonstrate that by forgoing static vocabularies, we gain flexibility across a variety of settings. We additionally outline the techniques employed to make such a byte-level model efficient and feasible for productionization. Through extensive experiments on multilingual toxic comment classification benchmarks derived from real API traffic and evaluation on an array of code-switching, covert toxicity, emoji-based hate, human-readable obfuscation, distribution shift, and bias evaluation settings, we show that our proposed approach outperforms strong baselines. Finally, we present our findings from deploying this system in production.
翻訳日:2022-02-25 05:44:33 公開日:2022-02-22
# (参考訳) 空間と言語の後継表現に基づくニューラルネットワーク [全文訳有]

Neural Network based Successor Representations of Space and Language ( http://arxiv.org/abs/2202.11190v1 )

ライセンス: CC BY 4.0
Paul Stoewer, Christian Schlieker, Achim Schilling, Claus Metzner, Andreas Maier and Patrick Krauss(参考訳) 思考をどう整理するか? 海馬-海馬複合体は、任意の状態、特徴、概念空間の構造的知識のドメイン一般表現と処理をサポートすると考えられている。 特に、認知地図の形成とこれらの地図のナビゲーションを可能にし、それによって認知に広く寄与する。 マルチスケールの後継表現の概念は、位置と格子セルによって実行される基礎的な計算を説明するものであることが提案されている。 本稿では、そのような表現を学習するためのニューラルネットワークに基づくアプローチと、教師付き学習に基づく空間探索タスク、強化学習に基づく空間ナビゲーションタスク、サンプル文を観察することで言語構成を推測しなければならない非空間タスクなど、さまざまなシナリオに適用する。 すべてのシナリオにおいて、ニューラルネットワークは、後続表現を構築することによって基盤構造を正しく学習し、近似する。 さらに、得られた神経発火パターンは実験的に観察された場所や格子状細胞発火パターンと著しく類似している。 認知地図とニューラルネットワークに基づく構造的知識の継承表現は、人工知能に対するディープラーニングの短期的進歩を克服する有望な手段となると結論づける。

How does the mind organize thoughts? The hippocampal-entorhin al complex is thought to support domain-general representation and processing of structural knowledge of arbitrary state, feature and concept spaces. In particular, it enables the formation of cognitive maps, and navigation on these maps, thereby broadly contributing to cognition. It has been proposed that the concept of multi-scale successor representations provides an explanation of the underlying computations performed by place and grid cells. Here, we present a neural network based approach to learn such representations, and its application to different scenarios: a spatial exploration task based on supervised learning, a spatial navigation task based on reinforcement learning, and a non-spatial task where linguistic constructions have to be inferred by observing sample sentences. In all scenarios, the neural network correctly learns and approximates the underlying structure by building successor representations. Furthermore, the resulting neural firing patterns are strikingly similar to experimentally observed place and grid cell firing patterns. We conclude that cognitive maps and neural network-based successor representations of structured knowledge provide a promising way to overcome some of the short comings of deep learning towards artificial general intelligence.
翻訳日:2022-02-25 05:24:24 公開日:2022-02-22
# (参考訳) 微分可能・学習可能なロボットモデル [全文訳有]

Differentiable and Learnable Robot Models ( http://arxiv.org/abs/2202.11217v1 )

ライセンス: CC BY 4.0
Franziska Meier and Austin Wang and Giovanni Sutanto and Yixin Lin and Paarth Shah(参考訳) 物理プロセスの微分可能なシミュレーションの構築は、最近注目を集めている。 具体的には、剛体シミュレーションと現代の微分可能な機械学習ライブラリの融合による計算上の利点により、微分可能なロボット物理エンジンを開発する。 本稿では,データ駆動型手法と解析的剛体計算を組み合わせることに焦点を当てたライブラリを提案する。 より具体的には、我々のライブラリである \emph{differentiable robot models} は、pytorch におけるロボットの運動学とダイナミクスの \emph{differentiable} モデルと \emph{learnable} モデルの両方を実装している。 ソースコードは \url{https://github.com/f acebookresearch/diff erentiable-robot-mod el} で入手できる。

Building differentiable simulations of physical processes has recently received an increasing amount of attention. Specifically, some efforts develop differentiable robotic physics engines motivated by the computational benefits of merging rigid body simulations with modern differentiable machine learning libraries. Here, we present a library that focuses on the ability to combine data driven methods with analytical rigid body computations. More concretely, our library \emph{Differentiable Robot Models} implements both \emph{differentiable} and \emph{learnable} models of the kinematics and dynamics of robots in Pytorch. The source-code is available at \url{https://github.com/f acebookresearch/diff erentiable-robot-mod el}
翻訳日:2022-02-25 05:09:23 公開日:2022-02-22
# (参考訳) unbounded loss を用いた非回帰学習--対数プールの場合 [全文訳有]

No-Regret Learning with Unbounded Losses: The Case of Logarithmic Pooling ( http://arxiv.org/abs/2202.11219v1 )

ライセンス: CC BY 4.0
Eric Neyman and Tim Roughgarden(参考訳) t$の時間ステップ毎に、$m$のエキスパートは、n$の成果に対する確率分布を報告します。 我々は、ログ損失を最小化することに関心がある場合(損失関数となるために)、プーリング法を最適に選択するという意味で、対数プール法(対数プール法)と呼ばれる基本的で実践的な手法に焦点を当てる。 我々は,オンラインの対戦環境において,最適なパラメータセット(すなわち,専門家の重み付け)を学習する問題を考察する。 我々は、専門家が予測を校正するという意味で、結果と予測の敵対的な選択が一貫していると仮定する。 我々の主な成果は、オンラインミラー降下に基づくアルゴリズムで、専門的なウェイトを学習し、後見のベストウェイトと比較すると、$O(\sqrt{T} \log T)$期待の後悔を達成できる。

For each of $T$ time steps, $m$ experts report probability distributions over $n$ outcomes; we wish to learn to aggregate these forecasts in a way that attains a no-regret guarantee. We focus on the fundamental and practical aggregation method known as logarithmic pooling -- a weighted average of log odds -- which is in a certain sense the optimal choice of pooling method if one is interested in minimizing log loss (as we take to be our loss function). We consider the problem of learning the best set of parameters (i.e. expert weights) in an online adversarial setting. We assume (by necessity) that the adversarial choices of outcomes and forecasts are consistent, in the sense that experts report calibrated forecasts. Our main result is an algorithm based on online mirror descent that learns expert weights in a way that attains $O(\sqrt{T} \log T)$ expected regret as compared with the best weights in hindsight.
翻訳日:2022-02-25 05:01:42 公開日:2022-02-22
# (参考訳) 変圧器を用いた任意形状テキスト検出 [全文訳有]

Arbitrary Shape Text Detection using Transformers ( http://arxiv.org/abs/2202.11221v1 )

ライセンス: CC BY 4.0
Zobeir Raisi, Georges Younes, and John Zelek(参考訳) 最近のテキスト検出フレームワークでは、任意の形状のテキスト画像を検出するためにアンカー生成、非最大抑圧(nms)、複数の処理段階(ラベル生成など)といった手作りのコンポーネントを必要とする。 対照的に,任意の形状のテキスト検出において,従来の最先端手法に勝るトランスフォーマー(detr)を用いたエンドツーエンドのトレーニング可能なアーキテクチャを提案する。 提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。 これは、ベジエ曲線から作られるハイブリッドな形状の表現により可能であり、さらにピースワイズ多角形に分割される。 提案された損失関数は、分割多角形上で定義される一般化された分割的連結損失の組み合わせであり、ベジアー曲線の制御点上の滑らかな$\ln$回帰によって正規化される。 曲面テキストのためのTotal-TextおよびCTW-1500データセットと、多目的テキストのためのMSRA-TD500およびICDAR15データセットを用いて提案手法の評価を行い、任意の形状テキスト検出タスクにおいて従来の最先端手法よりも優れていることを示す。

Recent text detection frameworks require several handcrafted components such as anchor generation, non-maximum suppression (NMS), or multiple processing stages (e.g. label generation) to detect arbitrarily shaped text images. In contrast, we propose an end-to-end trainable architecture based on Detection using Transformers (DETR), that outperforms previous state-of-the-art methods in arbitrary-shaped text detection. At its core, our proposed method leverages a bounding box loss function that accurately measures the arbitrary detected text regions' changes in scale and aspect ratio. This is possible due to a hybrid shape representation made from Bezier curves, that are further split into piece-wise polygons. The proposed loss function is then a combination of a generalized-split-in tersection-over-unio n loss defined over the piece-wise polygons and regularized by a Smooth-$\ln$ regression over the Bezier curve's control points. We evaluate our proposed model using Total-Text and CTW-1500 datasets for curved text, and MSRA-TD500 and ICDAR15 datasets for multi-oriented text, and show that the proposed method outperforms the previous state-of-the-art methods in arbitrary-shape text detection tasks.
翻訳日:2022-02-25 04:38:51 公開日:2022-02-22
# ニューラルネットワークと宇宙力学を結合する双対性

A duality connecting neural network and cosmological dynamics ( http://arxiv.org/abs/2202.11104v1 )

ライセンス: Link先を確認
Sven Krippendorf, Michael Spannowsky(参考訳) 勾配降下を訓練したニューラルネットワークのダイナミクスと、平坦で真空エネルギーが支配する宇宙におけるスカラー場のダイナミクスが、構造的に深く関連していることを示す。 この双対性は、ニューラルネットワークのダイナミクスと初期の宇宙モデルをシミュレートし記述する新しい方法を理解し説明するために、これらのシステム間のシナジーの枠組みを提供する。 ニューラルネットワークの連続時間限界で働くことで、平均背景のダイナミクスと平均場周辺の小さな摂動のダイナミクスを解析的に一致させ、異なる限界における潜在的な差を強調する。 この解析的記述の実証実験を行い,ニューラルネットワークのハイパーパラメータに対する有効場理論パラメータの依存性を定量的に示す。 この双対性の結果、宇宙定数は勾配降下更新の学習率に逆向きに一致する。

We demonstrate that the dynamics of neural networks trained with gradient descent and the dynamics of scalar fields in a flat, vacuum energy dominated Universe are structurally profoundly related. This duality provides the framework for synergies between these systems, to understand and explain neural network dynamics and new ways of simulating and describing early Universe models. Working in the continuous-time limit of neural networks, we analytically match the dynamics of the mean background and the dynamics of small perturbations around the mean field, highlighting potential differences in separate limits. We perform empirical tests of this analytic description and quantitatively show the dependence of the effective field theory parameters on hyperparameters of the neural network. As a result of this duality, the cosmological constant is matched inversely to the learning rate in the gradient descent update.
翻訳日:2022-02-24 16:38:52 公開日:2022-02-22
# 形状最適化のための多次元強化学習フレームワーク

Multi-fidelity reinforcement learning framework for shape optimization ( http://arxiv.org/abs/2202.11170v1 )

ライセンス: Link先を確認
Sahil Bhola, Suraj Pawar, Prasanna Balaprakash, Romit Maulik(参考訳) 深層強化学習(DRL)は複雑なタスクの問題解決戦略を展開できる有望な外ループインテリジェンスパラダイムである。 その結果、DRLはいくつかの科学的応用、特に古典的な最適化や制御方法が制限されている場合に利用されてきた。 従来のDRL手法の1つの重要な制限は、数値フォワードモデルのコスト評価を含むタスクのボトルネックであることを証明したエピソードハングリーの性質である。 本稿では,DRLのこの制限に,多要素シミュレーション設定を利用した制御された伝達学習フレームワークを導入することで対処する。 提案手法は高レイノルズ数での翼形状最適化問題に対して,マルチ忠実性環境から知識を収集し,計算コストを30%以上削減することにより,効率的な翼形状を生成するための最適方針を学習できる。 さらに,我々の定式化は,新たな環境への政策探索と一般化を促進し,データへの過度な適合を防止する。 本研究は,多要素環境を政策学習に用いる科学的DRLシナリオに適用可能であることを示す。

Deep reinforcement learning (DRL) is a promising outer-loop intelligence paradigm which can deploy problem solving strategies for complex tasks. Consequently, DRL has been utilized for several scientific applications, specifically in cases where classical optimization or control methods are limited. One key limitation of conventional DRL methods is their episode-hungry nature which proves to be a bottleneck for tasks which involve costly evaluations of a numerical forward model. In this article, we address this limitation of DRL by introducing a controlled transfer learning framework that leverages a multi-fidelity simulation setting. Our strategy is deployed for an airfoil shape optimization problem at high Reynolds numbers, where our framework can learn an optimal policy for generating efficient airfoil shapes by gathering knowledge from multi-fidelity environments and reduces computational costs by over 30\%. Furthermore, our formulation promotes policy exploration and generalization to new environments, thereby preventing over-fitting to data from solely one fidelity. Our results demonstrate this framework's applicability to other scientific DRL scenarios where multi-fidelity environments can be used for policy learning.
翻訳日:2022-02-24 16:33:36 公開日:2022-02-22
# FourCastNet: 適応フーリエニューラル演算子を用いたグローバルデータ駆動高分解能気象モデル

FourCastNet: A Global Data-driven High-resolution Weather Model using Adaptive Fourier Neural Operators ( http://arxiv.org/abs/2202.11214v1 )

ライセンス: Link先を確認
Jaideep Pathak and Shashank Subramanian and Peter Harrington and Sanjeev Raja and Ashesh Chattopadhyay and Morteza Mardani and Thorsten Kurth and David Hall and Zongyi Li and Kamyar Azizzadenesheli and Pedram Hassanzadeh and Karthik Kashinath and Animashree Anandkumar(参考訳) fourcastnetは、fourier forecasting neural network(フーリエ予測ニューラルネットワーク)の略で、データ駆動型天気予報モデルであり、0.25^{\circ}$の解像度で精度の高い短距離から中距離のグローバル予測を提供する。 FourCastNetは、表面風速、降水量、大気水蒸気などの高解像度で高速な変数を正確に予測する。 風力エネルギー資源の計画に重要な意味を持ち、熱帯サイクロン、亜熱帯サイクロン、大気河川などの極端な気象事象を予測する。 FourCastNetは、降水を含む複雑な微細な構造を持つ変数に対してIPSを上回りながら、大規模変数に対する短いリードタイムで、最先端の数値気象予測(NWP)モデルであるECMWF統合予測システム(IFS)の予測精度と一致する。 fourcastnetは1週間の予測を2秒未満で生成し、ifsよりも桁違いに速い。 FourCastNetの速度は、数千のアンサンブルメンバーによる高速で安価な大アンサンブル予測の作成を可能にし、確率的予測を改善する。 本稿では,NWPモデルを支援するための気象ツールキットとして,FourCastNetなどのデータ駆動型ディープラーニングモデルが有用であることを示す。

FourCastNet, short for Fourier Forecasting Neural Network, is a global data-driven weather forecasting model that provides accurate short to medium-range global predictions at $0.25^{\circ}$ resolution. FourCastNet accurately forecasts high-resolution, fast-timescale variables such as the surface wind speed, precipitation, and atmospheric water vapor. It has important implications for planning wind energy resources, predicting extreme weather events such as tropical cyclones, extra-tropical cyclones, and atmospheric rivers. FourCastNet matches the forecasting accuracy of the ECMWF Integrated Forecasting System (IFS), a state-of-the-art Numerical Weather Prediction (NWP) model, at short lead times for large-scale variables, while outperforming IFS for variables with complex fine-scale structure, including precipitation. FourCastNet generates a week-long forecast in less than 2 seconds, orders of magnitude faster than IFS. The speed of FourCastNet enables the creation of rapid and inexpensive large-ensemble forecasts with thousands of ensemble-members for improving probabilistic forecasting. We discuss how data-driven deep learning models such as FourCastNet are a valuable addition to the meteorology toolkit to aid and augment NWP models.
翻訳日:2022-02-24 16:31:29 公開日:2022-02-22
# 畳み込みニューラルネットワークを用いた2次元流れのロート変換同変超解法

Roto-Translation Equivariant Super-Resolution of Two-Dimensional Flows Using Convolutional Neural Networks ( http://arxiv.org/abs/2202.11099v1 )

ライセンス: Link先を確認
Yuki Yasuda(参考訳) 畳み込みニューラルネットワーク(CNN)は、画像の色のような方向を持たない量としてベクトルを処理することが多い。 本研究では,ベクトルを幾何学的対象として扱う場合の2次元流体への超解像効果について検討した。 ベクトルは基底の変化に伴う変換法則によってスカラーと区別され、同変深層学習を用いて事前知識として組み込むことができる。 既存のCNNを、回転と変換に関して各層を同変させることにより、同変に変換する。 低解像度及び高解像度のトレーニングデータは、ダウンサンプリングまたはスペクトルヌーディングによって生成される。 データが回転対称性を継承すると、同値な cnn は非同値なものと同等の精度を示す。 パラメータの数は同変CNNでは小さいので、これらのモデルはデータのサイズを小さくして訓練することができる。 この場合、ベクトルの変換法則は、ベクトルが方向を持つ量として明示的に扱われる事前知識として組み入れるべきである。 2つの例は、データの対称性が破れることを示している。 最初の例では、ダウンサンプリング法は、方向に依存する低分解能パターンと高分解能パターンの対応性を与える。 第2のケースでは、入力データは、スペクトルナジングによる実験における座標の回転を認識するために不十分である。 どちらの場合も、等価性を強制すればCNNの精度は低下し、ベクトルを方向のない量として処理しても従来のCNNの使用は正当化される。

Convolutional neural networks (CNNs) often process vectors as quantities having no direction like colors in images. This study investigates the effect of treating vectors as geometrical objects in terms of super-resolution of velocity on two-dimensional fluids. Vector is distinguished from scalar by the transformation law associated with a change in basis, which can be incorporated as the prior knowledge using the equivariant deep learning. We convert existing CNNs into equivariant ones by making each layer equivariant with respect to rotation and translation. The training data in the low- and high-resolution are generated with the downsampling or the spectral nudging. When the data inherit the rotational symmetry, the equivariant CNNs show comparable accuracy with the non-equivariant ones. Since the number of parameters is smaller in the equivariant CNNs, these models are trainable with a smaller size of the data. In this case, the transformation law of vector should be incorporated as the prior knowledge, where vector is explicitly treated as a quantity having direction. Two examples demonstrate that the symmetry of the data can be broken. In the first case, a downsampling method makes the correspondence between low- and high-resolution patterns dependent on the orientation. In the second case, the input data are insufficient to recognize the rotation of coordinates in the experiment with the spectral nudging. In both cases, the accuracy of the CNNs deteriorates if the equivariance is forced to be imposed, and the usage of conventional CNNs may be justified even though vector is processed as a quantity having no direction.
翻訳日:2022-02-24 16:26:20 公開日:2022-02-22
# ProtoSound:聴覚障害者のためのパーソナライズされたスケーラブルな音声認識システム

ProtoSound: A Personalized and Scalable Sound Recognition System for Deaf and Hard-of-Hearing Users ( http://arxiv.org/abs/2202.11134v1 )

ライセンス: Link先を確認
Dhruv Jain, Khoa Huynh Anh Nguyen, Steven Goodman, Rachel Grossman-Kahn, Hung Ngo, Aditya Kusupati, Ruofei Du, Alex Olwal, Leah Findlater, Jon E. Froehlich(参考訳) 近年の進歩により、モバイルデバイス上での難聴者や難聴者(DHH)に対する音声認識システムの実現が進んでいる。 しかし、これらのツールは、DHHユーザの多様なニーズを満たすことなく、事前訓練された一般的な音声認識モデルを使用する。 そこで本研究では,いくつかの事例を収録して音声認識モデルをカスタマイズする対話型システムprotosoundを提案する。 ProtoSoundは,472人のDHH参加者を対象に実施した調査で,DHH者の聴覚に対する意識調査を行った。 protosoundを評価するために,実世界の2つのサウンドデータセットのパフォーマンスを特徴付け,最先端よりも大幅に改善した(最初のデータセットでは+9.7%の精度など)。 そして、モバイルアプリケーションを通じてProtoSoundのエンドユーザートレーニングとリアルタイム認識をデプロイし、現実世界の音を聞き、56箇所(家、レストラン、公園など)で精度を評価した19人の聞き取り参加者を募集した。 その結果、protosoundはデバイス上でモデルをパーソナライズし、さまざまな音響コンテキストで正確に学習した。 録音インタフェースの改善やアルゴリズムの改善など、パーソナライズ可能な音声認識におけるオープンな課題について議論を締めくくった。

Recent advances have enabled automatic sound recognition systems for deaf and hard of hearing (DHH) users on mobile devices. However, these tools use pre-trained, generic sound recognition models, which do not meet the diverse needs of DHH users. We introduce ProtoSound, an interactive system for customizing sound recognition models by recording a few examples, thereby enabling personalized and fine-grained categories. ProtoSound is motivated by prior work examining sound awareness needs of DHH people and by a survey we conducted with 472 DHH participants. To evaluate ProtoSound, we characterized performance on two real-world sound datasets, showing significant improvement over state-of-the-art (e.g., +9.7% accuracy on the first dataset). We then deployed ProtoSound's end-user training and real-time recognition through a mobile application and recruited 19 hearing participants who listened to the real-world sounds and rated the accuracy across 56 locations (e.g., homes, restaurants, parks). Results show that ProtoSound personalized the model on-device in real-time and accurately learned sounds across diverse acoustic contexts. We close by discussing open challenges in personalizable sound recognition, including the need for better recording interfaces and algorithmic improvements.
翻訳日:2022-02-24 16:25:43 公開日:2022-02-22
# FlowSense:オーディオセンシングによるビル換気システムの気流モニタリング

FlowSense: Monitoring Airflow in Building Ventilation Systems Using Audio Sensing ( http://arxiv.org/abs/2202.11136v1 )

ライセンス: Link先を確認
Bhawana Chhaglani, Camellia Zakaria, Adam Lechowicz, Prashant Shenoy, Jeremy Gummeson(参考訳) ビルの暖房、換気、空調(HVAC)システムによる室内換気は、家庭、職場、学校における個人の健康と安全に大きな影響を及ぼす公衆衛生上の懸念が高まっている。 IoTデバイスやモバイルセンシングアプローチを通じて,HVACシステムのエネルギー効率とユーザの快適性を提供する上で,多くの作業が進められている。 そこで本研究では,室内空間の音響データから空気流量を予測する機械学習アルゴリズムであるflowsenseを提案する。 私たちのml技術は、アクティブな通気口を流れる空気の速さだけでなく、通気口のオン/オフ状態も予測できる。 低域通過フィルタを用いて低周波音声信号を得ることにより、人間の発話が検出されない場合にのみHVAC気孔からの空気の音を感知するサイレント検出アルゴリズムを活用するプライバシー保護パイプラインを構築した。 また,人間の会話やオフィスマシン,交通騒音など,環境騒音からの干渉を低減するための後処理アルゴリズムとして,mps(minimum persistent sensing)を提案する。 これらのテクニックは、ユーザのプライバシを確保し、flowenseの堅牢性を改善する。 通気口から2.25m以内に設置した場合の気流速度の予測には90%以上の精度と0.96 MSEの精度が得られた。 さらに,モバイルオーディオセンシングプラットフォームとしての我々のアプローチが,スマートフォンモデルや距離,方向に対して堅牢であることを示す。 最後に,ユーザスタディとgoogle音声認識サービスを通じて,flowenseのプライバシー保存パイプラインを評価し,入力データとして使用する音声信号が非可聴かつ非コンストラクタであることを確認した。

Proper indoor ventilation through buildings' heating, ventilation, and air conditioning (HVAC) systems has become an increasing public health concern that significantly impacts individuals' health and safety at home, work, and school. While much work has progressed in providing energy-efficient and user comfort for HVAC systems through IoT devices and mobile-sensing approaches, ventilation is an aspect that has received lesser attention despite its importance. With a motivation to monitor airflow from building ventilation systems through commodity sensing devices, we present FlowSense, a machine learning-based algorithm to predict airflow rate from sensed audio data in indoor spaces. Our ML technique can predict the state of an air vent-whether it is on or off-as well as the rate of air flowing through active vents. By exploiting a low-pass filter to obtain low-frequency audio signals, we put together a privacy-preserving pipeline that leverages a silence detection algorithm to only sense for sounds of air from HVAC air vent when no human speech is detected. We also propose the Minimum Persistent Sensing (MPS) as a post-processing algorithm to reduce interference from ambient noise, including ongoing human conversation, office machines, and traffic noises. Together, these techniques ensure user privacy and improve the robustness of FlowSense. We validate our approach yielding over 90% accuracy in predicting vent status and 0.96 MSE in predicting airflow rate when the device is placed within 2.25 meters away from an air vent. Additionally, we demonstrate how our approach as a mobile audio-sensing platform is robust to smartphone models, distance, and orientation. Finally, we evaluate FlowSense privacy-preserving pipeline through a user study and a Google Speech Recognition service, confirming that the audio signals we used as input data are inaudible and inconstructible.
翻訳日:2022-02-24 16:25:22 公開日:2022-02-22
# 靴紐を用いたニューラル音声合成:lpcnetの効率向上

Neural Speech Synthesis on a Shoestring: Improving the Efficiency of LPCNet ( http://arxiv.org/abs/2202.11169v1 )

ライセンス: Link先を確認
Jean-Marc Valin, Umut Isik, Paris Smaragdis, Arvindh Krishnaswamy(参考訳) ニューラル音声合成モデルは高品質な音声を合成できるが、通常は高い計算量を必要とする。 従来の研究では,線形予測を用いてニューラル合成の複雑さを著しく低減するLPCNetを導入していた。 本研究では,LPCNetのアルゴリズム的および計算的改善をターゲットとした効率をさらに向上し,多種多様なデバイスで使用できるようにする。 2.5倍高速動作における合成品質の向上を示す。 結果として得られるオープンソースのLPCNetアルゴリズムは、既存のほとんどの携帯電話でリアルタイムなニューラル合成を実行でき、組み込みデバイスでも使用することができる。

Neural speech synthesis models can synthesize high quality speech but typically require a high computational complexity to do so. In previous work, we introduced LPCNet, which uses linear prediction to significantly reduce the complexity of neural synthesis. In this work, we further improve the efficiency of LPCNet -- targeting both algorithmic and computational improvements -- to make it usable on a wide variety of devices. We demonstrate an improvement in synthesis quality while operating 2.5x faster. The resulting open-source LPCNet algorithm can perform real-time neural synthesis on most existing phones and is even usable in some embedded devices.
翻訳日:2022-02-24 16:24:51 公開日:2022-02-22
# 長期インスタンスセグメンテーションのための自由物体セグメンテーションによる学習

Learning with Free Object Segments for Long-Tailed Instance Segmentation ( http://arxiv.org/abs/2202.11124v1 )

ライセンス: Link先を確認
Cheng Zhang, Tai-Yu Pan, Tianle Chen, Jike Zhong, Wenjin Fu, Wei-Lun Chao(参考訳) 複雑なシーンで多数のクラスのインスタンスセグメンテーションモデルを構築する上での基本的な課題は、特にレアオブジェクトに対するトレーニングサンプルの欠如である。 本稿では,データ収集やアノテーションを使わずにトレーニング例を増やす可能性について検討する。 2つの洞察によると、オブジェクト中心のim-ageから、多数のインスタンスセグメントが自由に得られる可能性がある。 (i)オブジェクト中心のイメージは、通常、単純な背景に1つのサルエントオブジェクトを含む。 (ii)同じクラスのオブジェクトは、背景と類似した外観や類似のコントラストを共有することが多い。 オブジェクトの前景セグメントを抽出・活用し、ロングテールインスタンスセグメンテーションにおけるモデルトレーニングを容易にするための、シンプルでスケーラブルなフレームワークfreesegを提案する。 具体的には,サンプルマスク候補の生成にオフザシェルフオブジェクトフォアグラウンド抽出技術(イメージコセグメンテーションなど)を使用し,次にセグメントの改良とランキングを行う。 結果として得られる高品質なオブジェクトセグメントは、例えば、セグメントを元のトレーニングイメージにコピー&ペーストすることで、既存の長い尾のデータセットを拡張するために使用できる。 LVISベンチマークでは、FreeSegは強いベースラインの上に実質的な改善をもたらし、希少なオブジェクトカテゴリをセグメント化するための最先端の精度を実現する。

One fundamental challenge in building an instance segmentation model for a large number of classes in complex scenes is the lack of training examples, especially for rare objects. In this paper, we explore the possibility to increase the training examples without laborious data collection and annotation. We find that an abundance of instance segments can potentially be obtained freely from object-centric im-ages, according to two insights: (i) an object-centric image usually contains one salient object in a simple background; (ii) objects from the same class often share similar appearances or similar contrasts to the background. Motivated by these insights, we propose a simple and scalable framework FreeSeg for extracting and leveraging these "free" object foreground segments to facilitate model training in long-tailed instance segmentation. Concretely, we employ off-the-shelf object foreground extraction techniques (e.g., image co-segmentation) to generate instance mask candidates, followed by segments refinement and ranking. The resulting high-quality object segments can be used to augment the existing long-tailed dataset, e.g., by copying and pasting the segments onto the original training images. On the LVIS benchmark, we show that FreeSeg yields substantial improvements on top of strong baselines and achieves state-of-the-art accuracy for segmenting rare object categories.
翻訳日:2022-02-24 15:54:00 公開日:2022-02-22
# 自律運転のための高効率深部畳み込みニューラルネットワークを用いたセンサフュージョン

Enabling Efficient Deep Convolutional Neural Network-based Sensor Fusion for Autonomous Driving ( http://arxiv.org/abs/2202.11231v1 )

ライセンス: Link先を確認
Xiaoming Zeng, Zhendong Wang, Yang Hu(参考訳) 自動運転は正確な認識と安全な意思決定を必要とする。 これを実現するために、自動運転車は複数のセンサー(カメラ、ライダーなど)を備えており、異なるセンシングモードのデータを融合することで、補完的な環境コンテキストを活用できる。 ディープ畳み込みニューラルネットワーク(DCNN)の成功により、DCNN間の融合は良好な認識精度を達成するための有望な戦略であることが証明された。 しかし,既存のDCNN融合方式では,様々な段階において異なるモードから抽出した特徴写像を直接要素的に付加することにより,融合を行う。 そこで本研究では,まず特徴マップ間の特徴差の程度を定量的に測定するための特徴差指標を提案する。 次に,特徴マッチング問題に対処するための特徴マッチング手法としてFusion-filterを提案する。 また,計算オーバーヘッドを少なくして精度を向上できる深層層における層共有手法を提案する。 特徴の相違が付加的な損失となることの助けを借りて、提案技術により、DCNNは、類似した特徴を持つ特徴マップと、異なるモダリティからの相補的な視覚的コンテキストを学習し、精度を向上させることができる。 実験により,提案手法により,計算資源の少ないKITTIデータセットの精度が向上することを示した。

Autonomous driving demands accurate perception and safe decision-making. To achieve this, automated vehicles are now equipped with multiple sensors (e.g., camera, Lidar, etc.), enabling them to exploit complementary environmental context by fusing data from different sensing modalities. With the success of Deep Convolutional Neural Network(DCNN), the fusion between DCNNs has been proved as a promising strategy to achieve satisfactory perception accuracy. However, mainstream existing DCNN fusion schemes conduct fusion by directly element-wisely adding feature maps extracted from different modalities together at various stages, failing to consider whether the features being fused are matched or not. Therefore, we first propose a feature disparity metric to quantitatively measure the degree of feature disparity between the feature maps being fused. We then propose Fusion-filter as a feature-matching techniques to tackle the feature-mismatching issue. We also propose a Layer-sharing technique in the deep layer that can achieve better accuracy with less computational overhead. Together with the help of the feature disparity to be an additional loss, our proposed technologies enable DCNN to learn corresponding feature maps with similar characteristics and complementary visual context from different modalities to achieve better accuracy. Experimental results demonstrate that our proposed fusion technique can achieve better accuracy on KITTI dataset with less computational resources demand.
翻訳日:2022-02-24 15:53:36 公開日:2022-02-22
# ロングテール視覚認識のための検索強化分類

Retrieval Augmented Classification for Long-Tail Visual Recognition ( http://arxiv.org/abs/2202.11233v1 )

ライセンス: Link先を確認
Alexander Long, Wei Yin, Thalaiyasingam Ajanthan, Vu Nguyen, Pulak Purkait, Ravi Garg, Alan Blair, Chunhua Shen, Anton van den Hengel(参考訳) 本稿では,標準画像分類パイプラインを明示的な検索モジュールで拡張するための汎用的なアプローチであるRetrieval Augmented Classification (RAC)を紹介する。 RACは、標準のベースイメージエンコーダと並列検索ブランチを融合し、プリエンコードされた画像と関連するテキストスニペットの非パラメトリック外部メモリをクエリする。 トレーニングデータセット自体を外部情報ソースとして用いたにもかかわらず、RACを長期分類の問題に適用し、Places365-LTとiNaturalist-2018(それぞれ14.5%と6.7%)の最先端よりも大幅に改善したことを示す。 racの検索モジュールは,プロンプトすることなく,テールクラスで高い精度を学習できることを実証する。 これにより、ベースエンコーダが共通のクラスにフォーカスできるように解放され、パフォーマンスが向上する。 RACは、微調整を必要とせず、大規模で事前訓練されたモデルを利用するための代替手法であり、一般的なコンピュータビジョンアーキテクチャにおける外部メモリをより効果的に活用するための第一歩である。

We introduce Retrieval Augmented Classification (RAC), a generic approach to augmenting standard image classification pipelines with an explicit retrieval module. RAC consists of a standard base image encoder fused with a parallel retrieval branch that queries a non-parametric external memory of pre-encoded images and associated text snippets. We apply RAC to the problem of long-tail classification and demonstrate a significant improvement over previous state-of-the-art on Places365-LT and iNaturalist-2018 (14.5% and 6.7% respectively), despite using only the training datasets themselves as the external information source. We demonstrate that RAC's retrieval module, without prompting, learns a high level of accuracy on tail classes. This, in turn, frees the base encoder to focus on common classes, and improve its performance thereon. RAC represents an alternative approach to utilizing large, pretrained models without requiring fine-tuning, as well as a first step towards more effectively making use of external memory within common computer vision architectures.
翻訳日:2022-02-24 15:53:13 公開日:2022-02-22
# 連続補助的タスク学習

Continual Auxiliary Task Learning ( http://arxiv.org/abs/2202.11133v1 )

ライセンス: Link先を確認
Matthew McLeod, Chunlok Lo, Matthew Schlegel, Andrew Jacobsen, Raksha Kumaraswamy, Martha White, Adam White(参考訳) 世界の複数の予測のような補助的なタスクの学習は、強化学習システムに多くの利点をもたらす。 このような予測を学習するために、さまざまなオフポリシー学習アルゴリズムが開発されているが、オフポリシー予測に有用なデータを集めるために、その動作をどのように適応させるかについては、まだほとんど作業がない。 本研究では,補助タスクの集合を学習するための強化学習システムと,補助タスクの予測を改善するための行動政策学習について検討する。 予測学習者と行動学習者の両方にとって,この連続的補助タスク学習問題に固有の非定常性に注目した。 我々は,非定常報酬下での追跡を容易にする後継機能に基づくアルゴリズムを開発し,後継機能と後継機能との分離が収束率の向上に寄与することを示す。 得られたマルチプレディション学習システムについて詳細な研究を行う。

Learning auxiliary tasks, such as multiple predictions about the world, can provide many benefits to reinforcement learning systems. A variety of off-policy learning algorithms have been developed to learn such predictions, but as yet there is little work on how to adapt the behavior to gather useful data for those off-policy predictions. In this work, we investigate a reinforcement learning system designed to learn a collection of auxiliary tasks, with a behavior policy learning to take actions to improve those auxiliary predictions. We highlight the inherent non-stationarity in this continual auxiliary task learning problem, for both prediction learners and the behavior learner. We develop an algorithm based on successor features that facilitates tracking under non-stationary rewards, and prove the separation into learning successor features and rewards provides convergence rate improvements. We conduct an in-depth study into the resulting multi-prediction learning system.
翻訳日:2022-02-24 15:50:05 公開日:2022-02-22
# エクストリームラーニングマシンによる早期糖尿病予測

Early Stage Diabetes Prediction via Extreme Learning Machine ( http://arxiv.org/abs/2202.11216v1 )

ライセンス: Link先を確認
Nelly Elsayed, Zag ElSayed, Murat Ozer(参考訳) 糖尿病は長年発見されてきた慢性疾患の1つである。 しかし、いくつかの症例は後期に診断される。 成人人口の11人に1人が糖尿病を患っている。 糖尿病の46%は診断されていない。 糖尿病は他のいくつかの重篤な疾患を発症し、患者の死につながる可能性がある。 開発地域や農村部は医療提供者や財政状況が限られているため、最も苦しむ。 本稿では,糖尿病の早期診断と遅発性診断,重症疾患の発生防止を早期に促すデータアンケートに基づく,糖尿病予測のための極端な学習マシンに基づく新しいアプローチを提案する。

Diabetes is one of the chronic diseases that has been discovered for decades. However, several cases are diagnosed in their late stages. Every one in eleven of the world's adult population has diabetes. Forty-six percent of people with diabetes have not been diagnosed. Diabetes can develop several other severe diseases that can lead to patient death. Developing and rural areas suffer the most due to the limited medical providers and financial situations. This paper proposed a novel approach based on an extreme learning machine for diabetes prediction based on a data questionnaire that can early alert the users to seek medical assistance and prevent late diagnoses and severe illness development.
翻訳日:2022-02-24 15:48:00 公開日:2022-02-22
# ロバスト学習と擬似モード統計のための一般化フーバー損失の非凸拡張

Nonconvex Extension of Generalized Huber Loss for Robust Learning and Pseudo-Mode Statistics ( http://arxiv.org/abs/2202.11141v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 擬ハマー損失定式化の拡張一般化を提案する。 本稿では,log-exp変換とロジスティック関数を用いて,厳密な凸損失の望ましい特性とロジスティック損失関数を組み合わせた損失を生成できることを示す。 この定式化により、線形収束アルゴリズムを用いて最小値を求めることができることを示す。 さらに、準凸複合損失の生成について論じ、微分自由指数収束率アルゴリズムを提案する。

We propose an extended generalization of the pseudo Huber loss formulation. We show that using the log-exp transform together with the logistic function, we can create a loss which combines the desirable properties of the strictly convex losses with robust loss functions. With this formulation, we show that a linear convergence algorithm can be utilized to find a minimizer. We further discuss the creation of a quasi-convex composite loss and provide a derivative-free exponential convergence rate algorithm.
翻訳日:2022-02-24 15:02:44 公開日:2022-02-22
# 教師なしコントラスト学習における無差別毒殺攻撃

Indiscriminate Poisoning Attacks on Unsupervised Contrastive Learning ( http://arxiv.org/abs/2202.11202v1 )

ライセンス: Link先を確認
Hao He, Kaiwen Zha, Dina Katabi(参考訳) 無差別なデータ中毒攻撃は教師付き学習に対して非常に効果的である。 しかし、教師なしコントラスト学習(CL)への影響についてはあまり知られていない。 本稿では,コントラスト学習におけるデータ中毒攻撃の無差別化を初めて検討し,そのような攻撃の可能性と,教師あり学習の無差別中毒との違いを明らかにした。 また,コントラスト学習アルゴリズムの違いに注目し,アルゴリズム(例えばsimclr)が他のアルゴリズム(例えばmoco)よりも脆弱であることを示す。 サンプルワイズ攻撃は、各画像に特定のノイズを加え、最大の精度低下を引き起こすが、SimCLR、MoCo、BYOL間ではうまく転送されない。 対照的に、クラスワイドノイズを使用する攻撃は、精度を低下させ、異なるCLアルゴリズム間でうまく転送する。 最後に,行列補完に基づく新たなデータ拡張は,教師なしコントラスト学習に対するデータ中毒対策に極めて有効であることを示す。

Indiscriminate data poisoning attacks are quite effective against supervised learning. However, not much is known about their impact on unsupervised contrastive learning (CL). This paper is the first to consider indiscriminate data poisoning attacks on contrastive learning, demonstrating the feasibility of such attacks, and their differences from indiscriminate poisoning of supervised learning. We also highlight differences between contrastive learning algorithms, and show that some algorithms (e.g., SimCLR) are more vulnerable than others (e.g., MoCo). We differentiate between two types of data poisoning attacks: sample-wise attacks, which add specific noise to each image, cause the largest drop in accuracy, but do not transfer well across SimCLR, MoCo, and BYOL. In contrast, attacks that use class-wise noise, though cause a smaller drop in accuracy, transfer well across different CL algorithms. Finally, we show that a new data augmentation based on matrix completion can be highly effective in countering data poisoning attacks on unsupervised contrastive learning.
翻訳日:2022-02-24 14:32:17 公開日:2022-02-22
# model2detector:一握りの勾配ステップを用いた分散検出のための情報ボトルネックの拡大

Model2Detector:Widen ing the Information Bottleneck for Out-of-Distribution Detection using a Handful of Gradient Steps ( http://arxiv.org/abs/2202.11226v1 )

ライセンス: Link先を確認
Sumedh A Sontakke, Buvaneswari Ramanan, Laurent Itti, Thomas Woo(参考訳) 分散検出は、バニラニューラルネットワークを長い間解明した重要な機能である。 ディープニューラルネットワーク(DNN)は、アウト・オブ・ディストリビューション(OOD)の入力を提示すると、過信予測を生成する傾向がある。 これは、攻撃を検出することが難しいため、野生の機械学習システムを使用する場合、危険になる可能性がある。 近年のアウト・オブ・ディストリビューション検出の進歩はこれらの問題を軽減している。 しかし、既存の手法はしばしば計算コストがかかるため、制限を受けることができる。 さらに、これらの手法は、分布内からOOD入力を検出することを学習する下流検出器モデルの訓練を必要とする。 したがって、推論中に遅延を追加する。 ここでは、ニューラルネットワークがOOD検出に本質的にできない理由について、情報理論的な視点を提供する。 我々は、これらの欠陥を軽減するために、数ステップの勾配降下を用いて訓練されたモデルをOOD検出器に変換する。 我々の研究は後処理の手法として利用でき、推論時MLシステムは訓練されたモデルをOOD検出器に変換することができる。 実験により,本手法が一般的な画像データセットにおける最先端検出精度を一貫して上回り,計算複雑性を低減させることを示す。

Out-of-distribution detection is an important capability that has long eluded vanilla neural networks. Deep Neural networks (DNNs) tend to generate over-confident predictions when presented with inputs that are significantly out-of-distribution (OOD). This can be dangerous when employing machine learning systems in the wild as detecting attacks can thus be difficult. Recent advances inference-time out-of-distribution detection help mitigate some of these problems. However, existing methods can be restrictive as they are often computationally expensive. Additionally, these methods require training of a downstream detector model which learns to detect OOD inputs from in-distribution ones. This, therefore, adds latency during inference. Here, we offer an information theoretic perspective on why neural networks are inherently incapable of OOD detection. We attempt to mitigate these flaws by converting a trained model into a an OOD detector using a handful of steps of gradient descent. Our work can be employed as a post-processing method whereby an inference-time ML system can convert a trained model into an OOD detector. Experimentally, we show how our method consistently outperforms the state-of-the-art in detection accuracy on popular image datasets while also reducing computational complexity.
翻訳日:2022-02-24 14:28:10 公開日:2022-02-22
# (参考訳) 経頭蓋MR画像誘導集束超音波干渉に対するコンディショナリ・ネットワークを用いたシンセティックCTスカル生成 [全文訳有]

Synthetic CT Skull Generation for Transcranial MR Imaging-Guided Focused Ultrasound Interventions with Conditional Adversarial Networks ( http://arxiv.org/abs/2202.10136v2 )

ライセンス: CC BY 4.0
Han Liu, Michelle K. Sigona, Thomas J. Manuel, Li Min Chen, Charles F. Caskey, Benoit M. Dawant(参考訳) 経頭蓋MRIガイド下集束超音波(TcMRgFUS)は頭蓋骨内の音をMRIガイド下において非侵襲的に小さな領域に集束する治療用超音波法である。 臨床的に視床の領域を熱的にアブレートすることが認められ、脳関門開放や神経調節などの他の治療のために研究されている。 頭蓋骨を通して超音波を的確に標的にするためには、送信波が目標領域に建設的に干渉する必要がある。 しかし、音速、密度、超音波による頭蓋骨の減衰の多様性は、最適な治療計画のために患者固有のパラメータの推定を必要とする。 CTイメージングは、現在、臨床手術中に個々の頭蓋骨の音響特性を推定するための金の標準であるが、CTイメージングは患者に放射線を照射し、治療に必要な画像処置の総数を増やす。 CTを必要とせずに頭蓋骨内の音響パラメータを推定する方法が望ましい。 そこで我々は,3Dパッチを用いた条件付き画像生成対向ネットワークを用いて,日常的に取得したT1強調MRIからCT画像を合成し,経頭蓋骨集束超音波による治療計画のための合成CT画像の性能評価を行った。 kranion と k-wave acoustic simulation を用いて合成ctと実際のct画像の比較を行った。 本研究は,TcMRgFUS計画のためのMR合成CTに実際のCTを置き換えることの可能性を示した。

Transcranial MRI-guided focused ultrasound (TcMRgFUS) is a therapeutic ultrasound method that focuses sound through the skull to a small region noninvasively under MRI guidance. It is clinically approved to thermally ablate regions of the thalamus and is being explored for other therapies, such as blood brain barrier opening and neuromodulation. To accurately target ultrasound through the skull, the transmitted waves must constructively interfere at the target region. However, heterogeneity of the sound speed, density, and ultrasound attenuation in different individuals' skulls requires patient-specific estimates of these parameters for optimal treatment planning. CT imaging is currently the gold standard for estimating acoustic properties of an individual skull during clinical procedures, but CT imaging exposes patients to radiation and increases the overall number of imaging procedures required for therapy. A method to estimate acoustic parameters in the skull without the need for CT would be desirable. Here, we synthesized CT images from routinely acquired T1-weighted MRI by using a 3D patch-based conditional generative adversarial network and evaluated the performance of synthesized CT images for treatment planning with transcranial focused ultrasound. We compared the performance of synthetic CT to real CT images using Kranion and k-Wave acoustic simulation. Our work demonstrates the feasibility of replacing real CT with the MR-synthesized CT for TcMRgFUS planning.
翻訳日:2022-02-24 09:50:52 公開日:2022-02-22
# (参考訳) 最適学習によるオンラインキャッシング [全文訳有]

Online Caching with Optimistic Learning ( http://arxiv.org/abs/2202.10590v1 )

ライセンス: CC BY 4.0
Naram Mhaisen, George Iosifidis, Douglas Leith(参考訳) 効果的なオンラインキャッシュポリシーの設計は、コンテンツ配信ネットワーク、オンラインソーシャルネットワーク、エッジコンピューティングサービスなどにおいて、ますます重要な問題となっている。 本稿では,楽観的なオンライン学習のレンズを通してこの問題に取り組むための新しいアルゴリズムツールボックスを提案する。 我々は,ファイル要求の予測を含むFTRL(Follow-the-Regu larized-Leader)フレームワークを構築し,時間平均予算制約を考慮した固定サイズキャッシュや弾性リースキャッシュを備えた双方向ネットワークのためのオンラインキャッシュアルゴリズムを設計する。 これらの予測は,ユーザの視聴行動に影響を与えるコンテンツレコメンデーションシステムによって提供され,将来の要求に対するキャッシュネットワークの不確実性を自然に低減することができる。 提案した楽観的な学習キャッシュポリシは,完全予測に対してゼロ以下の性能損失(regret)を達成でき,任意のバッド予測に対してさえ,最も達成可能なリフレッシュバウンドである$O(\sqrt T)を維持できることを示す。 提案アルゴリズムの性能は,詳細なトレース駆動数値テストを用いて評価する。

The design of effective online caching policies is an increasingly important problem for content distribution networks, online social networks and edge computing services, among other areas. This paper proposes a new algorithmic toolbox for tackling this problem through the lens of optimistic online learning. We build upon the Follow-the-Regulariz ed-Leader (FTRL) framework which is developed further here to include predictions for the file requests, and we design online caching algorithms for bipartite networks with fixed-size caches or elastic leased caches subject to time-average budget constraints. The predictions are provided by a content recommendation system that influences the users viewing activity, and hence can naturally reduce the caching network's uncertainty about future requests. We prove that the proposed optimistic learning caching policies can achieve sub-zero performance loss (regret) for perfect predictions, and maintain the best achievable regret bound $O(\sqrt T)$ even for arbitrary-bad predictions. The performance of the proposed algorithms is evaluated with detailed trace-driven numerical tests.
翻訳日:2022-02-24 05:44:31 公開日:2022-02-22
# (参考訳) ミッションクリティカルな応用のための音声認識システムに対する敵対的攻撃:調査 [全文訳有]

Adversarial Attacks on Speech Recognition Systems for Mission-Critical Applications: A Survey ( http://arxiv.org/abs/2202.10594v1 )

ライセンス: CC BY 4.0
Ngoc Dung Huynh, Mohamed Reda Bouadjenek, Imran Razzak, Kevin Lee, Chetan Arora, Ali Hassani, Arkady Zaslavsky(参考訳) 機械クリティカル・アプリケーション(英: machine-critical application)とは、捜索および回収、救助、軍事、緊急管理といった特殊かつ機密性の高い作戦を成功させるために必要なシステムである。 近年の機械学習、自然言語処理、音声認識、音声処理技術の進歩により、様々な機械クリティカルなアプリケーションと対話するための音声ベースの会話インタフェースの開発と展開が自然に可能になっている。 これらの会話インターフェイスにより、ユーザーは戦略的かつ重要な活動を行うために音声コマンドを与えることができたが、敵の攻撃に対する強固さはいまだに不明で不明瞭である。 実際、AI(Adversarial Artificial Intelligence)は、機械学習モデルを欺くデータを騙そうとする一連のテクニックを指すもので、特に機械クリティカルなアプリケーションにおいて、AIと機械学習研究コミュニティの脅威が増大している。 敵対的攻撃の最も一般的な理由は、機械学習モデルで誤動作を引き起こすことである。 敵の攻撃は、トレーニングデータとして不正確または製造されたサンプルを持つモデルを提示することや、すでに訓練されたモデルを欺くために悪意ある設計データを導入することを必要とする。 機械クリティカルなアプリケーションのための音声認識に注目しながら,まず既存の音声認識手法をレビューし,本研究の課題,防衛勧告,今後の課題を概説する前に,これらのシステムに対する敵対的攻撃と防御の有効性について検討する。 本論文は、研究者や実践者が課題を理解し、自らを位置づけ、究極的にはミッションクリティカルな応用のための既存の音声認識モデルを改善するのに役立てることが期待されている。 キーワード:ミッションクリティカルなアプリケーション、AI、音声認識システム。

A Machine-Critical Application is a system that is fundamentally necessary to the success of specific and sensitive operations such as search and recovery, rescue, military, and emergency management actions. Recent advances in Machine Learning, Natural Language Processing, voice recognition, and speech processing technologies have naturally allowed the development and deployment of speech-based conversational interfaces to interact with various machine-critical applications. While these conversational interfaces have allowed users to give voice commands to carry out strategic and critical activities, their robustness to adversarial attacks remains uncertain and unclear. Indeed, Adversarial Artificial Intelligence (AI) which refers to a set of techniques that attempt to fool machine learning models with deceptive data, is a growing threat in the AI and machine learning research community, in particular for machine-critical applications. The most common reason of adversarial attacks is to cause a malfunction in a machine learning model. An adversarial attack might entail presenting a model with inaccurate or fabricated samples as it's training data, or introducing maliciously designed data to deceive an already trained model. While focusing on speech recognition for machine-critical applications, in this paper, we first review existing speech recognition techniques, then, we investigate the effectiveness of adversarial attacks and defenses against these systems, before outlining research challenges, defense recommendations, and future work. This paper is expected to serve researchers and practitioners as a reference to help them in understanding the challenges, position themselves and, ultimately, help them to improve existing models of speech recognition for mission-critical applications. Keywords: Mission-Critical Applications, Adversarial AI, Speech Recognition Systems.
翻訳日:2022-02-24 05:22:33 公開日:2022-02-22
# (参考訳) 超解像・異方性推定のための遠近光場 [全文訳有]

Disentangling Light Fields for Super-Resolution and Disparity Estimation ( http://arxiv.org/abs/2202.10603v1 )

ライセンス: CC BY 4.0
Yingqian Wang, Longguang Wang, Gaochang Wu, Jungang Yang, Wei An, Jingyi Yu, Yulan Guo(参考訳) 光フィールド(LF)カメラは光線の強度と方向の両方を記録し、3Dシーンを4DLF画像にエンコードする。 近年、さまざまなLF画像処理タスクに対して多くの畳み込みニューラルネットワーク(CNN)が提案されている。 しかし,空間的・角的な情報に相違があるため,CNNがLF画像を効果的に処理することは困難である。 本稿では,この結合した情報をLF画像処理のために切り離すための汎用メカニズムを提案する。 具体的には、まずドメイン固有の畳み込みのクラスを設計し、異なる次元からLFをアンタングルし、タスク固有のモジュールを設計することでこれらのアンタングル特徴を活用する。 我々の解離機構は、LF構造を予め組み込んで、4次元LFデータを効果的に扱うことができる。 提案手法に基づき,空間超解像・角超解像・不均質推定のための3つのネットワーク(DistgSSR,DistgASR,D istgDisp)を開発した。 実験の結果,ネットワークはこれら3つのタスクすべてに対して最先端の性能を達成し,この機構の有効性,効率,汎用性を実証した。 プロジェクトページ: https://yingqianwang .github.io/distglf/

Light field (LF) cameras record both intensity and directions of light rays, and encode 3D scenes into 4D LF images. Recently, many convolutional neural networks (CNNs) have been proposed for various LF image processing tasks. However, it is challenging for CNNs to effectively process LF images since the spatial and angular information are highly inter-twined with varying disparities. In this paper, we propose a generic mechanism to disentangle these coupled information for LF image processing. Specifically, we first design a class of domain-specific convolutions to disentangle LFs from different dimensions, and then leverage these disentangled features by designing task-specific modules. Our disentangling mechanism can well incorporate the LF structure prior and effectively handle 4D LF data. Based on the proposed mechanism, we develop three networks (i.e., DistgSSR, DistgASR and DistgDisp) for spatial super-resolution, angular super-resolution and disparity estimation. Experimental results show that our networks achieve state-of-the-art performance on all these three tasks, which demonstrates the effectiveness, efficiency, and generality of our disentangling mechanism. Project page: https://yingqianwang .github.io/DistgLF/.
翻訳日:2022-02-24 05:06:43 公開日:2022-02-22
# (参考訳) タンゴに4本、自動カリキュラム生成のためのマルチエージェントセルフプレイ [全文訳有]

It Takes Four to Tango: Multiagent Selfplay for Automatic Curriculum Generation ( http://arxiv.org/abs/2202.10608v1 )

ライセンス: CC BY 4.0
Yuqing Du, Pieter Abbeel, Aditya Grover(参考訳) 我々は,多種多様な目標を達成できる汎用強化学習エージェントの育成に興味がある。 このようなエージェントを効率的にトレーニングするには、ゴールカリキュラムの自動生成が必要です。 これは要求通り難しい。 a) エージェントを確実にしながら、困難を増す目的を探求すること b) サンプルの効率的な方法で、さまざまな目標セットに曝される。 (c)以前解決した目標を壊滅的に忘れない。 4人のエージェントによるマルチプレイヤーゲームにより,これらのデシデラタを満たそうとする,自動ゴール生成フレームワークであるカリキュラム・セルフプレイ(cusp)を提案する。 我々は、PAIRED(Dennis et al., 2020)における非対称カリキュラム学習を、2人の非政治学生学習者と2人の後悔を最大化する教師の協力と競争を慎重にバランスさせるシンメトリケーションゲームに拡張する。 CuSPはまた、エントロピー的な目標カバレッジを導入し、学生の非定常的な性質を考慮し、進歩的探索と反破滅的な搾取のバランスをとるカリキュラムを自動生成する。 提案手法は,ゼロショットテストタイム一般化における他の手法を上回って,様々な制御タスクの目標を効果的に生成することに成功した。

We are interested in training general-purpose reinforcement learning agents that can solve a wide variety of goals. Training such agents efficiently requires automatic generation of a goal curriculum. This is challenging as it requires (a) exploring goals of increasing difficulty, while ensuring that the agent (b) is exposed to a diverse set of goals in a sample efficient manner and (c) does not catastrophically forget previously solved goals. We propose Curriculum Self Play (CuSP), an automated goal generation framework that seeks to satisfy these desiderata by virtue of a multi-player game with four agents. We extend the asymmetric curricula learning in PAIRED (Dennis et al., 2020) to a symmetrized game that carefully balances cooperation and competition between two off-policy student learners and two regret-maximizing teachers. CuSP additionally introduces entropic goal coverage and accounts for the non-stationary nature of the students, allowing us to automatically induce a curriculum that balances progressive exploration with anti-catastrophic exploitation. We demonstrate that our method succeeds at generating an effective curricula of goals for a range of control tasks, outperforming other methods at zero-shot test-time generalization to novel out-of-distribution goals.
翻訳日:2022-02-24 04:27:00 公開日:2022-02-22
# (参考訳) マルチエージェント強化学習のためのデュアルレベル再帰に基づく分散通信フレームワーク [全文訳有]

A Decentralized Communication Framework based on Dual-Level Recurrence for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2202.10612v1 )

ライセンス: CC BY 4.0
Jingchen Li and Haobin Shi and Kao-Shing Hwang(参考訳) 本稿では,分散エージェントが環境に対する認識を公平かつ適応的に共有できるモデルを提案する。 我々のモデルでは、現在のメッセージと過去の観測の両方を考慮に入れ、同一の繰り返しモデルで処理されるが、異なる形態で処理される。 本稿では,第1の繰り返しが通信シーケンス内で発生し,エージェント間の通信データ伝達に使用されるマルチエージェントシステムにおいて,第2のリカレントが時系列に基づいて,各エージェントの履歴観測を組み合わせるデュアルレベルリカレント通信フレームワークを提案する。 発達した通信フローは、通信メッセージを記憶から分離するが、エージェントは二重レベルの再帰によって過去の観測を共有できる。 この設計により、エージェントは変更可能な通信オブジェクトに適応し、通信結果はこれらのエージェントに公平である。 観測可能な環境と完全に観測可能な環境の両方において,本手法について十分な議論を行う。 実験の結果,既存の分散通信フレームワークとそれに対応する集中型トレーニング手法に勝っていることが示唆された。

We propose a model enabling decentralized multiple agents to share their perception of environment in a fair and adaptive way. In our model, both the current message and historical observation are taken into account, and they are handled in the same recurrent model but in different forms. We present a dual-level recurrent communication framework for multi-agent systems, in which the first recurrence occurs in the communication sequence and is used to transmit communication data among agents, while the second recurrence is based on the time sequence and combines the historical observations for each agent. The developed communication flow separates communication messages from memories but allows agents to share their historical observations by the dual-level recurrence. This design makes agents adapt to changeable communication objects, while the communication results are fair to these agents. We provide a sufficient discussion about our method in both partially observable and fully observable environments. The results of several experiments suggest our method outperforms the existing decentralized communication frameworks and the corresponding centralized training method.
翻訳日:2022-02-24 04:00:49 公開日:2022-02-22
# (参考訳) 非ユークリッド空間におけるガウス過程と統計的決定

Gaussian Processes and Statistical Decision-making in Non-Euclidean Spaces ( http://arxiv.org/abs/2202.10613v1 )

ライセンス: CC BY 4.0
Alexander Terenin(参考訳) ガウス過程を用いたベイズ学習は、データ収集によって学べるものと既知のものをバランスさせる方法で意思決定を行うための基礎的なフレームワークを提供する。 この論文の中で,ガウス過程の適用性を広げる手法を開発した。 これは2つの方法で行われます。 まず,後続乱関数を事前のランダム関数と依存更新項として表現できる,ガウス過程のパスワイズ条件付け手法を開発する。 この観点から構築した多種多様な効率的な近似法を導入し, 前もってランダムにサンプリングし, その後の確率性のない任意の場所で評価する。 このキーとなる特性は効率を向上し、意思決定設定でガウスのプロセスモデルをデプロイしやすくする。 次に、リーマン多様体やグラフを含む非ユークリッド空間上のガウス過程モデルの集合を開発する。 リーマン多様体とグラフ上のスカラー値ガウス過程の共分散核に対する完全構成的表現を導出する。 これらの考えに基づいて、リーマン多様体上のベクトル値ガウス過程を定義する形式論を記述する。 導入された技術により、これらのモデルを標準計算手法で訓練することができる。 これらの貢献により、ガウス過程の作業が容易になり、より広い範囲の領域内で有効かつ原則化された方法で使用できるようになる。 これにより、ガウス過程を新たな意思決定設定に適用することが可能になる。

Bayesian learning using Gaussian processes provides a foundational framework for making decisions in a manner that balances what is known with what could be learned by gathering data. In this dissertation, we develop techniques for broadening the applicability of Gaussian processes. This is done in two ways. Firstly, we develop pathwise conditioning techniques for Gaussian processes, which allow one to express posterior random functions as prior random functions plus a dependent update term. We introduce a wide class of efficient approximations built from this viewpoint, which can be randomly sampled once in advance, and evaluated at arbitrary locations without any subsequent stochasticity. This key property improves efficiency and makes it simpler to deploy Gaussian process models in decision-making settings. Secondly, we develop a collection of Gaussian process models over non-Euclidean spaces, including Riemannian manifolds and graphs. We derive fully constructive expressions for the covariance kernels of scalar-valued Gaussian processes on Riemannian manifolds and graphs. Building on these ideas, we describe a formalism for defining vector-valued Gaussian processes on Riemannian manifolds. The introduced techniques allow all of these models to be trained using standard computational methods. In total, these contributions make Gaussian processes easier to work with and allow them to be used within a wider class of domains in an effective and principled manner. This, in turn, makes it possible to potentially apply Gaussian processes to novel decision-making settings.
翻訳日:2022-02-24 03:49:32 公開日:2022-02-22
# (参考訳) ビヘイビア・ディバース自動浸透試験:好奇心駆動型多目的深層強化学習アプローチ [全文訳有]

Behaviour-Diverse Automatic Penetration Testing: A Curiosity-Driven Multi-Objective Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2202.10630v1 )

ライセンス: CC BY 4.0
Yizhou Yang, Xin Liu(参考訳) 侵入テストは、実際のアクティブな敵をエミュレートすることで、ターゲットネットワークのセキュリティを評価する上で重要な役割を果たす。 深層強化学習(Deep Reinforcement Learning, RL)は、人的労力を削減し、信頼性を向上させることによって、侵入テストのプロセスを自動化するための有望なソリューションであると考えられている。 既存のRLソリューションでは、ターゲットホストに影響を与える特定の攻撃パスを見つけることに重点を置いている。 しかし、実際には、ターゲットネットワークのセキュリティレベルを包括的に評価するために、さまざまな攻撃のバリエーションが必要である。 したがって、攻撃エージェントはネットワークを貫通する際に複数の目的を考慮する必要がある。 しかしながら、この課題は既存の文献では十分に解決されていない。 そこで本研究では,多目的強化学習 (morl) フレームワークにおける自動浸透試験を定式化し,chebyshev分解批判法を提案する。 さらに、エージェントが常にターゲットネットワークを探索することで、利用可能なアクションの数が増加し、多くの実践的な状況でトレーニングプロセスが難解になる。 そこで,本稿では,これまで選択された行動に対する注意を減らし,エージェントが将来の探索に適応するのに役立つマスキング機構を提案する。 提案手法は,多目的学習と性能効率の観点から,適応型アルゴリズムと比較した場合,様々なシナリオに対する実験的評価が優れていることを示す。

Penetration Testing plays a critical role in evaluating the security of a target network by emulating real active adversaries. Deep Reinforcement Learning (RL) is seen as a promising solution to automating the process of penetration tests by reducing human effort and improving reliability. Existing RL solutions focus on finding a specific attack path to impact the target hosts. However, in reality, a diverse range of attack variations are needed to provide comprehensive assessments of the target network's security level. Hence, the attack agents must consider multiple objectives when penetrating the network. Nevertheless, this challenge is not adequately addressed in the existing literature. To this end, we formulate the automatic penetration testing in the Multi-Objective Reinforcement Learning (MORL) framework and propose a Chebyshev decomposition critic to find diverse adversary strategies that balance different objectives in the penetration test. Additionally, the number of available actions increases with the agent consistently probing the target network, making the training process intractable in many practical situations. Thus, we introduce a coverage-based masking mechanism that reduces attention on previously selected actions to help the agent adapt to future exploration. Experimental evaluation on a range of scenarios demonstrates the superiority of our proposed approach when compared to adapted algorithms in terms of multi-objective learning and performance efficiency.
翻訳日:2022-02-24 03:48:08 公開日:2022-02-22
# (参考訳) オンライン$k$-meansの収束

Convergence of online $k$-means ( http://arxiv.org/abs/2202.10640v1 )

ライセンス: CC BY 4.0
Sanjoy Dasgupta, Gaurav Mahajan, Geelon So(参考訳) 我々は、分布からストリーミングデータを通して実行される$k$-meansアルゴリズムの一般クラスに対する漸近収束を証明し、その中心は、$k$-meansコスト関数の定常点集合に漸近収束する。 そこで本研究では,分布上のオンライン$k$-meansを確率的勾配勾配と解釈し,確率的学習率のスケジュールを示す。 次に,センター固有の学習速度がセンターの過去の軌跡に依存する可能性のある設定を扱うために,最適化文献に使用される手法を拡張して収束を証明する。

We prove asymptotic convergence for a general class of $k$-means algorithms performed over streaming data from a distribution: the centers asymptotically converge to the set of stationary points of the $k$-means cost function. To do so, we show that online $k$-means over a distribution can be interpreted as stochastic gradient descent with a stochastic learning rate schedule. Then, we prove convergence by extending techniques used in optimization literature to handle settings where center-specific learning rates may depend on the past trajectory of the centers.
翻訳日:2022-02-24 03:36:14 公開日:2022-02-22
# (参考訳) 等価グラフ階層型ニューラルネットワーク [全文訳有]

Equivariant Graph Hierarchy-Based Neural Networks ( http://arxiv.org/abs/2202.10643v1 )

ライセンス: CC BY 4.0
Jiaqi Han, Yu Rong, Tingyang Xu, Fuchun Sun, Wenbing Huang(参考訳) Equivariant Graph Neural Networks (EGN) は、多体物理系の力学を特徴付けるのに強力である。 既存のegnはフラットなメッセージパッシングを行うが、複雑なシステム、特にサブ構造の発見とグローバル情報融合を制限した空間的・力学的階層を捉えられない。 本稿では,EMMP(Generalized Equivariant Matrix Message Passing),E-Pool,E-Up Poolの3つの主要コンポーネントからなるEquivariant Hierarchy-based Graph Networks (EGHNs)を提案する。 特に、EMMPは従来の同変メッセージパッシングの表現性を改善し、E-Poolは低レベルのノードの量を高レベルのクラスタに割り当て、E-UpPoolは高レベルの情報を活用して低レベルのノードのダイナミクスを更新する。 彼らの名前が示すように、E-Pool と E-UpPool はどちらも物理対称性を満たす等式であることが保証されている。 EGHNのマルチオブジェクト・ダイナミクス・シミュレーション,モーションキャプチャ,タンパク質・ダイナミックス・モデリングなどの応用における有効性について検討した。

Equivariant Graph neural Networks (EGNs) are powerful in characterizing the dynamics of multi-body physical systems. Existing EGNs conduct flat message passing, which, yet, is unable to capture the spatial/dynamical hierarchy for complex systems particularly, limiting substructure discovery and global information fusion. In this paper, we propose Equivariant Hierarchy-based Graph Networks (EGHNs) which consist of the three key components: generalized Equivariant Matrix Message Passing (EMMP) , E-Pool and E-UpPool. In particular, EMMP is able to improve the expressivity of conventional equivariant message passing, E-Pool assigns the quantities of the low-level nodes into high-level clusters, while E-UpPool leverages the high-level information to update the dynamics of the low-level nodes. As their names imply, both E-Pool and E-UpPool are guaranteed to be equivariant to meet physic symmetry. Considerable experimental evaluations verify the effectiveness of our EGHN on several applications including multi-object dynamics simulation, motion capture, and protein dynamics modeling.
翻訳日:2022-02-24 03:35:16 公開日:2022-02-22
# (参考訳) 一括デュエルバンディット [全文訳有]

Batched Dueling Bandits ( http://arxiv.org/abs/2202.10660v1 )

ライセンス: CC BY 4.0
Arpit Agarwal, Rohan Ghuge, Viswanath Nagarajan(参考訳) k$-armed dueling bandit問題(英語版)は、フィードバックがノイズの多い対数比較の形式である)は、広く研究されている。 これまでの作業は、各比較の後にポリシーが適応するシーケンシャルな設定にのみ焦点が当てられていた。 しかし,検索ランキングやレコメンデーションシステムといった多くのアプリケーションでは,限られた数の並列バッチで比較を行うことが望ましい。 我々は2つの標準設定の下で、k$-armed dueling bandit問題の研究を行った。 (i)condorcetの勝者の存在 (ii)強い確率的推移性と確率的三角不等式。 どちらの設定でも、バッチ数と後悔のトレードオフをスムーズに行うアルゴリズムを得る。 我々の後悔の限界は、最もよく知られた連続的な後悔の限界(多対数因子まで)に一致する。 我々は、ほぼ一致する下限で後悔の分析を補完する。 最後に, 合成データおよび実データを用いた実験により, 理論結果を検証した。

The $K$-armed dueling bandit problem, where the feedback is in the form of noisy pairwise comparisons, has been widely studied. Previous works have only focused on the sequential setting where the policy adapts after every comparison. However, in many applications such as search ranking and recommendation systems, it is preferable to perform comparisons in a limited number of parallel batches. We study the batched $K$-armed dueling bandit problem under two standard settings: (i) existence of a Condorcet winner, and (ii) strong stochastic transitivity and stochastic triangle inequality. For both settings, we obtain algorithms with a smooth trade-off between the number of batches and regret. Our regret bounds match the best known sequential regret bounds (up to poly-logarithmic factors), using only a logarithmic number of batches. We complement our regret analysis with a nearly-matching lower bound. Finally, we also validate our theoretical results via experiments on synthetic and real data.
翻訳日:2022-02-24 03:19:30 公開日:2022-02-22
# (参考訳) 勾配流路長による接続最適化と一般化

Connecting Optimization and Generalization via Gradient Flow Path Length ( http://arxiv.org/abs/2202.10670v1 )

ライセンス: CC BY 4.0
Fusheng Liu, Haizhao Yang, Soufiane Hayou, Qianxiao Li(参考訳) 最適化と一般化は機械学習の2つの重要な側面である。 本稿では,収束後の勾配流アルゴリズムの下での最適化軌道の長さに基づく一般化誤差を解析し,最適化と一般化を結びつける枠組みを提案する。 提案手法により, 適切な初期化により, 勾配流は, 明示的な長さ推定を伴う短い経路に沿って収束することを示す。 このような推定は、収束後の短い最適化経路が良い一般化と関連していることを示す、長さベースの一般化境界を誘導する。 我々のフレームワークは幅広い設定に適用できる。 例えば、Under Determined $\ell_p$ linear regression, kernel regression, and overparameterized two-layer ReLU Neural Networkである。

Optimization and generalization are two essential aspects of machine learning. In this paper, we propose a framework to connect optimization with generalization by analyzing the generalization error based on the length of optimization trajectory under the gradient flow algorithm after convergence. Through our approach, we show that, with a proper initialization, gradient flow converges following a short path with an explicit length estimate. Such an estimate induces a length-based generalization bound, showing that short optimization paths after convergence are associated with good generalization, which also matches our numerical results. Our framework can be applied to broad settings. For example, we use it to obtain generalization estimates on three distinct machine learning models: underdetermined $\ell_p$ linear regression, kernel regression, and overparameterized two-layer ReLU neural networks.
翻訳日:2022-02-24 02:48:54 公開日:2022-02-22
# (参考訳) 話者認証改善のためのコントラスト混合学習 [全文訳有]

Contrastive-mixup learning for improved speaker verification ( http://arxiv.org/abs/2202.10672v1 )

ライセンス: CC0 1.0
Xin Zhang and Minho Jin and Roger Cheng and Ruirui Li and Eunjung Han and Andreas Stolcke(参考訳) 本稿では,話者検証のためのミックスアップによるプロトタイプ損失の新しい定式化を提案する。 Mixupは、深層ニューラルネットワークトレーニングのためのランダムデータポイントとラベルペアの重み付けを組み合わせた、シンプルだが効率的なデータ拡張技術である。 ディープニューラルネットワークの堅牢性と一般化を改善する能力によって、Mixupは注目を集めている。 mixupはさまざまなドメインで成功を収めているが、ほとんどのアプリケーションはクローズドセットの分類タスクを中心にしている。 本研究では,距離メトリックに基づく表現の識別を学習する新しい拡張戦略であるコントラスト・ミックスアップを提案する。 トレーニング中、ミックスアップ操作は入力と仮想ラベルの両方の凸補間を生成する。 さらに,計量学習目的のミックスアップを可能にするように,原型的損失関数を再構成した。 限られた訓練データに対する一般化を示すため,VoxCelebデータベース内の各話者から利用可能な発話数を変化させて実験を行う。 実験結果から, コントラッシブ・ミックスアップは既存のベースラインよりも優れており, 特に話者当たりの訓練発話数が少ない場合, 誤差率を16%削減することがわかった。

This paper proposes a novel formulation of prototypical loss with mixup for speaker verification. Mixup is a simple yet efficient data augmentation technique that fabricates a weighted combination of random data point and label pairs for deep neural network training. Mixup has attracted increasing attention due to its ability to improve robustness and generalization of deep neural networks. Although mixup has shown success in diverse domains, most applications have centered around closed-set classification tasks. In this work, we propose contrastive-mixup, a novel augmentation strategy that learns distinguishing representations based on a distance metric. During training, mixup operations generate convex interpolations of both inputs and virtual labels. Moreover, we have reformulated the prototypical loss function such that mixup is enabled on metric learning objectives. To demonstrate its generalization given limited training data, we conduct experiments by varying the number of available utterances from each speaker in the VoxCeleb database. Experimental results show that applying contrastive-mixup outperforms the existing baseline, reducing error rate by 16% relatively, especially when the number of training utterances per speaker is limited.
翻訳日:2022-02-24 02:47:49 公開日:2022-02-22
# (参考訳) 物理に変形したグラフ学習:調査 [全文訳有]

Physics-Informed Graph Learning: A Survey ( http://arxiv.org/abs/2202.10679v1 )

ライセンス: CC BY 4.0
Ciyuan Peng, Feng Xia, Vidya Saikrishna, Huan Liu(参考訳) 近年のグラフ学習の急激な発展は、様々な分野において無数の応用が見出されている。 主な関連する課題の1つは、グラフデータの量と複雑さである。 低次元空間におけるグラフデータの保存に関して、多くの研究が進展している。 グラフ学習モデルは、元のグラフ情報を維持できないことに苦しむ。 この障害を補うために、物理インフォームドグラフ学習(PIGL)が出現している。 PIGLは、グラフ学習の実行中に物理規則を取り入れ、多くのポテンシャルを実現する。 本稿ではPIGL法を体系的に検討する。 まず,グラフ学習モデルの統一フレームワークを導入し,その統合フレームワークに関連する既存のPIGL手法について検討する。 PIGLの今後の課題についても論じる。 本研究は,ブタに関する革新的な研究・開発活動の促進を期待する。

An expeditious development of graph learning in recent years has found innumerable applications in several diversified fields. Of the main associated challenges are the volume and complexity of graph data. A lot of research has been evolving around the preservation of graph data in a low dimensional space. The graph learning models suffer from the inability to maintain original graph information. In order to compensate for this inability, physics-informed graph learning (PIGL) is emerging. PIGL incorporates physics rules while performing graph learning, which enables numerous potentials. This paper presents a systematic review of PIGL methods. We begin with introducing a unified framework of graph learning models, and then examine existing PIGL methods in relation to the unified framework. We also discuss several future challenges for PIGL. This survey paper is expected to stimulate innovative research and development activities pertaining to PIGL.
翻訳日:2022-02-24 02:38:21 公開日:2022-02-22
# (参考訳) グラフ生涯学習:調査 [全文訳有]

Graph Lifelong Learning: A Survey ( http://arxiv.org/abs/2202.10688v1 )

ライセンス: CC BY 4.0
Falih Gozi Febrinanto, Feng Xia, Kristen Moore, Chandra Thapa, Charu Aggarwal(参考訳) グラフ学習は、ソーシャルネットワーク、生物学的ネットワーク、レコメンダシステム、コンピュータビジョンなど、さまざまなグラフ関連領域における人工知能(AI)タスクの解決に大きく貢献する。 しかし、前例のない流行にもかかわらず、時間とともにグラフデータの動的進化に対処することは依然として課題である。 多くの現実世界のアプリケーションでは、グラフデータが継続的に進化します。 トレーニング開始前にグラフ表現が完了すると仮定した現在のグラフ学習方法は、この設定では適用できない。 グラフ学習におけるこの課題は、グラフデータにおけるこれまでの知識を洗練するために、グラフライフロングラーニングと呼ばれる継続的学習プロセスの開発を動機付ける。 生涯学習とグラフ学習を別々に扱う既存の調査論文とは異なり、この調査論文では、その動機、ポテンシャル、最先端のアプローチ(適切に分類されている)、およびグラフ生涯学習のオープンな課題について取り上げる。 我々はこの新興分野に対する広範な研究と開発への関心を期待する。

Graph learning substantially contributes to solving artificial intelligence (AI) tasks in various graph-related domains such as social networks, biological networks, recommender systems, and computer vision. However, despite its unprecedented prevalence, addressing the dynamic evolution of graph data over time remains a challenge. In many real-world applications, graph data continuously evolves. Current graph learning methods that assume graph representation is complete before the training process begins are not applicable in this setting. This challenge in graph learning motivates the development of a continuous learning process called graph lifelong learning to accommodate the future and refine the previous knowledge in graph data. Unlike existing survey papers that focus on either lifelong learning or graph learning separately, this survey paper covers the motivations, potentials, state-of-the-art approaches (that are well categorized), and open issues of graph lifelong learning. We expect extensive research and development interest in this emerging field.
翻訳日:2022-02-24 02:24:50 公開日:2022-02-22
# (参考訳) 食事配送プラットフォームにおける多段階ボーナス割り当ての枠組み [全文訳有]

A Framework for Multi-stage Bonus Allocation in meal delivery Platform ( http://arxiv.org/abs/2202.10695v1 )

ライセンス: CC BY 4.0
Zhuolin Wu, Li Wang, Fangsheng Huang, Linjun Zhou, Yu Song, Chengpeng Ye, Pengyu Nie, Hao Ren, Jinghua Hao, Renqing He, Zhizhao Sun(参考訳) オンラインの食事デリバリーは爆発的な成長を遂げており、このサービスはますます人気が高まっている。 食事配達プラットフォームは、顧客やレストランに優れた安定したサービスを提供することを目的としている。 しかし実際には、ドライバーを誘導する群衆に受け入れられないため、Meituanの食事配達プラットフォームでは1日数十万台の注文がキャンセルされている。 注文の取り消しは、顧客の再購入率と、マイトゥタンの食事配達プラットフォームの評判に極めて有害である。 この問題を解決するために、Meituanのビジネスマネージャが特定の資金を一定の量提供し、クラウドソーシングドライバーがより多くの注文を受け入れるように促している。 そこで本研究では,食事配送プラットフォームにおける多段階ボーナス割り当て問題に対処するための枠組みを提案する。 この枠組みの目的は、限られたボーナス予算内での受注数を最大化することである。 このフレームワークは、半ブラックボックスの受け入れ確率モデル、ラグランジアンデュアルベース動的プログラミングアルゴリズム、オンラインアロケーションアルゴリズムで構成されている。 半ブラックボックス受入確率モデルは、順番に割り当てられたボーナスとその受入確率の関係を予測するために用いられ、ラグランジアン双対ベースの動的プログラミングアルゴリズムは、履歴データセットに基づいて各割当段階における経験的ラグランジアン乗数をオフラインで計算することを目的としており、オンライン割当アルゴリズムは、オフライン部で得られた結果を用いて、順番ごとに適切な配送ボーナスを計算する。 本フレームワークの有効性と効率性を検証するため,実世界のデータセット上でのオフライン実験と,meituan食配信プラットフォーム上でのオンラインa/bテストを行った。 その結果,提案手法を用いることで,全注文キャンセルを25%以上削減できることがわかった。

Online meal delivery is undergoing explosive growth, as this service is becoming increasingly popular. A meal delivery platform aims to provide excellent and stable services for customers and restaurants. However, in reality, several hundred thousand orders are canceled per day in the Meituan meal delivery platform since they are not accepted by the crowd soucing drivers. The cancellation of the orders is incredibly detrimental to the customer's repurchase rate and the reputation of the Meituan meal delivery platform. To solve this problem, a certain amount of specific funds is provided by Meituan's business managers to encourage the crowdsourcing drivers to accept more orders. To make better use of the funds, in this work, we propose a framework to deal with the multi-stage bonus allocation problem for a meal delivery platform. The objective of this framework is to maximize the number of accepted orders within a limited bonus budget. This framework consists of a semi-black-box acceptance probability model, a Lagrangian dual-based dynamic programming algorithm, and an online allocation algorithm. The semi-black-box acceptance probability model is employed to forecast the relationship between the bonus allocated to order and its acceptance probability, the Lagrangian dual-based dynamic programming algorithm aims to calculate the empirical Lagrangian multiplier for each allocation stage offline based on the historical data set, and the online allocation algorithm uses the results attained in the offline part to calculate a proper delivery bonus for each order. To verify the effectiveness and efficiency of our framework, both offline experiments on a real-world data set and online A/B tests on the Meituan meal delivery platform are conducted. Our results show that using the proposed framework, the total order cancellations can be decreased by more than 25\% in reality.
翻訳日:2022-02-24 02:10:16 公開日:2022-02-22
# (参考訳) pointmatch: 3dポイントクラウドの弱い教師付きセグメンテーションのための一貫性トレーニングフレームワーク [全文訳有]

PointMatch: A Consistency Training Framework for Weakly SupervisedSemantic Segmentation of 3D Point Clouds ( http://arxiv.org/abs/2202.10705v1 )

ライセンス: CC BY 4.0
Yushuang Wu, Zizheng Yan, Shengcai Cai, Guanbin Li, Yizhou Yu, Xiaoguang Han, Shuguang Cui(参考訳) 点雲のセマンティックセグメンテーションは、通常、枯渇しコストがかかるような密集したアノテーションに依存しているため、疎点のみを注釈付けした弱教師付きスキームの解を広く注目する。 既存の作業は、与えられたラベルから始まり、高度に関連があるがラベルのない点へと伝播し、例えば、点内関係のようなデータの誘導を行う。 しかし、それは苦しむ。 (i)データ情報の非効率的な活用 (II)より少ないアノテーションを付与するとラベルへの強い依存が容易に抑制される。 そこで本稿では,データ自体から情報を十分に探索するために整合性正規化を適用し,弱いラベルを補助として活用することで,データとラベルの両方に立つ新しいフレームワークであるPointMatchを提案する。 これにより、データとラベルの両方から有意義な情報を学び、より良い表現学習を行うことができる。 提案されたPointMatchは、ScanNet-v2データセットとS3DISデータセットの両方で、それぞれ0.01%と0.1%のScanNet-v2設定でSQNを21.2%以上、17.2%超えるような、非常にスパースなラベル設定で、様々な弱い教師付きスキームの下で、最先端のパフォーマンスを実現する。

Semantic segmentation of point cloud usually relies on dense annotation that is exhausting and costly, so it attracts wide attention to investigate solutions for the weakly supervised scheme with only sparse points annotated. Existing works start from the given labels and propagate them to highly-related but unlabeled points, with the guidance of data, e.g. intra-point relation. However, it suffers from (i) the inefficient exploitation of data information, and (ii) the strong reliance on labels thus is easily suppressed when given much fewer annotations. Therefore, we propose a novel framework, PointMatch, that stands on both data and label, by applying consistency regularization to sufficiently probe information from data itself and leveraging weak labels as assistance at the same time. By doing so, meaningful information can be learned from both data and label for better representation learning, which also enables the model more robust to the extent of label sparsity. Simple yet effective, the proposed PointMatch achieves the state-of-the-art performance under various weakly-supervised schemes on both ScanNet-v2 and S3DIS datasets, especially on the settings with extremely sparse labels, e.g. surpassing SQN by 21.2% and 17.2% on the 0.01% and 0.1% setting of ScanNet-v2, respectively.
翻訳日:2022-02-24 01:55:19 公開日:2022-02-22
# (参考訳) サイクルを伴う関係因果モデル:表現と推論 [全文訳有]

Relational Causal Models with Cycles:Representatio n and Reasoning ( http://arxiv.org/abs/2202.10706v1 )

ライセンス: CC BY 4.0
Ragib Ahsan, David Arbour, Elena Zheleva(参考訳) 関係領域における因果推論は、個々の単位が互いに特性や行動に影響を及ぼす現実世界の社会現象を研究するのに基礎がある。 相互接続ユニット間のダイナミクスは、関係因果モデルのインスタンス化として表現できるが、そのようなインスタンス化に対する因果推論には、影響のフィードバックループをキャプチャする追加のテンプレート仮定が必要である。 これまでの研究は、そのようなダイナミクスのリレーショナルな性質に対処するために解き放たれた表現を開発してきたが、その表現にはサイクルがないことを厳密に要求してきた。 関係表現と学習のサイクルを容易にするために、フィードバックループを用いた関係システムを理解するための新しい基準であるrelational $\sigma$-separationを導入する。 また、新しい拡張表現である$\sigma$-abstract 基底グラフを導入し、循環関係モデルの全ての可能なインスタンス化において統計的独立関係を抽象化するのに役立つ。 我々は、$\sigma$-AGGの完全性に必要な必要十分条件を示し、リレーショナル$\sigma$-分離は任意の長さの1つ以上のサイクルの存在下で健全かつ完備であることを示す。 私たちの知る限りでは、これは循環関係因果モデルによる表現と推論に関する最初の仕事です。

Causal reasoning in relational domains is fundamental to studying real-world social phenomena in which individual units can influence each other's traits and behavior. Dynamics between interconnected units can be represented as an instantiation of a relational causal model; however, causal reasoning over such instantiation requires additional templating assumptions that capture feedback loops of influence. Previous research has developed lifted representations to address the relational nature of such dynamics but has strictly required that the representation has no cycles. To facilitate cycles in relational representation and learning, we introduce relational $\sigma$-separation, a new criterion for understanding relational systems with feedback loops. We also introduce a new lifted representation, $\sigma$-abstract ground graph which helps with abstracting statistical independence relations in all possible instantiations of the cyclic relational model. We show the necessary and sufficient conditions for the completeness of $\sigma$-AGG and that relational $\sigma$-separation is sound and complete in the presence of one or more cycles with arbitrary length. To the best of our knowledge, this is the first work on representation of and reasoning with cyclic relational causal models.
翻訳日:2022-02-24 01:37:39 公開日:2022-02-22
# (参考訳) EIGNN: 効率的な無限深度グラフニューラルネットワーク [全文訳有]

EIGNN: Efficient Infinite-Depth Graph Neural Networks ( http://arxiv.org/abs/2202.10720v1 )

ライセンス: CC BY 4.0
Juncheng Liu, Kenji Kawaguchi, Bryan Hooi, Yiwei Wang, Xiaokui Xiao(参考訳) グラフニューラルネットワーク(GNN)は多くのアプリケーションでグラフ構造化データのモデリングに広く利用されている。 しかし、それら固有の有限集合層により、既存のGNNモデルは、基礎となるグラフにおける長距離依存を効果的に捉えることができないかもしれない。 この制限により、我々は無限深度GNNモデルを提案し、これをEIGNN(Efficient Infinite-Depth Graph Neural Networks)と呼び、非常に長い範囲の依存関係を効率的に捉える。 理論的には、無限深GNNモデルの学習を可能にするEIGNNの閉形式解を導出する。 さらに、固有分解を用いて、EIGNNのトレーニングにより効率的な計算を実現できることを示す。 合成および実世界のデータセットに関する包括的な実験の結果は、EIGNNが最近のベースラインよりも長距離依存関係をキャプチャし、一貫して最先端のパフォーマンスを達成する能力を持っていることを示している。 さらに,提案手法は,ノード特徴の雑音や逆摂動に対しても頑健であることを示す。

Graph neural networks (GNNs) are widely used for modelling graph-structured data in numerous applications. However, with their inherently finite aggregation layers, existing GNN models may not be able to effectively capture long-range dependencies in the underlying graphs. Motivated by this limitation, we propose a GNN model with infinite depth, which we call Efficient Infinite-Depth Graph Neural Networks (EIGNN), to efficiently capture very long-range dependencies. We theoretically derive a closed-form solution of EIGNN which makes training an infinite-depth GNN model tractable. We then further show that we can achieve more efficient computation for training EIGNN by using eigendecomposition. The empirical results of comprehensive experiments on synthetic and real-world datasets show that EIGNN has a better ability to capture long-range dependencies than recent baselines, and consistently achieves state-of-the-art performance. Furthermore, we show that our model is also more robust against both noise and adversarial perturbations on node features.
翻訳日:2022-02-24 01:18:15 公開日:2022-02-22
# (参考訳) Sobolev Transport:グラフメトリックによる確率測定のためのスケーラブルなメトリック [全文訳有]

Sobolev Transport: A Scalable Metric for Probability Measures with Graph Metrics ( http://arxiv.org/abs/2202.10723v1 )

ライセンス: CC BY 4.0
Tam Le and Truyen Nguyen and Dinh Phung and Viet Anh Nguyen(参考訳) 最適輸送(OT)は確率分布を比較するための一般的な尺度である。 しかし、OTにはいくつかの欠点がある。 (i)計算の複雑さが高いこと。 (ii)カーネルマシンの適用性を制限する不確定性。 本研究では,グラフ計量空間上で支援される確率測度を考察し,新しいソボレフ輸送計量を提案する。 ソボレフ輸送距離は高速計算のための閉形式式であり、負の定値であることを示す。 この輸送距離で与えられる確率測度の空間は、重み付き$\ell_p$距離を持つユークリッド空間の有界凸集合に等尺的であることを示す。 さらに,sobolevトランスポートの負定性を利用して,正定値カーネルの設計を行い,単語埋め込みによる文書分類やトポロジカルデータ解析において,その性能を評価する。

Optimal transport (OT) is a popular measure to compare probability distributions. However, OT suffers a few drawbacks such as (i) a high complexity for computation, (ii) indefiniteness which limits its applicability to kernel machines. In this work, we consider probability measures supported on a graph metric space and propose a novel Sobolev transport metric. We show that the Sobolev transport metric yields a closed-form formula for fast computation and it is negative definite. We show that the space of probability measures endowed with this transport distance is isometric to a bounded convex set in a Euclidean space with a weighted $\ell_p$ distance. We further exploit the negative definiteness of the Sobolev transport to design positive-definite kernels, and evaluate their performances against other baselines in document classification with word embeddings and in topological data analysis.
翻訳日:2022-02-24 00:25:22 公開日:2022-02-22
# (参考訳) corefdre: coreference resolutionを用いた文書レベルの関係抽出 [全文訳有]

CorefDRE: Document-level Relation Extraction with coreference resolution ( http://arxiv.org/abs/2202.10744v1 )

ライセンス: CC BY 4.0
Zhongxuan Xue, Rongzhen Li, Qizhu Dai, Zhong Jiang(参考訳) 文書レベルの関係抽出は、代名詞交叉文が単一文に対してユビキタスな現象である複数の文からなる文書から関係事実を抽出することである。 しかし、以前の作品のほとんどが代名詞以外の項参照の解決に重点を置いており、言及-代名詞の項参照と関係のキャプチャに注意を払うことは滅多にない。 類似グラフを動的に構築して意味情報を高める際に、人間同士の参照情報を活用し、人間の読解過程を模倣する。 グラフにおいて代名詞は曖昧なことで悪名高いため、代名詞と対応する代名詞との親和性を計算するために、代名詞による雑音を低減するための雑音抑制機構が提案されている。 公開データセットであるDocRED、DialogRE、MPDDの実験では、グラフ推論ネットワークに基づくCoref対応のDocレベルの関係抽出が最先端よりも優れていることが示されている。

Document-level relation extraction is to extract relation facts from a document consisting of multiple sentences, in which pronoun crossed sentences are a ubiquitous phenomenon against a single sentence. However, most of the previous works focus more on mentions coreference resolution except for pronouns, and rarely pay attention to mention-pronoun coreference and capturing the relations. To represent multi-sentence features by pronouns, we imitate the reading process of humans by leveraging coreference information when dynamically constructing a heterogeneous graph to enhance semantic information. Since the pronoun is notoriously ambiguous in the graph, a mention-pronoun coreference resolution is introduced to calculate the affinity between pronouns and corresponding mentions, and the noise suppression mechanism is proposed to reduce the noise caused by pronouns. Experiments on the public dataset, DocRED, DialogRE and MPDD, show that Coref-aware Doc-level Relation Extraction based on Graph Inference Network outperforms the state-of-the-art.
翻訳日:2022-02-23 23:55:39 公開日:2022-02-22
# (参考訳) マルチレファレンス顔再現の融合戦略を考える [全文訳有]

Thinking the Fusion Strategy of Multi-reference Face Reenactment ( http://arxiv.org/abs/2202.10758v1 )

ライセンス: CC BY 4.0
Takuya Yashima, Takuya Narihira, Tamaki Kojima(参考訳) 近年の深層生成モデルでは、顔の再現(頭部の動きを含む人間の顔の操作と制御)が幅広い応用性に多くの注目を集めている。 その強い表現性にもかかわらず、モデルが与えられた単一の参照画像の顔の見えない側面を再構成または正確に生成できないことは避けられない。 既存の手法の多くは、大量のデータから人間の顔の外観を学習し、推論時に現実的なテクスチャを生成することでこの問題を軽減する。 生成モデルが何を学習するかに完全に依存するのではなく、複数の参照画像を用いて単純な拡張が生成品質を著しく向上させることを示す。 私たちはこれを示します 1) 公開データセットの復元作業を実施すること。 2) 複数人の頭部運動映像系列からなる元のデータセット上で顔の動き伝達を行い, 3)新たに提案した評価基準を用いて,提案手法がより定量的な結果が得られることを検証する。

In recent advances of deep generative models, face reenactment -manipulating and controlling human face, including their head movement-has drawn much attention for its wide range of applicability. Despite its strong expressiveness, it is inevitable that the models fail to reconstruct or accurately generate unseen side of the face of a given single reference image. Most of existing methods alleviate this problem by learning appearances of human faces from large amount of data and generate realistic texture at inference time. Rather than completely relying on what generative models learn, we show that simple extension by using multiple reference images significantly improves generation quality. We show this by 1) conducting the reconstruction task on publicly available dataset, 2) conducting facial motion transfer on our original dataset which consists of multi-person's head movement video sequences, and 3) using a newly proposed evaluation metric to validate that our method achieves better quantitative results.
翻訳日:2022-02-23 23:37:23 公開日:2022-02-22
# (参考訳) 感情生成モデルの現状と展望 [全文訳有]

A Review of Affective Generation Models ( http://arxiv.org/abs/2202.10763v1 )

ライセンス: CC BY-SA 4.0
Guangtao Nie, Yibing Zhan(参考訳) アフェクティブ・コンピューティング(Affective Computing)は、人間の感情状態を分析し、認識し、影響を及ぼす計算システムを開発する分野である。 一般に、感情認識と感情生成の2つのサブプロブレムに分けられる。 影響認識は過去10年間に何度もレビューされてきた。 しかし、感情的な世代は批判的なレビューを欠いている。 そこで本研究では,モデルが他者の感情状態に影響を与えるのに最も一般的に利用されているため,感情生成モデルの包括的レビューを提案する。 Affective Computingは、機械学習の飛躍、特に2015年以来のディープラーニングのおかげで、さまざまな分野やアプリケーションで勢いを増している。 批判モデルの導入により、この研究は将来の感情発生の研究に役立つと考えられている。 この作業は、既存の課題に関する簡単な議論で締めくくります。

Affective computing is an emerging interdisciplinary field where computational systems are developed to analyze, recognize, and influence the affective states of a human. It can generally be divided into two subproblems: affective recognition and affective generation. Affective recognition has been extensively reviewed multiple times in the past decade. Affective generation, however, lacks a critical review. Therefore, we propose to provide a comprehensive review of affective generation models, as models are most commonly leveraged to affect others' emotional states. Affective computing has gained momentum in various fields and applications, thanks to the leap of machine learning, especially deep learning since 2015. With critical models introduced, this work is believed to benefit future research on affective generation. We conclude this work with a brief discussion on existing challenges.
翻訳日:2022-02-23 23:28:31 公開日:2022-02-22
# (参考訳) 適応コレスキーガウス過程

Adaptive Cholesky Gaussian Processes ( http://arxiv.org/abs/2202.10769v1 )

ライセンス: CC BY 4.0
Simon Bartels, Kristoffer Stensbo-Smidt, Pablo Moreno-Munoz, Wouter Boomsma, Jes Frellsen, Soren Hauberg(参考訳) 本稿では,データのサブセットのみを考慮して,ガウス過程モデルを大規模データセットに適合させる手法を提案する。 我々のアプローチは、計算オーバーヘッドが少ない正確な推論中に、サブセットのサイズがフライで選択されるという点で新しくなっています。 十分なデータセットのサブセットが観測されると、ログマージナル確率は線形傾向を示すことが多いという経験的観察から、多くの大きなデータセットは後方にわずかに影響するだけの冗長な情報を含んでいると結論づける。 これに基づいて、そのような部分集合を識別できる完全モデル証拠の確率的境界を提供する。 注目すべきことに、これらの境界は、標準コレスキー分解の中間段階に現れる用語で構成されており、十分なデータが観測されたら、その分解を適応的に停止するアルゴリズムを修正することができる。 実験により,提案手法をよく知られた推論手法に直接接続して,正確なガウス過程モデルを大規模データセットに適合させることができることを示す。

We present a method to fit exact Gaussian process models to large datasets by considering only a subset of the data. Our approach is novel in that the size of the subset is selected on the fly during exact inference with little computational overhead. From an empirical observation that the log-marginal likelihood often exhibits a linear trend once a sufficient subset of a dataset has been observed, we conclude that many large datasets contain redundant information that only slightly affects the posterior. Based on this, we provide probabilistic bounds on the full model evidence that can identify such subsets. Remarkably, these bounds are largely composed of terms that appear in intermediate steps of the standard Cholesky decomposition, allowing us to modify the algorithm to adaptively stop the decomposition once enough data have been observed. Empirically, we show that our method can be directly plugged into well-known inference schemes to fit exact Gaussian process models to large datasets.
翻訳日:2022-02-23 22:52:38 公開日:2022-02-22
# (参考訳) 深層学習に基づくEMボリューム上のミトコンドリアセグメンテーションのためのドメイン適応

Deep learning based domain adaptation for mitochondria segmentation on EM volumes ( http://arxiv.org/abs/2202.10773v1 )

ライセンス: CC BY 4.0
Daniel Franco-Barranco and Julio Pastor-Tronch and Aitor Gonzalez-Marfil and Arrate Mu\~noz-Barrutia and Ignacio Arganda-Carreras(参考訳) 脳の電子顕微鏡(em)ボリュームの正確なセグメンテーションは、細胞または器官レベルでニューロンの構造を特徴付けるのに不可欠である。 教師付きディープラーニング(supervised deep learning, 教師付きディープラーニング)の手法は、ここ数年でその方向への大きなブレークスルーをもたらしたが、それらは通常、大量の注釈付きデータを訓練する必要がある。 なぜなら、サンプル分布(またはソースドメイン)から学習したモデルは、異なる分布またはターゲットドメインから抽出されたサンプル上でのパフォーマンスを維持するのに苦労するためである。 本研究では、異なる組織や種からのemデータセットにまたがるミトコンドリアセグメンテーションのための深層学習に基づくドメイン適応の複雑な事例について述べる。 本報告では,(1)両ドメインの画像間におけるミトコンドリアのセグメンテーションを改善するための教師なしドメイン適応戦略として,(2)ラベルなしのソースとターゲットのイメージを用いてモデルを事前学習し,ソースラベルのみで微調整する自己教師あり学習,(3)ラベル付き画像とラベル付き画像の両方でエンドツーエンドを訓練したマルチタスクニューラルネットワークアーキテクチャを提案する。 さらに,ソースドメイン内でのみ得られる形態的事前条件に基づいて,新たな学習停止基準を提案する。 3つの公開EMデータセットを用いて、可能なすべてのデータセット実験を行った。 目的とするデータセットで予測したミトコンドリア意味ラベルの戦略について検討した。 ここで導入された手法は、ベースラインメソッドを上回り、アートの状態を好ましく比較する。 バリデーションラベルがない場合、提案する形態素ベースのメトリクスのモニタリングは、トレーニングプロセスを停止し、平均的な最適モデルを選択するための直感的で効果的な方法です。

Accurate segmentation of electron microscopy (EM) volumes of the brain is essential to characterize neuronal structures at a cell or organelle level. While supervised deep learning methods have led to major breakthroughs in that direction during the past years, they usually require large amounts of annotated data to be trained, and perform poorly on other data acquired under similar experimental and imaging conditions. This is a problem known as domain adaptation, since models that learned from a sample distribution (or source domain) struggle to maintain their performance on samples extracted from a different distribution or target domain. In this work, we address the complex case of deep learning based domain adaptation for mitochondria segmentation across EM datasets from different tissues and species. We present three unsupervised domain adaptation strategies to improve mitochondria segmentation in the target domain based on (1) state-of-the-art style transfer between images of both domains; (2) self-supervised learning to pre-train a model using unlabeled source and target images, and then fine-tune it only with the source labels; and (3) multi-task neural network architectures trained end-to-end with both labeled and unlabeled images. Additionally, we propose a new training stopping criterion based on morphological priors obtained exclusively in the source domain. We carried out all possible cross-dataset experiments using three publicly available EM datasets. We evaluated our proposed strategies on the mitochondria semantic labels predicted on the target datasets. The methods introduced here outperform the baseline methods and compare favorably to the state of the art. In the absence of validation labels, monitoring our proposed morphology-based metric is an intuitive and effective way to stop the training process and select in average optimal models.
翻訳日:2022-02-23 22:48:29 公開日:2022-02-22
# (参考訳) RuCLIP -- 新しいモデルと実験:技術報告 [全文訳有]

RuCLIP -- new models and experiments: a technical report ( http://arxiv.org/abs/2202.10784v1 )

ライセンス: CC BY 4.0
Alex Shonenkov, Andrey Kuznetsov, Denis Dimitrov, Tatyana Shavrina, Daniil Chesakov, Anastasia Maltseva, Alena Fenogenova, Igor Pavlov, Anton Emelyanov, Sergey Markov, Daria Bakshandaeva, Vera Shybaeva, Andrey Chertok(参考訳) 本報告では,2億4000万対をトレーニングしたruCLIPモデルの6つの新しい実装を提案する。 精度は、元のCLIPモデルと異なるドメインの16データセット上のRu-En翻訳(OPUS-MT)と比較される。 私たちのベスト実装は、ほとんどすべてのデータセットでCLIP + OPUS-MTソリューションより優れています。 本報告では,実装を簡潔に記述し,実施実験に集中する。 推測の実行時間の比較もレポートに示されている。

In the report we propose six new implementations of ruCLIP model trained on our 240M pairs. The accuracy results are compared with original CLIP model with Ru-En translation (OPUS-MT) on 16 datasets from different domains. Our best implementations outperform CLIP + OPUS-MT solution on most of the datasets in few-show and zero-shot tasks. In the report we briefly describe the implementations and concentrate on the conducted experiments. Inference execution time comparison is also presented in the report.
翻訳日:2022-02-23 22:46:40 公開日:2022-02-22
# (参考訳) VU-BERT:ビジュアルダイアログのための統一フレームワーク [全文訳有]

VU-BERT: A Unified framework for Visual Dialog ( http://arxiv.org/abs/2202.10787v1 )

ライセンス: CC0 1.0
Tong Ye, Shijing Si, Jianzong Wang, Rui Wang, Ning Cheng, Jing Xiao(参考訳) ビジュアルダイアログタスクは、イメージが与えられたマルチターンの質問に答えるためにエージェントを訓練し、イメージとダイアログ履歴の間のインタラクションを深く理解する必要がある。 既存の研究では、相互作用をモデル化するためにモダリティ固有のモジュールを使う傾向がある。 このギャップを埋めるために,VU-BERTという画像テキスト共同埋め込みのための統合フレームワークを提案し,まず視覚対話タスクに視覚埋め込みを求めるパッチプロジェクションを適用してモデルを単純化する。 モデルは、マスク付き言語モデリングと次の発話検索という2つのタスクでトレーニングされる。 これらのタスクは、視覚概念、発話依存、これら2つのモダリティ間の関係を学ぶのに役立つ。 最後に、VU-BERTはVisDial v1.0データセット上での競合性能(0.7287 NDCGスコア)を達成する。

The visual dialog task attempts to train an agent to answer multi-turn questions given an image, which requires the deep understanding of interactions between the image and dialog history. Existing researches tend to employ the modality-specific modules to model the interactions, which might be troublesome to use. To fill in this gap, we propose a unified framework for image-text joint embedding, named VU-BERT, and apply patch projection to obtain vision embedding firstly in visual dialog tasks to simplify the model. The model is trained over two tasks: masked language modeling and next utterance retrieval. These tasks help in learning visual concepts, utterances dependence, and the relationships between these two modalities. Finally, our VU-BERT achieves competitive performance (0.7287 NDCG scores) on VisDial v1.0 Datasets.
翻訳日:2022-02-23 22:41:04 公開日:2022-02-22
# (参考訳) 境界治療効果に対する確率因果計画法 [全文訳有]

Stochastic Causal Programming for Bounding Treatment Effects ( http://arxiv.org/abs/2202.10806v1 )

ライセンス: CC BY 4.0
Kirtan Padh, Jakob Zeitler, David Watson, Matt Kusner, Ricardo Silva and Niki Kilbertus(参考訳) 因果効果の推定は自然科学や社会科学の多くのタスクにおいて重要である。 しかし、強い、しばしばテスト不能な仮定をすることなく、観察データから効果を特定することは不可能である。 多変量処理による部分的識別問題に対するアルゴリズムを考察し,不測の共起により識別が不可能な場合,複数の因果モデルに対して連続的な処理を行う。 我々は、可観測証拠が因果モデルで符号化された制約の規範に基づく基準に合致する枠組みを考える。 これは純粋に生成モデルに基づく古典的アプローチを一般化する。 制約付き最適化問題における目的関数として因果効果をキャストし、フレキシブルな学習アルゴリズムとモンテカルロ法を組み合わせることにより、確率的因果プログラミングの名のもと、解のファミリーを実装する。 特に,そのような制約付き最適化問題を,因果関係や観測データモデルに対する帰納関数を使わずにパラメータ化し,タスクの計算量や統計量を減らす方法を提案する。

Causal effect estimation is important for numerous tasks in the natural and social sciences. However, identifying effects is impossible from observational data without making strong, often untestable assumptions. We consider algorithms for the partial identification problem, bounding treatment effects from multivariate, continuous treatments over multiple possible causal models when unmeasured confounding makes identification impossible. We consider a framework where observable evidence is matched to the implications of constraints encoded in a causal model by norm-based criteria. This generalizes classical approaches based purely on generative models. Casting causal effects as objective functions in a constrained optimization problem, we combine flexible learning algorithms with Monte Carlo methods to implement a family of solutions under the name of stochastic causal programming. In particular, we present ways by which such constrained optimization problems can be parameterized without likelihood functions for the causal or the observed data model, reducing the computational and statistical complexity of the task.
翻訳日:2022-02-23 22:28:26 公開日:2022-02-22
# (参考訳) ハイパーアテンションリカレントニューラルネットワーク:時系列解析における時間的共変量シフトに対処する [全文訳有]

Hyper Attention Recurrent Neural Network: Tackling Temporal Covariate Shift in Time Series Analysis ( http://arxiv.org/abs/2202.10808v1 )

ライセンス: CC BY 4.0
Wenying Duan, Xiaoxi He, Lu Zhou, Zimu Zhou, Lothar Thiele and Hong Rao(参考訳) RNNとの長いシリーズの分析は、しばしば不可能な訓練に悩まされる。 したがって、セグメンテーションはデータ前処理で一般的に使用される。 しかし、非定常時系列では、しばしば異なるセグメント間で分布シフトが存在する。 RNNは、グローバルな情報の欠如により、これらのセグメントの適合バイアスのジレンマに陥りやすくなり、最近提案されたRNNベースのモデルによってのみ対処される、Temporal Covariate Shift (TCS) 問題と呼ばれる一般化の低さにつながる。 TCSにおける仮定の1つは、同じセグメントの下でのすべての分割区間の分布が同一であるということである。 しかし、この仮定は、大きな確率性を持つ交通流のような高周波時系列では当てはまらないかもしれない。 さらに、最新のRNNベースの手法では、長期にわたってマクロ情報が適切に考慮されていない。 以上の課題に対処するため,マイクロ情報とマクロ情報の両方を含む時間パターンをモデル化するためのハイパーアテンション・リカレントニューラルネットワーク(HARNN)を提案する。 HARNNは、パラメータ生成のためのメタ層と、推論のための注目可能なメイン層から構成される。 高周波セグメントは低周波セグメントに変換され、メタ層に供給され、第1のメイン層は従来の方法と同じ高周波セグメントを消費する。 このようにして、メタ入力の各低周波セグメントは独自の主層を生成し、マクロ情報とマイクロ情報の両方を統合することができる。 これにより、すべての主要層は、時間的パターンを捉える際に、異なる分布の共通知識を十分に活用する同じターゲットを予測せざるを得なくなる。 複数のベンチマークで評価したところ、我々のモデルはキーメトリクスのフェデレーションにおいていくつかのRNNベースの手法よりも優れていた。

Analyzing long time series with RNNs often suffers from infeasible training. Segmentation is therefore commonly used in data pre-processing. However, in non-stationary time series, there exists often distribution shift among different segments. RNN is easily swamped in the dilemma of fitting bias in these segments due to the lack of global information, leading to poor generalization, known as Temporal Covariate Shift (TCS) problem, which is only addressed by a recently proposed RNN-based model. One of the assumptions in TCS is that the distribution of all divided intervals under the same segment are identical. This assumption, however, may not be true on high-frequency time series, such as traffic flow, that also have large stochasticity. Besides, macro information across long periods isn't adequately considered in the latest RNN-based methods. To address the above issues, we propose Hyper Attention Recurrent Neural Network (HARNN) for the modeling of temporal patterns containing both micro and macro information. An HARNN consists of a meta layer for parameter generation and an attention-enabled main layer for inference. High-frequency segments are transformed into low-frequency segments and fed into the meta layers, while the first main layer consumes the same high-frequency segments as conventional methods. In this way, each low-frequency segment in the meta inputs generates a unique main layer, enabling the integration of both macro information and micro information for inference. This forces all main layers to predict the same target which fully harnesses the common knowledge in varied distributions when capturing temporal patterns. Evaluations on multiple benchmarks demonstrated that our model outperforms a couple of RNN-based methods on a federation of key metrics.
翻訳日:2022-02-23 22:00:48 公開日:2022-02-22
# (参考訳) スパースランダム埋め込みに対するロバストかつ証明可能な保証 [全文訳有]

Robust and Provable Guarantees for Sparse Random Embeddings ( http://arxiv.org/abs/2202.10815v1 )

ライセンス: CC BY 4.0
Maciej Skorski, Alessandro Temperoni, Martin Theobald(参考訳) 本研究では,Freksen による al. (NIPS'18) と Jagadeesan (NIPS'19) によって最近提供され,解析された疎ランダム埋め込みの保証を改善する。 具体的には a) 前述した漸近的保証とは対照的に,我々の限界は明示的である b) データの次元性,スパーシティ,分散性など,幅広いパラメータにまたがる実質的な重要な定数によって,境界がよりシャープになることが保証されている。 さらに、画像のコレクション、単語の袋として表現されたテキスト文書、神経埋め込みによってベクトル化されたテキストシーケンスなど、幅広い実世界のデータセットにおいて、我々の境界が先行研究よりも著しく優れていることを実証的に証明した。 我々の数値的改善の裏には、より広い関心の技法があり、これは過去の分析の要点を改良している。 (c)特定の種類の二次カオスに対するより厳密な見積もり。 (d)疎線型形式の極端な性質を確立し、 (e)独立確率変数の和を推定するための境界の改善。

In this work, we improve upon the guarantees for sparse random embeddings, as they were recently provided and analyzed by Freksen at al. (NIPS'18) and Jagadeesan (NIPS'19). Specifically, we show that (a) our bounds are explicit as opposed to the asymptotic guarantees provided previously, and (b) our bounds are guaranteed to be sharper by practically significant constants across a wide range of parameters, including the dimensionality, sparsity and dispersion of the data. Moreover, we empirically demonstrate that our bounds significantly outperform prior works on a wide range of real-world datasets, such as collections of images, text documents represented as bags-of-words, and text sequences vectorized by neural embeddings. Behind our numerical improvements are techniques of broader interest, which improve upon key steps of previous analyses in terms of (c) tighter estimates for certain types of quadratic chaos, (d) establishing extreme properties of sparse linear forms, and (e) improvements on bounds for the estimation of sums of independent random variables.
翻訳日:2022-02-23 21:47:07 公開日:2022-02-22
# (参考訳) 公正なラベルが不公平な予測をもたらす理由:不公平性導入のためのグラフィカルな条件 [全文訳有]

Why Fair Labels Can Yield Unfair Predictions: Graphical Conditions for Introduced Unfairness ( http://arxiv.org/abs/2202.10816v1 )

ライセンス: CC BY 4.0
Carolyn Ashurst, Ryan Carey, Silvia Chiappa, Tom Everitt(参考訳) トレーニングデータにおける差別関係の再現に加えて、機械学習システムは差別効果の導入や増幅も可能である。 我々は、このことを不公平を導入し、それが生じる可能性のある状況について調査する。 そこで本研究では,不公平さの尺度として総変動を導入し,そのインセンティブを付与できるグラフィカルな条件を定式化する。 これらの基準は、機能としてセンシティブな属性を追加することで、よく定義された損失関数の下で導入される変動に対するインセンティブがなくなることを示唆している。 さらに、因果的な視点から、特定のパスが公平であるべき時の問題に光を当てたパス固有の効果が導入された。

In addition to reproducing discriminatory relationships in the training data, machine learning systems can also introduce or amplify discriminatory effects. We refer to this as introduced unfairness, and investigate the conditions under which it may arise. To this end, we propose introduced total variation as a measure of introduced unfairness, and establish graphical conditions under which it may be incentivised to occur. These criteria imply that adding the sensitive attribute as a feature removes the incentive for introduced variation under well-behaved loss functions. Additionally, taking a causal perspective, introduced path-specific effects shed light on the issue of when specific paths should be considered fair.
翻訳日:2022-02-23 21:26:43 公開日:2022-02-22
# (参考訳) 生涯学習のためのニューラルネットワークの深層化 [全文訳有]

Increasing Depth of Neural Networks for Life-long Learning ( http://arxiv.org/abs/2202.10821v1 )

ライセンス: CC BY 4.0
J\k{e}drzej Kozal, Micha{\l} Wo\'zniak(参考訳) ニューラルネットワークの深さの増大は、ニューラルネットワークの性能を改善する有名な方法である。 現代の深層アーキテクチャは、数百層や数千層の層を訓練できる複数のメカニズムを含んでいる。 この研究は、ニューラルネットワークの深さを延ばすことが、生涯学習環境において有益かどうかを問うものだ。 特に,既存のものの上に新しいレイヤを追加することで,知識の転送を可能にし,学習済みの表現を新しいタスクに適用する手法を提案する。 類似したタスクを決定する手法を用いてネットワーク内の最適な場所を選択し、学習可能なパラメータを持つ新しいノードを追加する。 このアプローチでは、各ノードが特定のタスク専用のニューラルネットワークパラメータのセットであるツリーライクなモデルを作成することができる。 提案手法はプログレッシブニューラルネットワーク(pnn)の概念に触発され,リハーサルフリーであり,ネットワーク構造の動的変化による利点がある。 しかし、タスク毎のパラメータはPNNよりも少ない。 Permuted MNIST と SplitCIFAR の実験により,提案アルゴリズムは他の連続学習手法と同等であることが示された。 また,各システム部の貢献を明らかにするため,アブレーション研究を行う。

Increasing neural network depth is a well-known method for improving neural network performance. Modern deep architectures contain multiple mechanisms that allow hundreds or even thousands of layers to train. This work is trying to answer if extending neural network depth may be beneficial in a life-long learning setting. In particular, we propose a novel method based on adding new layers on top of existing ones to enable the forward transfer of knowledge and adapting previously learned representations for new tasks. We utilize a method of determining the most similar tasks for selecting the best location in our network to add new nodes with trainable parameters. This approach allows for creating a tree-like model, where each node is a set of neural network parameters dedicated to a specific task. The proposed method is inspired by Progressive Neural Network (PNN) concept, therefore it is rehearsal-free and benefits from dynamic change of network structure. However, it requires fewer parameters per task than PNN. Experiments on Permuted MNIST and SplitCIFAR show that the proposed algorithm is on par with other continual learning methods. We also perform ablation studies to clarify the contributions of each system part.
翻訳日:2022-02-23 21:03:52 公開日:2022-02-22
# (参考訳) 大規模点雲の深層学習分類--キュニフォームタブレットを例として [全文訳有]

Deep learning classification of large-scale point clouds: A case study on cuneiform tablets ( http://arxiv.org/abs/2202.10851v1 )

ライセンス: CC BY 4.0
Frederik Hagelskjaer(参考訳) 本稿では,大規模点雲の分類のための新しいネットワークアーキテクチャを提案する。 ネットワークはキュニフォームタブレットからメタデータを分類するために使用される。 50万台以上のタブレットが未処理のままなので、タブレットの概要を作るのに役立ちます。 ネットワークは比較データセット上でテストされ、最先端のパフォーマンスを得る。 また,ネットワークが有望な結果を示すメタデータ分類タスクも新たに導入する。 最後に,訓練されたネットワークが意図した機能に焦点を当てていることを示す,新たな最大注意可視化を紹介する。

This paper introduces a novel network architecture for the classification of large-scale point clouds. The network is used to classify metadata from cuneiform tablets. As more than half a million tablets remain unprocessed, this can help create an overview of the tablets. The network is tested on a comparison dataset and obtains state-of-the-art performance. We also introduce new metadata classification tasks on which the network shows promising results. Finally, we introduce the novel Maximum Attention visualization, demonstrating that the trained network focuses on the intended features.
翻訳日:2022-02-23 20:52:31 公開日:2022-02-22
# (参考訳) cmcl 2022におけるnu hltの共有課題 : 普遍言語空間における人間の読解行動の多言語的および言語横断的予測 [全文訳有]

NU HLT at CMCL 2022 Shared Task: Multilingual and Crosslingual Prediction of Human Reading Behavior in Universal Language Space ( http://arxiv.org/abs/2202.10855v1 )

ライセンス: CC BY 4.0
Joseph Marvin Imperial(参考訳) 本稿では,複数言語における単語の読解時間の多言語的・多言語的予測に有効である統一モデルを提案する。 このモデルの成功の背後にある秘密は、すべての単語が国際音声アルファベット(IPA)を介して普遍言語表現に変換される前処理段階にある。 私たちの知る限りでは、この2つのタスクで言語の音韻的性質をうまく活用した最初の研究です。 基本周波数, n-gram, 情報理論, モデル学習のための心理言語学的動機付け予測器など, 様々な特徴タイプが抽出された。 微調整されたランダムフォレストモデルでは、それぞれ平均1次固定時間(FFDAve)と平均総読解時間(TRTAve)の3.8031と3.9065のMAEスコアで、両方のタスクで最高のパフォーマンスを得た。

In this paper, we present a unified model that works for both multilingual and crosslingual prediction of reading times of words in various languages. The secret behind the success of this model is in the preprocessing step where all words are transformed to their universal language representation via the International Phonetic Alphabet (IPA). To the best of our knowledge, this is the first study to favorable exploit this phonological property of language for the two tasks. Various feature types were extracted covering basic frequencies, n-grams, information theoretic, and psycholinguistically -motivated predictors for model training. A finetuned Random Forest model obtained best performance for both tasks with 3.8031 and 3.9065 MAE scores for mean first fixation duration (FFDAve) and mean total reading time (TRTAve) respectively.
翻訳日:2022-02-23 20:44:50 公開日:2022-02-22
# (参考訳) アクティブマルチオブジェクトトラッキングのための協調型マルチカメラコラボレーション [全文訳有]

Coordinate-Aligned Multi-Camera Collaboration for Active Multi-Object Tracking ( http://arxiv.org/abs/2202.10881v1 )

ライセンス: CC BY 4.0
Zeyu Fang, Jian Zhao, Mingyu Yang, Wengang Zhou, Zhenbo Lu, Houqiang Li(参考訳) アクティブ・マルチオブジェクトトラッキング(英: Active Multi-Object Tracking, AMOT)とは、カメラを集中型システムによって制御し、自動的かつ協調的にポーズを調整するタスクである。 AMOTでは、各カメラはその観測から部分的な情報のみを受け取り、カメラが局所的に最適な行動を取ることを誤解させる可能性がある。 さらに、グローバルな目標、すなわちオブジェクトの最大カバレッジは、直接最適化されることは困難です。 上記の課題に対処するため,AMOTのための協調型マルチカメラコラボレーションシステムを提案する。 提案手法では,各カメラをエージェントとみなし,マルチエージェント強化学習ソリューションを用いてAMOTに対処する。 各エージェントの観察を表現するために,まずカメラビュー内のターゲットを画像検出器で識別し,次に3d環境でターゲットの座標を調整する。 我々は,グローバルカバレッジと4つの個人報酬条件に基づいて,各エージェントの報酬を定義する。 エージェントのアクションポリシーは、値ベースのqネットワークで導出される。 私たちの知る限りでは、AMOTタスクを最初に研究しています。 システムの有効性を訓練し,評価するために,現実のAMOTシナリオを模倣した仮想的で信頼性の高い3D環境「Soccer Court」を構築した。 実験の結果,本システムは71.88%のカバレッジを達成し,ベースライン法を8.9%上回った。

Active Multi-Object Tracking (AMOT) is a task where cameras are controlled by a centralized system to adjust their poses automatically and collaboratively so as to maximize the coverage of targets in their shared visual field. In AMOT, each camera only receives partial information from its observation, which may mislead cameras to take locally optimal action. Besides, the global goal, i.e., maximum coverage of objects, is hard to be directly optimized. To address the above issues, we propose a coordinate-aligned multi-camera collaboration system for AMOT. In our approach, we regard each camera as an agent and address AMOT with a multi-agent reinforcement learning solution. To represent the observation of each agent, we first identify the targets in the camera view with an image detector, and then align the coordinates of the targets in 3D environment. We define the reward of each agent based on both global coverage as well as four individual reward terms. The action policy of the agents is derived with a value-based Q-network. To the best of our knowledge, we are the first to study the AMOT task. To train and evaluate the efficacy of our system, we build a virtual yet credible 3D environment, named "Soccer Court", to mimic the real-world AMOT scenario. The experimental results show that our system achieves a coverage of 71.88%, outperforming the baseline method by 8.9%.
翻訳日:2022-02-23 20:35:27 公開日:2022-02-22
# (参考訳) 階層的知覚 [全文訳有]

Hierarchical Perceiver ( http://arxiv.org/abs/2202.10890v1 )

ライセンス: CC BY 4.0
Joao Carreira, Skanda Koppula, Daniel Zoran, Adria Recasens, Catalin Ionescu, Olivier Henaff, Evan Shelhamer, Relja Arandjelovic, Matt Botvinick, Oriol Vinyals, Karen Simonyan, Andrew Zisserman, Andrew Jaegle(参考訳) Perceiversのような一般的な知覚システムは任意の組み合わせで任意のモダリティを処理でき、最大数十万の入力を処理できる。 それらは、グローバルアテンション操作のみを使用することで、この一般化を達成する。 しかしこれは、生の高解像度画像やビデオを処理するのに必要な入力サイズまでスケールアップすることを妨げる。 本稿では,これらのモデルにある程度の局所性を導入し,それらの一般性を保ちながら効率を大幅に向上することを示す。 さらに規模を拡大するために、非常に大きな信号に対して高密度な低次元位置埋め込みを学習できる自己教師型アプローチを導入する。 得られたモデルを階層的知覚(HiP)と呼ぶ。 hipは任意のモダリティを処理する能力を維持しているが、現在は解像度が高く、特別な前処理も必要とせず、imagenet、audioset、pascal vocデータセットの効率と正確性の両方においてフラットパーセサイバを改善している。

General perception systems such as Perceivers can process arbitrary modalities in any combination and are able to handle up to a few hundred thousand inputs. They achieve this generality by exclusively using global attention operations. This however hinders them from scaling up to the inputs sizes required to process raw high-resolution images or video. In this paper, we show that some degree of locality can be introduced back into these models, greatly improving their efficiency while preserving their generality. To scale them further, we introduce a self-supervised approach that enables learning dense low-dimensional positional embeddings for very large signals. We call the resulting model a Hierarchical Perceiver (HiP). HiP retains the ability to process arbitrary modalities, but now at higher-resolution and without any specialized preprocessing, improving over flat Perceivers in both efficiency and accuracy on the ImageNet, Audioset and PASCAL VOC datasets.
翻訳日:2022-02-23 20:20:17 公開日:2022-02-22
# (参考訳) sql null値を持つ関係代数と計算

Relational Algebra and Calculus with SQL Null Values ( http://arxiv.org/abs/2202.10898v1 )

ライセンス: CC BY 4.0
Enrico Franconi and Sergio Tessaris(参考訳) データベースにおけるnullのロジックは、sql標準の基礎であるcoddのリレーショナルモデルに導入されて以来、調査の対象となっている。 まず、SQLフラグメントを正確に捉えた標準リレーショナル代数のnull値を持つ単純な拡張に焦点をあて、次に、ヌル値が言語の用語であるが、論理のセマンティック解釈ドメインの要素として現れない2つの異なるドメインリレーショナル計算を提案する。 ある計算では、関係は部分的なタプルの集合と見なすことができ、他方の(等価な)計算では、関係は正則な総タプルを持つ関係の集合として水平に分解される。 我々は、関係代数の同値性を、SQL null値が存在する両方の領域関係計算で証明することで、コッドの定理を拡張する。

The logic of nulls in databases has been subject of investigation since their introduction in Codd's Relational Model, which is the foundation of the SQL standard. We show a logical characterisation of a first-order fragment of SQL with null values, by first focussing on a simple extension with null values of standard relational algebra, which captures exactly the SQL fragment, and then proposing two different domain relational calculi, in which the null value is a term of the language but it does not appear as an element of the semantic interpretation domain of the logics. In one calculus, a relation can be seen as a set of partial tuples, while in the other (equivalent) calculus, a relation is horizontally decomposed as a set of relations each one holding regular total tuples. We extend Codd's theorem by proving the equivalence of the relational algebra with both domain relational calculi in presence of SQL null values.
翻訳日:2022-02-23 20:01:11 公開日:2022-02-22
# (参考訳) 分散スパースマルチカテゴリ判別分析 [全文訳有]

Distributed Sparse Multicategory Discriminant Analysis ( http://arxiv.org/abs/2202.10913v1 )

ライセンス: CC BY 4.0
Hengchao Chen, Qiang Sun(参考訳) 本稿では,マルチカテゴリ線形判別解析のための凸定式化を提案し,複数のサイトにわたってデータが格納された場合の分散設定に拡張する。 鍵となる観察は、分類の目的のために、直交変換に不変な判別部分空間を復元するのに十分であるということである。 理論的には、分散スパース多重カテゴリー線形判別分析が、数ラウンドの通信の後、集中バージョンと同程度に機能することを保証する統計特性を確立する。 数値研究は我々の方法論と理論を強く支持している。

This paper proposes a convex formulation for sparse multicategory linear discriminant analysis and then extend it to the distributed setting when data are stored across multiple sites. The key observation is that for the purpose of classification it suffices to recover the discriminant subspace which is invariant to orthogonal transformations. Theoretically, we establish statistical properties ensuring that the distributed sparse multicategory linear discriminant analysis performs as good as the centralized version after {a few rounds} of communications. Numerical studies lend strong support to our methodology and theory.
翻訳日:2022-02-23 20:00:11 公開日:2022-02-22
# (参考訳) 混合整数線形計画における適応カット選択 [全文訳有]

Adaptive Cut Selection in Mixed-Integer Linear Programming ( http://arxiv.org/abs/2202.10962v1 )

ライセンス: CC BY 4.0
Mark Turner, Thorsten Koch, Felipe Serrano, Michael Winkler(参考訳) カットセレクション(cut selection)は、現代のすべての混合整数線形計画解法で用いられるサブルーチンであり、最適な解法性能を誘導する生成されたカットのサブセットを選択することを目的としている。 これらの解法は数百万のパラメータの組み合わせを持ち、パラメータチューニングの優れた候補である。 カット選択スコアリングルールは通常、重みがパラメータである異なる測定値の重み付けされる。 我々は,無限に多数の家族全体の有効切断を伴う混合整数線形プログラムのパラメトリックファミリーを提案する。 これらの切断のいくつかは、適用された後に直接整数最適解を誘導するが、無限の量を適用してもそうしないものもある。 パラメータ空間の有限グリッド探索は、常に全てのパラメータ値を見逃し、任意の整数の最適帰納的カットを無限の量で選択することを、特定のカット選択規則として示している。 本稿では,既存のグラフ畳み込みニューラルネットワークの設計のバリエーションを提案し,カット選択規則パラメータの学習に適応する。 カットを選択するための強化学習フレームワークを提案し、そのフレームワークをMIPLIB 2017上でトレーニングする。 当社のフレームワークと設計では,適応的なカット選択は多様なインスタンス群のパフォーマンスを大幅に向上させるが,そのようなルールを記述した単一関数を見つけることは困難である。 すべての実験を再現するためのコードはhttps://github.com/o pt-mucca/adaptive-cu tsel-milpで入手できる。

Cut selection is a subroutine used in all modern mixed-integer linear programming solvers with the goal of selecting a subset of generated cuts that induce optimal solver performance. These solvers have millions of parameter combinations, and so are excellent candidates for parameter tuning. Cut selection scoring rules are usually weighted sums of different measurements, where the weights are parameters. We present a parametric family of mixed-integer linear programs together with infinitely many family-wide valid cuts. Some of these cuts can induce integer optimal solutions directly after being applied, while others fail to do so even if an infinite amount are applied. We show for a specific cut selection rule, that any finite grid search of the parameter space will always miss all parameter values, which select integer optimal inducing cuts in an infinite amount of our problems. We propose a variation on the design of existing graph convolutional neural networks, adapting them to learn cut selection rule parameters. We present a reinforcement learning framework for selecting cuts, and train our design using said framework over MIPLIB 2017. Our framework and design show that adaptive cut selection does substantially improve performance over a diverse set of instances, but that finding a single function describing such a rule is difficult. Code for reproducing all experiments is available at https://github.com/O pt-Mucca/Adaptive-Cu tsel-MILP.
翻訳日:2022-02-23 19:07:15 公開日:2022-02-22
# (参考訳) 肺分画による胸部x線分類モデルの性能向上 [全文訳有]

Improving Classification Model Performance on Chest X-Rays through Lung Segmentation ( http://arxiv.org/abs/2202.10971v1 )

ライセンス: CC BY 4.0
Hilda Azimi, Jianxing Zhang, Pengcheng Xi, Hala Asad, Ashkan Ebadi, Stephane Tremblay, Alexander Wong(参考訳) 胸部x線撮影は肺疾患の診断に有効なスクリーニングツールである。 コンピュータ支援診断において、各X線撮影画像の肺領域を分離する関心領域を抽出することは、肺疾患の診断におけるパフォーマンス向上に不可欠なステップとなる。 方法: 本研究では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。 本手法は,cxr画像中の肺領域を局在化するためのcrss-cross attention module (xlsor) を用いた深層ニューラルネットワークと,大規模cxrデータセットで事前学習された自己教師付き運動量コントラスト (moco) モデルのバックボーンを持つcxr分類モデルという2つのモジュールを組み込んだカスケード方式で設計されている。 提案したパイプラインは、セグメント化モジュールの深セン病院(SH)データセットと、セグメント化モジュールと分類モジュールの両方のCOVIDxデータセットに基づいて評価される。 セグメンテーションモジュールの定期的な評価指標に加えて,新しい統計解析を行う。 さらに,最適化アプローチの結果をgradle-weighted class activation mapping (grad-cam) を用いて分析し,分類決定の背景にある理論的根拠を調査し,その選択を解釈した。 結果と結論: パイプラインの各モジュールの異なるデータセット,メソッド,シナリオを最適化アプローチの設計のために検討し, 異常なCXR画像(肺炎, COVID-19)を通常のものと区別する精度0.946を達成した。 数値的および視覚的検証により、分類のための前処理ステップとして自動セグメンテーションを適用することにより、一般化能力と分類モデルの性能が向上することが示唆された。

Chest radiography is an effective screening tool for diagnosing pulmonary diseases. In computer-aided diagnosis, extracting the relevant region of interest, i.e., isolating the lung region of each radiography image, can be an essential step towards improved performance in diagnosing pulmonary disorders. Methods: In this work, we propose a deep learning approach to enhance abnormal chest x-ray (CXR) identification performance through segmentations. Our approach is designed in a cascaded manner and incorporates two modules: a deep neural network with criss-cross attention modules (XLSor) for localizing lung region in CXR images and a CXR classification model with a backbone of a self-supervised momentum contrast (MoCo) model pre-trained on large-scale CXR data sets. The proposed pipeline is evaluated on Shenzhen Hospital (SH) data set for the segmentation module, and COVIDx data set for both segmentation and classification modules. Novel statistical analysis is conducted in addition to regular evaluation metrics for the segmentation module. Furthermore, the results of the optimized approach are analyzed with gradient-weighted class activation mapping (Grad-CAM) to investigate the rationale behind the classification decisions and to interpret its choices. Results and Conclusion: Different data sets, methods, and scenarios for each module of the proposed pipeline are examined for designing an optimized approach, which has achieved an accuracy of 0.946 in distinguishing abnormal CXR images (i.e., Pneumonia and COVID-19) from normal ones. Numerical and visual validations suggest that applying automated segmentation as a pre-processing step for classification improves the generalization capability and the performance of the classification models.
翻訳日:2022-02-23 18:36:10 公開日:2022-02-22
# (参考訳) 2次元X線散乱データを用いた深層学習によるペロブスカイト結晶化の追跡 [全文訳有]

Tracking perovskite crystallization via deep learning-based feature detection on 2D X-ray scattering data ( http://arxiv.org/abs/2202.10983v1 )

ライセンス: CC BY 4.0
Vladimir Starostin, Valentin Munteanu, Alessandro Greco, Ekaterina Kneschaurek, Alina Pleli, Florian Bertram, Alexander Gerlach, Alexander Hinderhofer, Frank Schreiber(参考訳) ペロブスカイト結晶化の過程を理解することは、有機太陽電池の特性を改善するのに不可欠である。 In situ real-time grazing-incidence X-ray diffraction (GIXD)は、このタスクの鍵となる技法であるが、従来のデータ処理手法よりも頻繁に大量のデータを生成する。 本稿では,オブジェクト検出のための高速なr-cnnディープラーニングアーキテクチャに基づくgixd画像解析のための自動パイプラインを提案する。 このモデルは, 各種実験器具を用いた雑音パターンの回折特性の高精度検出を行う。 有機-無機ペロブスカイト結晶のリアルタイム追跡法を実証し, 2つの応用について検証した。 1 ラドルスデン-ポッパー2Dペロブスカイトの2つの共存相の自動位相同定と単位セル決定 2. MAPbI$_3$ ペロブスカイト生成の高速追跡。 設計上,我々のアプローチは他の結晶性薄膜材料にも等しく適している。

Understanding the processes of perovskite crystallization is essential for improving the properties of organic solar cells. In situ real-time grazing-incidence X-ray diffraction (GIXD) is a key technique for this task, but it produces large amounts of data, frequently exceeding the capabilities of traditional data processing methods. We propose an automated pipeline for the analysis of GIXD images, based on the Faster R-CNN deep learning architecture for object detection, modified to conform to the specifics of the scattering data. The model exhibits high accuracy in detecting diffraction features on noisy patterns with various experimental artifacts. We demonstrate our method on real-time tracking of organic-inorganic perovskite structure crystallization and test it on two applications: 1. the automated phase identification and unit-cell determination of two coexisting phases of Ruddlesden-Popper 2D perovskites, and 2. the fast tracking of MAPbI$_3$ perovskite formation. By design, our approach is equally suitable for other crystalline thin-film materials.
翻訳日:2022-02-23 18:20:12 公開日:2022-02-22
# (参考訳) グラフニューラルネットワークを用いた複雑システムの学習ダイナミクスと構造 [全文訳有]

Learning Dynamics and Structure of Complex Systems Using Graph Neural Networks ( http://arxiv.org/abs/2202.10996v1 )

ライセンス: CC BY 4.0
Zhe Li, Andreas S. Tolias, Xaq Pitkow(参考訳) 多くの複雑な系は相互作用する部分で構成され、基礎となる法則は通常単純で普遍的である。 グラフニューラルネットワークはそのようなシステムのモデリングに有用なリレーショナル帰納バイアスを提供するが、同じタイプの新しいシステムインスタンスへの一般化はあまり研究されていない。 本研究では,非線形力学系の例である信念伝達アルゴリズムから時系列に適合するようにグラフニューラルネットワークを訓練した。 その結果,学習表現とモデル成分の単純な解釈が得られ,確率的推論アルゴリズムのコア特性と一致した。 我々は,信念伝達における統計的相互作用とそれに対応する訓練ネットワークのパラメータとの「グラフトランスレータ」の同定に成功し,時系列観測のみに基づく新しいシステムインスタンスの基盤構造を復元する,あるいは,この構造から直接新しいネットワークを構築する,という2つの新しい一般化を可能にした。 その結果、複雑なシステムのダイナミクスと構造の両方を理解するための道筋が示され、そのような理解が一般化にどのように役立つかが示された。

Many complex systems are composed of interacting parts, and the underlying laws are usually simple and universal. While graph neural networks provide a useful relational inductive bias for modeling such systems, generalization to new system instances of the same type is less studied. In this work we trained graph neural networks to fit time series from an example nonlinear dynamical system, the belief propagation algorithm. We found simple interpretations of the learned representation and model components, and they are consistent with core properties of the probabilistic inference algorithm. We successfully identified a `graph translator' between the statistical interactions in belief propagation and parameters of the corresponding trained network, and showed that it enables two types of novel generalization: to recover the underlying structure of a new system instance based solely on time series observations, or to construct a new network from this structure directly. Our results demonstrated a path towards understanding both dynamics and structure of a complex system and how such understanding can be used for generalization.
翻訳日:2022-02-23 18:05:44 公開日:2022-02-22
# (参考訳) 単一ハイパーネットワークによる複数画像再構成の計算 [全文訳有]

Computing Multiple Image Reconstructions with a Single Hypernetwork ( http://arxiv.org/abs/2202.11009v1 )

ライセンス: CC BY 4.0
Alan Q. Wang, Adrian V. Dalca, Mert R. Sabuncu(参考訳) 深層学習に基づく技術は、圧縮センシングのような幅広い画像再構成タスクにおいて最先端の結果を達成する。 これらの方法はほとんど常にハイパーパラメータを持ち、例えば最適化された損失関数の異なる項のバランスをとる重み係数がある。 典型的なアプローチは、経験的あるいは理論的正当化によって決定されたハイパーパラメータ設定のためのモデルを訓練することである。 したがって、推定時には、事前決定されたハイパーパラメータ値に対応するリコンストラクションのみを計算できる。 本研究では,ハイパーパラメータ設定に依存しない再構成モデルをトレーニングするためのハイパーネットワークベースアプローチであるHyperReconを提案する。 推論時にHyperReconは、異なるハイパーパラメータ値に対応するさまざまな再構成を効率的に生成できる。 このフレームワークでは、ユーザは自身の判断に基づいて最も有用な出力を選択する権限を与えられる。 2つのmriデータセットを用いて, 圧縮センシング, 超解像, 除音作業において, 提案手法を実証した。 私たちのコードはhttps://github.com/a lanqrwang/hyperrecon で利用可能です。

Deep learning based techniques achieve state-of-the-art results in a wide range of image reconstruction tasks like compressed sensing. These methods almost always have hyperparameters, such as the weight coefficients that balance the different terms in the optimized loss function. The typical approach is to train the model for a hyperparameter setting determined with some empirical or theoretical justification. Thus, at inference time, the model can only compute reconstructions corresponding to the pre-determined hyperparameter values. In this work, we present a hypernetwork based approach, called HyperRecon, to train reconstruction models that are agnostic to hyperparameter settings. At inference time, HyperRecon can efficiently produce diverse reconstructions, which would each correspond to different hyperparameter values. In this framework, the user is empowered to select the most useful output(s) based on their own judgement. We demonstrate our method in compressed sensing, super-resolution and denoising tasks, using two large-scale and publicly-available MRI datasets. Our code is available at https://github.com/a lanqrwang/hyperrecon .
翻訳日:2022-02-23 17:47:23 公開日:2022-02-22
# (参考訳) K近傍地区を用いた排水管条件評価モデル [全文訳有]

Wastewater Pipe Condition Rating Model Using K- Nearest Neighbors ( http://arxiv.org/abs/2202.11049v1 )

ライセンス: CC0 1.0
Sai Nethra Betgeri, Shashank Reddy Vadyala, John C. Matthews, Mahboubeh Madadi, Greta Vladeanu(参考訳) 管状態のリスクに基づく評価は, 管故障のリスクを評価することにより, 最重要資産の優先順位付けに重点を置いている。 本論文の目的は,提案手法で同定されたパイプの物理的,外部的,水理的特性に基づく総合的パイプレーティングモデルを分類することである。 下水構造条件を評価する従来の手作業では長い時間がかかる。 本研究は,K-Nearest Neighbors (K-NN) を用いた自動処理により,パイプ補修データを用いた管欠陥評価の自動同定手法を提案する。 まず,ルイジアナ州シュリーブポートのエンジニアリング・アンド・エコノミカル・サービス(Shreveport)の1240データに対して,12変数を用いてシャピロウィルクス試験を実施し,最終評価に因子を組み込むことができるかを検討した。 次に、シャピロウィルクス試験で同定された統計的に重要な因子から最終評価を分類するK-Nearest Neighborsモデルを開発した。 この分類プロセスにより、すぐに交換する必要がある排水管の最悪の状態を認識することができる。 この包括的なモデルは、業界が受け入れるガイドラインに従って構築され、全体的な状況を見積もる。 最後に, 検証のために, ルイジアナ州シュリーブポートの米国の排水回収システムの一部に適用した。 キーワード:パイプレーティング、shapiro wilks test、k-nearest neighbors (knn)、失敗、リスク分析

Risk-based assessment in pipe condition mainly focuses on prioritizing the most critical assets by evaluating the risk of pipe failure. This paper's goal is to classify a comprehensive pipe rating model which is obtained based on a series of pipe physical, external, and hydraulic characteristics that are identified for the proposed methodology. The traditional manual method of assessing sewage structural conditions takes a long time. By building an automated process using K-Nearest Neighbors (K-NN), this study presents an effective technique to automate the identification of the pipe defect rating using the pipe repair data. First, we performed the Shapiro Wilks Test for 1240 data from the Dept. of Engineering & Environmental Services, Shreveport, Louisiana Phase 3 with 12 variables to determine if factors could be incorporated in the final rating. We then developed a K-Nearest Neighbors model to classify the final rating from the statistically significant factors identified in Shapiro Wilks Test. This classification process allows recognizing the worst condition of wastewater pipes that need to be replaced immediately. This comprehensive model is built according to the industry-accepted and used guidelines to estimate the overall condition. Finally, for validation purposes, the proposed model is applied to a small portion of a US wastewater collection system in Shreveport, Louisiana. Keywords: Pipe rating, Shapiro Wilks Test, K-Nearest Neighbors (KNN), Failure, Risk analysis
翻訳日:2022-02-23 17:30:18 公開日:2022-02-22
# (参考訳) 腹腔鏡下手術における視覚-慣性局在の応用とベンチマーク [全文訳有]

Constrained Visual-Inertial Localization With Application And Benchmark in Laparoscopic Surgery ( http://arxiv.org/abs/2202.11075v1 )

ライセンス: CC BY-SA 4.0
Regine Hartwig, Daniel Ostler, Jean-Claude Rosenthal, Hubertus Feu{\ss}ner, Dirk Wilhelm, Dirk Wollherr(参考訳) 制約のあるカメラ動作に対する視覚-慣性位置決め問題に対処する新しい手法を提案する。 我々は、グローバルコスト関数を共同で最適化するために、異なるモダリティの残差を使用する。 残基は、IMU測定、立体的特徴点、SE(3)の可能な解に対する制約から生じる。 動的乱れが頻発する環境では、残差は問題の複雑さを減らし、局所化を可能にする。 適切な医療症例において本手法の利点を検証し,腹部に最小侵襲で手術を施したデータセットを作成した。 新しい臨床データセットmitiは最先端の評価データセットに匹敵し、キャリブレーションと同期が含まれており、https://mediatum.ub. tum.de/1621941で利用可能である。

We propose a novel method to tackle the visual-inertial localization problem for constrained camera movements. We use residuals from the different modalities to jointly optimize a global cost function. The residuals emerge from IMU measurements, stereoscopic feature points, and constraints on possible solutions in SE(3). In settings where dynamic disturbances are frequent, the residuals reduce the complexity of the problem and make localization feasible. We verify the advantages of our method in a suitable medical use case and produce a dataset capturing a minimally invasive surgery in the abdomen. Our novel clinical dataset MITI is comparable to state-of-the-art evaluation datasets, contains calibration and synchronization and is available at https://mediatum.ub. tum.de/1621941.
翻訳日:2022-02-23 17:22:45 公開日:2022-02-22
# 複数の低線量PET画像の形での事前知識は、標準線量PET予測を改善するか?

Does prior knowledge in the form of multiple low-dose PET images (at different dose levels) improve standard-dose PET prediction? ( http://arxiv.org/abs/2202.10998v1 )

ライセンス: Link先を確認
Behnoush Sanaei, Reza Faghihi, and Hossein Arabi(参考訳) 注入線量を減らすことは、PET画像における品質劣化と情報の損失をもたらす。 この問題に対処するために、対応する低線量バージョン(L-PET)から標準PET画像(S-PET)を予測するディープラーニング手法が導入された。 既存のディープラーニングに基づくDeep Learning-based denoising法は、S-PET画像の予測にPET画像の単線量レベルのみに依存している。 本研究では,複数の低線量レベルのPET画像(ターゲットの低線量レベルに加えて)を用いて,S-PET画像を推定する手法を提案する。

Reducing the injected dose would result in quality degradation and loss of information in PET imaging. To address this issue, deep learning methods have been introduced to predict standard PET images (S-PET) from the corresponding low-dose versions (L-PET). The existing deep learning-based denoising methods solely rely on a single dose level of PET images to predict the S-PET images. In this work, we proposed to exploit the prior knowledge in the form of multiple low-dose levels of PET images (in addition to the target low-dose level) to estimate the S-PET images.
翻訳日:2022-02-23 17:04:29 公開日:2022-02-22
# 聴覚障害の学習における連続音声認識

Continuous Speech for Improved Learning Pathological Voice Disorders ( http://arxiv.org/abs/2202.10777v1 )

ライセンス: Link先を確認
Syu-Siang Wang, Chi-Te Wang, Chih-Chung Lai, Yu Tsao, Shih-Hau Fang(参考訳) 目標: 多くの研究が正常な音声と異常な音声の区別に成功した。 しかし、それ以上の分類が試みられたことはめったになかった。 本研究は, 単一母音の代わりに連続マンダリン音声を用いて, 4つの共通音声障害(機能的ジフォニア, 腫瘍, 声道外傷, 声道麻痺)を分類する手法を提案する。 手法: 提案手法では, 音響信号をメル周波数ケプストラム係数に変換し, 双方向長寿命メモリネットワーク(BiLSTM)を用いて連続的な特徴をモデル化する。 実験は大規模データベース上で実施され,2012年から2019年にかけて,病院の音声クリニックで1,045回の連続音声が収集された。 結果: 実験の結果, 単一の母音を用いたシステムと比較して, 78.12-89.27%, 50.92-80.68%の大幅な精度向上と平均リコール改善が得られた。 結論: 結果は、ゲートリカレントユニット、ランダムフォレスト、ディープニューラルネットワーク、LSTMなど、他の機械学習アルゴリズムと一致している。 各障害に対する感性も分析され,主成分分析によりモデル能力が可視化された。 バランスの取れたデータセットに基づく別の実験は、継続音声を用いて音声障害を学習する利点を再度確認する。

Goal: Numerous studies had successfully differentiated normal and abnormal voice samples. Nevertheless, further classification had rarely been attempted. This study proposes a novel approach, using continuous Mandarin speech instead of a single vowel, to classify four common voice disorders (i.e. functional dysphonia, neoplasm, phonotrauma, and vocal palsy). Methods: In the proposed framework, acoustic signals are transformed into mel-frequency cepstral coefficients, and a bi-directional long-short term memory network (BiLSTM) is adopted to model the sequential features. The experiments were conducted on a large-scale database, wherein 1,045 continuous speech were collected by the speech clinic of a hospital from 2012 to 2019. Results: Experimental results demonstrated that the proposed framework yields significant accuracy and unweighted average recall improvements of 78.12-89.27% and 50.92-80.68%, respectively, compared with systems that use a single vowel. Conclusions: The results are consistent with other machine learning algorithms, including gated recurrent units, random forest, deep neural networks, and LSTM. The sensitivities for each disorder were also analyzed, and the model capabilities were visualized via principal component analysis. An alternative experiment based on a balanced dataset again confirms the advantages of using continuous speech for learning voice disorders.
翻訳日:2022-02-23 17:04:07 公開日:2022-02-22
# 領域外データセットを用いたマルチタスク引用分析

Utilizing Out-Domain Datasets to Enhance Multi-Task Citation Analysis ( http://arxiv.org/abs/2202.10884v1 )

ライセンス: Link先を確認
Dominique Mercier, Syed Tahseen Raza Rizvi, Vikas Rajashekar, Sheraz Ahmed, Andreas Dengel(参考訳) 引用は通常、感情や意図のような質的な側面を除外しながら、定量的な手段のみを用いて分析される。 しかし、定性的な側面は科学的研究成果物の影響について深い洞察を与え、定量的な側面に関連するバイアスから関連する文献に焦点を当てることができる。 したがって、その感情や意図に基づいて、論文をランク付けして分類することが可能である。 この目的のためには、より大きな引用感情データセットが必要である。 しかし、時間とコストの観点から見ると、大きな引用感情データセットのキュレーションは難しい課題である。 特に、引用感情分析は、データ不足とデータセットアノテーションの膨大なコストの両方に苦しむ。 引用分析領域におけるデータ不足のボトルネックを克服するため、トレーニング中のドメイン外データの影響を調査し、モデルの性能を向上させる。 本研究は,異なるスケジューリング手法の使用をユースケースに基づいて強調する。 逐次データスケジューリングを用いて訓練されたモデルの方がドメイン固有のユースケースに適していることを実証的に見出した。 逆に、シャッフルされたデータフィードは、クロスドメインタスクでより良いパフォーマンスを達成する。 本研究では,データ不足を克服するためにドメイン外データセットを利用する感情分析と意図分析をカバーする,エンドツーエンドのトレーニング可能なマルチタスクモデルを提案する。

Citations are generally analyzed using only quantitative measures while excluding qualitative aspects such as sentiment and intent. However, qualitative aspects provide deeper insights into the impact of a scientific research artifact and make it possible to focus on relevant literature free from bias associated with quantitative aspects. Therefore, it is possible to rank and categorize papers based on their sentiment and intent. For this purpose, larger citation sentiment datasets are required. However, from a time and cost perspective, curating a large citation sentiment dataset is a challenging task. Particularly, citation sentiment analysis suffers from both data scarcity and tremendous costs for dataset annotation. To overcome the bottleneck of data scarcity in the citation analysis domain we explore the impact of out-domain data during training to enhance the model performance. Our results emphasize the use of different scheduling methods based on the use case. We empirically found that a model trained using sequential data scheduling is more suitable for domain-specific usecases. Conversely, shuffled data feeding achieves better performance on a cross-domain task. Based on our findings, we propose an end-to-end trainable multi-task model that covers the sentiment and intent analysis that utilizes out-domain datasets to overcome the data scarcity.
翻訳日:2022-02-23 17:03:41 公開日:2022-02-22
# Dichotomous Affiliate Stable Matching Problem: Applicant-Employer Relationsを用いた承認型マッチング

The Dichotomous Affiliate Stable Matching Problem: Approval-Based Matching with Applicant-Employer Relations ( http://arxiv.org/abs/2202.11095v1 )

ライセンス: Link先を確認
Marina Knittel, Samuel Dooley, John P. Dickerson(参考訳) 安定した結婚問題とその変種は、幅広いマッチング市場をモデル化するが、面接市場における応募者や雇用者の提携のような複雑なエージェント関係を捉えない。 この問題をモデル化するために、既存の外部とのマッチングに関する文献では、エージェントは、個人とアフィリエイトの両方のマッチに基づいて、マッチングに対して完全なランキングと総ランキングを提供することができる。 この完全な順序制限は非現実的であり、さらにモデルは空のコアを持つかもしれない。 そこで我々は, エージェントの嗜好が, エージェント自身とアフィリエイトの両方に対して, マーケットにおける他のエージェントの受け入れや拒絶を示す, ディコトナスアフィリエイト安定マッチング(dasm)問題を紹介する。 また、マッチング全体に対するエージェントの好みは、それらの(およびアフィリエイトの)マッチの一般的な重み付け評価関数によって決定されると仮定する。 その結果,(1)実世界のマッチングランキングが仮定された評価関数に従うことを示すための人間研究,(2)そのような解を見つける効率的で容易に実装可能なアルゴリズムを提供することにより,常に安定な解が存在することを証明すること,(3)線形プログラミングに基づくアプローチに対するアルゴリズムの効率を実験的に検証すること,の3つが得られた。

While the stable marriage problem and its variants model a vast range of matching markets, they fail to capture complex agent relationships, such as the affiliation of applicants and employers in an interview marketplace. To model this problem, the existing literature on matching with externalities permits agents to provide complete and total rankings over matchings based off of both their own and their affiliates' matches. This complete ordering restriction is unrealistic, and further the model may have an empty core. To address this, we introduce the Dichotomous Affiliate Stable Matching (DASM) Problem, where agents' preferences indicate dichotomous acceptance or rejection of another agent in the marketplace, both for themselves and their affiliates. We also assume the agent's preferences over entire matchings are determined by a general weighted valuation function of their (and their affiliates') matches. Our results are threefold: (1) we use a human study to show that real-world matching rankings follow our assumed valuation function; (2) we prove that there always exists a stable solution by providing an efficient, easily-implementable algorithm that finds such a solution; and (3) we experimentally validate the efficiency of our algorithm versus a linear-programming-b ased approach.
翻訳日:2022-02-23 17:03:11 公開日:2022-02-22
# 幾何学モデルにおけるランダムグラフマッチング:完全グラフの場合

Random Graph Matching in Geometric Models: the Case of Complete Graphs ( http://arxiv.org/abs/2202.10662v1 )

ライセンス: Link先を確認
Haoyu Wang, Yihong Wu, Jiaming Xu, Israel Yoloh(参考訳) 本稿では, エッジ重み付きグラフとエッジ重み付きグラフのマッチング問題について検討し, エッジ重み付きランダムグラフマッチングに関する最近の研究を幾何学モデルに拡張する。 具体的には、ランダムな置換 $\pi^*$ on $[n]$ と $n$ iid の相関ガウスベクトルの対 $\{X_{\pi^*(i)}, Y_i\}$ in $\mathbb{R}^d$ with noise parameters $\sigma$ が与えられたとき、エッジウェイトは、あるリンク関数 $\kappa$ に対して $A_{ij}=\kappa(X_i,X_j)$ と $B_{ij}=\kappa(Y_i,Y_j)$ によって与えられる。 目標は、$a$ と $b$ の観測に基づいて、隠れた頂点対応 $\pi^*$ を回復することである。 我々は,$\kappa(x,y)=\langle x,y \rangle$ のドット生成モデルと$\kappa(x,y)=\|x-y\|^2$のユークリッド距離モデルに注目した。 高確率で$\pi^*$の完全回復、$\sigma=o(n^{-2/d})$の完全回復、$\sigma=o(n^{-1/d})$のほぼ完全回復を確実に達成する近似的極大推定器を導出する。 さらに,2成分マッチング問題の幾何モデルにおける [dck19] と [knw22] の最近の結果を補完して,潜在座標 $\{x_i\}$ と $\{y_i\}$ が観測された場合でも,これらの条件は情報理論的に最適であることが示されている。 副次的な発見として、[Ume88] の有望なスペクトルアルゴリズムが幾何モデルにおける最大可能性のさらなる近似として現れることを示す。

This paper studies the problem of matching two complete graphs with edge weights correlated through latent geometries, extending a recent line of research on random graph matching with independent edge weights to geometric models. Specifically, given a random permutation $\pi^*$ on $[n]$ and $n$ iid pairs of correlated Gaussian vectors $\{X_{\pi^*(i)}, Y_i\}$ in $\mathbb{R}^d$ with noise parameter $\sigma$, the edge weights are given by $A_{ij}=\kappa(X_i,X_j)$ and $B_{ij}=\kappa(Y_i,Y_j)$ for some link function $\kappa$. The goal is to recover the hidden vertex correspondence $\pi^*$ based on the observation of $A$ and $B$. We focus on the dot-product model with $\kappa(x,y)=\langle x, y \rangle$ and Euclidean distance model with $\kappa(x,y)=\|x-y\|^2$, in the low-dimensional regime of $d=o(\log n)$ wherein the underlying geometric structures are most evident. We derive an approximate maximum likelihood estimator, which provably achieves, with high probability, perfect recovery of $\pi^*$ when $\sigma=o(n^{-2/d})$ and almost perfect recovery with a vanishing fraction of errors when $\sigma=o(n^{-1/d})$. Furthermore, these conditions are shown to be information-theoreti cally optimal even when the latent coordinates $\{X_i\}$ and $\{Y_i\}$ are observed, complementing the recent results of [DCK19] and [KNW22] in geometric models of the planted bipartite matching problem. As a side discovery, we show that the celebrated spectral algorithm of [Ume88] emerges as a further approximation to the maximum likelihood in the geometric model.
翻訳日:2022-02-23 17:02:48 公開日:2022-02-22
# 部分インフォームドオークションにおける非回帰学習

No-Regret Learning in Partially-Informed Auctions ( http://arxiv.org/abs/2202.10606v1 )

ライセンス: Link先を確認
Wenshuo Guo, Michael I. Jordan, Ellen Vitercik(参考訳) 商品に関する情報を部分的に明らかにしたオークションは、現実世界のアプリケーションに広く採用されているが、基礎となるメカニズムは理論的な支援に限られている。 本研究では,これらのメカニズムの機械学習による定式化について検討し,買い手の視点からは問題のないアルゴリズムを提示する。 特に,自分のユーティリティを最大化したいバイヤーは,一連の$t$ラウンドを通じてプラットフォームと繰り返し対話します。 各ラウンドでは、未知の分布から新しいアイテムが引き出され、プラットフォームは、そのアイテムに関する不完全な「偽」情報とともに価格を発行する。 購入者は商品を購入するかどうかを決定する。 私たちはこの問題をオンライン学習タスクとして定式化し、アイテムの配布と販売者のマスキング機能に関する完全な知識を持つ明快なオラクルに対して、後悔を少なくすることを目標としている。 アイテムの分布が買い手に知られ、マスクが SimHash 関数 $\mathbb{R}^d$ to $\{0,1\}^{\ell}$ であるとき、我々のアルゴリズムは $\tilde {\mathcal{O}}((Td\ell)^{\frac{1}{2}})$ を後悔している。 マスクが$n$の集合への任意の関数写像であるとき、我々のアルゴリズムは、$\tilde {\mathcal{O}}(T^{\frac{3}{4}}n^{\frac{1}{2}})$を後悔している。 最後に、価格が確率的であれば、アルゴリズムは$\tilde {\mathcal{O}}((Tn)^{\frac{1}{2}})$を後悔する。

Auctions with partially-revealed information about items are broadly employed in real-world applications, but the underlying mechanisms have limited theoretical support. In this work, we study a machine learning formulation of these types of mechanisms, presenting algorithms that are no-regret from the buyer's perspective. Specifically, a buyer who wishes to maximize his utility interacts repeatedly with a platform over a series of $T$ rounds. In each round, a new item is drawn from an unknown distribution and the platform publishes a price together with incomplete, "masked" information about the item. The buyer then decides whether to purchase the item. We formalize this problem as an online learning task where the goal is to have low regret with respect to a myopic oracle that has perfect knowledge of the distribution over items and the seller's masking function. When the distribution over items is known to the buyer and the mask is a SimHash function mapping $\mathbb{R}^d$ to $\{0,1\}^{\ell}$, our algorithm has regret $\tilde {\mathcal{O}}((Td\ell)^{\frac{1}{2}})$. In a fully agnostic setting when the mask is an arbitrary function mapping to a set of size $n$, our algorithm has regret $\tilde {\mathcal{O}}(T^{\frac{3}{4}}n^{\frac{1}{2}})$. Finally, when the prices are stochastic, the algorithm has regret $\tilde {\mathcal{O}}((Tn)^{\frac{1}{2}})$.
翻訳日:2022-02-23 17:00:41 公開日:2022-02-22
# 分散データに対する差分秘密化と差分セキュアベクトル要約への応用

Differential Secrecy for Distributed Data and Applications to Robust Differentially Secure Vector Summation ( http://arxiv.org/abs/2202.10618v1 )

ライセンス: Link先を確認
Kunal Talwar(参考訳) 実数値ベクトルの雑音和を計算することは、微分プライベートラーニングと統計学において重要な原始的である。 プライベートな連合学習アプリケーションでは、これらのベクトルはクライアントデバイスによって保持され、分散要約問題を引き起こす。 この問題に対する標準セキュアなマルチパーティ計算 (smc) プロトコルは、クライアントが検出されずに合計に大きな影響を与える可能性がある中毒攻撃の影響を受けやすい。 本研究では,最近PRIOで研究されているマルチサーバ環境における有害な個人和プロトコルを提案する。 各寄与のユークリッドノルムがほぼ有界であることを検証するベクトル和のプロトコルを提案する。 我々は,SMCのセキュリティ制約を保証のような差分プライバシーに緩和することにより,通信要求だけでなくクライアント側の計算もPRIOよりも改善できることを示す。 必然的に整数を大きな有限体の要素にキャストするSMCアルゴリズムとは異なり、我々のアルゴリズムは整数/実数上で動作し、さらなる効率性を実現する。

Computing the noisy sum of real-valued vectors is an important primitive in differentially private learning and statistics. In private federated learning applications, these vectors are held by client devices, leading to a distributed summation problem. Standard Secure Multiparty Computation (SMC) protocols for this problem are susceptible to poisoning attacks, where a client may have a large influence on the sum, without being detected. In this work, we propose a poisoning-robust private summation protocol in the multiple-server setting, recently studied in PRIO. We present a protocol for vector summation that verifies that the Euclidean norm of each contribution is approximately bounded. We show that by relaxing the security constraint in SMC to a differential privacy like guarantee, one can improve over PRIO in terms of communication requirements as well as the client-side computation. Unlike SMC algorithms that inevitably cast integers to elements of a large finite field, our algorithms work over integers/reals, which may allow for additional efficiencies.
翻訳日:2022-02-23 17:00:13 公開日:2022-02-22
# 後方攻撃に対する対人訓練の有効性について

On the Effectiveness of Adversarial Training against Backdoor Attacks ( http://arxiv.org/abs/2202.10627v1 )

ライセンス: Link先を確認
Yinghua Gao, Dongxian Wu, Jingfeng Zhang, Guanhao Gan, Shu-Tao Xia, Gang Niu, Masashi Sugiyama(参考訳) DNNの大量のデータに対する要求は、バックドア攻撃の潜在的なリスクをもたらす、許容できないコストのために、インターネットからデータ収集を慎重に行うことを要求する。 バックドアモデルは常に、予め定義されたトリガーパターンの存在下でターゲットクラスを予測する。 一般的には、敵の訓練は、モデルが入力画像(実現可能な範囲内)を摂動しても、その予測を不変に保つのに役立つため、バックドア攻撃に対して防御すると考えられている。 残念ながら、これまでの研究はほとんど成功しなかった。 敵の訓練がバックドア攻撃に対して防御できるかどうかを調べるため、異なる脅威モデルと摂動予算にわたる広範な実験を行い、敵の訓練問題における脅威モデルを見つける。 例えば、空間的敵の例による敵の訓練は、一般的に使用されるパッチベースのバックドア攻撃に対して顕著な堅牢性をもたらす。 さらに,異なるバックドア攻撃に対して良好なロバスト性を提供するハイブリッド戦略を提案する。

DNNs' demand for massive data forces practitioners to collect data from the Internet without careful check due to the unacceptable cost, which brings potential risks of backdoor attacks. A backdoored model always predicts a target class in the presence of a predefined trigger pattern, which can be easily realized via poisoning a small amount of data. In general, adversarial training is believed to defend against backdoor attacks since it helps models to keep their prediction unchanged even if we perturb the input image (as long as within a feasible range). Unfortunately, few previous studies succeed in doing so. To explore whether adversarial training could defend against backdoor attacks or not, we conduct extensive experiments across different threat models and perturbation budgets, and find the threat model in adversarial training matters. For instance, adversarial training with spatial adversarial examples provides notable robustness against commonly-used patch-based backdoor attacks. We further propose a hybrid strategy which provides satisfactory robustness across different backdoor attacks.
翻訳日:2022-02-23 16:59:54 公開日:2022-02-22
# 雑音共変量を用いた部分同定:ロバスト最適化手法

Partial Identification with Noisy Covariates: A Robust Optimization Approach ( http://arxiv.org/abs/2202.10665v1 )

ライセンス: Link先を確認
Wenshuo Guo, Mingzhang Yin, Yixin Wang, Michael I. Jordan(参考訳) 観測データセットからの因果推論は、しばしば共変量の測定と調整に依存する。 実際には、共変量の測定はしばしばノイズや偏りがあり、あるいはそれらのプロキシの測定のみが利用可能である。 共変量の不完全な測定を直接調整することは、偏りのある因果推定につながる。 さらに、追加の仮定なしでは、これらの測定のノイズのために因果効果は特定できない。 そこで本研究では,ノイズレベルに対するユーザの特定仮定の下で,雑音共変量に対する因果効果の部分的同定について検討する。 鍵となる観察は、平均処理効果(ATE)を堅牢な最適化問題として定式化できることである。 この定式化は、ATEをノイズ共変量で束縛する効率的なロバスト最適化アルゴリズムをもたらす。 この頑健な最適化手法は、バックドア調整、逆確率スコア重み付け、ダブル機械学習、フロントドア調整などの部分的識別を行うために、幅広い因果調整手法を拡張することができることを示す。 合成および実データセット全体で、このアプローチは既存の手法よりも高いカバレッジ確率でATE境界を提供する。

Causal inference from observational datasets often relies on measuring and adjusting for covariates. In practice, measurements of the covariates can often be noisy and/or biased, or only measurements of their proxies may be available. Directly adjusting for these imperfect measurements of the covariates can lead to biased causal estimates. Moreover, without additional assumptions, the causal effects are not point-identifiable due to the noise in these measurements. To this end, we study the partial identification of causal effects given noisy covariates, under a user-specified assumption on the noise level. The key observation is that we can formulate the identification of the average treatment effects (ATE) as a robust optimization problem. This formulation leads to an efficient robust optimization algorithm that bounds the ATE with noisy covariates. We show that this robust optimization approach can extend a wide range of causal adjustment methods to perform partial identification, including backdoor adjustment, inverse propensity score weighting, double machine learning, and front door adjustment. Across synthetic and real datasets, we find that this approach provides ATE bounds with a higher coverage probability than existing methods.
翻訳日:2022-02-23 16:59:38 公開日:2022-02-22
# Submodlib: サブモジュール最適化ライブラリ

Submodlib: A Submodular Optimization Library ( http://arxiv.org/abs/2202.10680v1 )

ライセンス: Link先を確認
Vishal Kaushal, Ganesh Ramakrishnan, Rishabh Iyer(参考訳) 部分モジュラ関数は、代表性、多様性、範囲などの概念を自然にモデル化する特別な集合関数のクラスであり、計算学的に非常に効率的であることが示されている。 過去の多くの研究は、様々な文脈で最適な部分集合を見つけるために部分モジュラー最適化を適用してきた。 例えば、効率的な人的消費のためのデータ要約、モデル開発時間(トレーニング、ハイパーパラメータチューニング)を減らすためのトレーニングデータの効果的な小さなサブセットの発見、ラベルなしデータの効果的なサブセットの発見、ラベル付けコストの削減などです。 最近の研究は部分モジュラー関数を利用して、ガイド付き部分集合選択とガイド付き要約の問題を解くのに非常に有用であることが判明した部分モジュラー情報測度を提案する。 本稿では,c++最適化エンジンを用いたサブモジュール最適化のための,オープンソースで使いやすい,効率的,スケーラブルなpythonライブラリであるsubmodlibを提案する。 submodlibは、要約、データサブセット選択、ハイパーパラメータチューニング、効率的なトレーニングなどの分野で応用されている。 リッチなAPIを通じて、使用方法に大きな柔軟性を提供します。

Submodular functions are a special class of set functions which naturally model the notion of representativeness, diversity, coverage etc. and have been shown to be computationally very efficient. A lot of past work has applied submodular optimization to find optimal subsets in various contexts. Some examples include data summarization for efficient human consumption, finding effective smaller subsets of training data to reduce the model development time (training, hyper parameter tuning), finding effective subsets of unlabeled data to reduce the labeling costs, etc. A recent work has also leveraged submodular functions to propose submodular information measures which have been found to be very useful in solving the problems of guided subset selection and guided summarization. In this work, we present Submodlib which is an open-source, easy-to-use, efficient and scalable Python library for submodular optimization with a C++ optimization engine. Submodlib finds its application in summarization, data subset selection, hyper parameter tuning, efficient training and more. Through a rich API, it offers a great deal of flexibility in the way it can be used.
翻訳日:2022-02-23 16:59:18 公開日:2022-02-22
# 多重重要サンプリングELBOと変分近似の深部アンサンブル

Multiple Importance Sampling ELBO and Deep Ensembles of Variational Approximations ( http://arxiv.org/abs/2202.10951v1 )

ライセンス: Link先を確認
Oskar Kviman, Harald Melin, Hazal Koptagel, V\'ictor Elvira, Jens Lagergren(参考訳) 変動推論 (VI) では, 標準エビデンスローバウンド (ELBO) や, 重要重み付きELBO (IWELBO) として改良版を用いて, 限界対数類似度を推定する。 マルチプレッシブサンプリング elbo (miselbo) を提案する。これは \textit{versatile} だが \textit{simple} フレームワークである。 MISELBOは、アモールト化と古典化の両方に応用でき、独立に推定される変分近似の深いアンサンブルなどのアンサンブルを使用する。 私たちが知っている限りでは、償却第6部における深いアンサンブルの概念は確立されていない。 我々は,MISELBOが標準ELBOの平均よりも厳密な境界を提供し,IWELBOの平均よりも厳密な境界を与えることを示す。 MISELBOは、MNISTやいくつかの実データ系統樹推定問題を含む密度推定実験で評価されている。 まず、MNISTデータセット上で、MISELBOは最先端モデルであるnouveau VAEの密度推定性能を高める。 第2に、系統樹推定設定において、我々のフレームワークは正規化フローを用いた最先端VIアルゴリズムを強化する。 MISELBOの技術的利点に加えて、VIと最近の重要文献収集の進歩の関連を明らかにすることができ、さらなる方法論的進歩の道を開くことができる。 コードは \url{https://github.com/L agergren-Lab/MISELBO } で提供します。

In variational inference (VI), the marginal log-likelihood is estimated using the standard evidence lower bound (ELBO), or improved versions as the importance weighted ELBO (IWELBO). We propose the multiple importance sampling ELBO (MISELBO), a \textit{versatile} yet \textit{simple} framework. MISELBO is applicable in both amortized and classical VI, and it uses ensembles, e.g., deep ensembles, of independently inferred variational approximations. As far as we are aware, the concept of deep ensembles in amortized VI has not previously been established. We prove that MISELBO provides a tighter bound than the average of standard ELBOs, and demonstrate empirically that it gives tighter bounds than the average of IWELBOs. MISELBO is evaluated in density-estimation experiments that include MNIST and several real-data phylogenetic tree inference problems. First, on the MNIST dataset, MISELBO boosts the density-estimation performances of a state-of-the-art model, nouveau VAE. Second, in the phylogenetic tree inference setting, our framework enhances a state-of-the-art VI algorithm that uses normalizing flows. On top of the technical benefits of MISELBO, it allows to unveil connections between VI and recent advances in the importance sampling literature, paving the way for further methodological advances. We provide our code at \url{https://github.com/L agergren-Lab/MISELBO }.
翻訳日:2022-02-23 16:57:05 公開日:2022-02-22
# Minimax Regret for partial monitoring: Infinite Outcomes and Rustichini's Regret

Minimax Regret for Partial Monitoring: Infinite Outcomes and Rustichini's Regret ( http://arxiv.org/abs/2202.10997v1 )

ライセンス: Link先を確認
Tor Lattimore(参考訳) 我々は、Lattimore andgyorgy (2020) の一般化情報比のバージョンが、与えられた全ての有限動作部分監視ゲームに対する漸近的ミニマックス後悔を決定することを示す。 (a)後悔の標準的な定義は用いられるが、敵の遊びが潜在的に無限である潜在空間、または (b)Rustichini (1999) によって導入された後悔は使われ、潜在空間は有限である。 私たちの結果はいくつかの例で補完されています。 任意の$p \in [1/2,1]$に対して、$n$のラウンドに対するミニマックスの後悔が$n^p$、サブポリノミカル要素まで$n^p$であり、ミニマックスのRustichiniの後悔が$n^{4/7}$である有限ゲームが存在する。

We show that a version of the generalised information ratio of Lattimore and Gyorgy (2020) determines the asymptotic minimax regret for all finite-action partial monitoring games provided that (a) the standard definition of regret is used but the latent space where the adversary plays is potentially infinite; or (b) the regret introduced by Rustichini (1999) is used and the latent space is finite. Our results are complemented by a number of examples. For any $p \in [1/2,1]$ there exists an infinite partial monitoring game for which the minimax regret over $n$ rounds is $n^p$ up to subpolynomial factors and there exist finite games for which the minimax Rustichini regret is $n^{4/7}$ up to subpolynomial factors.
翻訳日:2022-02-23 16:56:41 公開日:2022-02-22
# StickyLand: 計算ノートの線形表示を破る

StickyLand: Breaking the Linear Presentation of Computational Notebooks ( http://arxiv.org/abs/2202.11086v1 )

ライセンス: Link先を確認
Zijie J. Wang, Katie Dai, W. Keith Edwards(参考訳) 計算ノートブックでどのようにコードを整理するか? ノートブックは、テキストとコードをシームレスに織り合わせ、ユーザがすばやく反復してコード実験を文書化するのをサポートすることで、データサイエンティストの間で人気のツールになっている。 しかし、コードの線形表現と探索的データ解析の非線形プロセスとの間にはミスマッチがあるため、ノートにコードを整理することはしばしば困難である。 我々は、ユーザがコードを非線形に自由に整理できるようにするためのノートブック拡張であるstickylandを提案する。 画面に常に表示されているスティッキーセルを使えば、ユーザーはノートに素早くアクセスでき、実験結果を即座に観察でき、複雑なビジュアル分析をサポートするインタラクティブなダッシュボードを簡単に構築できる。 ケーススタディは、我々のツールがノートブックユーザーの生産性を高め、将来のノートブックデザインの機会を特定する方法を強調している。 stickylandはhttps://github.com/x iaohk/stickylandで入手できる。

How can we better organize code in computational notebooks? Notebooks have become a popular tool among data scientists, as they seamlessly weave text and code together, supporting users to rapidly iterate and document code experiments. However, it is often challenging to organize code in notebooks, partially because there is a mismatch between the linear presentation of code and the non-linear process of exploratory data analysis. We present StickyLand, a notebook extension for empowering users to freely organize their code in non-linear ways. With sticky cells that are always shown on the screen, users can quickly access their notes, instantly observe experiment results, and easily build interactive dashboards that support complex visual analytics. Case studies highlight how our tool can enhance notebook users's productivity and identify opportunities for future notebook designs. StickyLand is available at https://github.com/x iaohk/stickyland.
翻訳日:2022-02-23 16:56:24 公開日:2022-02-22
# 歪みのない不完全断層画像からの特徴再構成

Feature reconstruction from incomplete tomographic data without detour ( http://arxiv.org/abs/2202.10724v1 )

ライセンス: Link先を確認
Simon G\"oppel, J\"urgen Frikel, Markus Haltmeier(参考訳) 本稿では,不完全X線CTデータからの特徴再構成の問題点について考察する。 このような問題は、例えば、コンテキスト医療画像における線量減少の結果起こる。 不完全データからの画像再構成は深刻な問題であるため、再構成された画像は特徴的なアーチファクトや欠落した特徴に悩まされ、その後の画像処理タスク(エッジ検出やセグメンテーションなど)を著しく複雑化する。 本稿では,CTデータから直接畳み込み画像の特徴を頑健に再構成するための新しいフレームワークを提案する。 フレームワーク内では、さまざまな機能再構築タスクや限られたデータ状況に適応可能な非線形(変分法)正規化メソッドを使用します。 数値実験では,角アンサンプデータからのエッジ再構成のいくつかの事例を考察し,この場合の特徴地図を確実に再構築できることを示す。

In this paper, we consider the problem of feature reconstruction from incomplete x-ray CT data. Such problems occurs, e.g., as a result of dose reduction in the context medical imaging. Since image reconstruction from incomplete data is a severely ill-posed problem, the reconstructed images may suffer from characteristic artefacts or missing features, and significantly complicate subsequent image processing tasks (e.g., edge detection or segmentation). In this paper, we introduce a novel framework for the robust reconstruction of convolutional image features directly from CT data, without the need of computing a reconstruction firs. Within our framework we use non-linear (variational) regularization methods that can be adapted to a variety of feature reconstruction tasks and to several limited data situations . In our numerical experiments, we consider several instances of edge reconstructions from angularly undersampled data and show that our approach is able to reliably reconstruct feature maps in this case.
翻訳日:2022-02-23 16:56:08 公開日:2022-02-22
# 医用画像のためのデータ一貫性局所超解像

Data-Consistent Local Superresolution for Medical Imaging ( http://arxiv.org/abs/2202.10875v1 )

ライセンス: Link先を確認
Junqi Tang(参考訳) 本研究は,CT/MRI/PETなどの医用トモグラフィ画像への関心領域のズームインと精細化をリアルタイムに行うための,反復的モデルベース再構成アルゴリズムの新たなパラダイムを提案する。 このアルゴリズムの枠組みは、医用画像の完全な断層像を再構成した後、臨床医は画像のいくつかの重要な部分が十分に明確でないことを信じ、これらの領域がより明確になることを望んでいる。 単純なアプローチ(非常に推奨されていない)では、高解像度画像のグローバルな再構成を行うが、これは2つの大きな制限がある: 第一に、計算的に非効率であり、第二に、画像の正規化は、いくつかの局所領域を過度に滑らかにするような世界的に適用される。 さらに,局所部分の正規化パラメータを微調整したい場合には,大域的再構成を用いた場合,計算上不可能となる。 このようなタスクに対する新たな反復的アプローチは、計測情報の利用、画像空間を横断する効率的なアップサンプリング/ダウンサンプリング、効率的で高品質な後処理に先立って局所的に調整された画像に基づく。 低線量X線CT像の局所ズームインによる数値結果から,本手法の有効性が示された。

In this work we propose a new paradigm of iterative model-based reconstruction algorithms for providing real-time solution for zooming-in and refining a region of interest in medical and clinical tomographic (such as CT/MRI/PET, etc) images. This algorithmic framework is tailor for a clinical need in medical imaging practice, that after a reconstruction of the full tomographic image, the clinician may believe that some critical parts of the image are not clear enough, and may wish to see clearer these regions-of-interest. A naive approach (which is highly not recommended) would be performing the global reconstruction of a higher resolution image, which has two major limitations: firstly, it is computationally inefficient, and secondly, the image regularization is still applied globally which may over-smooth some local regions. Furthermore if one wish to fine-tune the regularization parameter for local parts, it would be computationally infeasible in practice for the case of using global reconstruction. Our new iterative approaches for such tasks are based on jointly utilizing the measurement information, efficient upsampling/downsampl ing across image spaces, and locally adjusted image prior for efficient and high-quality post-processing. The numerical results in low-dose X-ray CT image local zoom-in demonstrate the effectiveness of our approach.
翻訳日:2022-02-23 16:55:52 公開日:2022-02-22
# オーディオ・ビジュアルナビゲーション

Sound Adversarial Audio-Visual Navigation ( http://arxiv.org/abs/2202.10910v1 )

ライセンス: Link先を確認
Yinfeng Yu, Wenbing Huang, Fuchun Sun, Changan Chen, Yikai Wang, Xiaohong Liu(参考訳) 音声視覚ナビゲーションタスクでは、エージェントがエゴセントリックなオーディオ視覚観察を利用して、現実的な3D環境下で音源を見つける必要がある。 既存の音声視覚ナビゲーションは、ターゲット音のみを含むクリーンな環境を前提としているが、予期せぬ音のノイズや意図的な干渉のため、ほとんどの現実世界の応用には適さない。 本研究では,ターゲット音に加えて,エージェントとゼロサムゲームを行う音響攻撃者が存在するような,音響的に複雑な環境を設計する。 より具体的には、攻撃者は音のボリュームとカテゴリを変えて、エージェントが音響オブジェクトを見つけるのに苦しむようにし、エージェントは攻撃を回避し、介入の下で目標に向かって移動しようとする。 攻撃者に対する一定の制約の下では、オーディオ視覚ナビゲーションにおける予期せぬ音響攻撃に対するエージェントの堅牢性を向上させることができる。 コンバージェンスを改善するために,集中型批評家の特性と分散型アクターを併用した共同学習機構を開発した。 実世界の2つの3DスキャンデータセットであるReplicaとMatterport3Dの実験は、クリーン環境やランダムなポリシーを持つ音響攻撃者を含む場合、設計環境下で訓練されたエージェントの有効性と堅牢性を検証する。 プロジェクト: \url{https://yyf17.github .io/saavn}

Audio-visual navigation task requires an agent to find a sound source in a realistic, unmapped 3D environment by utilizing egocentric audio-visual observations. Existing audio-visual navigation works assume a clean environment that solely contains the target sound, which, however, would not be suitable in most real-world applications due to the unexpected sound noise or intentional interference. In this work, we design an acoustically complex environment in which, besides the target sound, there exists a sound attacker playing a zero-sum game with the agent. More specifically, the attacker can move and change the volume and category of the sound to make the agent suffer from finding the sounding object while the agent tries to dodge the attack and navigate to the goal under the intervention. Under certain constraints to the attacker, we can improve the robustness of the agent towards unexpected sound attacks in audio-visual navigation. For better convergence, we develop a joint training mechanism by employing the property of a centralized critic with decentralized actors. Experiments on two real-world 3D scan datasets, Replica, and Matterport3D, verify the effectiveness and the robustness of the agent trained under our designed environment when transferred to the clean environment or the one containing sound attackers with random policy. Project: \url{https://yyf17.github .io/SAAVN}.
翻訳日:2022-02-23 16:55:28 公開日:2022-02-22
# 相関クラスタリングのためのより良いプライベートアルゴリズム

Better Private Algorithms for Correlation Clustering ( http://arxiv.org/abs/2202.10747v1 )

ライセンス: Link先を確認
Daogao Liu(参考訳) 機械学習において、相関クラスタリングは、個人を可能な限りペアの類似性と相関するグループに分割することを目的とする重要な問題である。 本研究では,差分プライバシー制約下での相関クラスタリングを再検討する。 特に、一般的なグラフ上での予測の最適コストと比較して、以前の結果を改善し、$\Tilde{O}(n^{1.5})$加法誤差を達成する。 非重みのない完全グラフについては、さらに改良を行い、より複雑なアルゴリズムを提案し、全てのノードの正の辺の最大度を$\Tilde{O}(n \sqrt{\Delta^*})$加法誤差とする。

In machine learning, correlation clustering is an important problem whose goal is to partition the individuals into groups that correlate with their pairwise similarities as much as possible. In this work, we revisit the correlation clustering under the differential privacy constraints. Particularly, we improve previous results and achieve an $\Tilde{O}(n^{1.5})$ additive error compared to the optimal cost in expectation on general graphs. As for unweighted complete graphs, we improve the results further and propose a more involved algorithm which achieves $\Tilde{O}(n \sqrt{\Delta^*})$ additive error, where $\Delta^*$ is the maximum degrees of positive edges among all nodes.
翻訳日:2022-02-23 16:53:54 公開日:2022-02-22
# Wavebender GAN:音声に意味のある音声操作のためのアーキテクチャ

Wavebender GAN: An architecture for phonetically meaningful speech manipulation ( http://arxiv.org/abs/2202.10973v1 )

ライセンス: Link先を確認
Gustavo Teodoro D\"ohler Beck, Ulme Wennberg, Zofia Malisz, Gustav Eje Henter(参考訳) ディープラーニングは合成音声の品質に革命をもたらした。 しかし、これまでのところ、言語科学コミュニティにはほとんど価値を与えていない。 新しい方法は、例えば、操作された音声刺激を伴うリスニングテストにおいて、この領域の実践者が必要とする制御可能性要求を満たさない。 代わりに、従来の信号処理手法を用いて、そのような刺激の異なる音声特性の制御を行う。 これにより操作の範囲、精度、音声品質が制限される。 また,聴覚アーチファクトは,音声知覚研究の結果の方法論的妥当性に悪影響を及ぼす。 本研究は,設計よりも学習を通じて音声特性を操作できるシステムを提案する。 アーキテクチャは任意の音声特性を制御することを学び、ニューラルネットワークの進歩を利用してリアルな出力を得る。 少数のコア音声特徴(ピッチ、フォルマント、音声品質尺度)のコピー合成と操作の実験は、正確な制御と高い知覚品質を持つ音声刺激を生成するためのアプローチの可能性を示している。

Deep learning has revolutionised synthetic speech quality. However, it has thus far delivered little value to the speech science community. The new methods do not meet the controllability demands that practitioners in this area require e.g.: in listening tests with manipulated speech stimuli. Instead, control of different speech properties in such stimuli is achieved by using legacy signal-processing methods. This limits the range, accuracy, and speech quality of the manipulations. Also, audible artefacts have a negative impact on the methodological validity of results in speech perception studies. This work introduces a system capable of manipulating speech properties through learning rather than design. The architecture learns to control arbitrary speech properties and leverages progress in neural vocoders to obtain realistic output. Experiments with copy synthesis and manipulation of a small set of core speech features (pitch, formants, and voice quality measures) illustrate the promise of the approach for producing speech stimuli that have accurate control and high perceptual quality.
翻訳日:2022-02-23 16:52:57 公開日:2022-02-22
# 深部FBSDEとADMMを用いた分散型マルチエージェント確率最適制御

Decentralized Safe Multi-agent Stochastic Optimal Control using Deep FBSDEs and ADMM ( http://arxiv.org/abs/2202.10658v1 )

ライセンス: Link先を確認
Marcus A. Pereira, Augustinos D. Saravanos, Oswin So and Evangelos A. Theodorou(参考訳) 本研究では,確率的障害の存在下でのマルチエージェント制御のための,安全でスケーラブルな分散ソリューションを提案する。 安全性は確率的制御障壁関数を用いて数学的に符号化され、二次プログラムの解法によって安全な制御が計算される。 分散化は、各エージェントの最適化変数を拡張し、隣接する変数をコピーすることで達成される。 これにより、集中型マルチエージェント最適化問題を分離できる。 しかし、安全を確保するため、近隣のエージェントは「私たち双方にとって安全なもの」について合意しなければなりません。 安全なコンセンサスソリューションを実現するために,ADMMベースのアプローチを導入する。 具体的には,1つの最適化問題として,局所2次プログラムと総合的なコンセンサス問題の両方のミニバッチを解く,Merged CADMM-OSQP暗黙ニューラルネットワーク層を提案する。 この層は、エンド・ツー・エンドの微分可能で安全で分散化された確率的最適制御を容易にするために、各ステップで深いfbsdesネットワークアーキテクチャに埋め込まれている。 提案手法の有効性は,複数ロボットによる複数タスクのシミュレーションにおいて実証された。 衝突回避制約によって規定された安全性に要求を課すことにより、訓練プロセス全体を通して、すべてのエージェントの安全な操作が保証される。 また,集中型手法と比較して,計算およびメモリ節約の面で優れたスケーラビリティを示す。

In this work, we propose a novel safe and scalable decentralized solution for multi-agent control in the presence of stochastic disturbances. Safety is mathematically encoded using stochastic control barrier functions and safe controls are computed by solving quadratic programs. Decentralization is achieved by augmenting to each agent's optimization variables, copy variables, for its neighbors. This allows us to decouple the centralized multi-agent optimization problem. However, to ensure safety, neighboring agents must agree on "what is safe for both of us" and this creates a need for consensus. To enable safe consensus solutions, we incorporate an ADMM-based approach. Specifically, we propose a Merged CADMM-OSQP implicit neural network layer, that solves a mini-batch of both, local quadratic programs as well as the overall consensus problem, as a single optimization problem. This layer is embedded within a Deep FBSDEs network architecture at every time step, to facilitate end-to-end differentiable, safe and decentralized stochastic optimal control. The efficacy of the proposed approach is demonstrated on several challenging multi-robot tasks in simulation. By imposing requirements on safety specified by collision avoidance constraints, the safe operation of all agents is ensured during the entire training process. We also demonstrate superior scalability in terms of computational and memory savings as compared to a centralized approach.
翻訳日:2022-02-23 16:52:44 公開日:2022-02-22
# 量子微分プライバシー:情報理論の観点から

Quantum Differential Privacy: An Information Theory Perspective ( http://arxiv.org/abs/2202.10717v1 )

ライセンス: Link先を確認
Christoph Hirche, Cambyse Rouz\'e, Daniel Stilck Fran\c{c}a(参考訳) 微分プライバシーは、古典的な計算に対して証明可能なセキュリティ保証を提供することに関して、非常に成功した概念である。 最近では、この概念は量子計算に一般化された。 古典的な計算は基本的にノイズが無く、ノイズを人工的に付加することで微分プライバシが達成されることが多いが、近未来の量子コンピュータは本質的にノイズが多く、これが自然微分プライバシを機能としてもたらすことが観察された。 本研究では,情報理論の枠組みにおける量子微分プライバシーを量子分岐として論じる。 このアプローチの主な利点は、差分プライバシーが計算の出力状態のみに基づいてプロパティになり、測定毎にチェックする必要がなくなることである。 これは、その性質のより単純な証明と一般化されたステートメント、および一般および特定のノイズモデルに対するいくつかの新しい境界をもたらす。 特に、量子回路の共通表現や量子機械学習の概念が含まれる。 ここでは、特定のレベルの差分プライバシーを達成するのに必要なノイズ量と、どんな計算も役に立たない量との差に焦点を当てる。 最後に、局所微分プライバシーの古典的概念、R'enyi差分プライバシー、および量子設定に対する仮説テスト解釈を一般化し、いくつかの新しい性質と洞察を提供する。

Differential privacy has been an exceptionally successful concept when it comes to providing provable security guarantees for classical computations. More recently, the concept was generalized to quantum computations. While classical computations are essentially noiseless and differential privacy is often achieved by artificially adding noise, near-term quantum computers are inherently noisy and it was observed that this leads to natural differential privacy as a feature. In this work we discuss quantum differential privacy in an information theoretic framework by casting it as a quantum divergence. A main advantage of this approach is that differential privacy becomes a property solely based on the output states of the computation, without the need to check it for every measurement. This leads to simpler proofs and generalized statements of its properties as well as several new bounds for both, general and specific, noise models. In particular, these include common representations of quantum circuits and quantum machine learning concepts. Here, we focus on the difference in the amount of noise required to achieve certain levels of differential privacy versus the amount that would make any computation useless. Finally, we also generalize the classical concepts of local differential privacy, R\'enyi differential privacy and the hypothesis testing interpretation to the quantum setting, providing several new properties and insights.
翻訳日:2022-02-23 16:52:23 公開日:2022-02-22
# (参考訳) GroupViT: テキストスーパービジョンのセマンティックセグメンテーション [全文訳有]

GroupViT: Semantic Segmentation Emerges from Text Supervision ( http://arxiv.org/abs/2202.11094v1 )

ライセンス: CC BY 4.0
Jiarui Xu, Shalini De Mello, Sifei Liu, Wonmin Byeon, Thomas Breuel, Jan Kautz, Xiaolong Wang(参考訳) グループ化と認識は、オブジェクトの検出や意味セグメンテーションなど、視覚的なシーン理解の重要な要素である。 エンドツーエンドのディープラーニングシステムでは、画像領域のグループ化は通常、ピクセルレベルの認識ラベルからトップダウンの監視を通じて暗黙的に行われる。 本稿では,テキストの監督だけで意味セグメントが自動的に出現することを可能にする,ディープネットワークへのグループ化機構の復活を提案する。 本研究では,正規格子構造表現を超越した階層型グループ化ビジョントランスフォーマ(groupvit)を提案する。 大規模な画像テキストデータセット上にテキストエンコーダを伴ってGroupViTをトレーニングする。 テキストの監督とピクセルレベルのアノテーションがなければ、GroupViTはセマンティック領域をグループ化することを学び、セマンティックセグメンテーションのタスクにゼロショットで転送する。 PASCAL VOC 2012では51.2% mIoU、PASCAL Contextデータセットでは22.3% mIoUをゼロショット精度で達成し、より高いレベルの監督を必要とする最先端のトランスファー学習手法と競合する。 プロジェクトページはhttps://jerryxu.net/ groupvit.com/。

Grouping and recognition are important components of visual scene understanding, e.g., for object detection and semantic segmentation. With end-to-end deep learning systems, grouping of image regions usually happens implicitly via top-down supervision from pixel-level recognition labels. Instead, in this paper, we propose to bring back the grouping mechanism into deep networks, which allows semantic segments to emerge automatically with only text supervision. We propose a hierarchical Grouping Vision Transformer (GroupViT), which goes beyond the regular grid structure representation and learns to group image regions into progressively larger arbitrary-shaped segments. We train GroupViT jointly with a text encoder on a large-scale image-text dataset via contrastive losses. With only text supervision and without any pixel-level annotations, GroupViT learns to group together semantic regions and successfully transfers to the task of semantic segmentation in a zero-shot manner, i.e., without any further fine-tuning. It achieves a zero-shot accuracy of 51.2% mIoU on the PASCAL VOC 2012 and 22.3% mIoU on PASCAL Context datasets, and performs competitively to state-of-the-art transfer-learning methods requiring greater levels of supervision. Project page is available at https://jerryxu.net/ GroupViT.
翻訳日:2022-02-23 16:50:39 公開日:2022-02-22
# HRel: 活性化マップとクラスラベルの高関連性に基づくフィルタプルーニング

HRel: Filter Pruning based on High Relevance between Activation Maps and Class Labels ( http://arxiv.org/abs/2202.10716v1 )

ライセンス: Link先を確認
CH Sarvani, Mrinmoy Ghorai, Shiv Ram Dubey, SH Shabbeer Basha(参考訳) 本稿では,相互情報(mi)と呼ばれる統計的尺度を用いた情報ボトルネック理論に基づくフィルタプルーニング手法を提案する。 フィルタとクラスラベルの間のmiは \textit{relevance} とも呼ばれ、フィルタのアクティベーションマップとアノテーションを使って計算される。 高関連性フィルタ(HRel)はより重要であると考えられる。 これにより、クラスラベルとの相互情報が少ない最も重要なフィルタを刈り取ることができる。 既存のMIベースプルーニング法とは異なり,提案手法は,対応するアクティベーションマップとクラスラベルの関係に基づいて,フィルタの意義を純粋に決定する。 LeNet-5, VGG-16, ResNet-56\textcolor{myblue}{, ResNet-110, ResNet-50などのアーキテクチャを用いて, MNIST, CIFAR-10, ImageNetデータセット上のプルーニング手法の有効性を示す。 提案手法は,LeNet-5,VGG-16,ResN et-56,ResNet-110,Res Net-50アーキテクチャの最先端のプルーニング結果を示す。 実験では,LeNet-5,VGG-16,ResN et-56,ResNet-110,Res Net-50の各浮動小数点演算(FLOP)の97.98 \%,84.85 \%,76.89\%,76.95\%,6 3.99\%をプルーする。 } 提案したhrel pruningメソッドは,最新のstate-of-the-artフィルタのpruningメソッドを上回っている。 LeNet-5の畳み込み層からフィルタを抜いた後も(それぞれ20,50,2,3)、わずかに0.52\%の精度低下しか観測されない。 特にVGG-16では、94.98\%のパラメータが減少し、トップ1の精度は0.36\%となった。 textcolor{myblue}{resnet-50"では、フロップの66.42\%を刈り取った後、トップ5の精度が1.17\%低下した。 追及に加えて,情報ボトルネック理論の情報平面ダイナミクスは,プルーニングの効果を持つ様々な畳み込みニューラルネットワークアーキテクチャに対して解析される。

This paper proposes an Information Bottleneck theory based filter pruning method that uses a statistical measure called Mutual Information (MI). The MI between filters and class labels, also called \textit{Relevance}, is computed using the filter's activation maps and the annotations. The filters having High Relevance (HRel) are considered to be more important. Consequently, the least important filters, which have lower Mutual Information with the class labels, are pruned. Unlike the existing MI based pruning methods, the proposed method determines the significance of the filters purely based on their corresponding activation map's relationship with the class labels. Architectures such as LeNet-5, VGG-16, ResNet-56\textcolor{myblue}{, ResNet-110 and ResNet-50 are utilized to demonstrate the efficacy of the proposed pruning method over MNIST, CIFAR-10 and ImageNet datasets. The proposed method shows the state-of-the-art pruning results for LeNet-5, VGG-16, ResNet-56, ResNet-110 and ResNet-50 architectures. In the experiments, we prune 97.98 \%, 84.85 \%, 76.89\%, 76.95\%, and 63.99\% of Floating Point Operation (FLOP)s from LeNet-5, VGG-16, ResNet-56, ResNet-110, and ResNet-50 respectively.} The proposed HRel pruning method outperforms recent state-of-the-art filter pruning methods. Even after pruning the filters from convolutional layers of LeNet-5 drastically (i.e. from 20, 50 to 2, 3, respectively), only a small accuracy drop of 0.52\% is observed. Notably, for VGG-16, 94.98\% parameters are reduced, only with a drop of 0.36\% in top-1 accuracy. \textcolor{myblue}{ResNet-50 has shown a 1.17\% drop in the top-5 accuracy after pruning 66.42\% of the FLOPs.} In addition to pruning, the Information Plane dynamics of Information Bottleneck theory is analyzed for various Convolutional Neural Network architectures with the effect of pruning.
翻訳日:2022-02-23 16:24:00 公開日:2022-02-22
# A-Eye: コーナーケース生成のためのAIの目で運転

A-Eye: Driving with the Eyes of AI for Corner Case Generation ( http://arxiv.org/abs/2202.10803v1 )

ライセンス: Link先を確認
Kamil Kowol and Stefan Bracke and Hanno Gottschalk(参考訳) この作業の全体的な目標は、いわゆるコーナーケースによる自動運転のためのトレーニングデータを強化することだ。 道路交通では、コーナーケースは、AIアルゴリズムによる認識に挑戦する臨界、まれ、異常な状況である。 そこで本研究では,人工コーナーケースを生成するためのテストリグの設計について述べる。 テストリグでは、人間がネットワークの予測を駆動できるように、リアルタイムセマンティックセグメンテーションネットワークをトレーニングし、駆動シミュレーションソフトウェアCARLAに統合する。 さらに、第2者は、元のCARLA出力から同じシーンを見ることができるようになり、セマンティックドライバが危険な運転行動を示すとすぐに、第2制御ユニットの助けを借りて介入する。 介入は、セグメンテーションネットワークによるクリティカルシーンの認識不足を示し、コーナーケースを表す可能性がある。 本実験では,コーナーケースを用いたトレーニングデータの強化が,道路交通の安全関連エピソードにおける歩行者検出の改善につながることを示す。

The overall goal of this work is to enrich training data for automated driving with so called corner cases. In road traffic, corner cases are critical, rare and unusual situations that challenge the perception by AI algorithms. For this purpose, we present the design of a test rig to generate synthetic corner cases using a human-in-the-loop approach. For the test rig, a real-time semantic segmentation network is trained and integrated into the driving simulation software CARLA in such a way that a human can drive on the network's prediction. In addition, a second person gets to see the same scene from the original CARLA output and is supposed to intervene with the help of a second control unit as soon as the semantic driver shows dangerous driving behavior. Interventions potentially indicate poor recognition of a critical scene by the segmentation network and then represents a corner case. In our experiments, we show that targeted enrichment of training data with corner cases leads to improvements in pedestrian detection in safety relevant episodes in road traffic.
翻訳日:2022-02-23 16:23:19 公開日:2022-02-22
# ワンショットシーングラフ生成

One-shot Scene Graph Generation ( http://arxiv.org/abs/2202.10824v1 )

ライセンス: Link先を確認
Yuyu Guo, Jingkuan Song, Lianli Gao, Heng Tao Shen(参考訳) 画像コンテンツの構造化表現として、視覚シーングラフ(視覚関係)は、コンピュータビジョンと自然言語処理の橋渡しとして機能する。 シーングラフ生成タスクの既存のモデルは、数十から数百のラベル付きサンプルを必要とすることで悪名高い。 対照的に、人間は少数の、あるいは一つの例から視覚的な関係を学ぶことができる。 これに触発されて,ワンショットシーングラフ生成 (one-shot scene graph generation) というタスクを設計し,それぞれの関係がトリプルトする(例えば,"dog-has-head")。 重要な洞察は、スクラッチから学ぶのではなく、豊富な事前知識を活用できるということです。 本稿では,ワンショットシーングラフ生成タスクにおいて,複数の構造化知識(関係知識と常識知識)を提案する。 特に、関係知識は、視覚コンテンツから抽出されたエンティティ間の関係に関する事前の知識を表しており、例えば、視覚的な関係性は、"dog" と "yard" の間に存在し、commonsense の知識は "dog can guard yard" のように "sense-making" の知識をエンコードしている。 これらの2種類の知識をグラフ構造に整理することにより、グラフ畳み込みネットワーク(GCN)は、エンティティの知識埋め込みセマンティック特徴を抽出する。 さらに、Faster R-CNNによって生成された各エンティティから分離された視覚的特徴を抽出する代わりに、インスタンス関係トランスフォーマーエンコーダを使用してコンテキスト情報を完全に探索する。 構築したワンショットデータセットに基づいて,実験結果から,既存の最先端手法を大きなマージンで大幅に上回ることを示す。 アブレーション研究はまた、インスタンス関係変換器エンコーダと多重構造知識の有効性を検証する。

As a structured representation of the image content, the visual scene graph (visual relationship) acts as a bridge between computer vision and natural language processing. Existing models on the scene graph generation task notoriously require tens or hundreds of labeled samples. By contrast, human beings can learn visual relationships from a few or even one example. Inspired by this, we design a task named One-Shot Scene Graph Generation, where each relationship triplet (e.g., "dog-has-head") comes from only one labeled example. The key insight is that rather than learning from scratch, one can utilize rich prior knowledge. In this paper, we propose Multiple Structured Knowledge (Relational Knowledge and Commonsense Knowledge) for the one-shot scene graph generation task. Specifically, the Relational Knowledge represents the prior knowledge of relationships between entities extracted from the visual content, e.g., the visual relationships "standing in", "sitting in", and "lying in" may exist between "dog" and "yard", while the Commonsense Knowledge encodes "sense-making" knowledge like "dog can guard yard". By organizing these two kinds of knowledge in a graph structure, Graph Convolution Networks (GCNs) are used to extract knowledge-embedded semantic features of the entities. Besides, instead of extracting isolated visual features from each entity generated by Faster R-CNN, we utilize an Instance Relation Transformer encoder to fully explore their context information. Based on a constructed one-shot dataset, the experimental results show that our method significantly outperforms existing state-of-the-art methods by a large margin. Ablation studies also verify the effectiveness of the Instance Relation Transformer encoder and the Multiple Structured Knowledge.
翻訳日:2022-02-23 16:23:03 公開日:2022-02-22
# 関係正規化シーングラフ生成

Relation Regularized Scene Graph Generation ( http://arxiv.org/abs/2202.10826v1 )

ライセンス: Link先を確認
Yuyu Guo, Lianli Gao, Jingkuan Song, Peng Wang, Nicu Sebe, Heng Tao Shen, Xuelong Li(参考訳) scene graph generation (sgg) は、検出されたオブジェクトの上に構築され、画像コンテンツの抽象化を記述するためにオブジェクト対関係を予測する。 既存の研究によると、オブジェクト間のリンクを事前知識として与えれば、SGGの性能は大幅に向上する。 本稿では,2つのオブジェクトの間に関係があるかどうかを予測し,その関係をオブジェクトの特徴改善とSGGにエンコードする関係正規化ネットワーク(R2-Net)を提案する。 具体的には、2つのオブジェクト間の関係の確率を表すために、まず検出対象間の親和性行列を構築する。 この関係アフィニティ行列上のグラフ畳み込みネットワーク(gcns)はオブジェクトエンコーダとして使われ、オブジェクトの関連正規化表現を生成する。 これらの関係調整機能により、R2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成することができる。 提案手法の有効性を示す3つのSGGタスク(述語分類,シーングラフ分類,シーングラフ検出)の視覚的ゲノムデータセットについて,広範囲にわたる実験を行った。 アブレーション研究は,提案する成分の性能向上における重要な役割を検証した。

Scene graph generation (SGG) is built on top of detected objects to predict object pairwise visual relations for describing the image content abstraction. Existing works have revealed that if the links between objects are given as prior knowledge, the performance of SGG is significantly improved. Inspired by this observation, in this article, we propose a relation regularized network (R2-Net), which can predict whether there is a relationship between two objects and encode this relation into object feature refinement and better SGG. Specifically, we first construct an affinity matrix among detected objects to represent the probability of a relationship between two objects. Graph convolution networks (GCNs) over this relation affinity matrix are then used as object encoders, producing relation-regularized representations of objects. With these relation-regularized features, our R2-Net can effectively refine object labels and generate scene graphs. Extensive experiments are conducted on the visual genome dataset for three SGG tasks (i.e., predicate classification, scene graph classification, and scene graph detection), demonstrating the effectiveness of our proposed method. Ablation studies also verify the key roles of our proposed components in performance improvement.
翻訳日:2022-02-23 16:22:33 公開日:2022-02-22
# ビデオキャプションにおける長期時間ダイナミクスの活用

Exploiting long-term temporal dynamics for video captioning ( http://arxiv.org/abs/2202.10828v1 )

ライセンス: Link先を確認
Yuyu Guo, Jingqiu Zhang, Lianli Gao(参考訳) 自然言語によるビデオの自動記述は、コンピュータビジョンと自然言語処理の基本的な課題である。 近年,この問題の進展は2つのステップによって達成されている。 1)2次元及び/または3次元畳み込みニューラルネットワーク(例えば、VGG、ResNet、C3D)を用いて、映像コンテンツをエンコードするための空間的・時間的特徴を抽出する。 2)リカレントニューラルネットワーク(RNN)を用いてビデオ中のイベントを記述する文を生成する。 時間的注意に基づくモデルは,各映像フレームの重要性を考慮し,大きな進歩を遂げている。 しかし、長いビデオ、特に一連のサブイベントからなるビデオの場合、各フレームの代わりに各サブショットの重要性を発見し、活用する必要がある。 本稿では,時間的および空間的LSTM(TS-LSTM)という,ビデオシーケンス内の空間的・時間的ダイナミクスを体系的に活用する手法を提案する。 TS-LSTMでは、時間プーリングLSTM(TP-LSTM)は、ビデオサブショット内の時間的時間的ダイナミクスを抽出するために、空間的情報と時間的情報の両方を統合するように設計されている。 2つの公開ビデオキャプションベンチマークで得られた実験結果から,我々のTS-LSTMは最先端の手法よりも優れていた。

Automatically describing videos with natural language is a fundamental challenge for computer vision and natural language processing. Recently, progress in this problem has been achieved through two steps: 1) employing 2-D and/or 3-D Convolutional Neural Networks (CNNs) (e.g. VGG, ResNet or C3D) to extract spatial and/or temporal features to encode video contents; and 2) applying Recurrent Neural Networks (RNNs) to generate sentences to describe events in videos. Temporal attention-based model has gained much progress by considering the importance of each video frame. However, for a long video, especially for a video which consists of a set of sub-events, we should discover and leverage the importance of each sub-shot instead of each frame. In this paper, we propose a novel approach, namely temporal and spatial LSTM (TS-LSTM), which systematically exploits spatial and temporal dynamics within video sequences. In TS-LSTM, a temporal pooling LSTM (TP-LSTM) is designed to incorporate both spatial and temporal information to extract long-term temporal dynamics within video sub-shots; and a stacked LSTM is introduced to generate a list of words to describe the video. Experimental results obtained in two public video captioning benchmarks indicate that our TS-LSTM outperforms the state-of-the-art methods.
翻訳日:2022-02-23 16:22:13 公開日:2022-02-22
# LiDARによるローミングの推定

Estimation of Looming from LiDAR ( http://arxiv.org/abs/2202.10972v1 )

ライセンス: Link先を確認
Juan D. Yepes, Daniel Raviv(参考訳) ルーミングは伝統的にオブザーバーの網膜における物体の相対的膨張として定義されており、脅威の知覚のための基本的な視覚的な手がかりであり、衝突のない航行を達成するために使用できる。 ルーピングキューの測定は視覚に限らず、ライダー(光の検出と距離)のような距離センサーからも得ることができる。 本稿では,ローミングキューを推定するために,生のLiDARデータを処理する2つの手法を提案する。 浸水値を用いて衝突回避タスクの脅威ゾーンを取得する方法を示す。 これらの手法は、任意の6自由度運動に適しており、微調整、ポイントクラウド登録、オブジェクト分類、オブジェクトセグメンテーションを必要とせずにリアルタイムに実装できる。 KITTIデータセットを用いた定量的結果は,手法の利点と限界を示している。

Looming, traditionally defined as the relative expansion of objects in the observer's retina, is a fundamental visual cue for perception of threat and can be used to accomplish collision free navigation. The measurement of the looming cue is not only limited to vision, and can also be obtained from range sensors like LiDAR (Light Detection and Ranging). In this article we present two methods that process raw LiDAR data to estimate the looming cue. Using looming values we show how to obtain threat zones for collision avoidance tasks. The methods are general enough to be suitable for any six-degree-of-freedo m motion and can be implemented in real-time without the need for fine matching, point-cloud registration, object classification or object segmentation. Quantitative results using the KITTI dataset shows advantages and limitations of the methods.
翻訳日:2022-02-23 16:21:50 公開日:2022-02-22
# 関係取引のための対物自動生成

Automatically Generating Counterfactuals for Relation Exaction ( http://arxiv.org/abs/2202.10668v1 )

ライセンス: Link先を確認
Mi Zhang and Tieyun Qian(参考訳) 関係抽出(re)の目的は、テキスト中のエンティティ間の意味関係を抽出することである。 自然言語処理の基本課題として,REモデルの堅牢性を確保することが重要である。 REタスクでは、高精度な現在のディープニューラルモデルが達成されているが、これらはスプリアス相関の影響を受けやすい。 この問題の1つの解決策は、共起ではなく因果関係を学習できるように、正実拡張データ(CAD)でモデルを訓練することである。 しかし、REタスクの偽物を生成する試みは行われていない。 本稿では,REタスクのCADをエンティティ中心の視点から自動生成する問題を定式化し,エンティティのコンテキスト対応を導出するための新しいアプローチを開発する。 具体的には、2つの基本的なトポロジ的特性、すなわち、構文的および意味的依存グラフにおける中心性と最短経路を利用して、まずエンティティの文脈因果的特徴を識別し、次に介入する。 提案手法と種々のバックボーンREモデルを組み合わせることで,4つのREデータセットの総合評価を行う。 その結果,本手法はバックボーンの性能を向上するだけでなく,ドメイン外テストにおいても堅牢であることがわかった。

The goal of relation extraction (RE) is to extract the semantic relations between/among entities in the text. As a fundamental task in natural language processing, it is crucial to ensure the robustness of RE models. Despite the high accuracy current deep neural models have achieved in RE tasks, they are easily affected by spurious correlations. One solution to this problem is to train the model with counterfactually augmented data (CAD) such that it can learn the causation rather than the confounding. However, no attempt has been made on generating counterfactuals for RE tasks. In this paper, we formulate the problem of automatically generating CAD for RE tasks from an entity-centric viewpoint, and develop a novel approach to derive contextual counterfactuals for entities. Specifically, we exploit two elementary topological properties, i.e., the centrality and the shortest path, in syntactic and semantic dependency graphs, to first identify and then intervene on the contextual causal features for entities. We conduct a comprehensive evaluation on four RE datasets by combining our proposed approach with a variety of backbone RE models. The results demonstrate that our approach not only improves the performance of the backbones, but also makes them more robust in the out-of-domain test.
翻訳日:2022-02-23 16:20:28 公開日:2022-02-22
# 遷移畳み込みを有する木の遷移行列表現

Transition Matrix Representation of Trees with Transposed Convolutions ( http://arxiv.org/abs/2202.10677v1 )

ライセンス: Link先を確認
Jaemin Yoo and Lee Sael(参考訳) ツリーモデルで最適な構造をどうやって効果的に見つけることができるのか? ツリーモデルは、解釈可能性が不可逆的な決定を行う上で不可欠である領域において、複雑なブラックボックスモデルよりも好まれている。 しかしながら、パフォーマンスと解釈可能性の最適なバランスを与える木構造を探すことは依然として困難な課題である。 本稿では,最適構造探索のための木表現であるTART(Transition Matrix Representation with Transposed Convolutions)を提案する。 TARTは、遷移行列の生成を避けることで推論の速度を向上する一連の変換畳み込みを持つツリーモデルを表す。 その結果、tartは、いくつかの設計パラメータで最高の木構造を探索でき、特徴ベースのデータセットのベースラインモデルよりも高い分類精度を達成することができる。

How can we effectively find the best structures in tree models? Tree models have been favored over complex black box models in domains where interpretability is crucial for making irreversible decisions. However, searching for a tree structure that gives the best balance between the performance and the interpretability remains a challenging task. In this paper, we propose TART (Transition Matrix Representation with Transposed Convolutions), our novel generalized tree representation for optimal structural search. TART represents a tree model with a series of transposed convolutions that boost the speed of inference by avoiding the creation of transition matrices. As a result, TART allows one to search for the best tree structure with a few design parameters, achieving higher classification accuracy than those of baseline models in feature-based datasets.
翻訳日:2022-02-23 16:19:41 公開日:2022-02-22
# デジタル双生児を用いた占有者フィードバックのターゲット化 : 適応型空間-時間熱選好サンプリングによる快適感の最適化

Targeting occupant feedback using digital twins: Adaptive spatial-temporal thermal preference sampling to optimize personal comfort models ( http://arxiv.org/abs/2202.10707v1 )

ライセンス: Link先を確認
Mahmoud Abdelrahman, Clayton Miller(参考訳) 建物利用者からの集中的な熱選好データ収集は、建物とそれを利用する人々のパフォーマンスを特徴付ける革新的な手段として登場している。 これらの技術は、数日から数週間にわたってスマートフォンやスマートウォッチを使って主観的なフィードバックを与える。 その意図は、データを高い空間的および時間的多様性で収集し、建物と居住者の好みを最もよく特徴付けることである。 しかし実際には、占有者が一定間隔または一定間隔で応答する場所を離れると、不要な調査疲労と冗長なデータが発生する。 本稿では,スマートウォッチを用いたデータサンプリングを最適化するシナリオベース(仮想実験)手法について概説する。 本手法では,BIM抽出空間データとグラフニューラルネット(GNN)をベースとしたモデルを用いて,類似した快適な嗜好領域を探索し,住民にフィードバックを与える最善のシナリオを特定する。 本手法は,空間空間の空間的文脈に基づく2つのベースラインシナリオと建物内の4 x 4 mの格子正方形を,2つのフィールド補正データセットに対する理論的実装を用いて比較する。 その結果, 提案手法は, 空間ベースおよび正方形格子型サンプリング法よりも, 全体のサンプリング品質が18~23%高いことがわかった。 Build2Vecメソッドはまた、冗長な占有されたフィードバックポイントを取り除く際に、ベースラインと同じようなパフォーマンスを持つ。

Collecting intensive longitudinal thermal preference data from building occupants is emerging as an innovative means of characterizing the performance of buildings and the people who use them. These techniques have occupants giving subjective feedback using smartphones or smartwatches frequently over the course of days or weeks. The intention is that the data will be collected with high spatial and temporal diversity to best characterize a building and the occupant's preferences. But in reality, leaving the occupant to respond in an ad-hoc or fixed interval way creates unneeded survey fatigue and redundant data. This paper outlines a scenario-based (virtual experiment) method for optimizing data sampling using a smartwatch to achieve comparable accuracy in a personal thermal preference model with less data. This method uses BIM-extracted spatial data, and Graph Neural Network (GNN) based modeling to find regions of similar comfort preference to identify the best scenarios for triggering the occupant to give feedback. This method is compared to two baseline scenarios based on the spatial context of specific spaces and 4 x 4 m grid squares in the building using a theoretical implementation on two field-collected data sets. The results show that the proposed Build2Vec method is 18-23% more in the overall sampling quality than the spaces-based and the square-grid-based sampling methods. The Build2Vec method also has similar performance to the baselines when removing redundant occupant feedback points but with better scalability potential.
翻訳日:2022-02-23 16:19:30 公開日:2022-02-22
# 歪みリスク対策のための近似勾配上昇法

Approximate gradient ascent methods for distortion risk measures ( http://arxiv.org/abs/2202.11046v1 )

ライセンス: Link先を確認
Nithia Vijayan and Prashanth L.A(参考訳) 本研究では, リスク感応性強化学習制御問題に対する近似勾配上昇アルゴリズムを提案する。 我々は,エピソジックマルコフ決定過程を検討し,累積割引報酬の歪みリスク尺度(drm)を用いてリスクをモデル化する。 アルゴリズムは累積報酬の順序統計を用いてDRMを推定し,スムーズな関数ベース勾配推定手法を用いてDRM推定から近似勾配を計算する。 我々は,提案アルゴリズムをDRM目標のほぼ定常点に収束させる非漸近境界を導出する。

We propose approximate gradient ascent algorithms for risk-sensitive reinforcement learning control problem in on-policy as well as off-policy settings. We consider episodic Markov decision processes, and model the risk using distortion risk measure (DRM) of the cumulative discounted reward. Our algorithms estimate the DRM using order statistics of the cumulative rewards, and calculate approximate gradients from the DRM estimates using a smoothed functional-based gradient estimation scheme. We derive non-asymptotic bounds that establish the convergence of our proposed algorithms to an approximate stationary point of the DRM objective.
翻訳日:2022-02-23 16:17:06 公開日:2022-02-22
# 強化学習のための報酬フリーポリシー空間圧縮

Reward-Free Policy Space Compression for Reinforcement Learning ( http://arxiv.org/abs/2202.11079v1 )

ライセンス: Link先を確認
Mirco Mutti, Stefano Del Col, Marcello Restelli(参考訳) 強化学習では、環境と相互作用するエージェントの潜在的な振る舞いを無限のポリシーの集合、つまり、通常パラメトリック関数の族によって表されるポリシー空間に符号化する。 このようなポリシー空間を扱うことは、しばしばサンプルと計算の非効率を引き起こす非常に大きな課題である。 しかし、環境の構造や政策パラメータ化も考慮し、それらの多くは、状態-作用分布という非常に類似した相互作用を誘発するので、実際には限られた数の政策が関係していると論じる。 本稿では,任意のポリシー$\pi$ が与えられた場合,代表政策の状態行動分布と状態行動分布である$\pi$ との最小の r\'enyi の発散が有界となるように,政策空間を有限個の代表政策に無報酬に圧縮することを求める。 政策空間のこの圧縮は集合被覆問題として定式化できることを示し、本質的にNPハードである。 そこで本研究では,圧縮空間を反復的に伸長して逆方針をカバーすることで,局所最適解を効率的に見つけることができるゲーム理論的再構成を提案する。 最後に, 簡単な領域での圧縮手順の実証評価と, 強化学習における波及効果について述べる。

In reinforcement learning, we encode the potential behaviors of an agent interacting with an environment into an infinite set of policies, the policy space, typically represented by a family of parametric functions. Dealing with such a policy space is a hefty challenge, which often causes sample and computation inefficiencies. However, we argue that a limited number of policies are actually relevant when we also account for the structure of the environment and of the policy parameterization, as many of them would induce very similar interactions, i.e., state-action distributions. In this paper, we seek for a reward-free compression of the policy space into a finite set of representative policies, such that, given any policy $\pi$, the minimum R\'enyi divergence between the state-action distributions of the representative policies and the state-action distribution of $\pi$ is bounded. We show that this compression of the policy space can be formulated as a set cover problem, and it is inherently NP-hard. Nonetheless, we propose a game-theoretic reformulation for which a locally optimal solution can be efficiently found by iteratively stretching the compressed space to cover an adversarial policy. Finally, we provide an empirical evaluation to illustrate the compression procedure in simple domains, and its ripple effects in reinforcement learning.
翻訳日:2022-02-23 16:16:52 公開日:2022-02-22
# Triplet Training Schemeによる言語間音声合成の改善

Improving Cross-lingual Speech Synthesis with Triplet Training Scheme ( http://arxiv.org/abs/2202.10729v1 )

ライセンス: Link先を確認
Jianhao Ye, Hongbin Zhou, Zhiba Su, Wendi He, Kaimeng Ren, Lin Li, Heng Lu(参考訳) 近年の言語間テキスト合成(TTS)の進歩により,単言語話者以外の言語での音声合成が可能になった。 しかし, 言語間音声の発音と母語話者の発音の間には, 自然性や知性の観点からは大きなギャップがある。 本稿では,従来目に見えなかった内容と話者の組み合わせを学習中に見られるようにすることで,言語間発音を向上させるために三重奏法を提案する。 提案手法では, 学習中に三重項が失われる付加的な微細音節ステージを導入し, 非母語話者の音色を保ちながら, ネイティブアンカー話者の音色に近い音色を効率的に発音する。 実験は最先端のベースライン言語間TSシステムとその拡張型に基づいて行われる。 提案手法の目的的および主観的評価は, 合成言語間音声の明瞭性と自然性に有意な改善をもたらした。

Recent advances in cross-lingual text-to-speech (TTS) made it possible to synthesize speech in a language foreign to a monolingual speaker. However, there is still a large gap between the pronunciation of generated cross-lingual speech and that of native speakers in terms of naturalness and intelligibility. In this paper, a triplet training scheme is proposed to enhance the cross-lingual pronunciation by allowing previously unseen content and speaker combinations to be seen during training. Proposed method introduces an extra fine-tune stage with triplet loss during training, which efficiently draws the pronunciation of the synthesized foreign speech closer to those from the native anchor speaker, while preserving the non-native speaker's timbre. Experiments are conducted based on a state-of-the-art baseline cross-lingual TTS system and its enhanced variants. All the objective and subjective evaluations show the proposed method brings significant improvement in both intelligibility and naturalness of the synthesized cross-lingual speech.
翻訳日:2022-02-23 16:14:21 公開日:2022-02-22
# 乳房腫瘍アノテーションのためのハイブリッドU-Net

An Object Aware Hybrid U-Net for Breast Tumour Annotation ( http://arxiv.org/abs/2202.10691v1 )

ライセンス: Link先を確認
Suvidha Tripathi and Satish Kumar Singh(参考訳) 臨床状況では,病理組織学的すべりのデジタル検査中に,腫瘍領域周辺の粗い境界をマークすることにより,病理組織学的すべりをアノテートする。 マーキングまたはアノテーションは一般に、スライド内の腫瘍の範囲をカバーする多角形境界として表現される。 これらの多角形マーキングは、腫瘍領域が異種であるため、cad技術によって模倣することが困難である。 したがってcad分析では、基礎的真理は一般に病理学者によって研究目的で明示的に注釈付けされる。 しかし、一般的にセマンティックやインスタンスセグメンテーションに必要とされるこの種のアノテーションは時間がかかり、面倒です。 そこで本研究では,腫瘍範囲を多角形境界で区分することで,病理学的なアノテーションの模倣を試みた。 アノテーションやセグメンテーションのような多角形では、頂点やスネークポイントが関心対象の境界に向かって移動し、最小エネルギーの領域を見つけるアクティブな輪郭を用いています。 アクティブな輪郭をペナリゼーションするために、私たちは、ペナリゼーション値の学習に修正されたu-netアーキテクチャを使用しました。 提案するハイブリッド型ディープラーニングモデルでは,最新のディープラーニングセグメンテーションアルゴリズムと,従来のアクティブパターンセグメンテーション手法を融合する。 このモデルは,現代作業に対する性能評価のために,最先端セマンティックセマンティックセグメンテーションとハイブリッドモデルの両方に対して試験される。 その結果、アノテーションのような病理学者は、Active Contoursのような古典的なセグメンテーション手法と、意味的セグメンテーション深層学習モデルによるグローバルな知識を通じてドメイン知識を統合するハイブリッドモデルを開発することで、達成できることを示した。

In the clinical settings, during digital examination of histopathological slides, the pathologist annotate the slides by marking the rough boundary around the suspected tumour region. The marking or annotation is generally represented as a polygonal boundary that covers the extent of the tumour in the slide. These polygonal markings are difficult to imitate through CAD techniques since the tumour regions are heterogeneous and hence segmenting them would require exhaustive pixel wise ground truth annotation. Therefore, for CAD analysis, the ground truths are generally annotated by pathologist explicitly for research purposes. However, this kind of annotation which is generally required for semantic or instance segmentation is time consuming and tedious. In this proposed work, therefore, we have tried to imitate pathologist like annotation by segmenting tumour extents by polygonal boundaries. For polygon like annotation or segmentation, we have used Active Contours whose vertices or snake points move towards the boundary of the object of interest to find the region of minimum energy. To penalize the Active Contour we used modified U-Net architecture for learning penalization values. The proposed hybrid deep learning model fuses the modern deep learning segmentation algorithm with traditional Active Contours segmentation technique. The model is tested against both state-of-the-art semantic segmentation and hybrid models for performance evaluation against contemporary work. The results obtained show that the pathologist like annotation could be achieved by developing such hybrid models that integrate the domain knowledge through classical segmentation methods like Active Contours and global knowledge through semantic segmentation deep learning models.
翻訳日:2022-02-23 16:13:45 公開日:2022-02-22
# SADN:空間角デコレーションによる光場画像圧縮の学習

SADN: Learned Light Field Image Compression with Spatial-Angular Decorrelation ( http://arxiv.org/abs/2202.10837v1 )

ライセンス: Link先を確認
Kedeng Tong, Xin Jin, Chen Wang, Fan Jiang(参考訳) light field imageは没入型ビデオアプリケーションで最も有望なメディアの1つだ。 本稿では,高効率光場画像圧縮のための新しい端から端までの空間角デコラーネットワーク(SADN)を提案する。 光場画像における空間的整合性または角的整合性を利用する既存の方法とは異なり、SADNは空間的角的相互作用における拡張畳み込みとストライド畳み込みによって角的および空間的情報を分離し、空間的および角的情報を共同で圧縮する特徴融合を行う。 安定でロバストなアルゴリズムをトレーニングするために、7549個のライトフィールドイメージからなる大規模データセットを提案し、構築した。 提案手法は, H.266/VVC と H.265/HEVC に対して, それぞれ2.137倍, 2.849倍の圧縮効率を実現する。 また、エンド・ツー・エンドの画像圧縮ネットワークを平均79.6%削減し、主観的品質と光界の整合性が向上した。

Light field image becomes one of the most promising media types for immersive video applications. In this paper, we propose a novel end-to-end spatial-angular-deco rrelated network (SADN) for high-efficiency light field image compression. Different from the existing methods that exploit either spatial or angular consistency in the light field image, SADN decouples the angular and spatial information by dilation convolution and stride convolution in spatial-angular interaction, and performs feature fusion to compress spatial and angular information jointly. To train a stable and robust algorithm, a large-scale dataset consisting of 7549 light field images is proposed and built. The proposed method provides 2.137 times and 2.849 times higher compression efficiency relative to H.266/VVC and H.265/HEVC inter coding, respectively. It also outperforms the end-to-end image compression networks by an average of 79.6% bitrate saving with much higher subjective quality and light field consistency.
翻訳日:2022-02-23 16:13:20 公開日:2022-02-22
# 仮想物体のピック&プレースのためのハンドジェスチャとコントローラーの比較

Comparing Controller With the Hand Gestures Pinch and Grab for Picking Up and Placing Virtual Objects ( http://arxiv.org/abs/2202.10964v1 )

ライセンス: Link先を確認
Alexander Sch\"afer, Gerd Reis, Didier Stricker(参考訳) 仮想オブジェクトのグラビングは、Augmented、Virtual、Mixed Realityアプリケーションに必要なタスクの1つである。 現代のアプリケーションは、通常、単純なピンチジェスチャーを使ってオブジェクトをつかみ、移動させる。 しかし、ピンチで物を拾うことには欠点がある。 これはオブジェクトを拾い上げる非自然なジェスチャーであり、親指とインデックスで実行される他のジェスチャーの実装を防止することができる。 したがって、多くのアプリケーションにとって最適な選択ではない。 本研究では,仮想オブジェクトの把持と配置の異なる実装を提案し,比較する。 提案手法の性能と精度を計測・比較した。

Grabbing virtual objects is one of the essential tasks for Augmented, Virtual, and Mixed Reality applications. Modern applications usually use a simple pinch gesture for grabbing and moving objects. However, picking up objects by pinching has disadvantages. It can be an unnatural gesture to pick up objects and prevents the implementation of other gestures which would be performed with thumb and index. Therefore it is not the optimal choice for many applications. In this work, different implementations for grabbing and placing virtual objects are proposed and compared. Performance and accuracy of the proposed techniques are measured and compared.
翻訳日:2022-02-23 16:13:04 公開日:2022-02-22
# (参考訳) 不均一因果効果の個人差分推定 [全文訳有]

Differentially Private Estimation of Heterogeneous Causal Effects ( http://arxiv.org/abs/2202.11043v1 )

ライセンス: CC BY 4.0
Fengshi Niu, Harsha Nori, Brian Quistorff, Rich Caruana, Donald Ngwe, Aadharsh Kannan(参考訳) 医療や社会科学などの領域における異質な治療効果の推定には、プライバシを保護することが重要な機密データを必要とすることが多い。 本稿では,条件付き平均治療効果 (CATE) を差分プライバシー (DP) 保証で推定するための一般的なメタアルゴリズムを提案する。 我々のメタアルゴリズムは、SラーナーやDRやRラーナーのようなより複雑な多段推定器のような単純な単段CATE推定器で動作する。 我々は、メタアルゴリズムにおけるサンプル分割と、差分プライバシーの並列構成特性を利用して、厳密なプライバシー分析を行う。 本稿では,DP-EBMをベース学習者とする手法を提案する。 DP-EBMは、プライバシー保証付き解釈可能な高精度モデルであり、DPノイズが学習因果モデルに与える影響を直接観察することができる。 実験の結果,多段階CATE推定器は単一段階CATEやATE推定器よりも精度の低下が大きいことが示され,差分プライバシーによる精度低下の大部分は,治療効果の偏りではなく,ばらつきの増加によるものであることが示唆された。

Estimating heterogeneous treatment effects in domains such as healthcare or social science often involves sensitive data where protecting privacy is important. We introduce a general meta-algorithm for estimating conditional average treatment effects (CATE) with differential privacy (DP) guarantees. Our meta-algorithm can work with simple, single-stage CATE estimators such as S-learner and more complex multi-stage estimators such as DR and R-learner. We perform a tight privacy analysis by taking advantage of sample splitting in our meta-algorithm and the parallel composition property of differential privacy. In this paper, we implement our approach using DP-EBMs as the base learner. DP-EBMs are interpretable, high-accuracy models with privacy guarantees, which allow us to directly observe the impact of DP noise on the learned causal model. Our experiments show that multi-stage CATE estimators incur larger accuracy loss than single-stage CATE or ATE estimators and that most of the accuracy loss from differential privacy is due to an increase in variance, not biased estimates of treatment effects.
翻訳日:2022-02-23 16:11:17 公開日:2022-02-22
# 3次元医用画像に対する多目的2重単純meshに基づく変形可能な画像登録 --概念実証-

Multi-Objective Dual Simplex-Mesh Based Deformable Image Registration for 3D Medical Images -- Proof of Concept ( http://arxiv.org/abs/2202.11001v1 )

ライセンス: Link先を確認
Georgios Andreadis, Peter A.N. Bosman, Tanja Alderliesten(参考訳) 医用画像解析において、変形可能な画像登録による画像間の情報伝達を信頼性・物理的に高精度に行うことが課題である。 既存の手法には2つの欠点がある: 1つは、各特定の登録問題に対する広範囲な事前パラメータチューニングが必要であり、もう1つは、画像間の大きな変形やコンテンツミスマッチを捉えるのが困難である。 しかし、両方の欠点に対する潜在的な解決策の基礎を築いた開発がある。 第1の欠点として、Real-Valued Gene-pool Optimal Mixing Evolutionary Algorithm (RV-GOMEA) を用いた多目的最適化手法が、アルゴリズムの1ランで2次元画像の多様な登録を生成できることが示されている。 これにより、ユーザーはその後に登録を選択し、事前チューニングの必要性を取り除くことができる。 2つ目の欠点として、デュアルダイナミックグリッド変換モデルが2次元画像の大きな違いを捉えるのに有効であることが証明された。 これらの2つの開発はGPU並列化によって加速され、大きなスピードアップを実現している。 この高速化バージョンに基づいて、アプローチを3D画像に拡張できるようになった。 本研究は,多目的3次元変形可能な画像登録のための最初の手法として,単純メッシュに基づく3次元2次元グリッド変換モデルを導入するとともに,アノテーション付き誘導情報とマルチレゾリューションスキームを組み込んだものである。 概念実証プロトタイプは, 合成および臨床の3次元登録問題に対して有望な結果を示し, 生体力学的特性を登録に含む新しい洞察力のある方法の基礎を築いた。

Reliably and physically accurately transferring information between images through deformable image registration with large anatomical differences is an open challenge in medical image analysis. Most existing methods have two key shortcomings: first, they require extensive up-front parameter tuning to each specific registration problem, and second, they have difficulty capturing large deformations and content mismatches between images. There have however been developments that have laid the foundation for potential solutions to both shortcomings. Towards the first shortcoming, a multi-objective optimization approach using the Real-Valued Gene-pool Optimal Mixing Evolutionary Algorithm (RV-GOMEA) has been shown to be capable of producing a diverse set of registrations for 2D images in one run of the algorithm, representing different trade-offs between conflicting objectives in the registration problem. This allows the user to select a registration afterwards and removes the need for up-front tuning. Towards the second shortcoming, a dual-dynamic grid transformation model has proven effective at capturing large differences in 2D images. These two developments have recently been accelerated through GPU parallelization, delivering large speed-ups. Based on this accelerated version, it is now possible to extend the approach to 3D images. Concordantly, this work introduces the first method for multi-objective 3D deformable image registration, using a 3D dual-dynamic grid transformation model based on simplex meshes while still supporting the incorporation of annotated guidance information and multi-resolution schemes. Our proof-of-concept prototype shows promising results on synthetic and clinical 3D registration problems, forming the foundation for a new, insightful method that can include bio-mechanical properties in the registration.
翻訳日:2022-02-23 15:48:28 公開日:2022-02-22
# オンライン広告におけるクリックスルーレート予測:文献レビュー

Click-Through Rate Prediction in Online Advertising: A Literature Review ( http://arxiv.org/abs/2202.10462v1 )

ライセンス: Link先を確認
Yanwu Yang and Panyu Zhai(参考訳) ユーザーが特定の広告をクリックする確率を予測することは、オンライン広告において一般的な問題であり、過去数十年で多くの研究が注目されている。 産業ニーズに駆り立てられた熱い研究のフロンティアとして、近年は広告CTR予測を改善するために使われる新しい学習モデルが増えている。 CTR予測の広告における様々な特定の問題に対処するアルゴリズム設計について、既存の研究は必要な詳細を提供しているが、方法論的進化とモデリングフレームワーク間の関係は無視されている。 しかしながら、私たちの知る限りでは、このトピックに関する包括的な調査はほとんどありません。 我々は、モデリングフレームワークに特化して、最先端および最新のCTR予測研究に関する体系的な文献レビューを行う。 具体的には,最新のCTR予測モデルについて,基本的なモデリングフレームワークとその拡張,アドバンテージとデメリット,CTR予測の性能評価を提示する。 さらに,CTR予測モデルの複雑さと特徴相互作用の順序,および各種データセットの性能比較について要約した。 さらに,今後の研究動向,主な課題,今後の展望について検討する。 このレビューは、この分野に関わりたいisおよびマーケティング学者に、基本的な知識と効率的なエントリポイントを提供することが期待されている。

Predicting the probability that a user will click on a specific advertisement has been a prevalent issue in online advertising, attracting much research attention in the past decades. As a hot research frontier driven by industrial needs, recent years have witnessed more and more novel learning models employed to improve advertising CTR prediction. Although extant research provides necessary details on algorithmic design for addressing a variety of specific problems in advertising CTR prediction, the methodological evolution and connections between modeling frameworks are precluded. However, to the best of our knowledge, there are few comprehensive surveys on this topic. We make a systematic literature review on state-of-the-art and latest CTR prediction research, with a special focus on modeling frameworks. Specifically, we give a classification of state-of-the-art CTR prediction models in the extant literature, within which basic modeling frameworks and their extensions, advantages and disadvantages, and performance assessment for CTR prediction are presented. Moreover, we summarize CTR prediction models with respect to the complexity and the order of feature interactions, and performance comparisons on various datasets. Furthermore, we identify current research trends, main challenges and potential future directions worthy of further explorations. This review is expected to provide fundamental knowledge and efficient entry points for IS and marketing scholars who want to engage in this area.
翻訳日:2022-02-23 15:47:23 公開日:2022-02-22
# 逐次情報設計:マルコフの説得プロセスとその効率的な強化学習

Sequential Information Design: Markov Persuasion Process and Its Efficient Reinforcement Learning ( http://arxiv.org/abs/2202.10678v1 )

ライセンス: Link先を確認
Jibang Wu, Zixuan Zhang, Zhe Feng, Zhaoran Wang, Zhuoran Yang, Michael I. Jordan, Haifeng Xu(参考訳) 今日の経済において、インターネットプラットフォームは、長期的な関心をギグサービス提供者のインセンティブに合わせるために、シーケンシャルな情報設計の問題を考えることが重要である。 本稿では,送信者が情報的優位性をもって,送信者の累積的効用を最大化する行動を,先行関数や実用関数の異なる有限地平線マルコフ環境において実行しようとする,逐次的情報設計の新しいモデルであるマルコフ説得プロセス(mpps)を提案する。 したがって、MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。 しかしながら、モデルが知られている人口レベルでは、最適(resp)を効率的に決定できることが判明した。 $\epsilon$-optimal) 有限の状態と結果を持つポリシーはベルマン方程式の修正された定式化によって得られる。 我々の主な技術的貢献は、オンライン強化学習(RL)環境下でMPPを研究することであり、その目的は、送信者のユーティリティ機能、事前分布、マルコフ遷移カーネルの知識を必要とせず、基礎となるMPPと対話することで最適なシグナル伝達ポリシーを学ぶことである。 我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。 我々のアルゴリズムは、サブ線形$\sqrt{T}$-regret上界を達成してサンプル効率を享受する。 さらに,提案手法と理論は,結果と状態の空間が広いmppsに対して関数近似により適用可能であり,線形設定下での成功を示す。

In today's economy, it becomes important for Internet platforms to consider the sequential information design problem to align its long term interest with incentives of the gig service providers. This paper proposes a novel model of sequential information design, namely the Markov persuasion processes (MPPs), where a sender, with informational advantage, seeks to persuade a stream of myopic receivers to take actions that maximizes the sender's cumulative utilities in a finite horizon Markovian environment with varying prior and utility functions. Planning in MPPs thus faces the unique challenge in finding a signaling policy that is simultaneously persuasive to the myopic receivers and inducing the optimal long-term cumulative utilities of the sender. Nevertheless, in the population level where the model is known, it turns out that we can efficiently determine the optimal (resp. $\epsilon$-optimal) policy with finite (resp. infinite) states and outcomes, through a modified formulation of the Bellman equation. Our main technical contribution is to study the MPP under the online reinforcement learning (RL) setting, where the goal is to learn the optimal signaling policy by interacting with with the underlying MPP, without the knowledge of the sender's utility functions, prior distributions, and the Markov transition kernels. We design a provably efficient no-regret learning algorithm, the Optimism-Pessimism Principle for Persuasion Process (OP4), which features a novel combination of both optimism and pessimism principles. Our algorithm enjoys sample efficiency by achieving a sublinear $\sqrt{T}$-regret upper bound. Furthermore, both our algorithm and theory can be applied to MPPs with large space of outcomes and states via function approximation, and we showcase such a success under the linear setting.
翻訳日:2022-02-23 15:46:52 公開日:2022-02-22
# 効率の良いランク学習のための蒸留ニューラルネットワーク

Distilled Neural Networks for Efficient Learning to Rank ( http://arxiv.org/abs/2202.10728v1 )

ライセンス: Link先を確認
F.M. Nardini, C. Rulli, S. Trani, R.Venturini(参考訳) 近年のLearning to Rankの研究は、回帰木の集合からニューラルネットワークを効果的に蒸留する可能性を示している。 この結果、ニューラルネットワークはランキングタスクにおける木に基づくアンサンブルの自然な競合となる。 それでもレグレッションツリーのアンサンブルは、特にCPU上でのスコアリングにおいて、効率と有効性の両方でニューラルモデルを上回っている。 本稿では,Distillation,Prunin g,Fast Matrix乗算の組み合わせを用いて,ニューラルスコアリング時間を高速化する手法を提案する。 我々は知識蒸留を用いて、回帰木の集合から浅いニューラルネットワークを学習する。 次に、最適化されたスパース行列乗算によって得られるニューラルネットワークの最も計算集約的な層を分割する効率指向のプルーニング手法を利用する。 さらに、高密度かつスパースな高性能行列乗算の研究により、所望の効率要件に適合するニューラルネットワークアーキテクチャを開発するのに役立つスコアリング時間予測モデルを開発した。 2つの公開学習ランクデータセットに関する総合的な実験により、新しいアプローチで生成されたニューラルネットワークは、木に基づくアンサンブルと比較した場合、有効効率のトレードオフの任意の点で競争力があり、ランキング品質に影響を与えることなく最大4倍のスコアリングタイムスピードアップを提供する。

Recent studies in Learning to Rank have shown the possibility to effectively distill a neural network from an ensemble of regression trees. This result leads neural networks to become a natural competitor of tree-based ensembles on the ranking task. Nevertheless, ensembles of regression trees outperform neural models both in terms of efficiency and effectiveness, particularly when scoring on CPU. In this paper, we propose an approach for speeding up neural scoring time by applying a combination of Distillation, Pruning and Fast Matrix multiplication. We employ knowledge distillation to learn shallow neural networks from an ensemble of regression trees. Then, we exploit an efficiency-oriented pruning technique that performs a sparsification of the most computationally-inte nsive layers of the neural network that is then scored with optimized sparse matrix multiplication. Moreover, by studying both dense and sparse high performance matrix multiplication, we develop a scoring time prediction model which helps in devising neural network architectures that match the desired efficiency requirements. Comprehensive experiments on two public learning-to-rank datasets show that neural networks produced with our novel approach are competitive at any point of the effectiveness-effici ency trade-off when compared with tree-based ensembles, providing up to 4x scoring time speed-up without affecting the ranking quality.
翻訳日:2022-02-23 15:46:18 公開日:2022-02-22
# 視認性のある再配置課題の解決のためのトランスポーター

Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks ( http://arxiv.org/abs/2202.10765v1 )

ライセンス: Link先を確認
Hongtao Wu, Jikai Ye, Xin Meng, Chris Paxton, Gregory Chirikjian(参考訳) 再配置タスクは、インテリジェントなロボット操作にとって重要な課題として特定されているが、未知の構造を正確に構築できる手法はほとんどない。 本稿では,効率よく学習可能なピック・アンド・プレイス操作のための視覚的フォレストモデルを提案する。 さらに,最先端の模倣学習手法であるgoal-conditioned transporter networksを基盤としたマルチモーダルアクションプロポーザルモジュールを開発した。 提案手法であるTransporters with Visual Foresight (TVF) は,画像データからタスクプランニングが可能であり,少数の専門家によるデモンストレーションだけで,マルチタスク学習とゼロショット一般化を実現することができる。 tvfは、シミュレーションと実際のロボット実験の訓練と未発見のタスクの両方において、最先端の模倣学習手法の性能を向上させることができる。 特に、未確認タスクにおける平均成功率は、シミュレーション実験では55.0%から77.9%、実際のロボット実験では30%から63.3%に改善される。 詳細はプロジェクトのwebサイトにある。 https://chirikjianla b.github.io/tvf/

Rearrangement tasks have been identified as a crucial challenge for intelligent robotic manipulation, but few methods allow for precise construction of unseen structures. We propose a visual foresight model for pick-and-place manipulation which is able to learn efficiently. In addition, we develop a multi-modal action proposal module which builds on Goal-Conditioned Transporter Networks, a state-of-the-art imitation learning method. Our method, Transporters with Visual Foresight (TVF), enables task planning from image data and is able to achieve multi-task learning and zero-shot generalization to unseen tasks with only a handful of expert demonstrations. TVF is able to improve the performance of a state-of-the-art imitation learning method on both training and unseen tasks in simulation and real robot experiments. In particular, the average success rate on unseen tasks improves from 55.0% to 77.9% in simulation experiments and from 30% to 63.3% in real robot experiments when given only tens of expert demonstrations. More details can be found on our project website: https://chirikjianla b.github.io/tvf/
翻訳日:2022-02-23 15:44:31 公開日:2022-02-22
# aiにおける種主義バイアス --ai応用が動物に対する差別と不公平な結果を持続させる方法

Speciesist bias in AI -- How AI applications perpetuate discrimination and unfair outcomes against animals ( http://arxiv.org/abs/2202.10848v1 )

ライセンス: Link先を確認
Thilo Hagendorff, Leonie Bossert, Tse Yip Fai, Peter Singer(参考訳) aiアプリケーションを公平にするために、データとアルゴリズムの両方のバイアスを減らすために、膨大な努力がなされている。 これらの取り組みは、偏りのあるアルゴリズムによる意思決定が女性や有色人種、少数民族に害を与えた、様々な著名な事例によって推進されている。 しかし、AIフェアネス分野は依然として盲点、すなわち動物に対する差別に敏感である。 本稿では,'種主義バイアス'を最初に記述し,いくつかの異なるaiシステムで検証する。 種主義バイアスは、種主義パターンが普及するデータセットに基づいてトレーニングされたAIアプリケーションによって学習され、固化される。 これらのパターンは、画像認識システム、大規模言語モデル、レコメンダシステムで見ることができる。 そのため、現在、AI技術は動物に対する暴力の永続性と正常化に重要な役割を果たしている。 これは、AIフェアネスフレームワークがスコープを広げ、種主義バイアスの緩和措置を含む場合にのみ変更できる。 本稿は、この点においてAIコミュニティに対処し、動物、特に養殖動物に影響を及ぼす暴力の増大または減少にAIシステムが与える影響を強調している。

Massive efforts are made to reduce biases in both data and algorithms in order to render AI applications fair. These efforts are propelled by various high-profile cases where biased algorithmic decision-making caused harm to women, people of color, minorities, etc. However, the AI fairness field still succumbs to a blind spot, namely its insensitivity to discrimination against animals. This paper is the first to describe the 'speciesist bias' and investigate it in several different AI systems. Speciesist biases are learned and solidified by AI applications when they are trained on datasets in which speciesist patterns prevail. These patterns can be found in image recognition systems, large language models, and recommender systems. Therefore, AI technologies currently play a significant role in perpetuating and normalizing violence against animals. This can only be changed when AI fairness frameworks widen their scope and include mitigation measures for speciesist biases. This paper addresses the AI community in this regard and stresses the influence AI systems can have on either increasing or reducing the violence that is inflicted on animals, and especially on farmed animals.
翻訳日:2022-02-23 15:44:15 公開日:2022-02-22
# 電子カルテにおけるアルツハイマー病発症前の医療条件によるアルツハイマー病の時間的亜型

Temporal Subtyping of Alzheimer's Disease Using Medical Conditions Preceding Alzheimer's Disease Onset in Electronic Health Records ( http://arxiv.org/abs/2202.10991v1 )

ライセンス: Link先を確認
Zhe He, Shubo Tian, Arslan Erdengasileng, Neil Charness, Jiang Bian(参考訳) アルツハイマー病(AD)の亜型は、診断、治療、予後、疾患管理を容易にする。 臨床試験を通じて、新しい予防および治療戦略のテストを支援することもできる。 本研究では,1Florida Data Trustの患者29,922人を対象に,診断と症状の経時的EHRデータを4つのサブタイプに分類し,スペクトルクラスタリングを行った。 これらのサブタイプは、最初のAD診断の前に他の疾患の進行パターンが異なる。 また, 各種統計検査の結果から, これらのサブタイプはAD診断後の人口動態, 死亡率, 処方薬と大きく異なる。 この研究は、ADの早期発見とパーソナライズされた治療、およびADの臨床試験におけるデータ駆動型汎用性評価を促進する可能性がある。

Subtyping of Alzheimer's disease (AD) can facilitate diagnosis, treatment, prognosis and disease management. It can also support the testing of new prevention and treatment strategies through clinical trials. In this study, we employed spectral clustering to cluster 29,922 AD patients in the OneFlorida Data Trust using their longitudinal EHR data of diagnosis and conditions into four subtypes. These subtypes exhibit different patterns of progression of other conditions prior to the first AD diagnosis. In addition, according to the results of various statistical tests, these subtypes are also significantly different with respect to demographics, mortality, and prescription medications after the AD diagnosis. This study could potentially facilitate early detection and personalized treatment of AD as well as data-driven generalizability assessment of clinical trials for AD.
翻訳日:2022-02-23 15:43:37 公開日:2022-02-22
# 逐次モデルに基づく最適化における木ベースサロゲートモデルによる不確実性推定について

On Uncertainty Estimation by Tree-based Surrogate Models in Sequential Model-based Optimization ( http://arxiv.org/abs/2202.10669v1 )

ライセンス: Link先を確認
Jungtaek Kim, Seungjin Choi(参考訳) 逐次モデルに基づく最適化は評価履歴を持つサロゲートモデルを構築して候補点を順次選択し、ブラックボックス最適化問題を解決する。 ガウス過程(gp)回帰は、予測の不確かさを解析的に計算できるため、代理モデルとして一般的な選択である。 一方、ランダム化された木々のアンサンブルは別の選択肢であり、連続/離散混合変数の扱いのスケーラビリティと容易さから、GPよりも実践的な利点がある。 本稿では,予測不確実性推定の観点から,ランダム化木の様々なアンサンブルを再検討する。 そこで,本研究では,ランダム化木をランダムに分割して構築するブートストラップ型サンプル構築に,オーバーサンプリングを用いたバッグを用いたランダム化木群を新たに構築する手法を提案する。 実験結果から, 既存の樹木モデルに対するBwO林の有効性と性能が示された。

Sequential model-based optimization sequentially selects a candidate point by constructing a surrogate model with the history of evaluations, to solve a black-box optimization problem. Gaussian process (GP) regression is a popular choice as a surrogate model, because of its capability of calculating prediction uncertainty analytically. On the other hand, an ensemble of randomized trees is another option and has practical merits over GPs due to its scalability and easiness of handling continuous/discrete mixed variables. In this paper we revisit various ensembles of randomized trees to investigate their behavior in the perspective of prediction uncertainty estimation. Then, we propose a new way of constructing an ensemble of randomized trees, referred to as BwO forest, where bagging with oversampling is employed to construct bootstrapped samples that are used to build randomized trees with random splitting. Experimental results demonstrate the validity and good performance of BwO forest over existing tree-based models in various circumstances.
翻訳日:2022-02-23 15:43:20 公開日:2022-02-22
# CD-ROM:相補的深部再現順序モデル

CD-ROM: Complementary Deep-Reduced Order Model ( http://arxiv.org/abs/2202.10746v1 )

ライセンス: Link先を確認
Emmanuel Menier, Michele Alessandro Bucci, Mouadh Yagoubi, Lionel Mathelin, Marc Schoenauer(参考訳) POD-Galerkin法によるモデルオーダーの削減は、物理問題を解く際の計算効率の面で劇的に向上する。 しかし、Navier-Stokes方程式のような非線型高次元力学系への適用性は制限され、不正確で不安定なモデルが生じることが示されている。 本稿では,古典的なPOD-Galerkinリミットオーダーモデル(ROM)に対するクロージャモデリング手法を提案する。 マルチ層パーセプトロン(MLP)を用いて,最近提案されたNeural ODE法を用いて連続時間閉鎖モデルを学習する。 タケンの定理とモリ・ズワンジッヒ形式主義に着想を得て、還元モデルにおける非マルコフ効果をモデル化するために遅延微分方程式アーキテクチャでROMを拡張する。 提案したモデルであるCD-ROM(Complementary Deep-Reduced Order Model)は,システムの過去の状態からの情報を保持し,不完全な低減力学を補正する。 このモデルは、任意の古典的な時間マーチングスキームを用いて、常微分方程式の系として時間的に統合することができる。 トレーニング中に見つからない構成であっても、2つのCFD例でPOD-Galerkinモデルの精度を向上させるためのCD-ROMアプローチの有効性を示す。

Model order reduction through the POD-Galerkin method can lead to dramatic gains in terms of computational efficiency in solving physical problems. However, the applicability of the method to non linear high-dimensional dynamical systems such as the Navier-Stokes equations has been shown to be limited, producing inaccurate and sometimes unstable models. This paper proposes a closure modeling approach for classical POD-Galerkin reduced order models (ROM). We use multi layer perceptrons (MLP) to learn a continuous in time closure model through the recently proposed Neural ODE method. Inspired by Taken's theorem as well as the Mori-Zwanzig formalism, we augment ROMs with a delay differential equation architecture to model non-Markovian effects in reduced models. The proposed model, called CD-ROM (Complementary Deep-Reduced Order Model) is able to retain information from past states of the system and use it to correct the imperfect reduced dynamics. The model can be integrated in time as a system of ordinary differential equations using any classical time marching scheme. We demonstrate the ability of our CD-ROM approach to improve the accuracy of POD-Galerkin models on two CFD examples, even in configurations unseen during training.
翻訳日:2022-02-23 15:43:03 公開日:2022-02-22
# 規則化鏡による明示的規則化

Explicit Regularization via Regularizer Mirror Descent ( http://arxiv.org/abs/2202.10788v1 )

ライセンス: Link先を確認
Navid Azizan, Sahin Lale, and Babak Hassibi(参考訳) トレーニングデータの完全な補間にもかかわらず、ディープラーニング(DNN)は、学習アルゴリズムによって引き起こされる「単純正則化」のために、しばしばかなりうまく一般化することができる。 にもかかわらず、特にデータが破損した場合の過度な適合を避けるために「明示的正則化(explicit regularization)」のような様々な形式がしばしば用いられる。 明示的な正規化にはいくつかの課題があり、特に不明瞭な収束特性がある。 確率的ミラー降下 (smd) アルゴリズムの収束特性に触発されて, 正則化によるdnnの訓練法として, 正則化ミラー降下 (rmd) を提案する。 高度にパラメータ化されたDNNでは、SMDはトレーニングデータを同時に補間し、重みの潜在的な機能を最小化する。 RMDはトレーニング損失の合計である標準コストと重量の凸正規化器から始まる。 このコストを"拡張された"過パラメータネットワークのポテンシャルと解釈し、SMDの収率を適用する。 その結果、MD は SMD の性質を継承し、このコストの最小化に確実に「閉じた」点に収束する。 RMDは確率勾配降下(SGD)や重み減衰と計算的に同等であり、同じ方法で並列化可能である。 その結果, RMD の一般化性能は, SGD とウェイト崩壊のどちらよりも著しく優れており, 加重の標準である $\ell_2$ を暗黙的に, 明示的に正則化することが示唆された。 RMDはまた、特に連続学習に関係のある所望の重みベクトルに重みを正規化するためにも用いられる。

Despite perfectly interpolating the training data, deep neural networks (DNNs) can often generalize fairly well, in part due to the "implicit regularization" induced by the learning algorithm. Nonetheless, various forms of regularization, such as "explicit regularization" (via weight decay), are often used to avoid overfitting, especially when the data is corrupted. There are several challenges with explicit regularization, most notably unclear convergence properties. Inspired by convergence properties of stochastic mirror descent (SMD) algorithms, we propose a new method for training DNNs with regularization, called regularizer mirror descent (RMD). In highly overparameterized DNNs, SMD simultaneously interpolates the training data and minimizes a certain potential function of the weights. RMD starts with a standard cost which is the sum of the training loss and a convex regularizer of the weights. Reinterpreting this cost as the potential of an "augmented" overparameterized network and applying SMD yields RMD. As a result, RMD inherits the properties of SMD and provably converges to a point "close" to the minimizer of this cost. RMD is computationally comparable to stochastic gradient descent (SGD) and weight decay, and is parallelizable in the same manner. Our experimental results on training sets with various levels of corruption suggest that the generalization performance of RMD is remarkably robust and significantly better than both SGD and weight decay, which implicitly and explicitly regularize the $\ell_2$ norm of the weights. RMD can also be used to regularize the weights to a desired weight vector, which is particularly relevant for continual learning.
翻訳日:2022-02-23 15:42:44 公開日:2022-02-22
# 配車プラットフォームにおける時間および空間依存実験のポリシー評価

Policy Evaluation for Temporal and/or Spatial Dependent Experiments in Ride-sourcing Platforms ( http://arxiv.org/abs/2202.10887v1 )

ライセンス: Link先を確認
Shikai Luo, Ying Yang, Chengchun Shi, Fang Yao, Jieping Ye, Hongtu Zhu(参考訳) a/bテストに基づくポリシー評価はデジタルマーケティングに大きな関心を集めているが、ライドソーシングプラットフォーム(例えばuberやdidi)における評価は、主に時間的および/または空間的依存的な実験の複雑な構造のため、あまり研究されていない。 本研究の目的は, 配車プラットフォームにおける政策評価により, プラットフォーム政策と利害関係の因果関係を, スイッチバック設計の下で確立することである。 時間依存実験における動的治療効果を捉えるために, 時間変化係数決定過程(vcdp)モデルに基づく新しい潜在結果フレームワークを提案する。 さらに、直接効果(DE)と間接効果(IE)の和として分解することで、平均治療効果を特徴づける。 我々は,De と IE の双方に対する推定および推論手法を開発した。 さらに,時空間依存実験に対処する時空間VCDPを提案する。 両方のVCDPモデルに対して、推定および推論手順の統計的性質(例えば、弱い収束と漸近力)を確立する。 提案手法の有限サンプル性能を調べるために,広範囲なシミュレーションを行った。 我々は,当社のVCDPモデルが,Didiにおける各種派遣・処分政策の政策評価の改善にどう役立つかを検討する。

Policy evaluation based on A/B testing has attracted considerable interest in digital marketing, but such evaluation in ride-sourcing platforms (e.g., Uber and Didi) is not well studied primarily due to the complex structure of their temporal and/or spatial dependent experiments. Motivated by policy evaluation in ride-sourcing platforms, the aim of this paper is to establish causal relationship between platform's policies and outcomes of interest under a switchback design. We propose a novel potential outcome framework based on a temporal varying coefficient decision process (VCDP) model to capture the dynamic treatment effects in temporal dependent experiments. We further characterize the average treatment effect by decomposing it as the sum of direct effect (DE) and indirect effect (IE). We develop estimation and inference procedures for both DE and IE. Furthermore, we propose a spatio-temporal VCDP to deal with spatiotemporal dependent experiments. For both VCDP models, we establish the statistical properties (e.g., weak convergence and asymptotic power) of our estimation and inference procedures. We conduct extensive simulations to investigate the finite-sample performance of the proposed estimation and inference procedures. We examine how our VCDP models can help improve policy evaluation for various dispatching and dispositioning policies in Didi.
翻訳日:2022-02-23 15:42:16 公開日:2022-02-22
# 時間-事象の知覚による擬似表現

Counterfactual Phenotyping with Censored Time-to-Events ( http://arxiv.org/abs/2202.11089v1 )

ライセンス: Link先を確認
Chirag Nagpal, Mononito Goswami, Keith Dufendach and Artur Dubrawski(参考訳) 実世界臨床介入の治療効果の推定には、死亡までの時間や再病院化、あるいは検閲の対象となる可能性のある複合事象などの継続的な成果に取り組むことが含まれる。 このようなシナリオにおける因果推論は、評価される介入の効果からベースライン生存率に影響を与える、相反する生理的特徴の影響を分離する必要がある。 本稿では,個人が異なる応答特性を持つ潜在クラスターに属することができることを示すことにより,不均質な処理効果をモデル化する潜在変数アプローチを提案する。 この潜伏構造は生存率を媒介し,介入の効果を決定するのに有効であることを示す。 本研究は,多種多彩なランダム化臨床試験を対象とし,心血管疾患のリスクを軽減するための適切な治療法の評価を行った。

Estimation of treatment efficacy of real-world clinical interventions involves working with continuous outcomes such as time-to-death, re-hospitalization, or a composite event that may be subject to censoring. Causal reasoning in such scenarios requires decoupling the effects of confounding physiological characteristics that affect baseline survival rates from the effects of the interventions being assessed. In this paper, we present a latent variable approach to model heterogeneous treatment effects by proposing that an individual can belong to one of latent clusters with distinct response characteristics. We show that this latent structure can mediate the base survival rates and helps determine the effects of an intervention. We demonstrate the ability of our approach to discover actionable phenotypes of individuals based on their treatment response on multiple large randomized clinical trials originally conducted to assess appropriate treatments to reduce cardiovascular risk.
翻訳日:2022-02-23 15:41:44 公開日:2022-02-22
# 至る所を通すメッセージ

Message passing all the way up ( http://arxiv.org/abs/2202.11097v1 )

ライセンス: Link先を確認
Petar Veli\v{c}kovi\'c(参考訳) メッセージパッシングフレームワークは、近年のグラフニューラルネットワーク(GNN)による大きな成功の基礎となっている。 その優雅さにもかかわらず、与えられた入力グラフに対して確実に解決できない問題が数多く存在する。 このことは、メッセージパッシング(メッセージパッシング)を越えて、これらの制限に苦しめられていないGNN(通常の言論ではユビキタスになった用語)を構築するという研究の急増につながった。しかし、これらの手法は本当にメッセージパッシングを超えて移行したのだろうか?このポジションペーパーでは、特にグラフ表現学習を初心者に教える際に、この用語を使うことの危険性について論じる。 グラフ上で計算したい関心のある関数は、あらゆる可能性において、ペアワイズメッセージパッシング(ペアワイズメッセージパッシング)を使って表現することができます。 生産的な議論を始めるために、私は"beyond message passing"をもっと控えめな"augmented message passing"に置き換えることを提案します。

The message passing framework is the foundation of the immense success enjoyed by graph neural networks (GNNs) in recent years. In spite of its elegance, there exist many problems it provably cannot solve over given input graphs. This has led to a surge of research on going "beyond message passing", building GNNs which do not suffer from those limitations -- a term which has become ubiquitous in regular discourse. However, have those methods truly moved beyond message passing? In this position paper, I argue about the dangers of using this term -- especially when teaching graph representation learning to newcomers. I show that any function of interest we want to compute over graphs can, in all likelihood, be expressed using pairwise message passing -- just over a potentially modified graph, and argue how most practical implementations subtly do this kind of trick anyway. Hoping to initiate a productive discussion, I propose replacing "beyond message passing" with a more tame term, "augmented message passing".
翻訳日:2022-02-23 15:41:29 公開日:2022-02-22
# 生きていくのか? ディープフェイク時代における顔の生体認証の安全性再考

Seeing is Living? Rethinking the Security of Facial Liveness Verification in the Deepfake Era ( http://arxiv.org/abs/2202.10673v1 )

ライセンス: Link先を確認
Changjiang Li, Li Wang, Shouling Ji, Xuhong Zhang, Zhaohan Xi, Shanqing Guo, Ting Wang(参考訳) Facial Liveness Verification (FLV)は多くのセキュリティに敏感なドメインでアイデンティティ認証に広く使われ、主要なクラウドベンダーによってPaaS(Platform-as-a-S ervice)として提供されている。 しかし、合成メディア技術(例えばディープフェイク)の急速な進歩により、FLVのセキュリティは前例のない課題に直面している。 本稿では,このギャップを埋めるために,実環境におけるFLVの安全性に関する最初の体系的研究を行う。 具体的には、FLVのカスタマイズ可能な自動セキュリティ評価を可能にする新しいディープフェイク攻撃フレームワークであるLiveBuggerを紹介する。 LiveBuggerを活用することで、代表的FLVプラットフォームの総合的な実証評価を行い、興味深い結果を得た。 例えば、ほとんどのFLV APIはアンチディープフェイク検出を使用せず、そのような防御を行う場合でも、その効果は関係している(例えば、高品質な合成ビデオを検出するが、低品質なビデオを検出することができない)。 次に、LiveBuggerの攻撃性能に影響を与える要因を詳細に分析する。 a) FLVの偏見(性別又は人種など)を被害者の選択に利用することができる。 ロ 逆行訓練により、FLVをバイパスすることがより効果的になる。 c)入力品質は、FLVをバイパスする異なるディープフェイク技術に様々な影響を及ぼす。 これらの結果に基づき,攻撃成功率を最大70%向上できるカスタマイズされた2段階アプローチを提案する。 さらに、flvの代表的なアプリケーション(つまり、flv apiのクライアント)で概念実証攻撃を実行し、実際的な意味を説明する: apiの脆弱性のため、多くの下流アプリケーションはdeepfakeに弱い。 最後に,FLVの安全性向上対策について検討する。 以上の結果が対応するベンダーによって確認された。

Facial Liveness Verification (FLV) is widely used for identity authentication in many security-sensitive domains and offered as Platform-as-a-Servic e (PaaS) by leading cloud vendors. Yet, with the rapid advances in synthetic media techniques (e.g., deepfake), the security of FLV is facing unprecedented challenges, about which little is known thus far. To bridge this gap, in this paper, we conduct the first systematic study on the security of FLV in real-world settings. Specifically, we present LiveBugger, a new deepfake-powered attack framework that enables customizable, automated security evaluation of FLV. Leveraging LiveBugger, we perform a comprehensive empirical assessment of representative FLV platforms, leading to a set of interesting findings. For instance, most FLV APIs do not use anti-deepfake detection; even for those with such defenses, their effectiveness is concerning (e.g., it may detect high-quality synthesized videos but fail to detect low-quality ones). We then conduct an in-depth analysis of the factors impacting the attack performance of LiveBugger: a) the bias (e.g., gender or race) in FLV can be exploited to select victims; b) adversarial training makes deepfake more effective to bypass FLV; c) the input quality has a varying influence on different deepfake techniques to bypass FLV. Based on these findings, we propose a customized, two-stage approach that can boost the attack success rate by up to 70%. Further, we run proof-of-concept attacks on several representative applications of FLV (i.e., the clients of FLV APIs) to illustrate the practical implications: due to the vulnerability of the APIs, many downstream applications are vulnerable to deepfake. Finally, we discuss potential countermeasures to improve the security of FLV. Our findings have been confirmed by the corresponding vendors.
翻訳日:2022-02-23 15:40:47 公開日:2022-02-22
# MODISランド温度超解法のための畳み込みニューラルネットワークモデリング

Convolutional Neural Network Modelling for MODIS Land Surface Temperature Super-Resolution ( http://arxiv.org/abs/2202.10753v1 )

ライセンス: Link先を確認
Binh Minh Nguyen, Ganglin Tian, Minh-Triet Vo, Aur\'elie Michel, Thomas Corpetti (CNRS, LETG), Carlos Granero-Belinchon (Lab-STICC_OSE, IMT Atlantique - MEE)(参考訳) 現在、熱赤外衛星リモートセンサーは、特にランドサーフェス温度(LST)において、非常に興味深い情報を大規模に抽出することができる。 しかし、これらのデータは、微細なスケールでの分析を阻害する空間的および/または時間的解像度に制限される。 例えば、MODIS衛星は1Kmの空間分解能を持つ毎日の取得を提供しており、農業区画のような非常に異質な環境を扱うには不十分である。 したがって、画像超解像はMODIS LSTをよりうまく活用するための重要な課題である。 この問題はこの論文で取り組まれている。 我々はMODIS LST 単一画像の超高解像度化のための深層学習に基づくアルゴリズムである Multi-Residual U-Net を導入する。 提案するネットワークはU-Netアーキテクチャの修正版であり,1画素あたり1Kmから250mまでの入力LST画像を超解き放つことを目的としている。 その結果,我々のマルチレジデンシャルなU-Netは,他の最先端手法よりも優れていた。

Nowadays, thermal infrared satellite remote sensors enable to extract very interesting information at large scale, in particular Land Surface Temperature (LST). However such data are limited in spatial and/or temporal resolutions which prevents from an analysis at fine scales. For example, MODIS satellite provides daily acquisitions with 1Km spatial resolutions which is not sufficient to deal with highly heterogeneous environments as agricultural parcels. Therefore, image super-resolution is a crucial task to better exploit MODIS LSTs. This issue is tackled in this paper. We introduce a deep learning-based algorithm, named Multi-residual U-Net, for super-resolution of MODIS LST single-images. Our proposed network is a modified version of U-Net architecture, which aims at super-resolving the input LST image from 1Km to 250m per pixel. The results show that our Multi-residual U-Net outperforms other state-of-the-art methods.
翻訳日:2022-02-23 15:40:18 公開日:2022-02-22
# 不確実性 : エンド・ツー・エンドの暗黙的神経表現の不確実性定量化

UncertaINR: Uncertainty Quantification of End-to-End Implicit Neural Representations for Computed Tomography ( http://arxiv.org/abs/2202.10847v1 )

ライセンス: Link先を確認
Francisca Vasconcelos, Bobby He, Nalini Singh, Yee Whye Teh(参考訳) 暗黙的神経表現 (inrs) はシーン再構成とコンピュータグラフィックスにおいて印象的な結果をもたらしており、その性能は主に再構成精度で評価されている。 しかし, 再建問題が過小評価され, モデル予測が高感度診断に影響を及ぼす医療画像では, INR推論の不確実性定量化が重要である。 そこで我々は, 画像再構成のベイズ的再構成であるUncertaINRをCT(Computed tomography)のために検討した。 We test several Bayesian Deep Learning implementation of UncertaINR and found that they achieve well-calibrated uncertainty, while keep accuracy competitive with other classical, INR-based, and CNN-based reconstruction techniques。 最高のパフォーマンスのアプローチとは対照的に、UncertaINRは大規模なトレーニングデータセットを必要とせず、少数のバリデーションイメージのみを必要とする。

Implicit neural representations (INRs) have achieved impressive results for scene reconstruction and computer graphics, where their performance has primarily been assessed on reconstruction accuracy. However, in medical imaging, where the reconstruction problem is underdetermined and model predictions inform high-stakes diagnoses, uncertainty quantification of INR inference is critical. To that end, we study UncertaINR: a Bayesian reformulation of INR-based image reconstruction, for computed tomography (CT). We test several Bayesian deep learning implementations of UncertaINR and find that they achieve well-calibrated uncertainty, while retaining accuracy competitive with other classical, INR-based, and CNN-based reconstruction techniques. In contrast to the best-performing prior approaches, UncertaINR does not require a large training dataset, but only a handful of validation images.
翻訳日:2022-02-23 15:40:02 公開日:2022-02-22
# ノイズカーネルに基づくベイズ二次数の順序最適誤差境界

Order-Optimal Error Bounds for Noisy Kernel-Based Bayesian Quadrature ( http://arxiv.org/abs/2202.10615v1 )

ライセンス: Link先を確認
Xu Cai, Chi Thanh Lam, and Jonathan Scarlett(参考訳) 本稿では,ノイズの大きいベイズ二次関数(bq)のサンプル複雑性について検討し,ノイズの多いブラックボックスクエリに基づく積分を基礎関数に近似する。 我々は、RKHS がソボレフ類と同値であるようなパラメータ $\nu$ と dimension $d$ の組み合わせに焦点を当て、Mat\'ern-$\nu$ カーネルを持つ {\displaystyle {\em Reproduction Kernel Hilbert Space} (RKHS) 内の函数を考える。 この設定では、最良平均誤差に対して、ほぼ一致する上限と下限を提供する。 具体的には、ブラックボックスのクエリが分散$\sigma^2$を持つガウスノイズの対象となる場合、最大$t$のクエリ(適応サンプリングであっても)を行うアルゴリズムは$\omega(t^{-\frac{\nu}{d}-1} + \sigma t^{-\frac{1}{2}})$の平均絶対誤差を負わなければならず、最大$o(t^{-\frac{\nu}{d}-1} + \sigma t^{-\frac{1}{2}})$ の誤差を達成する非適応的アルゴリズムが存在する。 したがって、境界は順序最適であり、スケーリング法則の点において適応性ギャップがないことを示す。

In this paper, we study the sample complexity of {\em noisy Bayesian quadrature} (BQ), in which we seek to approximate an integral based on noisy black-box queries to the underlying function. We consider functions in a {\em Reproducing Kernel Hilbert Space} (RKHS) with the Mat\'ern-$\nu$ kernel, focusing on combinations of the parameter $\nu$ and dimension $d$ such that the RKHS is equivalent to a Sobolev class. In this setting, we provide near-matching upper and lower bounds on the best possible average error. Specifically, we find that when the black-box queries are subject to Gaussian noise having variance $\sigma^2$, any algorithm making at most $T$ queries (even with adaptive sampling) must incur a mean absolute error of $\Omega(T^{-\frac{\nu}{d}-1} + \sigma T^{-\frac{1}{2}})$, and there exists a non-adaptive algorithm attaining an error of at most $O(T^{-\frac{\nu}{d}-1} + \sigma T^{-\frac{1}{2}})$. Hence, the bounds are order-optimal, and establish that there is no adaptivity gap in terms of scaling laws.
翻訳日:2022-02-23 15:38:22 公開日:2022-02-22
# 共参照解決のための構成構文を組み込む

Incorporating Constituent Syntax for Coreference Resolution ( http://arxiv.org/abs/2202.10710v1 )

ライセンス: Link先を確認
Fan Jiang and Trevor Cohn(参考訳) 構文解析は、従来の統計機械学習ベースのシステムや最近提案されたニューラルモデルにおいて、構文木によってキャプチャされた長距離依存関係と構造化情報を統合することで、Coreference Resolutionの恩恵が示されている。 しかし、ほとんどの主要なシステムは依存木のみを使用する。 構成木は、ネストした多語句、余剰言語ラベル、アナフォラの検出に有用な階層構造など、重要な情報も符号化している。 本研究では,構成構文構造を組み込む単純なグラフベース手法を提案する。 さらに,高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討した。 そこで,構文木要素間の情報フローを実現するために,新しいメッセージ伝搬機構を提案する。 onnotes 5.0ベンチマークの英語と中国語の部分による実験では、提案モデルが強力なベースラインを上回ったり、新たな最先端のパフォーマンスを達成したりしています。 (コードはhttps://github.com/f antabulous-j/coref-c onstituent-graphで利用可能)

Syntax has been shown to benefit Coreference Resolution from incorporating long-range dependencies and structured information captured by syntax trees, either in traditional statistical machine learning based systems or recently proposed neural models. However, most leading systems use only dependency trees. We argue that constituent trees also encode important information, such as explicit span-boundary signals captured by nested multi-word phrases, extra linguistic labels and hierarchical structures useful for detecting anaphora. In this work, we propose a simple yet effective graph-based method to incorporate constituent syntactic structures. Moreover, we also explore to utilise higher-order neighbourhood information to encode rich structures in constituent trees. A novel message propagation mechanism is therefore proposed to enable information flow among elements in syntax trees. Experiments on the English and Chinese portions of OntoNotes 5.0 benchmark show that our proposed model either beats a strong baseline or achieves new state-of-the-art performance. (Code is available at https://github.com/F antabulous-J/Coref-C onstituent-Graph)
翻訳日:2022-02-23 15:37:49 公開日:2022-02-22
# 対話におけるブレークダウン識別を改善するための教師2名による半教師学習アプローチ

A Semi-Supervised Learning Approach with Two Teachers to Improve Breakdown Identification in Dialogues ( http://arxiv.org/abs/2202.10948v1 )

ライセンス: Link先を確認
Qian Lin, Hwee Tou Ng(参考訳) 進行中の対話におけるブレークダウンの特定は、コミュニケーション効率を改善するのに役立ちます。 このトピックに関するほとんどの先行研究は、分類モデルを学ぶために人間の注釈付きデータとデータ拡張に依存している。 品質ラベル付き対話データには人間のアノテーションが必要であり、通常は入手に費用がかかるが、ラベルなしデータは様々な情報源から収集しやすい。 本稿では,この課題に対処するための,教師・生徒の半教師型学習フレームワークを提案する。 本稿では,ラベル付きデータと乱ラベル付きデータで学習した教師を2名紹介する。 そこで,教師が2人の教師を雇い,教師の指導による学習を通して,ラベルなしデータのラベル付けを洗練させる。 提案手法により,学生は単教師のパフォーマンスよりも改善できる。 DBDC5とLearning to Identify Follow-Up Questions dataset LIFの実験結果から,我々のアプローチは従来のアプローチや教師付きおよび半教師付きベースライン手法よりも優れていることが示された。

Identifying breakdowns in ongoing dialogues helps to improve communication effectiveness. Most prior work on this topic relies on human annotated data and data augmentation to learn a classification model. While quality labeled dialogue data requires human annotation and is usually expensive to obtain, unlabeled data is easier to collect from various sources. In this paper, we propose a novel semi-supervised teacher-student learning framework to tackle this task. We introduce two teachers which are trained on labeled data and perturbed labeled data respectively. We leverage unlabeled data to improve classification in student training where we employ two teachers to refine the labeling of unlabeled data through teacher-student learning in a bootstrapping manner. Through our proposed training approach, the student can achieve improvements over single-teacher performance. Experimental results on the Dialogue Breakdown Detection Challenge dataset DBDC5 and Learning to Identify Follow-Up Questions dataset LIF show that our approach outperforms all previous published approaches as well as other supervised and semi-supervised baseline methods.
翻訳日:2022-02-23 15:37:31 公開日:2022-02-22
# 抽象要約のためのクラスタパターンの学習

Learning Cluster Patterns for Abstractive Summarization ( http://arxiv.org/abs/2202.10967v1 )

ライセンス: Link先を確認
Sung-Guk Jo, Jeong-Jae Kim and Byung-Won On(参考訳) 現在、BERTSUMやBARTのような事前訓練されたシーケンス・ツー・シーケンスモデルは、抽象的な要約の最先端の結果を示している。 これらのモデルでは、微調整の間、エンコーダは文を潜在空間の文脈ベクトルに変換し、デコーダは文脈ベクトルに基づいて要約生成タスクを学習する。 提案手法では,デコーダがより有意な文脈ベクトルに参加できるような,有意な文脈ベクトルと非有意な文脈ベクトルの2つのクラスタを考える。 そこで本研究では,エンコーダとデコーダの間の新たなクラスタリングトランスフォーマ層を提案し,まず2つの正則ベクトルと非正則ベクトルのクラスタを生成し,次にクラスタを正規化し,遅延空間で分割する。 実験の結果,提案モデルはこれらの異なるクラスタパターンを学習することで既存のBARTモデルよりも優れており,CNN/DailyMailおよびXSUMデータセットで平均4%,BERTScoreで0.3%向上した。

Nowadays, pre-trained sequence-to-sequence models such as BERTSUM and BART have shown state-of-the-art results in abstractive summarization. In these models, during fine-tuning, the encoder transforms sentences to context vectors in the latent space and the decoder learns the summary generation task based on the context vectors. In our approach, we consider two clusters of salient and non-salient context vectors, using which the decoder can attend more to salient context vectors for summary generation. For this, we propose a novel clustering transformer layer between the encoder and the decoder, which first generates two clusters of salient and non-salient vectors, and then normalizes and shirinks the clusters to make them apart in the latent space. Our experimental result shows that the proposed model outperforms the existing BART model by learning these distinct cluster patterns, improving up to 4% in ROUGE and 0.3% in BERTScore on average in CNN/DailyMail and XSUM data sets.
翻訳日:2022-02-23 15:37:12 公開日:2022-02-22
# ganおよび変圧器モデルを用いた製品形状生成のための社会計算設計法

Social Computational Design Method for Generating Product Shapes with GAN and Transformer Models ( http://arxiv.org/abs/2202.10774v1 )

ライセンス: Link先を確認
Maolin Yang and Pingyu Jiang(参考訳) 知的製品設計のための高速開発人工知能技術の利点を生かした社会計算設計手法が確立された。 マルチエージェントシステム、形状文法、生成逆ネットワーク、ベイジアンネットワーク、トランスフォーマなどをサポートし、設計ソリューション空間を定義し、トレーニングサンプルを作成し、最終的に、所定の設計タスクに対する不完全なソリューションに従って設計ソリューションを推奨できるインテリジェントモデルを取得することができる。 製品形状設計は、その手法を実証するためのエントリポイントとして用いられるが、ソリューションが適切にコーディングされる場合、形状設計よりもタスクに適用することができる。

A social computational design method is established, aiming at taking advantages of the fast-developing artificial intelligence technologies for intelligent product design. Supported with multi-agent system, shape grammar, Generative adversarial network, Bayesian network, Transformer, etc., the method is able to define the design solution space, prepare training samples, and eventually acquire an intelligent model that can recommend design solutions according to incomplete solutions for given design tasks. Product shape design is used as entry point to demonstrate the method, however, the method can be applied to tasks rather than shape design when the solutions can be properly coded.
翻訳日:2022-02-23 15:36:50 公開日:2022-02-22
# 局所スライス型wasserstein特徴セットによる照明不変顔の認識

Local Sliced-Wasserstein Feature Sets for Illumination-invaria nt Face Recognition ( http://arxiv.org/abs/2202.10642v1 )

ライセンス: Link先を確認
Yan Zhuang, Shiying Li, Mohammad Shifat-E-Rabbi, Xuwang Yin, Abu Hasnat Mohammad Rubaiyat, Gustavo K. Rohde(参考訳) 様々な照明条件下で取得したデジタル画像から顔を認識する新しい手法を提案する。 この手法は,Randon Cumulative Distribution Transform (R-CDT) を用いた局所勾配分布の数学的モデリングに基づく。 我々は,R-CDT領域で表現された場合,部分空間としてモデル化できる局所像勾配分布の特定の種類の変形を引き起こすことを示す。 次に、局所勾配分布のR-CDT領域に最も近い部分空間を用いて顔認識を行う。 提案手法は,いくつかの認識課題において,照明条件に挑戦する他の手法よりも優れていることを示す。 提案手法を実装したPythonコードは,ソフトウェアパッケージPyTransKitの一部として統合されている。

We present a new method for face recognition from digital images acquired under varying illumination conditions. The method is based on mathematical modeling of local gradient distributions using the Radon Cumulative Distribution Transform (R-CDT). We demonstrate that lighting variations cause certain types of deformations of local image gradient distributions which, when expressed in R-CDT domain, can be modeled as a subspace. Face recognition is then performed using a nearest subspace in R-CDT domain of local gradient distributions. Experiment results demonstrate the proposed method outperforms other alternatives in several face recognition tasks with challenging illumination conditions. Python code implementing the proposed method is available, which is integrated as a part of the software package PyTransKit.
翻訳日:2022-02-23 15:36:39 公開日:2022-02-22
# 歩行認識のための2分岐ニューラルネットワーク

A Two-Branch Neural Network for Gait Recognition ( http://arxiv.org/abs/2202.10645v1 )

ライセンス: Link先を確認
Likai Wang and Jinyan Chen(参考訳) 長距離バイオメトリック技術である歩行認識は、コンピュータビジョンへの強い関心を喚起している。 既存の歩行認識の研究は外見に基づく手法とモデルに基づく手法に分けられ、シルエットと骨格データからそれぞれ特徴を抽出することができる。 しかし, 外観ベース手法は衣料変化や搬送条件に大きく影響し, モデルベース手法はポーズ推定手法の精度によって制限されるため, 実用上は歩容認識が困難である。 この2つのアプローチの利点を統合するために,2分岐ニューラルネットワーク(nn)に基づくモデルを提案する。 この方法は2つの枝、すなわち、シルエットを入力とするCNNベースの枝と、骨格を入力とするGCNベースの枝を含む。 さらに、GCNベースのブランチに2つの修正が加えられ、パフォーマンスが向上した。 まず, 単純な完全連結グラフ畳み込み演算子を用いて, マルチスケールグラフ畳み込みを統合し, 自然接続への依存を緩和する。 第2に,各GCNブロックからSTC-Attというアテンションモジュールを配置し,空間的,時間的,チャネル的な注意を同時に学習する。 提案した2分岐ニューラルネットワークをCASIA-Bデータセット上で評価した。 実験結果から, 各種条件下での最先端性能が得られた。

Gait recognition, a promising long-distance biometric technology, has aroused intense interest in computer vision. Existing works on gait recognition can be divided into appearance-based methods and model-based methods, which extract features from silhouettes and skeleton data, respectively. However, since appearance-based methods are greatly affected by clothing changing and carrying condition, and model-based methods are limited by the accuracy of pose estimation approaches, gait recognition remains challenging in practical applications. In order to integrate the merits of such two approaches, a two-branch neural network (NN)-based model is proposed in this paper. The method contains two branches, namely a CNN-based branch taking silhouettes as input and a GCN-based branch taking skeletons as input. In addition, two modifications are introduced into the GCN-based branch to boost the performance. First, we present a simple fully connected graph convolution operator to integrate multi-scale graph convolutions and relieve dependence on natural connections. Second, we deploy an attention module named STC-Att after each GCN block to learn spatial, temporal and channel-wise attention simultaneously. We evaluated the proposed two-branch neural network on the CASIA-B dataset. The experimental results show that our method achieves state-of-the-art performance in various conditions.
翻訳日:2022-02-23 15:34:44 公開日:2022-02-22
# Movies2Scenes: 映画の類似性を利用したシーン表現の学習

Movies2Scenes: Learning Scene Representations Using Movie Similarities ( http://arxiv.org/abs/2202.10650v1 )

ライセンス: Link先を確認
Shixing Chen, Xiang Hao, Xiaohan Nie, Raffay Hamid(参考訳) 映画シーンの自動理解は、ビデオモデレーション、検索、レコメンデーションを含む複数の下流アプリケーションにおいて重要な問題である。 長い映画の性質は、映画シーンのラベリングを面倒な作業にするので、映画シーンを理解するためにエンドツーエンドの教師付きアプローチを適用することは難しい問題になります。 映像・シーン理解のための大規模画像データセットから学んだ最先端の視覚表現を直接適用することは、2つのドメイン間の大きなギャップを考えると効果的ではない。 これらの課題に対処するために,映画情報(ジャンル,シナプス,よりよく似た情報)の源泉を用いて汎用的なシーン表現を学ぶ,新しいコントラスト学習手法を提案する。 30,340本の映画を含む新しいデータセット(MovieCL30K)を用いて、学習したシーン表現が、複数のデータセットから11の下流タスクにおいて、既存の最先端の結果を上回ることを実証した。 シーン表現の有効性をさらに示すために, 大規模ビデオモデレーションに焦点をあてた新たなデータセット (MCD) を導入し, セックス, 暴力, ドラッグユース活動18,330本の映画とテレビのエピソードを収録した44,581本のビデオクリップを収録し, 既存の最先端のアプローチよりも強い効果を示した。

Automatic understanding of movie-scenes is an important problem with multiple downstream applications including video-moderation, search and recommendation. The long-form nature of movies makes labeling of movie scenes a laborious task, which makes applying end-to-end supervised approaches for understanding movie-scenes a challenging problem. Directly applying state-of-the-art visual representations learned from large-scale image datasets for movie-scene understanding does not prove to be effective given the large gap between the two domains. To address these challenges, we propose a novel contrastive learning approach that uses commonly available sources of movie-information (e.g., genre, synopsis, more-like-this information) to learn a general-purpose scene-representation . Using a new dataset (MovieCL30K) with 30,340 movies, we demonstrate that our learned scene-representation surpasses existing state-of-the-art results on eleven downstream tasks from multiple datasets. To further show the effectiveness of our scene-representation , we introduce another new dataset (MCD) focused on large-scale video-moderation with 44,581 clips containing sex, violence, and drug-use activities covering 18,330 movies and TV episodes, and show strong gains over existing state-of-the-art approaches.
翻訳日:2022-02-23 15:34:24 公開日:2022-02-22
# iris on the moveのためのメトリック学習を用いた高速眼球検出

Fast Eye Detector Using Metric Learning for Iris on The Move ( http://arxiv.org/abs/2202.10671v1 )

ライセンス: Link先を確認
Yuka Ogino, Takahiro Toizumi and Masato Tsukada(参考訳) 本稿では,完全畳み込み型シアムネットワークに基づくアイリス認識のための高速視線検出手法を提案する。 移動系のアイリスは、アイリス認識のために移動対象から高解像度アイリス画像を取得する必要がある。 したがって、高フレームレートで両目を含む撮像画像は虹彩画像化の可能性を高める。 認証結果をリアルタイムで出力するためには、画像から左眼領域と右眼領域を抽出する高速アイ検出器が必要である。 本手法は, siameseネットワークフレームワークを用いて, 部分的顔画像と参照眼画像の特徴を抽出する。 抽出された特徴間の空間的コサイン類似性を計算することにより、両眼の類似性熱マップを作成する。 また, 浅層ネットワークにおいても, 右眼と左眼を高精度に識別する訓練用損失関数としてcosfaceを用いた。 実験の結果,従来の汎用オブジェクト検出法と比較して,CosFaceで訓練した手法は高速かつ高精度であることがわかった。

This paper proposes a fast eye detection method based on fully-convolutional Siamese networks for iris recognition. The iris on the move system requires to capture high resolution iris images from a moving subject for iris recognition. Therefore, capturing images contains both eyes at high-frame-rate increases the chance of iris imaging. In order to output the authentication result in real time, the system requires a fast eye detector extracting the left and right eye regions from the image. Our method extracts features of a partial face image and a reference eye image using Siamese network frameworks. Similarity heat maps of both eyes are created by calculating the spatial cosine similarity between extracted features. Besides, we use CosFace as a loss function for training to discriminate the left and right eyes with high accuracy even with a shallow network. Experimental results show that our method trained by CosFace is fast and accurate compared with conventional generic object detection methods.
翻訳日:2022-02-23 15:33:59 公開日:2022-02-22
# 弱みを加味した群集の局所的特徴表現の強化

Reinforcing Local Feature Representation for Weakly-Supervised Dense Crowd Counting ( http://arxiv.org/abs/2202.10681v1 )

ライセンス: Link先を確認
Xiaoshuang Chen, Hongtao Lu(参考訳) 完全に監督された群衆のカウントは、大量のアノテーションのため面倒な作業です。 毎週の観衆数に焦点をあてる作業はほとんどなく、世界的な観衆数のみがトレーニングに利用できる。 毎週監視される群衆数の主な課題は、現地の監督情報の欠如である。 この問題に対処するため,ローカルな特徴表現を強化するために,自己適応型特徴類似学習(SFSL)ネットワークとグローバルな局所一貫性(GLC)損失を提案する。 本稿では,個人の偏りのない特徴推定を表す特徴ベクトルを提案する。 ネットワークは特徴ベクトルを自己適応的に更新し、群数の回帰に特徴類似性を利用する。 さらに、提案したGLC損失は、グローバルおよびローカル領域からのネットワーク推定の整合性を利用する。 実験により, 異なるバックボーンに基づく提案手法は, 弱教師付き群集数と完全教師付き群集数とのギャップを狭めることを示した。

Fully-supervised crowd counting is a laborious task due to the large amounts of annotations. Few works focus on weekly-supervised crowd counting, where only the global crowd numbers are available for training. The main challenge of weekly-supervised crowd counting is the lack of local supervision information. To address this problem, we propose a self-adaptive feature similarity learning (SFSL) network and a global-local consistency (GLC) loss to reinforce local feature representation. We introduce a feature vector which represents the unbiased feature estimation of persons. The network updates the feature vector self-adaptively and utilizes the feature similarity for the regression of crowd numbers. Besides, the proposed GLC loss leverages the consistency between the network estimations from global and local areas. The experimental results demonstrate that our proposed method based on different backbones narrows the gap between weakly-supervised and fully-supervised dense crowd counting.
翻訳日:2022-02-23 15:33:46 公開日:2022-02-22
# リアルタイム深部転倒検出に向けた切削・連続ペースト

Cut and Continuous Paste towards Real-time Deep Fall Detection ( http://arxiv.org/abs/2202.10687v1 )

ライセンス: Link先を確認
Sunhee Hwang, Minsong Ki, Seung-Hyun Lee, Sanghoon Park, Byoung-Ki Jeon(参考訳) 深層学習に基づく転倒検出は、人間の意図しない落下を検知し、危険な状況を警戒することを目的とした、インテリジェントビデオ監視システムにとって重要なタスクの1つだ。 本研究では,単一かつ小型の畳み込みニューラルネットワークによる転倒を簡易かつ効率的に検出するフレームワークを提案する。 そこで本研究では,まず,人間の動きを1つのフレームで表現する新しい画像合成法を提案する。 これにより、画像分類タスクとしてフォール検出タスクが簡単になる。 また、提案する合成データ生成手法では、十分な量のトレーニングデータセットを生成でき、小モデルでも十分な性能が得られる。 推定ステップでは、入力フレームの平均を推定することで、人間の実際の動きを1つの画像で表現する。 実験では,URFDとAIHubの空港データセットの質的および定量的評価を行い,本手法の有効性を示した。

Deep learning based fall detection is one of the crucial tasks for intelligent video surveillance systems, which aims to detect unintentional falls of humans and alarm dangerous situations. In this work, we propose a simple and efficient framework to detect falls through a single and small-sized convolutional neural network. To this end, we first introduce a new image synthesis method that represents human motion in a single frame. This simplifies the fall detection task as an image classification task. Besides, the proposed synthetic data generation method enables to generate a sufficient amount of training dataset, resulting in satisfactory performance even with the small model. At the inference step, we also represent real human motion in a single image by estimating mean of input frames. In the experiment, we conduct both qualitative and quantitative evaluations on URFD and AIHub airport datasets to show the effectiveness of our method.
翻訳日:2022-02-23 15:33:32 公開日:2022-02-22
# リモートセンシング画像の普遍的対向摂動

Universal adversarial perturbation for remote sensing images ( http://arxiv.org/abs/2202.10693v1 )

ライセンス: Link先を確認
Zhaoxia Yin, Qingyu Wang, Jin Tang, Bin Luo(参考訳) 近年、リモートセンシング画像(RSI)分野におけるディープラーニングの適用により、従来の技術と比較して、RSIの分類精度が大幅に向上している。 しかし、最先端の物体認識畳み込みニューラルネットワークでさえ、普遍対向摂動(UAP)によって騙される。 UAPがRSI分類モデルの誤り分類を行うことを示すために,エンコーダデコーダネットワークとアテンション機構を組み合わせた新しい手法を提案する。 第一に、前者は摂動の分布をよりよく学習することができ、後者はrsi分類モデルに関連する主要な領域を見つけるために使われる。 最後に、生成された領域は摂動を微調整するために使用され、モデルが摂動を減らして誤分類される。 実験の結果、UAPはRSIを誤分類し、提案手法の攻撃成功率(ASR)は97.35%であることがわかった。

Recently, with the application of deep learning in the remote sensing image (RSI) field, the classification accuracy of the RSI has been greatly improved compared with traditional technology. However, even state-of-the-art object recognition convolutional neural networks are fooled by the universal adversarial perturbation (UAP). To verify that UAP makes the RSI classification model error classification, this paper proposes a novel method combining an encoder-decoder network with an attention mechanism. Firstly, the former can learn the distribution of perturbations better, then the latter is used to find the main regions concerned by the RSI classification model. Finally, the generated regions are used to fine-tune the perturbations making the model misclassified with fewer perturbations. The experimental results show that the UAP can make the RSI misclassify, and the attack success rate (ASR) of our proposed method on the RSI data set is as high as 97.35%.
翻訳日:2022-02-23 15:33:20 公開日:2022-02-22
# 深部特徴を有する手作りの特徴 : 日常性大腸癌病理組織核画像の分類に関する解析的研究

Ensembling Handcrafted Features with Deep Features: An Analytical Study for Classification of Routine Colon Cancer Histopathological Nuclei Images ( http://arxiv.org/abs/2202.10694v1 )

ライセンス: Link先を確認
Suvidha Tripathi and Satish Kumar Singh(参考訳) 医学組織病理画像における深層学習法(dl)を用いた手法は, 病的生検試料の分類, 分別, 検出に最も求められている方法の一つである。 しかしながら、クラス内変異性と多様性の存在による医療データセットの複雑な性質を考えると、複雑なdlモデルの使用は、病理学者の補助に適したレベルまで最適な性能を与えないかもしれない。 そのため、ドメインに依存しない手作り特徴(HC-F)を含む範囲のDL手法が本研究に影響を与えた。 実験を通じて、関連するデータセットを適切に解析することなく、単一のdlネットワーク(ドメイン固有あるいは事前学習されたモデルの状態)をベースモデルとして直接使用できないことを強調しようと試みた。 我々は,F1-measure,Precisio n,Recall,AUC,Cross-E ntropy Lossを用いて,提案手法の性能解析を行った。 以上の結果から,DL特徴のアンサンブルがモデル全体の性能を著しく向上させるのに対し,ドメインに依存しないHC-FはDLモデルの性能に休息を保っていることが明らかとなった。

The use of Deep Learning (DL) based methods in medical histopathology images have been one of the most sought after solutions to classify, segment, and detect diseased biopsy samples. However, given the complex nature of medical datasets due to the presence of intra-class variability and heterogeneity, the use of complex DL models might not give the optimal performance up to the level which is suitable for assisting pathologists. Therefore, ensemble DL methods with the scope of including domain agnostic handcrafted Features (HC-F) inspired this work. We have, through experiments, tried to highlight that a single DL network (domain-specific or state of the art pre-trained models) cannot be directly used as the base model without proper analysis with the relevant dataset. We have used F1-measure, Precision, Recall, AUC, and Cross-Entropy Loss to analyse the performance of our approaches. We observed from the results that the DL features ensemble bring a marked improvement in the overall performance of the model, whereas, domain agnostic HC-F remains dormant on the performance of the DL models.
翻訳日:2022-02-23 15:33:04 公開日:2022-02-22
# 深い特徴を持つ視覚単語(BoVW)の袋-乳房腫瘍の限られたデータセットに対するパッチ分類モデル

Bag of Visual Words (BoVW) with Deep Features -- Patch Classification Model for Limited Dataset of Breast Tumours ( http://arxiv.org/abs/2202.10701v1 )

ライセンス: Link先を確認
Suvidha Tripathi, Satish Kumar Singh and Lee Hwee Kuan(参考訳) 現在、計算複雑性は畳み込みニューラルネットワークを用いた高解像度ギガピクセル画像のトレーニングを制限する。 そのため、これらの画像はパッチまたはタイルに分割される。 そのため、これらの高解像度パッチは識別情報で符号化され、CNNはパッチレベルの予測を行うためにこれらのパッチで訓練される。 しかし、パッチレベルの予測の問題は、病理学者が一般的にパッチレベルでではなくイメージレベルで注釈を付けることである。 この制限のため、ほとんどのパッチには十分なクラス関連機能が含まれない可能性がある。 本研究では,Bag of Visual Words (BoVW) を一般化性向上のための正規化の一種として利用することにより,ディープフレームワークにパッチ記述機能を組み込もうとした。 この仮説を用いて,乳腺生検画像パッチ(正常,良性,textit{in situ}癌,浸潤癌)の4種類を識別するパッチベース分類器の構築を目指している。 タスクは、CNNを使って画像内の関連情報を記述し、同時にBag of Visual Words (BoVW)を使って関連のない情報を破棄する。 提案手法は,wsiおよび顕微鏡画像から得られたパッチをcnnで事前学習し,特徴を抽出する。 bovwはcnnの機能の中で最も識別的な特徴を選択するための機能セレクタとして使用される。 最後に、選択された特徴集合を4つのクラスのうちの1つに分類する。 ハイブリッドモデルは、特徴抽出のための事前訓練されたモデルの選択の観点から柔軟性を提供する。 パイプラインは、識別パッチを選択するためにパッチ予測の後処理を必要としないため、エンドツーエンドである。 我々は、BACH-2018チャレンジデータセット上のResNet50、DenseNet169、InceptionV3といった最先端の手法と比較した。 提案手法は3つの手法よりも優れた性能を示す。

Currently, the computational complexity limits the training of high resolution gigapixel images using Convolutional Neural Networks. Therefore, such images are divided into patches or tiles. Since, these high resolution patches are encoded with discriminative information therefore; CNNs are trained on these patches to perform patch-level predictions. However, the problem with patch-level prediction is that pathologist generally annotates at image-level and not at patch level. Due to this limitation most of the patches may not contain enough class-relevant features. Through this work, we tried to incorporate patch descriptive capability within the deep framework by using Bag of Visual Words (BoVW) as a kind of regularisation to improve generalizability. Using this hypothesis, we aim to build a patch based classifier to discriminate between four classes of breast biopsy image patches (normal, benign, \textit{In situ} carcinoma, invasive carcinoma). The task is to incorporate quality deep features using CNN to describe relevant information in the images while simultaneously discarding irrelevant information using Bag of Visual Words (BoVW). The proposed method passes patches obtained from WSI and microscopy images through pre-trained CNN to extract features. BoVW is used as a feature selector to select most discriminative features among the CNN features. Finally, the selected feature sets are classified as one of the four classes. The hybrid model provides flexibility in terms of choice of pre-trained models for feature extraction. The pipeline is end-to-end since it does not require post processing of patch predictions to select discriminative patches. We compared our observations with state-of-the-art methods like ResNet50, DenseNet169, and InceptionV3 on the BACH-2018 challenge dataset. Our proposed method shows better performance than all the three methods.
翻訳日:2022-02-23 15:32:46 公開日:2022-02-22
# プライバシー保護型ベッド内ポーズモニタリング:融合・再構成研究

Privacy-Preserving In-Bed Pose Monitoring: A Fusion and Reconstruction Study ( http://arxiv.org/abs/2202.10704v1 )

ライセンス: Link先を確認
Thisun Dayarathna, Thamidu Muthukumarana, Yasiru Rathnayaka, Simon Denman, Chathura de Silva, Akila Pemasiri, David Ahmedt-Aristizabal(参考訳) 近年,広範囲の医療応用との関連から,ベッド内人間のポーズ推定が研究者の興味を惹きつけている。 ヒトのポーズ推定の一般的な問題と比較すると、ベッド内ポーズ推定にはいくつかの固有の課題があり、最も顕著なのは寝具による重篤な閉塞である。 本稿では, 奥行き, 長波赤外線 (lwir) , 圧力マップなどの複数の非視覚的, プライバシー保全的モダリティからのイメージを, ベッド内ポーズ推定のタスクに効果的に利用する方法について検討する。 まず,様々な画像モダリティからの情報を効果的に融合してポーズ推定を行う。 第2に、可視画像が利用できない場合のベッド内ポーズ推定を推定できるフレームワークを提案し、LWIR画像のみ使用可能なシナリオへの融合手法の適用性を実証する。 複数のモーダルから特徴を融合させる効果を解析・実証する。 この目的のために、我々は4つの異なる手法を検討する。 1)追加 2)連結 3)学習様相重みによる核融合,および 4) 最先端のポーズ推定モデルを用いて、エンドツーエンドで完全にトレーニング可能なアプローチ。 また,生体内ポーズ推定のためのデータ不足(長波長赤外)を伴うプライバシー保護モードから,データリッチなモダリティ(可視モダリティ)を再構築する効果も評価した。 再構成には条件付き生成対向ネットワークを用いる。 我々は、フレームワークのさまざまな設計決定にまたがってアブレーション研究を行います。 これには、粒度の異なる機能の選択、異なる融合技術の使用、様々なモデルパラメータが含まれる。 評価結果から,本手法は最先端技術と比較して,同等以上の結果が得られることを示した。

Recently, in-bed human pose estimation has attracted the interest of researchers due to its relevance to a wide range of healthcare applications. Compared to the general problem of human pose estimation, in-bed pose estimation has several inherent challenges, the most prominent being frequent and severe occlusions caused by bedding. In this paper we explore the effective use of images from multiple non-visual and privacy-preserving modalities such as depth, long-wave infrared (LWIR) and pressure maps for the task of in-bed pose estimation in two settings. First, we explore the effective fusion of information from different imaging modalities for better pose estimation. Secondly, we propose a framework that can estimate in-bed pose estimation when visible images are unavailable, and demonstrate the applicability of fusion methods to scenarios where only LWIR images are available. We analyze and demonstrate the effect of fusing features from multiple modalities. For this purpose, we consider four different techniques: 1) Addition, 2) Concatenation, 3) Fusion via learned modal weights, and 4) End-to-end fully trainable approach; with a state-of-the-art pose estimation model. We also evaluate the effect of reconstructing a data-rich modality (i.e., visible modality) from a privacy-preserving modality with data scarcity (i.e., long-wavelength infrared) for in-bed human pose estimation. For reconstruction, we use a conditional generative adversarial network. We conduct ablative studies across different design decisions of our framework. This includes selecting features with different levels of granularity, using different fusion techniques, and varying model parameters. Through extensive evaluations, we demonstrate that our method produces on par or better results compared to the state-of-the-art.
翻訳日:2022-02-23 15:32:17 公開日:2022-02-22
# (参考訳) 生成逆ネットワークを用いた合成モビリティネットワークの生成 [全文訳有]

Generating Synthetic Mobility Networks with Generative Adversarial Networks ( http://arxiv.org/abs/2202.11028v1 )

ライセンス: CC BY 4.0
Giovanni Mauro, Massimiliano Luca, Antonio Longa, Bruno Lepri, Luca Pappalardo(参考訳) 交通渋滞、隔離、疫病の拡散といった複雑な社会現象における人的移動の重要性は、いくつかの分野から科学者の関心を集めている。 本稿では,モビリティネットワークの生成,すなわち,都市全体のモビリティネットワークの生成,ノードが地理的位置であり,重み付きエッジがそれらの場所間の人々の移動を表す重み付き有向グラフについて述べる。 我々のソリューションは、GAN(Generative Adversarial Networks)に基づく現実的なモビリティネットワークを生成するモデルであるMoGANである。 我々は、自転車とタクシーの公共データセットに関する広範な実験を行い、MoGANが生成したネットワークのリアリズムに関する古典的な重力・放射モデルより優れていることを示す。 我々のモデルは、データ拡張とシミュレーションとwhat-if分析に使用できる。

The increasingly crucial role of human displacements in complex societal phenomena, such as traffic congestion, segregation, and the diffusion of epidemics, is attracting the interest of scientists from several disciplines. In this article, we address mobility network generation, i.e., generating a city's entire mobility network, a weighted directed graph in which nodes are geographic locations and weighted edges represent people's movements between those locations, thus describing the entire mobility set flows within a city. Our solution is MoGAN, a model based on Generative Adversarial Networks (GANs) to generate realistic mobility networks. We conduct extensive experiments on public datasets of bike and taxi rides to show that MoGAN outperforms the classical Gravity and Radiation models regarding the realism of the generated networks. Our model can be used for data augmentation and performing simulations and what-if analysis.
翻訳日:2022-02-23 15:30:49 公開日:2022-02-22
# reorientbot: 特定の配置に対する学習オブジェクトのリオリエンテーション

ReorientBot: Learning Object Reorientation for Specific-Posed Placement ( http://arxiv.org/abs/2202.11092v1 )

ライセンス: Link先を確認
Kentaro Wada, Stephen James, Andrew J. Davison(参考訳) ロボットは、オブジェクトを任意の特定のポーズに配置し、世界を再構成し、さまざまな価値のあるタスクを達成する能力が必要です。 オブジェクトの向き付けは、当初、ロボットが把握し、すぐに特定のゴールポーズに配置できるように、オブジェクトを指向しないために重要な役割を果たす。 本研究では,視覚に基づく操作システムであるReorientBotについて述べる。 1)RGB-Dカメラを用いたポーズ推定とボリューム再構成による視覚的シーン理解 2) リオリエンテーションのための成功かつ効率的なモーション生成のための学習されたウェイポイント選択 3) 従来の運動計画では, 選択した方向から無衝突軌道を生成する。 シミュレーションと実世界の両方でYCBオブジェクトを用いて本手法の評価を行い, 総合的な成功率93%, 成功率81%, ヒューリスティックアプローチ22%, 実行時間22%を達成した。 システムの汎用性を示す拡張多目的再構成を示す。

Robots need the capability of placing objects in arbitrary, specific poses to rearrange the world and achieve various valuable tasks. Object reorientation plays a crucial role in this as objects may not initially be oriented such that the robot can grasp and then immediately place them in a specific goal pose. In this work, we present a vision-based manipulation system, ReorientBot, which consists of 1) visual scene understanding with pose estimation and volumetric reconstruction using an onboard RGB-D camera; 2) learned waypoint selection for successful and efficient motion generation for reorientation; 3) traditional motion planning to generate a collision-free trajectory from the selected waypoints. We evaluate our method using the YCB objects in both simulation and the real world, achieving 93% overall success, 81% improvement in success rate, and 22% improvement in execution time compared to a heuristic approach. We demonstrate extended multi-object rearrangement showing the general capability of the system.
翻訳日:2022-02-23 15:05:53 公開日:2022-02-22
# Myriad: 軌道最適化とディープラーニングを橋渡しする現実世界のテストベッド

Myriad: a real-world testbed to bridge trajectory optimization and deep learning ( http://arxiv.org/abs/2202.10600v1 )

ライセンス: Link先を確認
Nikolaus H. R. Howe, Simon Dufort-Labb\'e, Nitarshan Rajkumar, Pierre-Luc Bacon(参考訳) 実世界の継続的環境での学習と計画のためのjaxで書かれたテストベッドであるmyriadを提案する。 Myriadの主な貢献は3倍である。 まず、Myriadは機械学習の実践者が典型的な自動微分ワークフロー内で応用するための軌道最適化技術にアクセスできるようにする。 第二に、Myriadは、生物学から医学、工学まで、機械学習コミュニティが使用する多くの現実の最適制御問題を提示している。 連続空間と時間で定式化されたこれらの環境は、しばしば標準ベンチマークによって抽象化された実世界のシステムの複雑さを保ちます。 そのため、Myriadは、インパクトのある現実世界のタスクにモダンな機械学習技術を適用するための足掛かりとなるように努力している。 最後に、myriadリポジトリを使用して、タスクの学習と制御のための新しいアプローチを示します。 モデルは完全にエンドツーエンドでトレーニングされ、ニューラルネットワークの通常の微分方程式よりも暗黙の計画モジュールを活用し、複雑な環境ダイナミクスを用いた同時学習と計画を可能にする。

We present Myriad, a testbed written in JAX for learning and planning in real-world continuous environments. The primary contributions of Myriad are threefold. First, Myriad provides machine learning practitioners access to trajectory optimization techniques for application within a typical automatic differentiation workflow. Second, Myriad presents many real-world optimal control problems, ranging from biology to medicine to engineering, for use by the machine learning community. Formulated in continuous space and time, these environments retain some of the complexity of real-world systems often abstracted away by standard benchmarks. As such, Myriad strives to serve as a stepping stone towards application of modern machine learning techniques for impactful real-world tasks. Finally, we use the Myriad repository to showcase a novel approach for learning and control tasks. Trained in a fully end-to-end fashion, our model leverages an implicit planning module over neural ordinary differential equations, enabling simultaneous learning and planning with complex environment dynamics.
翻訳日:2022-02-23 15:05:37 公開日:2022-02-22
# 一般関数クラスを用いた効率的・微分可能な等角予測

Efficient and Differentiable Conformal Prediction with General Function Classes ( http://arxiv.org/abs/2202.11091v1 )

ライセンス: Link先を確認
Yu Bai, Song Mei, Huan Wang, Yingbo Zhou, Caiming Xiong(参考訳) 学習タスクにおけるデータの不確かさの定量化は、入力されたラベルの予測間隔や予測セットを学習することで行われることが多い。 学習された予測集合に求められる2つの性質は、 \emph{valid coverage} と \emph{good efficiency} (例えば、低長さまたは低濃度)である。 コンフォーマル予測は、有効なカバレッジを持つ予測セットを学習するための強力なテクニックであるが、デフォルトでは、そのコンフォーマル化ステップは単一のパラメータのみを学習し、より表現力のある関数クラスよりも効率を最適化しない。 本稿では,複数の学習可能なパラメータに対する共形予測の一般化を,有効な経験的カバレッジの対象となる最も効率的な予測セットを見つけるための制約付き経験的リスク最小化(ERM)問題を考察して提案する。 このメタアルゴリズムは既存のコンフォメーション予測アルゴリズムを一般化し、コンフォメーションステップの関数クラスが一定の意味で低容量である場合、クラス内で有効な人口被覆と準最適効率を達成することを示す。 次に、このERM問題は、微分不可能なカバレッジ制約を伴うため、最適化が困難である。 微分代用損失とラグランジアンを用いて、元の制約付きERMを近似して勾配に基づくアルゴリズムを開発した。 実験結果から,提案アルゴリズムは精度の高い予測セットを学習し,提案手法を改良した予測間隔,複数出力回帰のための最小体積予測セット,画像分類のためのラベル予測セットなど,既存手法に比べて効率が向上することが示された。

Quantifying the data uncertainty in learning tasks is often done by learning a prediction interval or prediction set of the label given the input. Two commonly desired properties for learned prediction sets are \emph{valid coverage} and \emph{good efficiency} (such as low length or low cardinality). Conformal prediction is a powerful technique for learning prediction sets with valid coverage, yet by default its conformalization step only learns a single parameter, and does not optimize the efficiency over more expressive function classes. In this paper, we propose a generalization of conformal prediction to multiple learnable parameters, by considering the constrained empirical risk minimization (ERM) problem of finding the most efficient prediction set subject to valid empirical coverage. This meta-algorithm generalizes existing conformal prediction algorithms, and we show that it achieves approximate valid population coverage and near-optimal efficiency within class, whenever the function class in the conformalization step is low-capacity in a certain sense. Next, this ERM problem is challenging to optimize as it involves a non-differentiable coverage constraint. We develop a gradient-based algorithm for it by approximating the original constrained ERM using differentiable surrogate losses and Lagrangians. Experiments show that our algorithm is able to learn valid prediction sets and improve the efficiency significantly over existing approaches in several applications such as prediction intervals with improved length, minimum-volume prediction sets for multi-output regression, and label prediction sets for image classification.
翻訳日:2022-02-23 15:05:21 公開日:2022-02-22
# JAMES: マルチアスペクトの埋め込みと推論によるジョブタイトルマッピング

JAMES: Job Title Mapping with Multi-Aspect Embeddings and Reasoning ( http://arxiv.org/abs/2202.10739v1 )

ライセンス: Link先を確認
Michiharu Yamashita, Jia Tracy Shen, Hamoon Ekhtiari, Thanh Tran, Dongwon Lee(参考訳) キャリア分析において、さまざまな下流タスクに必要なタスク(例えば、キャリアの軌道分析、ジョブモビリティ予測、ジョブレコメンデーションなど)の1つが、ユーザ生成(ノイジーかつ非標準)のジョブタイトルを、事前に定義された標準のジョブタイトルにマッピングする、job title mapping(jtm)である。 しかし, JTM の解決はドメイン固有の問題であり,その固有の課題として,(1) ユーザによるジョブタイトルの混乱,(2) 異なるジョブタイトルの重複,(3) ジョブトランジショントラジェクトリの不整合,(4) 実世界のアプリケーションにおけるジョブタイトルの数が大規模である,などがあげられる。 このJTM問題に向けて,本稿では,JAMESと命名された新たなソリューションを提案する。このソリューションは,目的とするジョブの3つのユニークな埋め込み(トポロジ,セマンティック,統語的埋め込み)と,マルチアスペクトのコアテンション(コアテンション)を同時に構成する。 さらに、論理的推論表現を用いて、乱雑な職種と推論空間における標準的な職種との類似性を協調的に推定する。 我々は,35万以上のジョブタイトルを持つ大規模実世界のデータセット上で,競合する10のモデルに対して包括的な実験を行う。 その結果、JAMESはPrecision@10では10.06%、NDCG@10では17.52%で最高のベースラインを上回った。

One of the most essential tasks needed for various downstream tasks in career analytics (e.g., career trajectory analysis, job mobility prediction, and job recommendation) is Job Title Mapping (JTM), where the goal is to map user-created (noisy and non-standard) job titles to predefined and standard job titles. However, solving JTM is domain-specific and non-trivial due to its inherent challenges: (1) user-created job titles are messy, (2) different job titles often overlap their job requirements, (3) job transition trajectories are inconsistent, and (4) the number of job titles in real world applications is large-scale. Toward this JTM problem, in this work, we propose a novel solution, named as JAMES, that constructs three unique embeddings of a target job title: topological, semantic, and syntactic embeddings, together with multi-aspect co-attention. In addition, we employ logical reasoning representations to collaboratively estimate similarities between messy job titles and standard job titles in the reasoning space. We conduct comprehensive experiments against ten competing models on the large-scale real-world dataset with more than 350,000 job titles. Our results show that JAMES significantly outperforms the best baseline by 10.06% in Precision@10 and by 17.52% in NDCG@10, respectively.
翻訳日:2022-02-23 15:04:55 公開日:2022-02-22
# ペルシャのトケナイザーの評価

Evaluating Persian Tokenizers ( http://arxiv.org/abs/2202.10879v1 )

ライセンス: Link先を確認
Danial Kamali, Behrooz Janfada, Mohammad Ebrahim Shenasa, Behrouz Minaei-Bidgoli(参考訳) トークン化は語彙分析のプロセスにおいて重要な役割を果たす。 トークンは意味解析や言語モデリングといった他の自然言語処理タスクの入力となる。 ペルシア語の自然言語処理は、ハーフスペースのようなペルシャの例外的なケースのために困難である。 したがって、ペルシャの正確なトークン化が不可欠である。 この記事では、ペルシャ語で最も広く使われているトークン化剤を導入し、ペルシャ語のテキストのパフォーマンスを、タグ付きペルシャの依存性データセットによる単純なアルゴリズムを用いて比較、評価することで、新しい研究を提供する。 F1-Scoreでトークン化剤を評価した後、F1スコア98.97%のバウンドモルヒムを固定したFarsi VerbとHazmのハイブリッド版が最高の性能を示した。

Tokenization plays a significant role in the process of lexical analysis. Tokens become the input for other natural language processing tasks, like semantic parsing and language modeling. Natural Language Processing in Persian is challenging due to Persian's exceptional cases, such as half-spaces. Thus, it is crucial to have a precise tokenizer for Persian. This article provides a novel work by introducing the most widely used tokenizers for Persian and comparing and evaluating their performance on Persian texts using a simple algorithm with a pre-tagged Persian dependency dataset. After evaluating tokenizers with the F1-Score, the hybrid version of the Farsi Verb and Hazm with bounded morphemes fixing showed the best performance with an F1 score of 98.97%.
翻訳日:2022-02-23 15:04:26 公開日:2022-02-22
# 機械翻訳評価の概要

An Overview on Machine Translation Evaluation ( http://arxiv.org/abs/2202.11027v1 )

ライセンス: Link先を確認
Lifeng Han(参考訳) 1950年代以降、機械翻訳(MT)はAIと開発の重要なタスクの1つとなり、ルールベースの手法、統計手法、最近提案されたニューラルネットワークベースの学習方法など、様々な期間と開発段階を経験してきた。 これらの段階的な飛躍は、MTの評価研究と開発であり、特に統計翻訳と神経翻訳研究における評価方法の重要な役割である。 MTの評価課題は,機械翻訳の品質を評価するだけでなく,機械翻訳自体に存在する問題,改善方法,最適化方法について,機械翻訳研究者にタイムリーなフィードバックを提供することである。 参照翻訳の欠如など、いくつかの実用的な応用分野において、機械翻訳の品質推定は、自動翻訳対象言語の信頼性を明らかにする指標として重要な役割を果たす。 本報告は, 機械翻訳評価(mte)の概要, mte研究手法の分類, 人的評価, 自動評価, 評価手法の評価(メタ評価)など, 最先端の進歩について概説する。 手動による評価と自動評価には、参照翻訳と参照翻訳の独立な参加、従来のn-gram文字列マッチング、構文とセマンティクスを適用したモデル、ディープラーニングモデル、評価手法の評価には、人間の評価の信頼性、自動評価の信頼性、テストセットの信頼性などが含まれる。 最先端評価手法の進歩には,タスクベース評価,ビッグデータに基づく事前学習言語モデル,蒸留技術を用いた軽量最適化モデルなどがある。

Since the 1950s, machine translation (MT) has become one of the important tasks of AI and development, and has experienced several different periods and stages of development, including rule-based methods, statistical methods, and recently proposed neural network-based learning methods. Accompanying these staged leaps is the evaluation research and development of MT, especially the important role of evaluation methods in statistical translation and neural translation research. The evaluation task of MT is not only to evaluate the quality of machine translation, but also to give timely feedback to machine translation researchers on the problems existing in machine translation itself, how to improve and how to optimise. In some practical application fields, such as in the absence of reference translations, the quality estimation of machine translation plays an important role as an indicator to reveal the credibility of automatically translated target languages. This report mainly includes the following contents: a brief history of machine translation evaluation (MTE), the classification of research methods on MTE, and the the cutting-edge progress, including human evaluation, automatic evaluation, and evaluation of evaluation methods (meta-evaluation). Manual evaluation and automatic evaluation include reference-translatio n based and reference-translatio n independent participation; automatic evaluation methods include traditional n-gram string matching, models applying syntax and semantics, and deep learning models; evaluation of evaluation methods includes estimating the credibility of human evaluations, the reliability of the automatic evaluation, the reliability of the test set, etc. Advances in cutting-edge evaluation methods include task-based evaluation, using pre-trained language models based on big data, and lightweight optimisation models using distillation techniques.
翻訳日:2022-02-23 15:04:16 公開日:2022-02-22
# モデル再プログラミング:資源効率の良いクロスドメイン機械学習

Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning ( http://arxiv.org/abs/2202.10629v1 )

ライセンス: Link先を確認
Pin-Yu Chen(参考訳) 視覚、言語、音声などのデータ豊富な領域では、ディープラーニングは高性能なタスク固有モデルを提供することが一般的であり、下流タスクへの効率的な微調整のための一般的なタスク非依存表現も学べる。 しかし、リソース制限領域におけるディープラーニングは、まだ次のような課題に直面している。 (i)限られたデータ (ii)制約付きモデル開発費、及び (iii)効果的な微調整のための適切な事前学習モデルがないこと。 本稿では,このギャップを埋めるためのモデル再プログラミング手法を提案する。 モデル再プログラミングは、リソース効率の高いクロスドメイン機械学習を可能にし、ソースドメインから十分に開発された事前学習されたモデルを再利用し、ターゲットドメインのタスクをモデル微調整なしで解決する。 多くのアプリケーションでは、モデル再プログラミングは、スクラッチから学習とトレーニングを転送する。 本稿では、モデル再プログラミングの方法論を解明し、既存のユースケースを要約し、モデル再プログラミングの成功に関する理論的説明を提供し、オープンな研究課題と機会に関する議論で結論付ける。 モデル再プログラミング研究の一覧はhttps://github.com/I BM/モデル再プログラミングで活発に維持および更新されている。

In data-rich domains such as vision, language, and speech, deep learning prevails to deliver high-performance task-specific models and can even learn general task-agnostic representations for efficient finetuning to downstream tasks. However, deep learning in resource-limited domains still faces the following challenges including (i) limited data, (ii) constrained model development cost, and (iii) lack of adequate pre-trained models for effective finetuning. This paper introduces a new technique called model reprogramming to bridge this gap. Model reprogramming enables resource-efficient cross-domain machine learning by repurposing and reusing a well-developed pre-trained model from a source domain to solve tasks in a target domain without model finetuning, where the source and target domains can be vastly different. In many applications, model reprogramming outperforms transfer learning and training from scratch. This paper elucidates the methodology of model reprogramming, summarizes existing use cases, provides a theoretical explanation on the success of model reprogramming, and concludes with a discussion on open-ended research questions and opportunities. A list of model reprogramming studies is actively maintained and updated at https://github.com/I BM/model-reprogrammi ng.
翻訳日:2022-02-23 15:01:34 公開日:2022-02-22
# Pseudoターゲットドメインによるマルチソース非教師付きドメイン適応

Multi-Source Unsupervised Domain Adaptation via Pseudo Target Domain ( http://arxiv.org/abs/2202.10725v1 )

ライセンス: Link先を確認
Ren Chuan-Xian, Liu Yong-Hui, Zhang Xi-Wen, Huang Ke-Kun(参考訳) マルチソースドメイン適応(MDA)は、複数のソースドメインからラベルのないターゲットドメインに知識を転送することを目的としている。 MDAは、ターゲットとソースの間に存在するだけでなく、さまざまなソースにも存在している、厳しいドメインシフトのため、困難なタスクである。 mdaに関する以前の研究は、ソースドメインの混合分布を推定するか、複数の単一ソースモデルを統合するかのどちらかであるが、それらのうち、さまざまなソースドメイン間の関連情報を調べるものは少ない。 そこで我々はPseudo Target for MDA (PTMDA)と呼ばれる新しいMDAアプローチを提案する。 具体的には、ptmdaはメトリック制約付き逆学習を用いて、ソースドメインとターゲットドメインの各グループをグループ固有のサブスペースにマッピングし、対応する一連の疑似ターゲットドメインを構築する。 そして、残りのソースドメインをサブスペース内の疑似ターゲットドメインに効率的にアライメントすることで、疑似ターゲットドメインのトレーニングを通じて追加の構造化ソース情報を活用し、実際のターゲットドメインのパフォーマンスを向上させる。 さらに、ディープニューラルネットワーク(dnn)の転送性を向上させるため、従来のバッチ正規化層を、dnnの潜在層にアライメントを強制する効果的なマッチング正規化層に置き換えることにより、さらなる促進を図る。 我々は, PTMDA 全体として目標誤差を低減し, MDA 設定における目標リスクの近似性の向上につながることを示す理論的解析を行った。 大規模な実験は、PMMDAがMDAタスクに対して有効であることを示す。

Multi-source domain adaptation (MDA) aims to transfer knowledge from multiple source domains to an unlabeled target domain. MDA is a challenging task due to the severe domain shift, which not only exists between target and source but also exists among diverse sources. Prior studies on MDA either estimate a mixed distribution of source domains or combine multiple single-source models, but few of them delve into the relevant information among diverse source domains. For this reason, we propose a novel MDA approach, termed Pseudo Target for MDA (PTMDA). Specifically, PTMDA maps each group of source and target domains into a group-specific subspace using adversarial learning with a metric constraint, and constructs a series of pseudo target domains correspondingly. Then we align the remainder source domains with the pseudo target domain in the subspace efficiently, which allows to exploit additional structured source information through the training on pseudo target domain and improves the performance on the real target domain. Besides, to improve the transferability of deep neural networks (DNNs), we replace the traditional batch normalization layer with an effective matching normalization layer, which enforces alignments in latent layers of DNNs and thus gains further promotion. We give theoretical analysis showing that PTMDA as a whole can reduce the target error bound and leads to a better approximation of the target risk in MDA settings. Extensive experiments demonstrate PTMDA's effectiveness on MDA tasks, as it outperforms state-of-the-art methods in most experimental settings.
翻訳日:2022-02-23 15:01:14 公開日:2022-02-22
# チョケに基づくファジィ粗集合

Choquet-Based Fuzzy Rough Sets ( http://arxiv.org/abs/2202.10872v1 )

ライセンス: Link先を確認
Adnan Theerens, Oliver Urs Lenz, Chris Cornelis(参考訳) ファジィラフ集合論は、オブジェクト間の識別不能という段階的な概念がある場合、一貫性のないデータを扱うためのツールとして使うことができる。 概念の下値と上値の近似を提供することでこれを行う。 古典的ファジィ粗集合では、下および上近似はそれぞれ最小演算子と最大演算子を用いて決定される。 これは機械学習のアプリケーションでは望ましくない。 この問題を緩和するために、順序付き重み付き平均(OWA)ベースのファジィ粗集合を導入した。 本稿では,owaに基づくアプローチを曖昧な量化の観点から直感的に解釈し,それをコケに基づくファジィ粗さ集合(cfrs)に一般化する。 この一般化は双対性や単調性のような望ましい理論的性質を維持している。 さらに、機械学習アプリケーションにさらなる柔軟性を提供する。 特に,外乱検出アルゴリズムをシームレスに統合することで,ファジィ粗集合に基づく機械学習アルゴリズムの堅牢性を高めることができることを示す。

Fuzzy rough set theory can be used as a tool for dealing with inconsistent data when there is a gradual notion of indiscernibility between objects. It does this by providing lower and upper approximations of concepts. In classical fuzzy rough sets, the lower and upper approximations are determined using the minimum and maximum operators, respectively. This is undesirable for machine learning applications, since it makes these approximations sensitive to outlying samples. To mitigate this problem, ordered weighted average (OWA) based fuzzy rough sets were introduced. In this paper, we show how the OWA-based approach can be interpreted intuitively in terms of vague quantification, and then generalize it to Choquet-based fuzzy rough sets (CFRS). This generalization maintains desirable theoretical properties, such as duality and monotonicity. Furthermore, it provides more flexibility for machine learning applications. In particular, we show that it enables the seamless integration of outlier detection algorithms, to enhance the robustness of machine learning algorithms based on fuzzy rough sets.
翻訳日:2022-02-23 15:00:48 公開日:2022-02-22
# 生涯実験データベース(LDE)による再現性とメタ学習の実現

Enabling Reproducibility and Meta-learning Through a Lifelong Database of Experiments (LDE) ( http://arxiv.org/abs/2202.10979v1 )

ライセンス: Link先を確認
Jason Tsay, Andrea Bartezzaghi, Aleke Nolte, Cristiano Malossi(参考訳) 人工知能(AI)の開発は本質的に反復的で実験的である。 通常の開発、特に自動化AIの出現に伴って、何百、何千もの実験が生成され、しばしば失われ、二度と検査されない。 これらの実験を文書化して大規模に学習する機会は失われたが、これらの実験の追跡と再現の複雑さは、データサイエンティストにとってしばしば禁止される。 実験成果物から関連メタデータを自動的に抽出し,保存し,これらの成果物を再現し,メタラーニングを行う機能を備えた実験データベース(LDE)を提案する。 データセットやパイプライン、それぞれの構成方法、ランタイム環境に関する情報を備えたトレーニングなど、ai開発ライフサイクルの複数のステージからコンテキストを格納します。 ストアされたメタデータの標準化された性質は、特にパフォーマンス指標によるアーティファクトのランク付けにおいて、クエリと集約を可能にします。 我々は,既存のメタラーニング研究を再現し,再現されたメタデータをシステムに格納することで,LDEの能力を示す。 そして、このメタデータについて2つの実験を行う。 1)性能指標の再現性と変動性の検討 2)データ上に多数のメタ学習アルゴリズムを実装し,実験結果の変動が推薦性能に与える影響を検討する。 この変化は、結果の上にメタラーニングが構築されたときに続き、集約された結果を使用する場合のパフォーマンスが向上する。 これは、ldeのような結果を自動的に収集し集約するシステムが、メタラーニングの実装を支援するだけでなく、パフォーマンスも向上することを示唆している。

Artificial Intelligence (AI) development is inherently iterative and experimental. Over the course of normal development, especially with the advent of automated AI, hundreds or thousands of experiments are generated and are often lost or never examined again. There is a lost opportunity to document these experiments and learn from them at scale, but the complexity of tracking and reproducing these experiments is often prohibitive to data scientists. We present the Lifelong Database of Experiments (LDE) that automatically extracts and stores linked metadata from experiment artifacts and provides features to reproduce these artifacts and perform meta-learning across them. We store context from multiple stages of the AI development lifecycle including datasets, pipelines, how each is configured, and training runs with information about their runtime environment. The standardized nature of the stored metadata allows for querying and aggregation, especially in terms of ranking artifacts by performance metrics. We exhibit the capabilities of the LDE by reproducing an existing meta-learning study and storing the reproduced metadata in our system. Then, we perform two experiments on this metadata: 1) examining the reproducibility and variability of the performance metrics and 2) implementing a number of meta-learning algorithms on top of the data and examining how variability in experimental results impacts recommendation performance. The experimental results suggest significant variation in performance, especially depending on dataset configurations; this variation carries over when meta-learning is built on top of the results, with performance improving when using aggregated results. This suggests that a system that automatically collects and aggregates results such as the LDE not only assists in implementing meta-learning but may also improve its performance.
翻訳日:2022-02-23 14:58:49 公開日:2022-02-22
# マルコフ決定過程を用いたオフポリティ信頼区間推定

Off-Policy Confidence Interval Estimation with Confounded Markov Decision Process ( http://arxiv.org/abs/2202.10589v1 )

ライセンス: Link先を確認
Chengchun Shi, Jin Zhu, Ye Shen, Shikai Luo, Hongtu Zhu and Rui Song(参考訳) 本稿では,事前に収集した観測データに基づいて,目標政策値のオフライン信頼区間を構築することを目的とする。 既存の研究の多くは、観測された行動に反する未測定変数は存在しないと仮定している。 しかし、この仮定は、医療や技術産業のような実際の応用において違反される可能性が高い。 本稿では,システムダイナミクスに対する動作の影響を媒介する補助変数によっては,マルコフ決定過程において対象ポリシーの値が識別可能であることを示す。 この結果に基づき,潜在的なモデルの誤特定に頑健な効率的なオフポリシー値推定器を開発し,厳密な不確実性定量化を実現する。 提案手法は,ライドシェアリング会社から得られた理論的結果,シミュレーションおよび実データによって正当化される。

This paper is concerned with constructing a confidence interval for a target policy's value offline based on a pre-collected observational data in infinite horizon settings. Most of the existing works assume no unmeasured variables exist that confound the observed actions. This assumption, however, is likely to be violated in real applications such as healthcare and technological industries. In this paper, we show that with some auxiliary variables that mediate the effect of actions on the system dynamics, the target policy's value is identifiable in a confounded Markov decision process. Based on this result, we develop an efficient off-policy value estimator that is robust to potential model misspecification and provide rigorous uncertainty quantification. Our method is justified by theoretical results, simulated and real datasets obtained from ridesharing companies.
翻訳日:2022-02-23 14:58:07 公開日:2022-02-22
# 微分可能なラプラス近似を用いたディープニューラルネットワークにおける不変学習

Invariance Learning in Deep Neural Networks with Differentiable Laplace Approximations ( http://arxiv.org/abs/2202.10638v1 )

ライセンス: Link先を確認
Alexander Immer, Tycho F.A. van der Ouderaa, Vincent Fortuin, Gunnar R\"atsch, Mark van der Wilk(参考訳) データ拡張は、入力の特定の変換が出力を保存するという知識を強制することにより、ディープラーニングのパフォーマンスを改善するために一般的に適用されます。 現在、正しいデータ拡張は、人間の努力とコストのかかる相互評価によって選択されており、新しいデータセットに適用するのは面倒である。 我々はデータ拡張を選択するための便利な勾配法を開発した。 本手法は,事前分布の不変性としてデータ拡張を補足し,ガウス過程で動作することが示されているベイズモデル選択法を用いて学習する。 我々は微分可能なクロネッカー分解ラプラス近似を用いて,人間の監視や検証データなしで最適化できる目標とする。 本手法は,データに存在する不変性の回復に成功し,画像データセットの一般化が向上することを示す。

Data augmentation is commonly applied to improve performance of deep learning by enforcing the knowledge that certain transformations on the input preserve the output. Currently, the correct data augmentation is chosen by human effort and costly cross-validation, which makes it cumbersome to apply to new datasets. We develop a convenient gradient-based method for selecting the data augmentation. Our approach relies on phrasing data augmentation as an invariance in the prior distribution and learning it using Bayesian model selection, which has been shown to work in Gaussian processes, but not yet for deep neural networks. We use a differentiable Kronecker-factored Laplace approximation to the marginal likelihood as our objective, which can be optimised without human supervision or validation data. We show that our method can successfully recover invariances present in the data, and that this improves generalisation on image datasets.
翻訳日:2022-02-23 14:57:55 公開日:2022-02-22
# 実世界データを用いた因果効果推論のためのインフォマックスとドメイン独立表現の学習

Learning Infomax and Domain-Independent Representations for Causal Effect Inference with Real-World Data ( http://arxiv.org/abs/2202.10885v1 )

ライセンス: Link先を確認
Zhixuan Chu, Stephen Rathbun, Sheng Li(参考訳) 実世界のデータに対する因果推論の最大の課題は、治療選択バイアスによって引き起こされる様々な治療オプションに対する共変量の不均衡を扱うことである。 この問題に対処するために、近年の文献では、異なる領域の発散距離(wasserstein距離、最大平均偏差、位置依存計量、領域重なりなど)に基づいて、ドメイン不変表現学習を探求している。 本稿では,これらの戦略の弱点,すなわち,ドメインの分散を強制する際の予測情報の損失,および処理効果推定性能が不安定であることを明らかにし,その特性とドメインの多様化指標の選択に大きく依存する。 情報理論に動機付け,これらの問題を解くためにInfomaxとDomain-Independent Representationsを学習することを提案する。 本手法では,グローバル特徴表現と個々の特徴表現の相互情報と,特徴表現と処置割り当て予測との相互情報を用いて,治療群と制御群の両方の共通予測情報を最大に把握する。 さらに,本手法は器用変数と無関係変数の影響を除去し,潜在的結果の予測能力を効果的に向上させる。 実験結果から,本手法は因果効果推定における最先端性能を達成できることが示唆された。 さらに,データ分布の異なる特性,複雑な変数型,厳密な共変量不均衡に直面する場合,信頼性の高い予測性能を示す。

The foremost challenge to causal inference with real-world data is to handle the imbalance in the covariates with respect to different treatment options, caused by treatment selection bias. To address this issue, recent literature has explored domain-invariant representation learning based on different domain divergence metrics (e.g., Wasserstein distance, maximum mean discrepancy, position-dependent metric, and domain overlap). In this paper, we reveal the weaknesses of these strategies, i.e., they lead to the loss of predictive information when enforcing the domain invariance; and the treatment effect estimation performance is unstable, which heavily relies on the characteristics of the domain distributions and the choice of domain divergence metrics. Motivated by information theory, we propose to learn the Infomax and Domain-Independent Representations to solve the above puzzles. Our method utilizes the mutual information between the global feature representations and individual feature representations, and the mutual information between feature representations and treatment assignment predictions, in order to maximally capture the common predictive information for both treatment and control groups. Moreover, our method filters out the influence of instrumental and irrelevant variables, and thus it effectively increases the predictive ability of potential outcomes. Experimental results on both the synthetic and real-world datasets show that our method achieves state-of-the-art performance on causal effect inference. Moreover, our method exhibits reliable prediction performances when facing data with different characteristics of data distributions, complicated variable types, and severe covariate imbalance.
翻訳日:2022-02-23 14:56:31 公開日:2022-02-22
# ブートストラップしたディープアンサンブルを用いたニューラルネットワークの信頼度

Confident Neural Network Regression with Bootstrapped Deep Ensembles ( http://arxiv.org/abs/2202.10903v1 )

ライセンス: Link先を確認
Laurens Sluijterman, Eric Cator, Tom Heskes(参考訳) ニューラルネットワークの人気と利用が高まり、信頼性の高い不確実性推定がますます重要になっている。 本稿では、パラメータブートストラップの修正版を用いて、有限データの効果を明示的に考慮した、Bootstrapped Deep Ensemblesと呼ばれる回帰設定のための、計算的に安価なDeep Ensembles拡張を提案する。 シミュレーション実験により,本手法はDeep Ensemblesや他の最先端手法と比較して,同等あるいは優れた予測間隔と優れた信頼区間を有することを示した。 付加的なボーナスとして,本手法は標準のDeep Ensemblesよりもオーバーフィットを検出することができる。

With the rise of the popularity and usage of neural networks, trustworthy uncertainty estimation is becoming increasingly essential. In this paper we present a computationally cheap extension of Deep Ensembles for a regression setting called Bootstrapped Deep Ensembles that explicitly takes the effect of finite data into account using a modified version of the parametric bootstrap. We demonstrate through a simulation study that our method has comparable or better prediction intervals and superior confidence intervals compared to Deep Ensembles and other state-of-the-art methods. As an added bonus, our method is better capable of detecting overfitting than standard Deep Ensembles.
翻訳日:2022-02-23 14:56:04 公開日:2022-02-22
# ABAW: 評価・評価・表現認識・行動単位検出・マルチタスク学習課題

ABAW: Valence-Arousal Estimation, Expression Recognition, Action Unit Detection & Multi-Task Learning Challenges ( http://arxiv.org/abs/2202.10659v1 )

ライセンス: Link先を確認
Dimitrios Kollias(参考訳) 本稿では,コンピュータビジョンとパターン認識に関するIEEE International Conference on Computer Vision and Pattern Recognition(CVPR)と共同で開催された第3回ABAWコンペティションについて述べる。 第3回ABAWコンペティションはICCV 2021、IEEE FG 2020、IEEE CVPR 2017 Conferencesで開催されるコンペティションの継続であり、自動的に影響を分析することを目的としている。 今年大会は4つの課題を含む。 i)単タスクのヴァレンス・覚醒推定 二 ユニタスク表現の分類 三 単タスク動作単位の検出及び iv)マルチタスク学習。 すべての課題は、一般的なベンチマークデータベースであるaf-wild2に基づいており、これは大規模なインザワイルドデータベースであり、valence-arousal、expression、action unitという用語でアノテートされた最初のデータベースである。 本稿では,コンペティションコーパスを活用した4つの課題について,評価指標の概要と,得られた結果とともにベースラインシステムを提案する。

This paper describes the third Affective Behavior Analysis in-the-wild (ABAW) Competition, held in conjunction with IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), 2022. The 3rd ABAW Competition is a continuation of the Competitions held at ICCV 2021, IEEE FG 2020 and IEEE CVPR 2017 Conferences, and aims at automatically analyzing affect. This year the Competition encompasses four Challenges: i) uni-task Valence-Arousal Estimation, ii) uni-task Expression Classification, iii) uni-task Action Unit Detection, and iv) Multi-Task-Learning. All the Challenges are based on a common benchmark database, Aff-Wild2, which is a large scale in-the-wild database and the first one to be annotated in terms of valence-arousal, expressions and action units. In this paper, we present the four Challenges, with the utilized Competition corpora, we outline the evaluation metrics and present the baseline systems along with their obtained results.
翻訳日:2022-02-23 14:54:38 公開日:2022-02-22
# (参考訳) PyTorch Geometric Signed Directed: An Survey and Software on Graph Neural Networks for Signed and Directed Graphs [全文訳有]

PyTorch Geometric Signed Directed: A Survey and Software on Graph Neural Networks for Signed and Directed Graphs ( http://arxiv.org/abs/2202.10793v1 )

ライセンス: CC BY 4.0
Yixuan He, Xitong Zhang, Junjie Huang, Mihai Cucuringu, Gesine Reinert(参考訳) 署名されたネットワークは多くの現実世界のアプリケーション(例えば、信頼/不信関係を符号化するソーシャルネットワーク、時系列データから生じる相関ネットワーク)でユビキタスである。 多くの署名されたネットワークが指向されているが、指向するネットワーク用に特別に設計されたグラフニューラルネットワーク(GNN)に関する調査論文やソフトウェアパッケージが不足している。 本稿では,署名されたネットワークのためのgnnに関する調査およびソフトウェアであるpytorch geometric signed directedについて述べる。 本稿では,符号付きネットワークと有向ネットワークの分析における典型的なタスク,損失関数,評価指標について検討し,関連する実験で使用されるデータについて検討し,提案手法の概要を示す。 ディープラーニングフレームワークは、簡単に使えるGNNモデル、合成および実世界のデータ、および署名されたネットワークに対するタスク固有の評価指標と損失関数で構成される。 ソフトウェアはモジュール形式で提示され、署名されたネットワークと指示されたネットワークも別々に扱うことができる。 pytorch geometricの拡張ライブラリとして、提案するソフトウェアはオープンソースリリース、詳細なドキュメント、継続的インテグレーション、ユニットテスト、コードカバレッジチェックでメンテナンスされています。 コードは \url{https://github.com/s herylhyx/pytorch_geo metric_signed_direct ed} で公開されている。

Signed networks are ubiquitous in many real-world applications (e.g., social networks encoding trust/distrust relationships, correlation networks arising from time series data). While many signed networks are directed, there is a lack of survey papers and software packages on graph neural networks (GNNs) specially designed for directed networks. In this paper, we present PyTorch Geometric Signed Directed, a survey and software on GNNs for signed and directed networks. We review typical tasks, loss functions and evaluation metrics in the analysis of signed and directed networks, discuss data used in related experiments, and provide an overview of methods proposed. The deep learning framework consists of easy-to-use GNN models, synthetic and real-world data, as well as task-specific evaluation metrics and loss functions for signed and directed networks. The software is presented in a modular fashion, so that signed and directed networks can also be treated separately. As an extension library for PyTorch Geometric, our proposed software is maintained with open-source releases, detailed documentation, continuous integration, unit tests and code coverage checks. Our code is publicly available at \url{https://github.com/S herylHYX/pytorch_geo metric_signed_direct ed}.
翻訳日:2022-02-23 14:52:49 公開日:2022-02-22
# 論文に対する事例ベース推論による知識ベース質問応答

Knowledge Base Question Answering by Case-based Reasoning over Subgraphs ( http://arxiv.org/abs/2202.10610v1 )

ライセンス: Link先を確認
Rajarshi Das, Ameya Godbole, Ankita Naik, Elliot Tower, Robin Jia, Manzil Zaheer, Hannaneh Hajishirzi, Andrew McCallum(参考訳) 現実世界の知識ベース (KB) に対する質問応答 (QA) は,多種多様な推論パターンを必要とするため,困難である。 しかし、我々は大きなkbで仮定し、各サブグラフ近傍の様々なエンティティに対するクエリタイプの再帰に答えるために必要なパターンを推論する。 異なる部分グラフの局所的近傍間の構造的類似性を利用した半パラメトリックモデルを提案する。 (i)各クエリに対して、クエリ固有のサブグラフとともに他の類似の$k$-nearest neighbor(knn)トレーニングクエリを動的に検索する非パラメトリックコンポーネント (ii) knnクエリのサブグラフから(相対的な)推論パターンを特定し、ターゲットクエリのサブグラフに適用するように訓練されたパラメトリックコンポーネント。 また,大量の知識グラフ(KG)からクエリ固有のコンパクト部分グラフを選択する新しいアルゴリズムを提案し,数十億のエッジを含む完全なFreebase KGにスケールできるようにする。 提案モデルでは,既存のKG補完アルゴリズムよりも複雑な推論パターンを必要とする問合せに回答する。 提案モデルは、KBQAベンチマークの最先端モデルよりも優れているか、競合的に動作する。

Question answering (QA) over real-world knowledge bases (KBs) is challenging because of the diverse (essentially unbounded) types of reasoning patterns needed. However, we hypothesize in a large KB, reasoning patterns required to answer a query type reoccur for various entities in their respective subgraph neighborhoods. Leveraging this structural similarity between local neighborhoods of different subgraphs, we introduce a semiparametric model with (i) a nonparametric component that for each query, dynamically retrieves other similar $k$-nearest neighbor (KNN) training queries along with query-specific subgraphs and (ii) a parametric component that is trained to identify the (latent) reasoning patterns from the subgraphs of KNN queries and then apply it to the subgraph of the target query. We also propose a novel algorithm to select a query-specific compact subgraph from within the massive knowledge graph (KG), allowing us to scale to full Freebase KG containing billions of edges. We show that our model answers queries requiring complex reasoning patterns more effectively than existing KG completion algorithms. The proposed model outperforms or performs competitively with state-of-the-art models on several KBQA benchmarks.
翻訳日:2022-02-23 14:23:44 公開日:2022-02-22
# モジュラリティと拡張による体系的一般化の改善

Improving Systematic Generalization Through Modularity and Augmentation ( http://arxiv.org/abs/2202.10745v1 )

ライセンス: Link先を確認
Laura Ruis and Brenden Lake(参考訳) 体系的一般化は、既知の部分を新しい意味に結合する能力であり、効率的な人間の学習の重要な側面であるが、ニューラルネットワーク学習の弱点である。 本研究では,モジュール化とデータ拡張という2つのよく知られたモデリング原則が,接地型言語学習におけるニューラルネットワークの体系的一般化にどのように影響するかを検討する。 我々は,体系的な一般化を実現するために語彙がどれほど大きくなければならないか,また,拡張されたデータが手元にある問題に対してどの程度類似する必要があるかを解析する。 その結果,合成ベンチマークの制御された設定であっても,体系的一般化の達成は依然として困難であることがわかった。 元の約40倍の副詞を持つ拡張データセットをトレーニングした後、非モジュラーベースラインは、既知の動詞と副詞の新たな組み合わせに体系的に一般化することができない。 タスクを知覚やナビゲーションなどの認知プロセスに分離する際、モジュール型ニューラルネットワークは、拡張されたデータを利用してより体系的に一般化することができ、これまで改善されていない2つのgSCANテストに対して、最先端よりも70%と40%正確なマッチング増加を達成することができる。 この研究が、体系的な一般化の原動力と、ニューラルネットワークが人間と同じようにもっと学ぶために、まだ改善しなければならないことへの洞察を与えることを期待しています。

Systematic generalization is the ability to combine known parts into novel meaning; an important aspect of efficient human learning, but a weakness of neural network learning. In this work, we investigate how two well-known modeling principles -- modularity and data augmentation -- affect systematic generalization of neural networks in grounded language learning. We analyze how large the vocabulary needs to be to achieve systematic generalization and how similar the augmented data needs to be to the problem at hand. Our findings show that even in the controlled setting of a synthetic benchmark, achieving systematic generalization remains very difficult. After training on an augmented dataset with almost forty times more adverbs than the original problem, a non-modular baseline is not able to systematically generalize to a novel combination of a known verb and adverb. When separating the task into cognitive processes like perception and navigation, a modular neural network is able to utilize the augmented data and generalize more systematically, achieving 70% and 40% exact match increase over state-of-the-art on two gSCAN tests that have not previously been improved. We hope that this work gives insight into the drivers of systematic generalization, and what we still need to improve for neural networks to learn more like humans do.
翻訳日:2022-02-23 14:23:29 公開日:2022-02-22
# Leap Motion Sensor を用いた手話認識のための統計的・時空間的手指ジェスチャー特徴

Statistical and Spatio-temporal Hand Gesture Features for Sign Language Recognition using the Leap Motion Sensor ( http://arxiv.org/abs/2202.11005v1 )

ライセンス: Link先を確認
Jordan J. Bird(参考訳) 現代社会では、人は障害に基づいて特定されるべきではなく、障害のある人を無効にできる環境である。 自動手話認識(SLR)の改善は、デジタル技術による環境改善につながるだろう。 SLRに対する最先端のアプローチの多くは静的手動作の分類に重点を置いているが、コミュニケーションは時間的活動であり、現在存在する動的ジェスチャーの多くに反映されている。 このため、ジェスチャーの配信時の時間情報はSLRでは考慮されないことが多い。 本研究は,slジェスチャ認識の課題として,配信時の動的ジェスチャの変化を考察し,機械学習モデルの分類能力に単一特徴と混合特徴がどう影響するかを検討することを目的とした。 Leap Motion Controllerセンサーを通じて記録される18の一般的なジェスチャーは、複雑な分類問題をもたらす。 2つの特徴は0.6秒時間ウィンドウ、統計記述子、時空間属性から抽出される。 各セットの特徴は、ANOVA Fスコアとp値で比較され、1ステップあたり10個の特徴で成長し、250個の最高の特徴に制限される。 その結果、最高の統計モデルが240個の特徴を選択し、85.96%の精度、最高の時空間モデルが230個の特徴を選択して80.98%、最高の混合機能モデルが240個の特徴を選択した。 3つの結果集合を比較した場合(146個の機械学習モデル)、全体の分布は、入力が混合特徴数である場合の最小結果が、2つの単一特徴集合のいずれの数よりも増加することを示している。

In modern society, people should not be identified based on their disability, rather, it is environments that can disable people with impairments. Improvements to automatic Sign Language Recognition (SLR) will lead to more enabling environments via digital technology. Many state-of-the-art approaches to SLR focus on the classification of static hand gestures, but communication is a temporal activity, which is reflected by many of the dynamic gestures present. Given this, temporal information during the delivery of a gesture is not often considered within SLR. The experiments in this work consider the problem of SL gesture recognition regarding how dynamic gestures change during their delivery, and this study aims to explore how single types of features as well as mixed features affect the classification ability of a machine learning model. 18 common gestures recorded via a Leap Motion Controller sensor provide a complex classification problem. Two sets of features are extracted from a 0.6 second time window, statistical descriptors and spatio-temporal attributes. Features from each set are compared by their ANOVA F-Scores and p-values, arranged into bins grown by 10 features per step to a limit of the 250 highest-ranked features. Results show that the best statistical model selected 240 features and scored 85.96% accuracy, the best spatio-temporal model selected 230 features and scored 80.98%, and the best mixed-feature model selected 240 features from each set leading to a classification accuracy of 86.75%. When all three sets of results are compared (146 individual machine learning models), the overall distribution shows that the minimum results are increased when inputs are any number of mixed features compared to any number of either of the two single sets of features.
翻訳日:2022-02-23 14:22:55 公開日:2022-02-22
# 高分解能リモートセンシング画像からの耕作地抽出におけるiflytek challenge 2021の勝利解

The Winning Solution to the iFLYTEK Challenge 2021 Cultivated Land Extraction from High-Resolution Remote Sensing Image ( http://arxiv.org/abs/2202.10974v1 )

ライセンス: Link先を確認
Zhen Zhao, Yuqiu Liu, Gang Zhang, Liang Tang and Xiaolin Hu(参考訳) 高分解能遠隔画像から耕作地を正確に抽出することは精密農業の基本課題である。 本稿では,高分解能リモートセンシング画像から土壌抽出を行うiflytek challenge 2021の解法を紹介する。 課題は、非常に高解像度のマルチスペクトルリモートセンシング画像で、耕作された土地のオブジェクトをセグメンテーションすることである。 この問題を解決するために、非常に効率的で効率的なパイプラインを構築しました。 まず,原画像を小さなタイルに分割し,各タイルに対して個別にインスタンス分割を行った。 自然画像にうまく機能するインスタンス分割アルゴリズムをいくつか検討し,リモートセンシング画像に適用可能な効果的な手法を開発した。 そして,提案するオーバーラップタイル融合戦略により,すべての小タイルの予測結果をシームレスで連続的なセグメンテーション結果にマージした。 このチャレンジで486チーム中1位を獲得した。

Extracting cultivated land accurately from high-resolution remote images is a basic task for precision agriculture. This report introduces our solution to the iFLYTEK challenge 2021 cultivated land extraction from high-resolution remote sensing image. The challenge requires segmenting cultivated land objects in very high-resolution multispectral remote sensing images. We established a highly effective and efficient pipeline to solve this problem. We first divided the original images into small tiles and separately performed instance segmentation on each tile. We explored several instance segmentation algorithms that work well on natural images and developed a set of effective methods that are applicable to remote sensing images. Then we merged the prediction results of all small tiles into seamless, continuous segmentation results through our proposed overlap-tile fusion strategy. We achieved the first place among 486 teams in the challenge.
翻訳日:2022-02-23 14:22:05 公開日:2022-02-22
# (参考訳) 人工知能に対する毒殺と防御:調査 [全文訳有]

Poisoning Attacks and Defenses on Artificial Intelligence: A Survey ( http://arxiv.org/abs/2202.10276v2 )

ライセンス: CC BY 4.0
Miguel A. Ramirez, Song-Kyoo Kim, Hussam Al Hamadi, Ernesto Damiani, Young-Ji Byon, Tae-Yeon Kim, Chung-Suk Cho and Chan Yeob Yeun(参考訳) 機械学習モデルは、いくつかの分野で広く採用されている。 しかし、最近の研究では、モデルの完全性を損なう可能性のある攻撃によるいくつかの脆弱性が示されており、サイバーセキュリティの観点からの新しい研究機会が提示されている。 この調査は、機械学習(ML)分類器のコンテキストにおけるセキュリティ脆弱性に関する最も関連性の高い情報、具体的には、データ中毒攻撃に対するトレーニング手順に向け、トレーニングフェーズ中にモデルに供給されたデータサンプルを改ざんして、推論フェーズにおけるモデルの精度を低下させるような攻撃のタイプを表現することを目的として実施されている。 この研究は、この種の攻撃に対処する最新の既存の文献に見られる最も関連する洞察と知見をまとめたものだ。 さらに,攻撃者に対する目標モデルに一定のロバスト性を与えることが可能な,検出・緩和機構の実現を約束する防衛手法についても述べる。 実環境下でのMLモデルに対するデータ中毒の影響を比較検討し,定量的および定性的な分析を行った。 本稿では、性能評価基準、必要パラメータ、デプロイメントの複雑さなど、各アプローチの主な特徴について分析する。 さらに,攻撃者および守備者双方が考慮する前提と限界を,可用性,信頼性,プライバシ,説明責任,解釈可能性などの本質的な特性とともに強調する。 最後に,サイバーセキュリティの分野における今後の研究方向への道筋を示す,既存の研究動向を参考にして結論づける。

Machine learning models have been widely adopted in several fields. However, most recent studies have shown several vulnerabilities from attacks with a potential to jeopardize the integrity of the model, presenting a new window of research opportunity in terms of cyber-security. This survey is conducted with a main intention of highlighting the most relevant information related to security vulnerabilities in the context of machine learning (ML) classifiers; more specifically, directed towards training procedures against data poisoning attacks, representing a type of attack that consists of tampering the data samples fed to the model during the training phase, leading to a degradation in the models accuracy during the inference phase. This work compiles the most relevant insights and findings found in the latest existing literatures addressing this type of attacks. Moreover, this paper also covers several defense techniques that promise feasible detection and mitigation mechanisms, capable of conferring a certain level of robustness to a target model against an attacker. A thorough assessment is performed on the reviewed works, comparing the effects of data poisoning on a wide range of ML models in real-world conditions, performing quantitative and qualitative analyses. This paper analyzes the main characteristics for each approach including performance success metrics, required hyperparameters, and deployment complexity. Moreover, this paper emphasizes the underlying assumptions and limitations considered by both attackers and defenders along with their intrinsic properties such as: availability, reliability, privacy, accountability, interpretability, etc. Finally, this paper concludes by making references of some of main existing research trends that provide pathways towards future research directions in the field of cyber-security.
翻訳日:2022-02-23 13:36:55 公開日:2022-02-22
# 機械学習における因果性の実行:予測変数の同定のためのモデル説明可能性手法の限界

Trying to Outrun Causality in Machine Learning: Limitations of Model Explainability Techniques for Identifying Predictive Variables ( http://arxiv.org/abs/2202.09875v2 )

ライセンス: Link先を確認
Matthew J. Vowels(参考訳) 機械学習の説明可能性技術は、なぜ特定の決定や予測がなされたのかを理解するために「説明」やモデルを問う方法として提案されている。 このような能力は、センシティブな要因や法的結果に関する意思決定プロセスの自動化にマシンラーニングが使用されている場合に特に重要です。 実際、これはEUの法律による要件ですらある。 さらに、過度に制限された機能形式(例えば線形回帰の場合)を課すことに関心を持つ研究者は、興味のある結果に関連する重要な変数を特定することを目的として、探索研究の一環として説明可能性技術とともに機械学習アルゴリズムを使用する動機があるかもしれない。 例えば、疫学者は「リスク要因」、すなわち、ランダムな森林を用いて病気からの回復に影響を与える要因を特定し、重要度を用いて変数の関連性を評価することに興味があるかもしれない。 しかし、私たちが実証しようとしているように、機械学習のアルゴリズムは見た目ほど柔軟性がなく、データの根底にある因果構造に驚くほど敏感です。 この結果、実際に因果系に批判的であり、結果と非常に相関している予測子は、しかしながら、結果に無関係で非重要かつ非予測的な説明可能性技術によって見なされる可能性がある。 これは、それ自体が説明可能性のテクニックの制限であるよりもむしろ、回帰の数学的含意と、これらの含意と、根底にある因果構造の関連する条件的非依存性との相互作用の結果である。 重要な変数のデータを探索したい研究者に、代替案をいくつか提供します。

Machine Learning explainability techniques have been proposed as a means of `explaining' or interrogating a model in order to understand why a particular decision or prediction has been made. Such an ability is especially important at a time when machine learning is being used to automate decision processes which concern sensitive factors and legal outcomes. Indeed, it is even a requirement according to EU law. Furthermore, researchers concerned with imposing overly restrictive functional form (e.g. as would be the case in a linear regression) may be motivated to use machine learning algorithms in conjunction with explainability techniques, as part of exploratory research, with the goal of identifying important variables which are associated with an outcome of interest. For example, epidemiologists might be interested in identifying 'risk factors' - i.e., factors which affect recovery from disease - by using random forests and assessing variable relevance using importance measures. However, and as we aim to demonstrate, machine learning algorithms are not as flexible as they might seem, and are instead incredibly sensitive to the underling causal structure in the data. The consequences of this are that predictors which are, in fact, critical to a causal system and highly correlated with the outcome, may nonetheless be deemed by explainability techniques to be unrelated/unimportan t/unpredictive of the outcome. Rather than this being a limitation of explainability techniques per se, it is rather a consequence of the mathematical implications of regressions, and the interaction of these implications with the associated conditional independencies of the underlying causal structure. We provide some alternative recommendations for researchers wanting to explore the data for important variables.
翻訳日:2022-02-23 12:46:57 公開日:2022-02-22
# Sparsity Winning Twice: より効率的なトレーニングによるロバストな一般化

Sparsity Winning Twice: Better Robust Generalization from More Efficient Training ( http://arxiv.org/abs/2202.09844v2 )

ライセンス: Link先を確認
Tianlong Chen, Zhenyu Zhang, Pengjun Wang, Santosh Balachandra, Haoyu Ma, Zehao Wang, Zhangyang Wang(参考訳) 最近の研究では、最先端の敵対的訓練(at)によって強固な深層ネットワークでさえも、標準訓練よりもはるかに高価なトレーニングコストに加えて、大きな強固な一般化ギャップに苦しむことが示されている。 本稿では,この興味深い問題を新たな視点,すなわち,敵訓練中に適切なスパルサシティを注入することから検討する。 sparse adversarial trainingの代替案を2つ紹介する。 (i) 抽選券仮説の最近の結果を利用して、早期訓練から生じる重要なスパースサブネットワークを特定することにより、静的なスパース性。 (ii)動的スパーシティ(dynamic sparsity)は、スパースサブネットワークがトレーニングを通して(同じスパース率に固執しながら)その接続パターンを適応的に調整することを可能にする。 強固な一般化ギャップを実質的に縮小し、強固な過剰フィッティングを緩和する一方で、トレーニングと推論のフラップを大幅に削減する。 CIFAR-10/100 や Tiny-ImageNet など,さまざまなデータセット上での複数のネットワークアーキテクチャによる提案を検証する。 例えば、我々の手法では、34.44%と4.02%の精度向上と87.83%/87.82%のトレーニング/推論 FLOPをCIFAR-100とResNet-18で削減する。 さらに,本手法を既存の正則化器と有機的に組み合わせることで,ATにおける新たな最先端結果が確立される。 コードはhttps://github.com/V ITA-Group/Sparsity-W in-Robust-Generaliza tionで公開されている。

Recent studies demonstrate that deep networks, even robustified by the state-of-the-art adversarial training (AT), still suffer from large robust generalization gaps, in addition to the much more expensive training costs than standard training. In this paper, we investigate this intriguing problem from a new perspective, i.e., injecting appropriate forms of sparsity during adversarial training. We introduce two alternatives for sparse adversarial training: (i) static sparsity, by leveraging recent results from the lottery ticket hypothesis to identify critical sparse subnetworks arising from the early training; (ii) dynamic sparsity, by allowing the sparse subnetwork to adaptively adjust its connectivity pattern (while sticking to the same sparsity ratio) throughout training. We find both static and dynamic sparse methods to yield win-win: substantially shrinking the robust generalization gap and alleviating the robust overfitting, meanwhile significantly saving training and inference FLOPs. Extensive experiments validate our proposals with multiple network architectures on diverse datasets, including CIFAR-10/100 and Tiny-ImageNet. For example, our methods reduce robust generalization gap and overfitting by 34.44% and 4.02%, with comparable robust/standard accuracy boosts and 87.83%/87.82% training/inference FLOPs savings on CIFAR-100 with ResNet-18. Besides, our approaches can be organically combined with existing regularizers, establishing new state-of-the-art results in AT. Codes are available in https://github.com/V ITA-Group/Sparsity-W in-Robust-Generaliza tion.
翻訳日:2022-02-23 12:46:31 公開日:2022-02-22
# 問題に触るな - 視覚的強化学習のためのタスクアウェアlipschitzデータ拡張

Don't Touch What Matters: Task-Aware Lipschitz Data Augmentation for Visual Reinforcement Learning ( http://arxiv.org/abs/2202.09982v2 )

ライセンス: Link先を確認
Zhecheng Yuan, Guozheng Ma, Yao Mu, Bo Xia, Bo Yuan, Xueqian Wang, Ping Luo, Huazhe Xu(参考訳) 視覚強化学習(rl)における重要な課題の1つは、見えない環境に一般化できるポリシーを学ぶことである。 近年,データ多様性向上を目的としたデータ拡張技術は,学習方針の一般化能力の向上に有効であることが証明されている。 しかし、RLトレーニングの感度が高いため、各ピクセルをタスクに依存しない方法で変換するデータ拡張は、不安定性に悩まされサンプル効率が損なわれ、さらに一般化性能が向上する可能性がある。 この現象の核心は、強調画像の面における発散行動分布と高分散値推定である。 この問題を軽減するため,我々はタスク関連画素をリプシッツ定数で明示的に識別し,タスク関連画素のみを強調するvisual rl用タスク対応リプシッツデータ拡張 (tlda) を提案する。 TLDAの有効性を検証するため、我々はDeepMind Control Suite、CARLA、DeepMind Manipulationタスクにおいて広範囲な実験を行い、TLDAはトレーニング時間におけるサンプル効率とテスト時間における一般化の両方を改善することを示した。 3つの異なるビジュアルコントロールベンチマークで、以前の最先端のメソッドよりも優れています。

One of the key challenges in visual Reinforcement Learning (RL) is to learn policies that can generalize to unseen environments. Recently, data augmentation techniques aiming at enhancing data diversity have demonstrated proven performance in improving the generalization ability of learned policies. However, due to the sensitivity of RL training, naively applying data augmentation, which transforms each pixel in a task-agnostic manner, may suffer from instability and damage the sample efficiency, thus further exacerbating the generalization performance. At the heart of this phenomenon is the diverged action distribution and high-variance value estimation in the face of augmented images. To alleviate this issue, we propose Task-aware Lipschitz Data Augmentation (TLDA) for visual RL, which explicitly identifies the task-correlated pixels with large Lipschitz constants, and only augments the task-irrelevant pixels. To verify the effectiveness of TLDA, we conduct extensive experiments on DeepMind Control suite, CARLA and DeepMind Manipulation tasks, showing that TLDA improves both sample efficiency in training time and generalization in test time. It outperforms previous state-of-the-art methods across the 3 different visual control benchmarks.
翻訳日:2022-02-23 12:46:00 公開日:2022-02-22
# SAGE:内視鏡に先立って外観と幾何学を備えたSLAM

SAGE: SLAM with Appearance and Geometry Prior for Endoscopy ( http://arxiv.org/abs/2202.09487v2 )

ライセンス: Link先を確認
Xingtong Liu, Zhaoshuo Li, Masaru Ishii, Gregory D. Hager, Russell H. Taylor, Mathias Unberath(参考訳) 内視鏡では、多くの応用(例えば手術ナビゲーション)が、内視鏡を同時に追跡し、観察された解剖学の密度の高い3D形状を単眼内視鏡ビデオから再構成するリアルタイムな手法の恩恵を受ける。 この目的のために、学習に基づく外観と最適化可能な幾何先行と因子グラフ最適化を組み合わせた同時局所化マッピングシステムを開発した。 外観と幾何学の事前は、SLAMシステムのコアコンポーネントであるペアワイドイメージアライメントのタスクをマスターするために、エンドツーエンドの微分可能なトレーニングパイプラインで明示的に学習される。 実験では,提案するスラムシステムは,内視鏡で一般的に見られるテクスチャ不足や照明変化の課題を頑健に処理できることが示されている。 このシステムは、目に見えない内視鏡や被験者によく一般化し、最先端の機能ベースのSLAMシステムと比較して好適に機能する。 コードリポジトリはhttps://github.com/l ppllppl920/sage-slam .gitで入手できる。

In endoscopy, many applications (e.g., surgical navigation) would benefit from a real-time method that can simultaneously track the endoscope and reconstruct the dense 3D geometry of the observed anatomy from a monocular endoscopic video. To this end, we develop a Simultaneous Localization and Mapping system by combining the learning-based appearance and optimizable geometry priors and factor graph optimization. The appearance and geometry priors are explicitly learned in an end-to-end differentiable training pipeline to master the task of pair-wise image alignment, one of the core components of the SLAM system. In our experiments, the proposed SLAM system is shown to robustly handle the challenges of texture scarceness and illumination variation that are commonly seen in endoscopy. The system generalizes well to unseen endoscopes and subjects and performs favorably compared with a state-of-the-art feature-based SLAM system. The code repository is available at https://github.com/l ppllppl920/SAGE-SLAM .git.
翻訳日:2022-02-23 12:45:38 公開日:2022-02-22
# 有限メモリによる部分観測系制御の学習

Learning to Control Partially Observed Systems with Finite Memory ( http://arxiv.org/abs/2202.09753v2 )

ライセンス: Link先を確認
Semih Cayci, Niao He, R. Srikant(参考訳) 制御器が制御されたマルコフ連鎖のノイズのみを観測できるような、大きく、あるいは数え切れないほど無限な状態空間を持つ部分観測マルコフ決定過程(POMDP)の強化学習問題を考察する。 ポリシーパラメータ化に有限内部メモリを用いる自然なアクター批判法とポリシー評価のための多段階時間差分学習アルゴリズムを考える。 我々の知る限りでは、関数近似の下で部分的に観測されたシステムに対するアクター-批判法の非漸近的大域収束を初めて確立する。 特に, MDP で発生する関数近似や統計的誤差に加えて, 有限状態制御器の使用による誤差を明示的に特徴づける。 この追加誤差は、PMDPの伝統的な信念状態と有限状態コントローラを使用する場合の隠れ状態の後部分布との間の全変動距離の観点から記述される。 さらに,より大きなブロックサイズを用いることで,スライディングブロックコントローラの場合,この誤差を小さくすることができることを示す。

We consider the reinforcement learning problem for partially observed Markov decision processes (POMDPs) with large or even countably infinite state spaces, where the controller has access to only noisy observations of the underlying controlled Markov chain. We consider a natural actor-critic method that employs a finite internal memory for policy parameterization, and a multi-step temporal difference learning algorithm for policy evaluation. We establish, to the best of our knowledge, the first non-asymptotic global convergence of actor-critic methods for partially observed systems under function approximation. In particular, in addition to the function approximation and statistical errors that also arise in MDPs, we explicitly characterize the error due to the use of finite-state controllers. This additional error is stated in terms of the total variation distance between the traditional belief state in POMDPs and the posterior distribution of the hidden state when using a finite-state controller. Further, we show that this error can be made small in the case of sliding-block controllers by using larger block sizes.
翻訳日:2022-02-23 12:45:03 公開日:2022-02-22
# 点雲完了のためのスノーフレーク点デコンボリューションとスキップ変換器による生成

Snowflake Point Deconvolution for Point Cloud Completion and Generation with Skip-Transformer ( http://arxiv.org/abs/2202.09367v2 )

ライセンス: Link先を確認
Peng Xiang, Xin Wen, Yu-Shen Liu, Yan-Pei Cao, Pengfei Wan, Wen Zheng, Zhizhong Han(参考訳) 既存のポイントクラウド補完手法のほとんどは、ポイントクラウドの離散的性質と、ローカル領域におけるポイントの非構造化予測に苦しめられているため、詳細な局所幾何学的詳細を明らかにすることは困難である。 この問題を解決するために,Snowflake Point Deconvolution (SPD) を用いたSnowflakeNetを提案する。 SPDは、完全点雲の生成を雪片のような点の成長としてモデル化し、それぞれのSPD後に親点を分割することで、子点を徐々に生成する。 詳細な幾何学を明らかにする上での洞察は,ローカル領域に最適な点分割パターンを学習するために,SPDにスキップ変換器を導入することである。 スキップ変換器は注意機構を利用して、以前のSPD層で使われる分割パターンを要約し、現在のSPD層で分割を生成する。 spdによって生成された局所コンパクトで構造化された点雲は,局所パッチにおける3次元形状の構造特性を正確に明らかにした。 さらに,SPDは完成に限らず一般的な操作であるため,ポイントクラウドの自動エンコーディング,生成,単一画像再構成,アップサンプリングなど,他の生成タスクへのSPDの適用についても検討する。 実験結果は,広く使用されているベンチマークでは最先端の手法を上回っている。

Most existing point cloud completion methods suffered from discrete nature of point clouds and unstructured prediction of points in local regions, which makes it hard to reveal fine local geometric details. To resolve this issue, we propose SnowflakeNet with Snowflake Point Deconvolution (SPD) to generate the complete point clouds. SPD models the generation of complete point clouds as the snowflake-like growth of points, where the child points are progressively generated by splitting their parent points after each SPD. Our insight of revealing detailed geometry is to introduce skip-transformer in SPD to learn point splitting patterns which can fit local regions the best. Skip-transformer leverages attention mechanism to summarize the splitting patterns used in previous SPD layer to produce the splitting in current SPD layer. The locally compact and structured point clouds generated by SPD precisely reveal the structure characteristic of 3D shape in local patches, which enables us to predict highly detailed geometries. Moreover, since SPD is a general operation, which is not limited to completion, we further explore the applications of SPD on other generative tasks, including point cloud auto-encoding, generation, single image reconstruction and upsampling. Our experimental results outperform the state-of-the-art methods under widely used benchmarks.
翻訳日:2022-02-23 12:44:46 公開日:2022-02-22
# PMP-Net++:変換器強化多段階移動経路によるポイントクラウド補完

PMP-Net++: Point Cloud Completion by Transformer-Enhanced Multi-step Point Moving Paths ( http://arxiv.org/abs/2202.09507v2 )

ライセンス: Link先を確認
Xin Wen, Peng Xiang, Zhizhong Han, Yan-Pei Cao, Pengfei Wan, Wen Zheng, Yu-Shen Liu(参考訳) 不完全な3D形状の欠落部分を予測するために、クラウドの完了を指示する。 一般的な戦略は、不完全な入力に応じて完全な形状を生成することである。 しかし,不規則点の詳細なトポロジーや構造は抽出された潜在コードを用いて生成過程において捉えにくいため,無秩序点雲は高品質な3次元形状の生成を劣化させる。 我々は、完了を点雲変形過程として定式化することでこの問題に対処する。 具体的には,地球移動体の挙動を模倣する新しいニューラルネットワーク pmp-net++ を設計した。 点移動経路(pmps)の総距離が最短となるような、不完全入力の各点を全点クラウドに移動させる。 したがって、PMP-Net++は点移動距離の制約に従って各点について独自のPMPを予測する。 ネットワークは点レベルの厳密でユニークな対応を学習し、予測された完全形状の品質を向上させる。 さらに,移動ポイントはネットワークが学習するポイント単位の機能に大きく依存するので,pmp-net++の完成性能を大幅に向上させるトランスフォーマティブエンハンスド表現学習ネットワークも導入する。 我々は、形状完備化に関する包括的な実験を行い、さらにポイントクラウドアップサンプリングの応用を探求し、最先端のポイントクラウドコンプリート/アップサンプリング手法に対するPMP-Net++の非自明な改善を示す。

Point cloud completion concerns to predict missing part for incomplete 3D shapes. A common strategy is to generate complete shape according to incomplete input. However, unordered nature of point clouds will degrade generation of high-quality 3D shapes, as detailed topology and structure of unordered points are hard to be captured during the generative process using an extracted latent code. We address this problem by formulating completion as point cloud deformation process. Specifically, we design a novel neural network, named PMP-Net++, to mimic behavior of an earth mover. It moves each point of incomplete input to obtain a complete point cloud, where total distance of point moving paths (PMPs) should be the shortest. Therefore, PMP-Net++ predicts unique PMP for each point according to constraint of point moving distances. The network learns a strict and unique correspondence on point-level, and thus improves quality of predicted complete shape. Moreover, since moving points heavily relies on per-point features learned by network, we further introduce a transformer-enhanced representation learning network, which significantly improves completion performance of PMP-Net++. We conduct comprehensive experiments in shape completion, and further explore application on point cloud up-sampling, which demonstrate non-trivial improvement of PMP-Net++ over state-of-the-art point cloud completion/up-sampli ng methods.
翻訳日:2022-02-23 12:44:21 公開日:2022-02-22
# 測地線量子ウォーク

Geodesic Quantum Walks ( http://arxiv.org/abs/2202.10235v2 )

ライセンス: Link先を確認
Giuseppe Di Molfetta and Victor Deng(参考訳) 任意の三角測量を伝播できる離散時空量子ウォークの新たなファミリーを提案する。 さらに、著者の一人が導入した双対性原理を拡張し、一般化し、与えられた三角形の連続局所変形と量子ウォーカーを導く局所ユニタリの不均一性をリンクする。 形式的連続極限において、空間と時間の両方において、この新しい量子ウォークの族は曲線多様体上の (1+2) 次元マスレスディラック方程式に収束することを示した。 この結果は、フラーレン分子や動的因果三角測量のような離散曲面構造上での量子輸送のモデリング/シミュレーションと、曲面空間最適化法の文脈における高速かつ効率的な最適化問題の両方に関連があると信じている。

We propose a new family of discrete-spacetime quantum walks capable to propagate on any arbitrary triangulations. Moreover we also extend and generalize the duality principle introduced by one of the authors, linking continuous local deformations of a given triangulation and the inhomogeneity of the local unitaries that guide the quantum walker. We proved that in the formal continuous limit, in both space and time, this new family of quantum walks converges to the (1+2)D massless Dirac equation on curved manifolds. We believe that this result has relevance in both modelling/simulating quantum transport on discrete curved structures, such as fullerene molecules or dynamical causal triangulation, and in addressing fast and efficient optimization problems in the context of the curved space optimization methods.
翻訳日:2022-02-23 12:43:56 公開日:2022-02-22
# 一番の養子は誰ですか。 無料トライアルアイテムプロモーションのためのユーザ選択モデル

Who Are the Best Adopters? User Selection Model for Free Trial Item Promotion ( http://arxiv.org/abs/2202.09508v2 )

ライセンス: Link先を確認
Shiqi Wang, Chongming Gao, Min Gao, Junliang Yu, Zongwei Wang, Hongzhi Yin(参考訳) 市場競争が激化する中、無料トライアルの提供は、製品を宣伝しユーザーを引き付ける強力な刺激戦略となっている。 料金なしで商品を体験する機会をユーザに提供することで、無償トライアルによって、導入者は製品についてもっと知ることができ、購入意欲を高めることができる。 しかし、プロモーションプロセスの要点として、適切な採用者を見つけることはまれである。 ユーザーを静的な属性で評価することは、実用性はあるが、効果は低く、パーソナライズされた好みを無視している。 そこで本研究では,製品とベストアダプターを動的に一致させるため,エージェントがフリートライアル後の利益を最大化しようとする特定の採用者を積極的に選択する強化学習(rl)に基づく,smileと呼ばれる新しいフリートライアルユーザ選択モデルを提案する。 具体的には,アクション空間を再構成する木構造を設計することで,大規模ユーザ空間からの導入者を効率的に選択できる。 3つのデータセットに対する実験分析は,提案モデルが優れていることを示し,強化学習と木構造が性能を向上させる理由を解明する。 本研究は,より堅牢でインテリジェントなユーザ選択モデルを構築するための技術的実現可能性と,マーケティング促進戦略を検討するためのガイドを示す。

With the increasingly fierce market competition, offering a free trial has become a potent stimuli strategy to promote products and attract users. By providing users with opportunities to experience goods without charge, a free trial makes adopters know more about products and thus encourages their willingness to buy. However, as the critical point in the promotion process, finding the proper adopters is rarely explored. Empirically winnowing users by their static demographic attributes is feasible but less effective, neglecting their personalized preferences. To dynamically match the products with the best adopters, in this work, we propose a novel free trial user selection model named SMILE, which is based on reinforcement learning (RL) where an agent actively selects specific adopters aiming to maximize the profit after free trials. Specifically, we design a tree structure to reformulate the action space, which allows us to select adopters from massive user space efficiently. The experimental analysis on three datasets demonstrates the proposed model's superiority and elucidates why reinforcement learning and tree structure can improve performance. Our study demonstrates technical feasibility for constructing a more robust and intelligent user selection model and guides for investigating more marketing promotion strategies.
翻訳日:2022-02-23 12:43:42 公開日:2022-02-22
# 一番の養子は誰ですか。 無料トライアルアイテムプロモーションのためのユーザ選択モデル

Who Are the Best Adopters? User Selection Model for Free Trial Item Promotion ( http://arxiv.org/abs/2202.09508v1 )

ライセンス: Link先を確認
Shiqi Wang, Chongming Gao, Min Gao, Junliang Yu, Zongwei Wang, Hongzhi Yin(参考訳) 市場競争が激化する中、無料トライアルの提供は、製品を宣伝しユーザーを引き付ける強力な刺激戦略となっている。 料金なしで商品を体験する機会をユーザに提供することで、無償トライアルによって、導入者は製品についてもっと知ることができ、購入意欲を高めることができる。 しかし、プロモーションプロセスの要点として、適切な採用者を見つけることはまれである。 ユーザーを静的な属性で評価することは、実用性はあるが、効果は低く、パーソナライズされた好みを無視している。 そこで本研究では,製品とベストアダプターを動的に一致させるため,エージェントがフリートライアル後の利益を最大化しようとする特定の採用者を積極的に選択する強化学習(rl)に基づく,smileと呼ばれる新しいフリートライアルユーザ選択モデルを提案する。 具体的には,アクション空間を再構成する木構造を設計することで,大規模ユーザ空間からの導入者を効率的に選択できる。 3つのデータセットに対する実験分析は,提案モデルが優れていることを示し,強化学習と木構造が性能を向上させる理由を解明する。 本研究は,より堅牢でインテリジェントなユーザ選択モデルを構築するための技術的実現可能性と,マーケティング促進戦略を検討するためのガイドを示す。

With the increasingly fierce market competition, offering a free trial has become a potent stimuli strategy to promote products and attract users. By providing users with opportunities to experience goods without charge, a free trial makes adopters know more about products and thus encourages their willingness to buy. However, as the critical point in the promotion process, finding the proper adopters is rarely explored. Empirically winnowing users by their static demographic attributes is feasible but less effective, neglecting their personalized preferences. To dynamically match the products with the best adopters, in this work, we propose a novel free trial user selection model named SMILE, which is based on reinforcement learning (RL) where an agent actively selects specific adopters aiming to maximize the profit after free trials. Specifically, we design a tree structure to reformulate the action space, which allows us to select adopters from massive user space efficiently. The experimental analysis on three datasets demonstrates the proposed model's superiority and elucidates why reinforcement learning and tree structure can improve performance. Our study demonstrates technical feasibility for constructing a more robust and intelligent user selection model and guides for investigating more marketing promotion strategies.
翻訳日:2022-02-23 12:25:40 公開日:2022-02-22