このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220801となっている論文です。

PDF登録状況(公開日: 20220801)

TitleAuthorsAbstract論文公表日・翻訳日
# Dataset Specific Profiling の1例

A Case for Dataset Specific Profiling ( http://arxiv.org/abs/2208.03315v1 )

ライセンス: Link先を確認
Seth Ockerman, John Wu, Christopher Stewart(参考訳) データ駆動科学は、科学的な発見が、リッチで規律固有のデータセットに対する計算AIモデルの実行に依存する、新興パラダイムである。 現代の機械学習フレームワークでは、誰でも科学的な応用を可能にするデータに隠された概念を明らかにする計算モデルを開発し、実行することができる。 重要で広く使われているデータセットでは、データセットに対して実行できるすべての計算モデルのパフォーマンスを計算することは、クラウドリソースの点でコストを禁ずる。 ベンチマークアプローチは、実際にモデルを実行することなく、代表データセットを使用してパフォーマンスを推測する。 これらのアプローチは実践可能であるが、広範なデータセットプロファイリングをいくつかのデータセットに制限し、代表的なデータセットに適したモデルを好むバイアスを導入する。 その結果、各データセットのユニークな特徴は未探索のまま残され、一般化データセットからの推論に基づいてサブパーモデルが選択される。 これは、モデル選択プロセスにデータセットプロファイリングを導入する新しいパラダイムを必要とします。 1) 科学的なデータセットは、広く使われている代表的データセットと比較して計算モデルのランクの順序を著しく変化させることができるか? 2) もしそうなら、軽量モデル実行はベンチマークの精度を向上できるか? これらの質問に対する回答は、新しいデータセット対応ベンチマークパラダイムの基礎となった。

Data-driven science is an emerging paradigm where scientific discoveries depend on the execution of computational AI models against rich, discipline-specific datasets. With modern machine learning frameworks, anyone can develop and execute computational models that reveal concepts hidden in the data that could enable scientific applications. For important and widely used datasets, computing the performance of every computational model that can run against a dataset is cost prohibitive in terms of cloud resources. Benchmarking approaches used in practice use representative datasets to infer performance without actually executing models. While practicable, these approaches limit extensive dataset profiling to a few datasets and introduce bias that favors models suited for representative datasets. As a result, each dataset's unique characteristics are left unexplored and subpar models are selected based on inference from generalized datasets. This necessitates a new paradigm that introduces dataset profiling into the model selection process. To demonstrate the need for dataset-specific profiling, we answer two questions:(1) Can scientific datasets significantly permute the rank order of computational models compared to widely used representative datasets? (2) If so, could lightweight model execution improve benchmarking accuracy? Taken together, the answers to these questions lay the foundation for a new dataset-aware benchmarking paradigm.
翻訳日:2022-08-14 18:13:29 公開日:2022-08-01
# O-RANにおける人工知能のための情報モデルマッチング

Choose, not Hoard: Information-to-Model Matching for Artificial Intelligence in O-RAN ( http://arxiv.org/abs/2208.04229v1 )

ライセンス: Link先を確認
Jorge Mart\'in-P\'erez, Nuria Molner, Francesco Malandrino, Carlos Jes\'us Bernardos, Antonio de la Oliva, David Gomez-Barquero(参考訳) Open Radio Access Network (O-RAN)は、異なるベンダーの仮想ネットワーク基盤要素がオープンで標準化されたインターフェースを介して通信する新興パラダイムである。 重要な要素は、人工知能(AI)ベースのコントローラであるRAN Intelligent Controller(RIC)である。 従来、ネットワークで利用可能なすべてのデータは、RICで使用する単一のAIモデルをトレーニングするために使用されてきた。 本稿では、複数のaiモデルインスタンスを異なるricで作成し、トレーニングに複数の(あるいはすべて)場所からの情報を活用する方法を紹介し、議論し、評価する。 これにより、gNBと、それらを制御するために使用されるAIモデルと、そのようなモデルでトレーニングされたデータとの間には、柔軟な関係が生まれる。 実世界のトレースを使った実験は、特定の場所からトレーニングデータを選択する複数のAIモデルインスタンスを使うことで、従来のアプローチのパフォーマンスが向上することを示している。

Open Radio Access Network (O-RAN) is an emerging paradigm, whereby virtualized network infrastructure elements from different vendors communicate via open, standardized interfaces. A key element therein is the RAN Intelligent Controller (RIC), an Artificial Intelligence (AI)-based controller. Traditionally, all data available in the network has been used to train a single AI model to use at the RIC. In this paper we introduce, discuss, and evaluate the creation of multiple AI model instances at different RICs, leveraging information from some (or all) locations for their training. This brings about a flexible relationship between gNBs, the AI models used to control them, and the data such models are trained with. Experiments with real-world traces show how using multiple AI model instances that choose training data from specific locations improve the performance of traditional approaches.
翻訳日:2022-08-14 18:13:11 公開日:2022-08-01
# フレイミングハムに基づく心血管疾患のリスクと予後予測の方程式の人工知能と網膜イメージングによる置き換え

Replacing the Framingham-based equation for prediction of cardiovascular disease risk and adverse outcome by using artificial intelligence and retinal imaging ( http://arxiv.org/abs/2207.14685v2 )

ライセンス: Link先を確認
Ehsan Vaghefi, David Squirrell, Songyang An, Song Yang, John Marshall(参考訳) 目的:網膜基底画像のみを用いて、全体5年間の心血管リスク(CVD)と、このリスクを構成するコンポーネントリスク要因の相対的寄与を予測できる人工知能ディープラーニングプラットフォーム(ORAiCLE)の精度を作成し、評価すること。 方法】47,236症例のデータベースから165,907例の網膜画像を用いた。 当初、各画像は生体計測データ年代、民族性、性別、糖尿病の有無、持続時間、HDL/LDL比、および網膜画像取得から5年経過したCVDイベントwtihinと組み合わせられた。 フレイミングハム方程式に基づくリスクスコアを算出した。 実際のCVD発生率も個人および全人口に対して決定された。 最後に、ORAiCLEは年齢、民族、性別、網膜画像のみを用いて訓練された。 結果:framingham-based scoreと比較すると,オライクルは,次の5年間,特にリスクの高い集団において,心血管イベントの予防接種において,最大12%正確であった。 制約モデルの信頼性と正確性はオライクルの性能に準じており、両者のデータセットからのデータを使って最終的な結果を得たことを示している。 結論: 網膜撮影は安価であり、完全に自動化された安価なカメラシステムとして入手するには最小限の訓練しか必要とされない。 そのため、ORAiCLEのようなAIベースのCVDリスクアルゴリズムは、CVヘルススクリーニングをより正確で、より親和性が高く、よりアクセスしやすいものにすることを約束する。 さらに、ORAiCLEは、個人全体のリスクを構成するコンポーネントの相対的貢献を評価するユニークな能力は、個人の特定のニーズに基づいて治療決定を通知し、ポジティブな健康結果の可能性が高まる。

Purpose: To create and evaluate the accuracy of an artificial intelligence Deep learning platform (ORAiCLE) capable of using only retinal fundus images to predict both an individuals overall 5 year cardiovascular risk (CVD) and the relative contribution of the component risk factors that comprise this risk. Methods: We used 165,907 retinal images from a database of 47,236 patient visits. Initially, each image was paired with biometric data age, ethnicity, sex, presence and duration of diabetes a HDL/LDL ratios as well as any CVD event wtihin 5 years of the retinal image acquisition. A risk score based on Framingham equations was calculated. The real CVD event rate was also determined for the individuals and overall population. Finally, ORAiCLE was trained using only age, ethnicity, sex plus retinal images. Results: Compared to Framingham-based score, ORAiCLE was up to 12% more accurate in prediciting cardiovascular event in he next 5-years, especially for the highest risk group of people. The reliability and accuracy of each of the restrictive models was suboptimal to ORAiCLE performance ,indicating that it was using data from both sets of data to derive its final results. Conclusion: Retinal photography is inexpensive and only minimal training is required to acquire them as fully automated, inexpensive camera systems are now widely available. As such, AI-based CVD risk algorithms such as ORAiCLE promise to make CV health screening more accurate, more afforadable and more accessible for all. Furthermore, ORAiCLE unique ability to assess the relative contribution of the components that comprise an individuals overall risk would inform treatment decisions based on the specific needs of an individual, thereby increasing the likelihood of positive health outcomes.
翻訳日:2022-08-07 14:33:17 公開日:2022-08-01
# ストレス検出のための音声分析と仮想現実への応用

Voice Analysis for Stress Detection and Application in Virtual Reality to Improve Public Speaking in Real-time: A Review ( http://arxiv.org/abs/2208.01041v1 )

ライセンス: Link先を確認
Arushi, Roberto Dillon, Ai Ni Teoh, Denise Dillon(参考訳) 公言中のストレスは一般的であり、パフォーマンスや自信に悪影響を及ぼす。 感情状態を認識する様々なモデルを開発するために広範な研究が行われている。 しかし,音声分析を用いて公話中のストレスをリアルタイムに検出する研究が少なからず行われている。 この文脈で、現在のレビューでは、アルゴリズムの適用は適切に検討されておらず、現在の複雑さと制限を考慮しつつ、適切なテスト環境を構築する際の主な障害を特定するのに役立ちました。 本稿では,vr(virtual reality)アプリケーションに統合可能なストレス検出計算アルゴリズムモデルを提案する。 開発したモデルは、VRと統合された場合、ストレスを示す生理的パラメータと相関する音声特徴を分析し、過度のストレスをリアルタイムに検出し、ユーザーが徐々に過度のストレスをコントロールし、公話のパフォーマンスを向上させる。

Stress during public speaking is common and adversely affects performance and self-confidence. Extensive research has been carried out to develop various models to recognize emotional states. However, minimal research has been conducted to detect stress during public speaking in real time using voice analysis. In this context, the current review showed that the application of algorithms was not properly explored and helped identify the main obstacles in creating a suitable testing environment while accounting for current complexities and limitations. In this paper, we present our main idea and propose a stress detection computational algorithmic model that could be integrated into a Virtual Reality (VR) application to create an intelligent virtual audience for improving public speaking skills. The developed model, when integrated with VR, will be able to detect excessive stress in real time by analysing voice features correlated to physiological parameters indicative of stress and help users gradually control excessive stress and improve public speaking performance
翻訳日:2022-08-03 13:52:11 公開日:2022-08-01
# ASTA: インテリジェントデータ分析と可視化のためのテーブル上の解析的セマンティックス学習

ASTA: Learning Analytical Semantics over Tables for Intelligent Data Analysis and Visualization ( http://arxiv.org/abs/2208.01043v1 )

ライセンス: Link先を確認
Lingbo Li, Tianle Li, Xinyi He, Mengyu Zhou, Shi Han, Dongmei Zhang(参考訳) テーブルのインテリジェントな分析と視覚化は、データから有用な知識を自動的に推奨するために技術を使用する。 多くの研究が規則や機械学習によるレコメンデーションの自動化に成功しているが、専門家の知識を一般化し、説明可能なレコメンデーションを提供することは困難である。 本稿では,知的テーブル分析を実証するために,初めて条件付きフォーマッティングを推奨し,チャートレコメンデーションとともに提案する。 本稿では,テーブル上の分析意味論を提案し,ユーザ生成分析の背後にある共通分析パターンを明らかにする。 本稿では,ユーザ意図からデータ焦点を分離して分析意味を設計し,データと人間の視点からユーザモチベーションを抽出する。 さらに、ASTAフレームワークは、複数の自動レコメンデーションに分析的セマンティクスを適用するように設計されている。 ASTAフレームワークは、専門家の知識に基づいてシグネチャを設計することでデータの特徴を抽出し、事前訓練されたモデルでフィールド(チャート)やセルレベルのデータ参照を可能にする。 実験により,我々のフレームワークは,公開チャートコーパスの62.86%中1位でリコールを達成し,最高ベースラインを約14%上回り,収集されたコーパス適合度で72.31%を達成し,astaフレームワークが正確かつ説明可能なレコメンデーションの提供に有効であることを確認した。

Intelligent analysis and visualization of tables use techniques to automatically recommend useful knowledge from data, thus freeing users from tedious multi-dimension data mining. While many studies have succeeded in automating recommendations through rules or machine learning, it is difficult to generalize expert knowledge and provide explainable recommendations. In this paper, we present the recommendation of conditional formatting for the first time, together with chart recommendation, to exemplify intelligent table analysis. We propose analytical semantics over tables to uncover common analysis pattern behind user-created analyses. Here, we design analytical semantics by separating data focus from user intent, which extract the user motivation from data and human perspective respectively. Furthermore, the ASTA framework is designed by us to apply analytical semantics to multiple automated recommendations. ASTA framework extracts data features by designing signatures based on expert knowledge, and enables data referencing at field- (chart) or cell-level (conditional formatting) with pre-trained models. Experiments show that our framework achieves recall at top 1 of 62.86% on public chart corpora, outperforming the best baseline about 14%, and achieves 72.31% on the collected corpus ConFormT, validating that ASTA framework is effective in providing accurate and explainable recommendations.
翻訳日:2022-08-03 13:50:38 公開日:2022-08-01
# samplematch: 音楽的文脈によるドラムサンプル検索

SampleMatch: Drum Sample Retrieval by Musical Context ( http://arxiv.org/abs/2208.01141v1 )

ライセンス: Link先を確認
Stefan Lattner(参考訳) 現代のデジタル音楽制作は通常、多数の音響要素を組み合わせて楽曲を合成する。 このような要素の重要なタイプはドラムサンプルであり、曲の打楽器成分の特徴を決定する。 アーティストは、あるドラムサンプルが現在の音楽的文脈に合うかどうかを評価するために、審美的判断を使わなければならない。 しかし、潜在的に大きなライブラリからドラムサンプルを選択するのは面倒で、創造的な流れを中断する可能性がある。 本研究では,データから学習した美的原理に基づく自動ドラムサンプル検索について検討する。 結果として、アーティストは、制作過程の異なる段階(すなわち、不完全な曲の混合に適合する)の音楽的文脈に合わせて、ライブラリ内のサンプルをランク付けすることができる。 この目的のために、コントラスト学習を用いて、ミックスと同じ曲に由来するドラムサンプルのスコアを最大化する。 評価が自動スコアリング機能に合致するかどうかを判断するために聞き取りテストを行う。 また,本手法の有効性を評価するために客観的な定量的分析を行った。

Modern digital music production typically involves combining numerous acoustic elements to compile a piece of music. Important types of such elements are drum samples, which determine the characteristics of the percussive components of the piece. Artists must use their aesthetic judgement to assess whether a given drum sample fits the current musical context. However, selecting drum samples from a potentially large library is tedious and may interrupt the creative flow. In this work, we explore the automatic drum sample retrieval based on aesthetic principles learned from data. As a result, artists can rank the samples in their library by fit to some musical context at different stages of the production process (i.e., by fit to incomplete song mixtures). To this end, we use contrastive learning to maximize the score of drum samples originating from the same song as the mixture. We conduct a listening test to determine whether the human ratings match the automatic scoring function. We also perform objective quantitative analyses to evaluate the efficacy of our approach.
翻訳日:2022-08-03 13:50:13 公開日:2022-08-01
# タイミングサイドチャネルを用いたディープニューラルネットワークにおけるユーザのプライバシ評価について

On the Evaluation of User Privacy in Deep Neural Networks using Timing Side Channel ( http://arxiv.org/abs/2208.01113v1 )

ライセンス: Link先を確認
Shubhi Shukla, Manaar Alam, Sarani Bhattacharya, Debdeep Mukhopadhyay, Pabitra Mitra(参考訳) 複雑な現実世界のタスクを解くための最近のDeep Learning (DL)の進歩は、実践的応用において広く採用されている。 しかし、この機会には重大なリスクが伴う。これらのモデルの多くは、さまざまなアプリケーションのトレーニングにプライバシーに敏感なデータに依存しているため、プライバシー侵害に対する過度に暴露される脅威となる。 さらに、堅牢なインフラストラクチャサポートにクラウドベースのMachine-Learning-as-a-Service(MLaaS)が広く使用されていることにより、脅威表面が拡張され、さまざまなリモートサイドチャネル攻撃が含まれている。 本稿では,広く使用されているdlフレームワークpytorchにおける非定常時間分岐操作に由来するdl実装における,新たなデータ依存タイミングサイドチャネルリーク(いわゆるクラスリーク)を特定し,報告する。 さらに、MLaaSのユーザ特権とハードラベルのブラックボックスアクセスを持つ敵が、クラスリークを利用してMLaaSユーザのプライバシーを侵害する、実用的な推論時攻撃を実証する。 dlモデルはメンバーシップ推論攻撃(mia)に対して脆弱であり、敵の目標はモデルトレーニング中に特定のデータが使用されたかどうかを推測することである。 本稿では,異なるケーススタディとして,差分プライバシーが確保されたDLモデル(MIAに対する一般的な対策)が,いまだにクラスリークを悪用する敵に対するMIAに対して脆弱であることを示す。 我々は,クラスリークを緩和し,MIAを緩和する定時分岐操作を行うことにより,実装が容易な対策を開発する。 我々は、CIFAR-10とCIFAR-100という2つの標準ベンチマーク画像分類データセットを選択して、5つの最先端の訓練済みDLモデルをトレーニングしました。

Recent Deep Learning (DL) advancements in solving complex real-world tasks have led to its widespread adoption in practical applications. However, this opportunity comes with significant underlying risks, as many of these models rely on privacy-sensitive data for training in a variety of applications, making them an overly-exposed threat surface for privacy violations. Furthermore, the widespread use of cloud-based Machine-Learning-as-a-Service (MLaaS) for its robust infrastructure support has broadened the threat surface to include a variety of remote side-channel attacks. In this paper, we first identify and report a novel data-dependent timing side-channel leakage (termed Class Leakage) in DL implementations originating from non-constant time branching operation in a widely used DL framework PyTorch. We further demonstrate a practical inference-time attack where an adversary with user privilege and hard-label black-box access to an MLaaS can exploit Class Leakage to compromise the privacy of MLaaS users. DL models are vulnerable to Membership Inference Attack (MIA), where an adversary's objective is to deduce whether any particular data has been used while training the model. In this paper, as a separate case study, we demonstrate that a DL model secured with differential privacy (a popular countermeasure against MIA) is still vulnerable to MIA against an adversary exploiting Class Leakage. We develop an easy-to-implement countermeasure by making a constant-time branching operation that alleviates the Class Leakage and also aids in mitigating MIA. We have chosen two standard benchmarking image classification datasets, CIFAR-10 and CIFAR-100 to train five state-of-the-art pre-trained DL models, over two different computing environments having Intel Xeon and Intel i7 processors to validate our approach.
翻訳日:2022-08-03 13:44:41 公開日:2022-08-01
# 異なる検閲と検査:臨床機械学習におけるラベルバイアスの源泉

Disparate Censorship & Undertesting: A Source of Label Bias in Clinical Machine Learning ( http://arxiv.org/abs/2208.01127v1 )

ライセンス: Link先を確認
Trenton Chang, Michael W. Sjoding, Jenna Wiens(参考訳) 機械学習(ML)モデルが臨床応用において勢いを増すにつれて、臨床医と社会的バイアスがMLモデルに与える影響を理解することがますます重要である。 バイアスはモデルトレーニングに使用されるラベルに現れるが、これらのバイアスが発生する多くのソースはまだよく研究されていない。 本稿では、臨床MLモデルが増幅し、害をもたらす可能性のあるラベルバイアスの源として、異なる検閲(すなわち、患者グループ間でのテスト率の違い)を強調する。 多くの患者リスク階層モデルは、臨床医師による診断とラベルの検査の結果を用いて訓練される。 検査結果のない患者は負のラベルを付けることが多く、未検査の患者はその結果を経験していないと仮定する。 注文は臨床と資源の考慮によって影響を受けるため、患者集団では検査は均一ではなく、異なる検閲を引き起こす可能性がある。 同等のリスクを持つ患者に対する異なる検閲は、特定のグループで過小評価され、その結果、そのようなグループに対するより偏見のあるラベルとなる。 このようなバイアス付きラベルを標準的なMLパイプラインで使用すると、患者グループ間のモデルパフォーマンスのギャップに寄与する可能性がある。 ここでは,異なる検閲やアンダーテストがサブグループ間のモデル性能に影響を及ぼす条件を理論的,実証的に特徴付ける。 臨床MLモデルにおけるラベルバイアスの源泉として,異なる検閲に注意を払っている。

As machine learning (ML) models gain traction in clinical applications, understanding the impact of clinician and societal biases on ML models is increasingly important. While biases can arise in the labels used for model training, the many sources from which these biases arise are not yet well-studied. In this paper, we highlight disparate censorship (i.e., differences in testing rates across patient groups) as a source of label bias that clinical ML models may amplify, potentially causing harm. Many patient risk-stratification models are trained using the results of clinician-ordered diagnostic and laboratory tests of labels. Patients without test results are often assigned a negative label, which assumes that untested patients do not experience the outcome. Since orders are affected by clinical and resource considerations, testing may not be uniform in patient populations, giving rise to disparate censorship. Disparate censorship in patients of equivalent risk leads to undertesting in certain groups, and in turn, more biased labels for such groups. Using such biased labels in standard ML pipelines could contribute to gaps in model performance across patient groups. Here, we theoretically and empirically characterize conditions in which disparate censorship or undertesting affect model performance across subgroups. Our findings call attention to disparate censorship as a source of label bias in clinical ML models.
翻訳日:2022-08-03 13:44:09 公開日:2022-08-01
# 分散型短期記憶を用いた短期負荷予測

Short-term Load Forecasting with Distributed Long Short-Term Memory ( http://arxiv.org/abs/2208.01147v1 )

ライセンス: Link先を確認
Yi Dong, Yang Chen, Xingyu Zhao, Xiaowei Huang(参考訳) スマートメーターの採用により、消費者行動に関する膨大なデータを小売業者が収集することができる。 収集されたデータから、小売業者は世帯プロファイル情報を取得し、需要応答を実行することができる。 小売業者は、異なる顧客間でできるだけ正確なモデルを取得することを好むが、2つの大きな課題がある。 第一に、小売市場の小売業者は、これらのデータを資産と見なすため、消費者の電力消費データを共有せず、データ島の問題となっている。 第2に、さまざまな小売業者が様々な消費者にサービスを提供するため、電力負荷データは極めて均一である。 この目的のために,コンセンサスアルゴリズムと長期短期記憶(lstm)に基づく,ユーザのプライバシを保護し,正確な負荷予測要件を満足する完全分散型短期負荷予測フレームワークを提案する。 具体的には、完全な分散学習フレームワークが分散トレーニングに活用され、機密プライバシーを満たすためにコンセンサス技術が適用される。 ケーススタディでは,提案手法は精度に関する集中化手法と同等の性能を示すが,本手法はトレーニング速度とデータプライバシーの利点を示す。

With the employment of smart meters, massive data on consumer behaviour can be collected by retailers. From the collected data, the retailers may obtain the household profile information and implement demand response. While retailers prefer to acquire a model as accurate as possible among different customers, there are two major challenges. First, different retailers in the retail market do not share their consumer's electricity consumption data as these data are regarded as their assets, which has led to the problem of data island. Second, the electricity load data are highly heterogeneous since different retailers may serve various consumers. To this end, a fully distributed short-term load forecasting framework based on a consensus algorithm and Long Short-Term Memory (LSTM) is proposed, which may protect the customer's privacy and satisfy the accurate load forecasting requirement. Specifically, a fully distributed learning framework is exploited for distributed training, and a consensus technique is applied to meet confidential privacy. Case studies show that the proposed method has comparable performance with centralised methods regarding the accuracy, but the proposed method shows advantages in training speed and data privacy.
翻訳日:2022-08-03 13:43:47 公開日:2022-08-01
# 時空間グラフ変換器による姿勢不確かさ認識同期推定

Pose Uncertainty Aware Movement Synchrony Estimation via Spatial-Temporal Graph Transformer ( http://arxiv.org/abs/2208.01161v1 )

ライセンス: Link先を確認
Jicheng Li, Anjana Bhat, Roghayeh Barmaki(参考訳) 運動同期は、相互作用するダイアド間の身体の動きの協調を反映する。 移動同期の推定はトランスフォーマーネットワークなどの強力なディープラーニングモデルによって自動化されている。 しかしながら、移動同期推定のための特殊なネットワークを設計する代わりに、以前のトランスフォーマーに基づく作品は、人間の活動認識のような他のタスクからのアーキテクチャを広く採用した。 そこで本稿では,運動同期推定のためのスケルトン型グラフトランスを提案する。 提案モデルは,スケルトン特徴抽出のための空間-時空間グラフ畳み込みニューラルネットワークst-gcnを,空間特徴生成のための空間トランスフォーマに適用した。 空間変圧器は、相互作用する個体の同一関節間で共有される一意に設計されたジョイント位置によって誘導される。 さらに,身体運動の周期的内在性を考慮した時間的注意計算に時間的類似性行列を組み込んだ。 また,各関節の信頼度はポーズの不確かさを反映するが,従来の動作同期推定ではこの点が十分に強調されていなかった。 トランスフォーマーネットワークはトレーニングに大量のデータを必要とするため、人間活動認識のベンチマークデータセットであるHuman3.6Mを用いて運動同期推定のためのデータセットを構築し、コントラスト学習を用いてモデルを事前訓練した。 さらに,プライバシ保護方式でポーズ検出失敗による情報損失を軽減するため,知識蒸留を適用した。 本手法を,自閉症治療介入から収集したデータセットPT13の代表的なアプローチと比較した。 提案手法は88.98%の精度を達成し,データプライバシを維持しつつ,広いマージンで相手を上回った。

Movement synchrony reflects the coordination of body movements between interacting dyads. The estimation of movement synchrony has been automated by powerful deep learning models such as transformer networks. However, instead of designing a specialized network for movement synchrony estimation, previous transformer-based works broadly adopted architectures from other tasks such as human activity recognition. Therefore, this paper proposed a skeleton-based graph transformer for movement synchrony estimation. The proposed model applied ST-GCN, a spatial-temporal graph convolutional neural network for skeleton feature extraction, followed by a spatial transformer for spatial feature generation. The spatial transformer is guided by a uniquely designed joint position embedding shared between the same joints of interacting individuals. Besides, we incorporated a temporal similarity matrix in temporal attention computation considering the periodic intrinsic of body movements. In addition, the confidence score associated with each joint reflects the uncertainty of a pose, while previous works on movement synchrony estimation have not sufficiently emphasized this point. Since transformer networks demand a significant amount of data to train, we constructed a dataset for movement synchrony estimation using Human3.6M, a benchmark dataset for human activity recognition, and pretrained our model on it using contrastive learning. We further applied knowledge distillation to alleviate information loss introduced by pose detector failure in a privacy-preserving way. We compared our method with representative approaches on PT13, a dataset collected from autism therapy interventions. Our method achieved an overall accuracy of 88.98% and surpassed its counterparts by a wide margin while maintaining data privacy.
翻訳日:2022-08-03 13:39:13 公開日:2022-08-01
# 四足歩行ロボットを用いた精密サッカーシューティングスキルの階層的強化学習

Hierarchical Reinforcement Learning for Precise Soccer Shooting Skills using a Quadrupedal Robot ( http://arxiv.org/abs/2208.01160v1 )

ライセンス: Link先を確認
Yandong Ji, Zhongyu Li, Yinan Sun, Xue Bin Peng, Sergey Levine, Glen Berseth, Koushil Sreenath(参考訳) 本研究では,四足歩行ロボットが実世界において,強化学習を用いて精度の高い射撃技術を実現できるという課題に対処する。 足のついたロボットが特定のターゲットにサッカーボールを発射できるようにするアルゴリズムの開発は、ロボットの動き制御と計画とを1つのタスクに統合する難しい問題である。 この問題を解決するためには,動的脚ロボットの制御時の動作制限と動作安定性を考慮する必要がある。 また, 地中を転がる硬質変形可能な球体を, 所望の場所に不確実な摩擦で発射する動作計画も検討する必要がある。 本稿では,深層強化学習を活用した階層的枠組みを提案する。 (a)任意の動きを追跡できる頑健な動作制御方針 (b)目標にサッカーボールを発射するために所望の蹴り動作を決定する計画方針。 提案するフレームワークをA1四足歩行ロボットに展開し、実世界のランダムなターゲットに向けて正確にボールを発射できるようにする。

We address the problem of enabling quadrupedal robots to perform precise shooting skills in the real world using reinforcement learning. Developing algorithms to enable a legged robot to shoot a soccer ball to a given target is a challenging problem that combines robot motion control and planning into one task. To solve this problem, we need to consider the dynamics limitation and motion stability during the control of a dynamic legged robot. Moreover, we need to consider motion planning to shoot the hard-to-model deformable ball rolling on the ground with uncertain friction to a desired location. In this paper, we propose a hierarchical framework that leverages deep reinforcement learning to train (a) a robust motion control policy that can track arbitrary motions and (b) a planning policy to decide the desired kicking motion to shoot a soccer ball to a target. We deploy the proposed framework on an A1 quadrupedal robot and enable it to accurately shoot the ball to random targets in the real world.
翻訳日:2022-08-03 13:37:24 公開日:2022-08-01
# 心理的に取り巻く動的嗜好モデルに向けて

Towards Psychologically-Grounded Dynamic Preference Models ( http://arxiv.org/abs/2208.01534v1 )

ライセンス: Link先を確認
Mihaela Curmei, Andreas Haupt, Benjamin Recht, Dylan Hadfield-Menell(参考訳) 時間的好みに応じてコンテンツを提供するレコメンデーションシステムを設計するには、レコメンデーションが人間の行動や心理的状態に与える影響を適切に把握する必要がある。 我々は、リコメンデーションが人の嗜好に与える影響をモデル化するには、心理的に妥当なモデルに基礎を置く必要があると論じる。 基礎となる動的嗜好モデルを開発するための方法論に貢献する。 本手法は,心理学文献から3つの古典的効果(平均露光,操作条件,ヘドニック適応)を捉えるモデルを用いて実証する。 シミュレーションに基づく研究により、心理モデルがシステム設計に影響を及ぼす異なる行動を示すことを示す。 本研究は,レコメンデーションシステムにおける動的ユーザモデリングに2つの直接的な意味を持つ。 第一に、我々が概説する方法論は、心理的に接地する動的選好モデルに適用できる。 心理的基礎に関する限定的な議論と、その意味のない予測に基づいて、最近の貢献を批判することができる。 次に,レコメンデーションシステムの評価と設計における動的選好モデルの意義について考察する。 例として、エンゲージメントと多様性の指標が望ましいシステム性能を捉えることができないことを示す。

Designing recommendation systems that serve content aligned with time varying preferences requires proper accounting of the feedback effects of recommendations on human behavior and psychological condition. We argue that modeling the influence of recommendations on people's preferences must be grounded in psychologically plausible models. We contribute a methodology for developing grounded dynamic preference models. We demonstrate this method with models that capture three classic effects from the psychology literature: Mere-Exposure, Operant Conditioning, and Hedonic Adaptation. We conduct simulation-based studies to show that the psychological models manifest distinct behaviors that can inform system design. Our study has two direct implications for dynamic user modeling in recommendation systems. First, the methodology we outline is broadly applicable for psychologically grounding dynamic preference models. It allows us to critique recent contributions based on their limited discussion of psychological foundation and their implausible predictions. Second, we discuss implications of dynamic preference models for recommendation systems evaluation and design. In an example, we show that engagement and diversity metrics may be unable to capture desirable recommendation system performance.
翻訳日:2022-08-03 13:36:34 公開日:2022-08-01
# 加速・解釈可能な斜めランダムサバイバル森林

Accelerated and interpretable oblique random survival forests ( http://arxiv.org/abs/2208.01129v1 )

ライセンス: Link先を確認
Byron C. Jaeger, Sawyer Welden, Kristin Lenoir, Jaime L. Speiser, Matthew Segar, Ambarish Pandey, Nicholas M. Pajewski(参考訳) 斜めランダムサバイバル・フォレスト (RSF) は, アンサンブルが監督する学習手法である。 斜めRCFのツリーは分岐を生成するために予測器の線形結合を用いて成長するが、標準RCFでは1つの予測器が使用される。 斜めRCFアンサンブルは標準RCFアンサンブルよりも高い予測精度を持つことが多い。 しかし、予測器の線形結合可能な全ての組み合わせを評価することは、大規模データセットに限定する計算オーバーヘッドを著しく引き起こす。 加えて、斜めrsfアンサンブルの解釈法が開発されているものはほとんどなく、軸ベースのアンサンブルに比べて解釈が困難である。 本研究では,斜め RSF の計算効率を向上させる手法と,斜め RSF を用いた個別予測変数の重要性を推定する方法を提案する。 決定木の各非リーフノード内のcox部分度関数に適用する古典的な最適化手法であるnewton-raphson scoreを用いて,計算オーバーヘッドを削減する。 与えられた予測器に使用する係数を線形結合で否定し、バッグ外精度の低減を計算することにより、斜めrsfに対する個々の予測器の重要性を推定する。 一般的なベンチマーク実験では, 斜めrsfの実装は, 既存の斜めrsfのソフトウェアと比較して, 同等の識別と高いブライアスコアで約450倍高速であることが判明した。 シミュレーション研究において,「否定的重要性」は置換的重要性よりも関連性のある予測因子と無関係な予測因子を確実に識別すること,シェープリー加法的説明,および分散分析に基づく斜めRCFを用いた変数重要度測定手法が導入された。 現在の研究で導入された手法は、Aorsf Rパッケージで利用可能である。

The oblique random survival forest (RSF) is an ensemble supervised learning method for right-censored outcomes. Trees in the oblique RSF are grown using linear combinations of predictors to create branches, whereas in the standard RSF, a single predictor is used. Oblique RSF ensembles often have higher prediction accuracy than standard RSF ensembles. However, assessing all possible linear combinations of predictors induces significant computational overhead that limits applications to large-scale data sets. In addition, few methods have been developed for interpretation of oblique RSF ensembles, and they remain more difficult to interpret compared to their axis-based counterparts. We introduce a method to increase computational efficiency of the oblique RSF and a method to estimate importance of individual predictor variables with the oblique RSF. Our strategy to reduce computational overhead makes use of Newton-Raphson scoring, a classical optimization technique that we apply to the Cox partial likelihood function within each non-leaf node of decision trees. We estimate the importance of individual predictors for the oblique RSF by negating each coefficient used for the given predictor in linear combinations, and then computing the reduction in out-of-bag accuracy. In general benchmarking experiments, we find that our implementation of the oblique RSF is approximately 450 times faster with equivalent discrimination and superior Brier score compared to existing software for oblique RSFs. We find in simulation studies that 'negation importance' discriminates between relevant and irrelevant predictors more reliably than permutation importance, Shapley additive explanations, and a previously introduced technique to measure variable importance with oblique RSFs based on analysis of variance. Methods introduced in the current study are available in the aorsf R package.
翻訳日:2022-08-03 13:31:37 公開日:2022-08-01
# 膝に肺疾患はあり得ない:胸部x線分類の医学的例を用いた分布内投票による分布外検出

A knee cannot have lung disease: out-of-distribution detection with in-distribution voting using the medical example of chest X-ray classification ( http://arxiv.org/abs/2208.01077v1 )

ライセンス: Link先を確認
Alessandro Wollek, Theresa Willem, Michael Ingrisch, Bastian Sabel and Tobias Lasser(参考訳) ディープラーニングモデルは、驚くべき成功ストーリーを持つ多くのユースケースに適用されていますが、実際の世界でどのように機能しますか? モデルをテストするために、特定のクリーンデータセットを組み立てる。 しかし、現実世界にデプロイされると、モデルは予期せぬ分散(ood)データに直面します。 本研究では,いわゆる「放射線学レベルの」CheXnetモデルは,OOD画像の認識に失敗し,肺疾患と分類する。 そこで本研究では,マルチラベル分類のための分散画像の分類手法であるin-distribution votingを提案する。 また,IDおよびOODデータに基づいて訓練した個別のクラス内分布予測器を用いて,平均99%のID分類特異度と98%の感度を達成し,胸部X線14データセットと比較すると,エンドツーエンドのパフォーマンスを著しく向上させた。 提案手法は,画像ネットのみをOODデータとして訓練し,X線OOD画像を用いてテストした場合においても,他の出力ベースのOOD検出器を超越する。

Deep learning models are being applied to more and more use cases with astonishing success stories, but how do they perform in the real world? To test a model, a specific cleaned data set is assembled. However, when deployed in the real world, the model will face unexpected, out-of-distribution (OOD) data. In this work, we show that the so-called "radiologist-level" CheXnet model fails to recognize all OOD images and classifies them as having lung disease. To address this issue, we propose in-distribution voting, a novel method to classify out-of-distribution images for multi-label classification. Using independent class-wise in-distribution (ID) predictors trained on ID and OOD data we achieve, on average, 99 % ID classification specificity and 98 % sensitivity, improving the end-to-end performance significantly compared to previous works on the chest X-ray 14 data set. Our method surpasses other output-based OOD detectors even when trained solely with ImageNet as OOD data and tested with X-ray OOD images.
翻訳日:2022-08-03 13:30:50 公開日:2022-08-01
# 球面ボクセルを用いたライダースキャンマッチングにおける影の緩和

Mitigating Shadows in Lidar Scan Matching using Spherical Voxels ( http://arxiv.org/abs/2208.01150v1 )

ライセンス: Link先を確認
Matthew McDermott and Jason Rife(参考訳) 本稿では,球状格子を用いた前処理ステップを導入することにより,Lidarスキャンマッチングにおけるシャドーイングエラーを軽減する手法を提案する。 グリッドはLidarビームと整列するため、Lidarスキャンマッチングの系統的なエラーを引き起こすシャドウエッジを除去することは比較的容易である。 シミュレーションを通して示すように、提案アルゴリズムは、既存のシャドウ緩和戦略である地上面除去よりも優れた結果をもたらす。 地表面の除去とは違って, 地表面上の任意の地形(都市壁の影, 丘陵地形の影など)に対して, 高さ, ピッチ, ロールの変化を推定するために重要なライダーポイントを地上に保持する。 先行処理アルゴリズムは様々なスキャンマッチング手法で使用できるが,voxelベースのスキャンマッチング手法では,計算コストを削減し,voxel間でlidarポイントを均等に分散することにより,さらなる利点が得られる。

In this paper we propose an approach to mitigate shadowing errors in Lidar scan matching, by introducing a preprocessing step based on spherical gridding. Because the grid aligns with the Lidar beam, it is relatively easy to eliminate shadow edges which cause systematic errors in Lidar scan matching. As we show through simulation, our proposed algorithm provides better results than ground-plane removal, the most common existing strategy for shadow mitigation. Unlike ground plane removal, our method applies to arbitrary terrains (e.g. shadows on urban walls, shadows in hilly terrain) while retaining key Lidar points on the ground that are critical for estimating changes in height, pitch, and roll. Our preprocessing algorithm can be used with a range of scan-matching methods; however, for voxel-based scan matching methods, it provides additional benefits by reducing computation costs and more evenly distributing Lidar points among voxels.
翻訳日:2022-08-03 13:30:26 公開日:2022-08-01
# CircuitNet: 電子設計自動化(EDA)における機械学習アプリケーションのためのオープンソースデータセット

CircuitNet: An Open-Source Dataset for Machine Learning Applications in Electronic Design Automation (EDA) ( http://arxiv.org/abs/2208.01040v1 )

ライセンス: Link先を確認
Zhuomin Chai, Yuxiang Zhao, Yibo Lin, Wei Liu, Runsheng Wang, Ru Huang(参考訳) 電子設計自動化(EDA)コミュニティは、大規模統合コンピュータ支援設計(VLSI CAD)のための機械学習を積極的に研究している。 多くの研究は、より高速な設計収束を実現するために、設計フローにおけるクロスステージ予測タスクの学習に基づく技術について研究してきた。 機械学習(ml)モデルの構築は通常、大量のデータを必要とするが、ほとんどの研究は、大きな公開データセットがないため、検証のために小さな内部データセットしか生成できない。 本稿では,VLSI CADにおける機械学習タスクのためのオープンソースデータセットCircuitNetについて述べる。 データセットは、6つのオープンソースrisc-v設計に基づく商用デザインツールの万能な実行から抽出された10万以上のサンプルで構成されている。

The electronic design automation (EDA) community has been actively exploring machine learning for very-large-scale-integrated computer aided design (VLSI CAD). Many studies have explored learning based techniques for cross-stage prediction tasks in the design flow to achieve faster design convergence. Although building machine learning (ML) models usually requires a large amount of data, most studies can only generate small internal datasets for validation due to the lack of large public datasets. In this essay, we present the first open-source dataset for machine learning tasks in VLSI CAD called CircuitNet. The dataset consists of more than 10K samples extracted from versatile runs of commercial design tools based on 6 open-source RISC-V designs.
翻訳日:2022-08-03 13:27:09 公開日:2022-08-01
# 階層的バッチエントロピー正規化によるディープニューラルネットワークのトレーサビリティ向上

Improving the Trainability of Deep Neural Networks through Layerwise Batch-Entropy Regularization ( http://arxiv.org/abs/2208.01134v1 )

ライセンス: Link先を確認
David Peer, Bart Keulen, Sebastian Stabinger, Justus Piater, Antonio Rodr\'iguez-S\'anchez(参考訳) ディープニューラルネットワークのトレーニングは非常に要求の多い作業であり、特に難しいのは、アーキテクチャを適用してトレーニングされたモデルのパフォーマンスを改善する方法だ。 時々、浅いネットワークはディープネットワークよりも一般化し、より多くのレイヤを追加することで、より高いトレーニングとテストエラーが発生することが分かる。 ディープ残差学習フレームワークは、いくつかのニューラルネットワーク層にスキップ接続を追加することで、この劣化問題を解決する。 ネットワークの表現性が指数関数的に高まるにつれ、ディープネットワークのトレーニングにこのようなスキップ接続が必要となるのは、当初は直観に反するように思える。 本稿では,まずニューラルネットワークを用いて情報の流れを分析する。 ニューラルネットワークの各層を通しての情報の流れを定量化するバッチエントロピーを導入,評価する。 勾配降下に基づく学習手法では,与えられた損失関数の最適化に正のバッチエントロピーが必要であることを実証的,理論的に証明する。 これらの知見に基づいて,各隠れ層間の情報の流れを個別に最適化する勾配降下型学習アルゴリズムを実現するために,バッチエントロピー正規化を導入する。 バッチエントロピー正規化により、勾配降下最適化器はトレーニング不能ネットワークをトレーニング可能なネットワークに変換することができる。 従って私たちは,損失関数にバッチエントロピー正規化項を単に追加するだけで,スキップ接続やバッチ正規化,ドロップアウト,その他のアーキテクチャ上の変更が不要な,“バニラ”完全接続ネットワークと畳み込みニューラルネットワークを500層でトレーニングできることを実証的に示しています。 バッチエントロピー正規化の効果は、バニラニューラルネットワークだけでなく、残余ネットワーク、オートエンコーダ、および幅広いコンピュータビジョンおよび自然言語処理タスクにおけるトランスフォーマーモデルにも評価されている。

Training deep neural networks is a very demanding task, especially challenging is how to adapt architectures to improve the performance of trained models. We can find that sometimes, shallow networks generalize better than deep networks, and the addition of more layers results in higher training and test errors. The deep residual learning framework addresses this degradation problem by adding skip connections to several neural network layers. It would at first seem counter-intuitive that such skip connections are needed to train deep networks successfully as the expressivity of a network would grow exponentially with depth. In this paper, we first analyze the flow of information through neural networks. We introduce and evaluate the batch-entropy which quantifies the flow of information through each layer of a neural network. We prove empirically and theoretically that a positive batch-entropy is required for gradient descent-based training approaches to optimize a given loss function successfully. Based on those insights, we introduce batch-entropy regularization to enable gradient descent-based training algorithms to optimize the flow of information through each hidden layer individually. With batch-entropy regularization, gradient descent optimizers can transform untrainable networks into trainable networks. We show empirically that we can therefore train a "vanilla" fully connected network and convolutional neural network -- no skip connections, batch normalization, dropout, or any other architectural tweak -- with 500 layers by simply adding the batch-entropy regularization term to the loss function. The effect of batch-entropy regularization is not only evaluated on vanilla neural networks, but also on residual networks, autoencoders, and also transformer models over a wide range of computer vision as well as natural language processing tasks.
翻訳日:2022-08-03 13:26:58 公開日:2022-08-01
# 局所的説明を用いた解釈可能な時系列クラスタリング

Interpretable Time Series Clustering Using Local Explanations ( http://arxiv.org/abs/2208.01152v1 )

ライセンス: Link先を確認
Ozan Ozyegen, Nicholas Prayogo, Mucahit Cevik, Ayse Basar(参考訳) 本研究は,時系列クラスタリングモデルにおける局所的解釈可能性手法の利用について検討する。 最先端のクラスタリングモデルの多くは直接説明できない。 これらのクラスタリングアルゴリズムを説明するために,クラスタラベルを推定するために分類モデルを訓練する。 次に,分類モデルの決定を説明するために解釈可能性法を用いる。 これらの説明はクラスタリングモデルに関する洞察を得るために使われる。 本研究では,複数のデータセット,クラスタリングモデル,分類モデルについて提案手法をテストするため,詳細な数値実験を行う。 結果から,提案手法は時系列クラスタリングモデル,特に基礎となる分類モデルが正確である場合の説明に有効であることが示唆された。 最後に、実際のシナリオで我々のアプローチをどのように利用できるかについて議論し、その結果を詳細に分析する。

This study focuses on exploring the use of local interpretability methods for explaining time series clustering models. Many of the state-of-the-art clustering models are not directly explainable. To provide explanations for these clustering algorithms, we train classification models to estimate the cluster labels. Then, we use interpretability methods to explain the decisions of the classification models. The explanations are used to obtain insights into the clustering models. We perform a detailed numerical study to test the proposed approach on multiple datasets, clustering models, and classification models. The analysis of the results shows that the proposed approach can be used to explain time series clustering models, specifically when the underlying classification model is accurate. Lastly, we provide a detailed analysis of the results, discussing how our approach can be used in a real-life scenario.
翻訳日:2022-08-03 13:26:28 公開日:2022-08-01
# 時系列気候予報と深層学習による将来の蚊生息予測

Predicting Future Mosquito Habitats Using Time Series Climate Forecasting and Deep Learning ( http://arxiv.org/abs/2208.01436v1 )

ライセンス: Link先を確認
Christopher Sun, Jay Nimbalkar, Ravnoor Bedi(参考訳) モスキート生息域は気候変動により拡大すると予想されている。 本研究は, 蚊幼虫の生態条件を解析し, 将来の蚊の生息地を特定することを目的とする。 大気記録と幼虫の観測でデータセットを組み立てた後、ニューラルネットワークは生態的な入力から幼虫の数を予測するように訓練される。 これらの変数に基づいて時系列予測を行い、気候予測を初期深層学習モデルに渡し、位置特異的な幼虫量予測を生成する。 その結果,蚊の拡散は地域生態系による変化,特に蚊の感染に対する感受性が高まる地域が支持された。

Mosquito habitat ranges are projected to expand due to climate change. This investigation aims to identify future mosquito habitats by analyzing preferred ecological conditions of mosquito larvae. After assembling a data set with atmospheric records and larvae observations, a neural network is trained to predict larvae counts from ecological inputs. Time series forecasting is conducted on these variables and climate projections are passed into the initial deep learning model to generate location-specific larvae abundance predictions. The results support the notion of regional ecosystem-driven changes in mosquito spread, with high-elevation regions in particular experiencing an increase in susceptibility to mosquito infestation.
翻訳日:2022-08-03 13:24:39 公開日:2022-08-01
# 自動音声認識におけるアクセント間の性能差

Performance Disparities Between Accents in Automatic Speech Recognition ( http://arxiv.org/abs/2208.01157v1 )

ライセンス: Link先を確認
Alex DiChristofano, Henry Shuster, Shefali Chandra, Neal Patwari(参考訳) 自動音声認識(asr)サービスはユビキタスであり、amazonのalexa、googleのアシスタント、microsoftのcortanaなどのシステムで音声をテキストに変換する。 しかし、研究者は人種集団による特定の英語アクセントと国籍によるASRのパフォーマンスのバイアスを特定している。 本稿では,この議論を歴史的前例と関連づけ,大規模監査を通じて定量的に展開する。 言語標準化と国際的・政治的権力を維持するための言語の使用は歴史において重要な役割を担い、今日の英語話者にASRサービスが作用する方法の共通点を示す。 次に,171ヶ国で誕生した2,700人以上の英語話者を含む,音声アクセントアーカイブの大規模でグローバルな音声データセットを用いて,最も人気のある英語ASRサービスの国際監査を行う。 話者の第一言語が英語であるか否かの関数としてパフォーマンス格差が存在すること,また,複数の言語共変量を制御する場合でも,これらの差異は米国の地政学的権力に対する話者の出生国の政治的アライメントと統計的に有意な関係があることを示した。

Automatic speech recognition (ASR) services are ubiquitous, transforming speech into text for systems like Amazon's Alexa, Google's Assistant, and Microsoft's Cortana. However, researchers have identified biases in ASR performance between particular English language accents by racial group and by nationality. In this paper, we expand this discussion both qualitatively by relating it to historical precedent and quantitatively through a large-scale audit. Standardization of language and the use of language to maintain global and political power have played an important role in history, which we explain to show the parallels in the ways in which ASR services act on English language speakers today. Then, using a large and global data set of speech from The Speech Accent Archive which includes over 2,700 speakers of English born in 171 different countries, we perform an international audit of some of the most popular English ASR services. We show that performance disparities exist as a function of whether or not a speaker's first language is English and, even when controlling for multiple linguistic covariates, that these disparities have a statistically significant relationship to the political alignment of the speaker's birth country with respect to the United States' geopolitical power.
翻訳日:2022-08-03 13:18:54 公開日:2022-08-01
# EBOCA:バイオメディカル・コンセプトズ・アソシエーションオントロジーの証拠

EBOCA: Evidences for BiOmedical Concepts Association Ontology ( http://arxiv.org/abs/2208.01093v1 )

ライセンス: Link先を確認
Andrea \'Alvarez P\'erez, Ana Iglesias-Molina, Luc\'ia Prieto Santamar\'ia, Mar\'ia Poveda-Villal\'on, Carlos Badenes-Olmedo, Alejandro Rodr\'iguez-Gonz\'alez(参考訳) 現在、多くのオンライン文書データソースが利用可能である。 構造化の欠如とフォーマット間の差異は、それらから情報を自動的に抽出する主な困難さであり、また、その使用と再利用に悪影響を及ぼす。 バイオメディカル領域では、disnetプラットフォームが出現し、研究者に大規模な異種源を用いて人間の疾患ネットワークの範囲に関する情報を得るためのリソースを提供する。 特にこの領域では、異なる情報源から抽出された情報だけでなく、それを支持する証拠も提供することが重要である。 本稿では オントロジーの eboca を提案します (i)その間の生物医学的ドメイン概念及び関連 二 これらの団体を支える証拠であって、この領域における証拠及び生物医学会の出版及び説明を改善するためのスキーマを提供すること。 オントロジーは、エラーがなく、落とし穴をモデル化し、以前定義された機能要件を満たすように評価されている。 DISNETのサブセットから得られたテストデータとテキストからの自動関連抽出は、提案したオントロジーに従って変換され、実際のシナリオで使用できる知識グラフを作成し、提示されたオントロジーの評価にも使用されている。

There is a large number of online documents data sources available nowadays. The lack of structure and the differences between formats are the main difficulties to automatically extract information from them, which also has a negative impact on its use and reuse. In the biomedical domain, the DISNET platform emerged to provide researchers with a resource to obtain information in the scope of human disease networks by means of large-scale heterogeneous sources. Specifically in this domain, it is critical to offer not only the information extracted from different sources, but also the evidence that supports it. This paper proposes EBOCA, an ontology that describes (i) biomedical domain concepts and associations between them, and (ii) evidences supporting these associations; with the objective of providing an schema to improve the publication and description of evidences and biomedical associations in this domain. The ontology has been successfully evaluated to ensure there are no errors, modelling pitfalls and that it meets the previously defined functional requirements. Test data coming from a subset of DISNET and automatic association extractions from texts has been transformed according to the proposed ontology to create a Knowledge Graph that can be used in real scenarios, and which has also been used for the evaluation of the presented ontology.
翻訳日:2022-08-03 13:16:26 公開日:2022-08-01
# 口唇裂症例の非口唇形成における画像インペインティングの有用性の検討

A Feasibility Study on Image Inpainting for Non-cleft Lip Generation from Patients with Cleft Lip ( http://arxiv.org/abs/2208.01149v1 )

ライセンス: Link先を確認
Shuang Chen, Amir Atapour-Abarghouei, Jane Kerby, Edmond S. L. Ho, David C. G. Sainsbury, Sophie Butterworth, Hubert P. H. Shum(参考訳) 口唇は専門医による外科的修復を必要とする先天性異常である。 外科医は手術を行うための広範な経験と理論的知識を有しなければならず、手術成績を改善するために外科医を指導するための人工知能(AI)法が提案されている。 もしAIを使って口唇の修復がどのようなものかを予測することができれば、外科医はそれを使って外科的テクニックを調整し、その結果を改善することができる。 患者のプライバシを保護しながら,このアイデアの実現可能性を探るため,口唇を覆い,口唇や鼻を口蓋なしで生成できる深層学習型イメージインペインティング手法を提案する。 本実験は, 2つの実世界の口唇データセットを用いて実施し, 提案法の有効性を示すために, 専門家口唇外科医によって評価された。

A Cleft lip is a congenital abnormality requiring surgical repair by a specialist. The surgeon must have extensive experience and theoretical knowledge to perform surgery, and Artificial Intelligence (AI) method has been proposed to guide surgeons in improving surgical outcomes. If AI can be used to predict what a repaired cleft lip would look like, surgeons could use it as an adjunct to adjust their surgical technique and improve results. To explore the feasibility of this idea while protecting patient privacy, we propose a deep learning-based image inpainting method that is capable of covering a cleft lip and generating a lip and nose without a cleft. Our experiments are conducted on two real-world cleft lip datasets and are assessed by expert cleft lip surgeons to demonstrate the feasibility of the proposed method.
翻訳日:2022-08-03 13:15:37 公開日:2022-08-01
# BATMAN:ビデオオブジェクトセグメンテーションのためのモーションディスプレイ近傍空間におけるバイラテラルアテンショントランス

BATMAN: Bilateral Attention Transformer in Motion-Appearance Neighboring Space for Video Object Segmentation ( http://arxiv.org/abs/2208.01159v1 )

ライセンス: Link先を確認
Ye Yu, Jialin Yuan, Gaurav Mittal, Li Fuxin, and Mei Chen(参考訳) ビデオオブジェクトセグメンテーション(VOS)はビデオ理解の基本である。 半教師付きvosにおけるトランスフォーマティブ方式の性能改善効果を示す。 しかし、既存の作業は、視覚的に類似したオブジェクトを互いに近接して分割する課題に直面している。 本稿では,半教師付きVOSのためのバイラテラルアテンション変換器(BATMAN)を提案する。 このモジュールは、セグメンテーションマスクを光学フロー推定で融合させ、物体内部の光学フローの滑らかさを改善し、物体の境界におけるノイズを低減する。 このキャリブレーション・オプティカル・フローは,新しいバイラテラル・アテンションに応用され,動きと外観の両方を考慮した隣り合うバイラテラル空間におけるクエリと参照フレームの対応を計算する。 Youtube-VOS 2019 (85.0%)、Youtube-VOS 2018 (85.3%)、DAVIS 2017Val/Testdev (86.2%/82.2%)、DAVIS 2016 (92.5%)である。

Video Object Segmentation (VOS) is fundamental to video understanding. Transformer-based methods show significant performance improvement on semi-supervised VOS. However, existing work faces challenges segmenting visually similar objects in close proximity of each other. In this paper, we propose a novel Bilateral Attention Transformer in Motion-Appearance Neighboring space (BATMAN) for semi-supervised VOS. It captures object motion in the video via a novel optical flow calibration module that fuses the segmentation mask with optical flow estimation to improve within-object optical flow smoothness and reduce noise at object boundaries. This calibrated optical flow is then employed in our novel bilateral attention, which computes the correspondence between the query and reference frames in the neighboring bilateral space considering both motion and appearance. Extensive experiments validate the effectiveness of BATMAN architecture by outperforming all existing state-of-the-art on all four popular VOS benchmarks: Youtube-VOS 2019 (85.0%), Youtube-VOS 2018 (85.3%), DAVIS 2017Val/Testdev (86.2%/82.2%), and DAVIS 2016 (92.5%).
翻訳日:2022-08-03 13:15:23 公開日:2022-08-01
# ithaca365: 繰り返しかつ困難な気象条件下でのデータセットと運転知覚

Ithaca365: Dataset and Driving Perception under Repeated and Challenging Weather Conditions ( http://arxiv.org/abs/2208.01166v1 )

ライセンス: Link先を確認
Carlos A. Diaz-Ruiz (1), Youya Xia (1), Yurong You (1), Jose Nino (1), Junan Chen (1), Josephine Monica (1), Xiangyu Chen (1), Katie Luo (1), Yan Wang (1), Marc Emond (1), Wei-Lun Chao (2), Bharath Hariharan (1), Kilian Q. Weinberger (1), Mark Campbell (1) ((1) Cornell University, (2) The Ohio State University)(参考訳) 近年、自動運転車に対する認識の進歩は、特定の場所や天気の良い環境で収集される大規模データセットの可用性によって加速している。 しかし、高い安全要件を達成するためには、これらの知覚システムは、雪や雨など幅広い気象条件下でしっかりと動作する必要がある。 本稿では,新しいデータ収集プロセスを通じてロバストな自動運転を実現するための新しいデータセットを提案する。多様なシーン(都市,高速道路,田園部,キャンパス)、天気(雪,雨,日光)、時刻(昼/夜)、および交通状況(歩行者,自転車,車)の15kmの経路に沿って,データを繰り返し記録する。 このデータセットには、カメラとLiDARセンサーの画像と点雲と、ルート間の通信を確立するための高精度GPS/INSが含まれている。 データセットには、アモーダルマスクを使用して部分閉塞と3Dバウンディングボックスをキャプチャするロードとオブジェクトのアノテーションが含まれている。 本研究では,道路・オブジェクトのアモーダルセグメンテーションにおけるベースラインの性能解析,深さ推定,3次元物体検出により,このデータセットの特異性を示す。 繰り返し行われる経路は、物体発見、連続学習、異常検出における新しい研究方向を開く。 Ithaca365: https://ithaca365.mae.cornell.edu/

Advances in perception for self-driving cars have accelerated in recent years due to the availability of large-scale datasets, typically collected at specific locations and under nice weather conditions. Yet, to achieve the high safety requirement, these perceptual systems must operate robustly under a wide variety of weather conditions including snow and rain. In this paper, we present a new dataset to enable robust autonomous driving via a novel data collection process - data is repeatedly recorded along a 15 km route under diverse scene (urban, highway, rural, campus), weather (snow, rain, sun), time (day/night), and traffic conditions (pedestrians, cyclists and cars). The dataset includes images and point clouds from cameras and LiDAR sensors, along with high-precision GPS/INS to establish correspondence across routes. The dataset includes road and object annotations using amodal masks to capture partial occlusions and 3D bounding boxes. We demonstrate the uniqueness of this dataset by analyzing the performance of baselines in amodal segmentation of road and objects, depth estimation, and 3D object detection. The repeated routes opens new research directions in object discovery, continual learning, and anomaly detection. Link to Ithaca365: https://ithaca365.mae.cornell.edu/
翻訳日:2022-08-03 13:14:58 公開日:2022-08-01
# ヘイトスピーチ・カウンタナレーションのための暗黙の弁論

Parsimonious Argument Annotations for Hate Speech Counter-narratives ( http://arxiv.org/abs/2208.01099v1 )

ライセンス: Link先を確認
Damian A. Furman, Pablo Torres, Jose A. Rodriguez, Lautaro Martinez, Laura Alonso Alemany, Diego Letzen, Maria Vanina Martinez(参考訳) 我々は,ヘイトスピーチツイートのHatevalコーパス(Basile et al 2019)を充実させ,自動対ナラティブ生成を促進する。 以前の作品(Chung et. al. 2019)と比べて、手書きの反ナラティブはツイートに関連付けられている。 しかし、この情報だけでは、反物語生成に適した言語モデルを得るには不十分である。 そこで私たちは、特定のグループに対するヘイトスピーチに対して、説得力があり効果的なカウンターナレーションを構築するのに役立つと信じている(2016年)。 本稿では,このアノテーションプロセスの状況と難易度について論じ,注釈付き要素の自動検出のためのベースラインをいくつか提示する。 予備的な結果から、自動アノテータは人間のアノテータに近づき、議論のいくつかの側面を検出する。

We present an enrichment of the Hateval corpus of hate speech tweets (Basile et. al 2019) aimed to facilitate automated counter-narrative generation. Comparably to previous work (Chung et. al. 2019), manually written counter-narratives are associated to tweets. However, this information alone seems insufficient to obtain satisfactory language models for counter-narrative generation. That is why we have also annotated tweets with argumentative information based on Wagemanns (2016), that we believe can help in building convincing and effective counter-narratives for hate speech against particular groups. We discuss adequacies and difficulties of this annotation process and present several baselines for automatic detection of the annotated elements. Preliminary results show that automatic annotators perform close to human annotators to detect some aspects of argumentation, while others only reach low or moderate level of inter-annotator agreement.
翻訳日:2022-08-03 13:09:12 公開日:2022-08-01
# オフポリティ学習の促進

Boosted Off-Policy Learning ( http://arxiv.org/abs/2208.01148v1 )

ライセンス: Link先を確認
Ben London, Levi Lu, Ted Sandler, Thorsten Joachims(参考訳) ログ付きバンディットフィードバックによるオフポリシー学習のためのブーストアンサンブルモデルについて検討した。 この目標に向けて,政策の期待される報酬の見積を直接最適化する新しいブースティングアルゴリズムを提案する。 このアルゴリズムを解析し,「弱く」学習条件を満たせば,各ラウンドのブースティング毎に経験的リスクが減少する(指数関数的に速い)ことを証明する。 さらに,ベース学習者が標準教師付き学習問題にどのように還元するかを示す。 実験により,本アルゴリズムは,観察された報奨を単純に抑えることによって,適切な学習目標の促進と選択のメリットを示すことができることを示す。

We investigate boosted ensemble models for off-policy learning from logged bandit feedback. Toward this goal, we propose a new boosting algorithm that directly optimizes an estimate of the policy's expected reward. We analyze this algorithm and prove that the empirical risk decreases (possibly exponentially fast) with each round of boosting, provided a "weak" learning condition is satisfied. We further show how the base learner reduces to standard supervised learning problems. Experiments indicate that our algorithm can outperform deep off-policy learning and methods that simply regress on the observed rewards, thereby demonstrating the benefits of both boosting and choosing the right learning objective.
翻訳日:2022-08-03 13:03:57 公開日:2022-08-01
# COVID-19における主要関心事の識別のための教師なし機械学習フレームワーク

Unsupervised machine learning framework for discriminating major variants of concern during COVID-19 ( http://arxiv.org/abs/2208.01439v1 )

ライセンス: Link先を確認
Mingyue Kang, Seshadri Vasan, Laurence O. W. Wilson, Rohitash Chandra(参考訳) SARS-CoV-2(COVID-19)ウイルスの急激な進化により、Alpha、Gamma、Delta、Omicronなどの変異が出現し、世界経済に大きな影響を与えた。 教師なしの機械学習手法は、不正なデータを圧縮、特徴付け、視覚化する能力を持つ。 本稿では,選択された次元縮小法とクラスタリング法を組み合わせた教師なし機械学習手法を用いて,ゲノム配列に基づく新型コロナウイルスの主要変異体との関連を識別・可視化する枠組みを提案する。 本フレームワークは、ゲノム(RNA)配列の処理にk-mer解析を利用し、主成分分析(PCA)、t分散確率的近接埋め込み(t-SNE)、均一多様体近似投影(UMAP)を含む異なる次元還元法を比較する。 さらに,凝集階層クラスタリング手法を採用し,デンドグラムを用いた可視化を提供する。 提案するフレームワークは,主要な変種を効果的に識別できるため,今後,新たな変種を識別するために使用できる。

Due to the rapid evolution of the SARS-CoV-2 (COVID-19) virus, a number of mutations emerged with variants such as Alpha, Gamma, Delta and Omicron which created massive impact to the world economy. Unsupervised machine learning methods have the ability to compresses, characterize and visualises unlabelled data. In this paper, we present a framework that utilizes unsupervised machine learning methods that includes combination of selected dimensional reduction and clustering methods to discriminate and visualise the associations with the major COVID-19 variants based on genome sequences. The framework utilises k-mer analysis for processing the genome (RNA) sequences and compares different dimensional reduction methods, that include principal component analysis (PCA), and t-distributed stochastic neighbour embedding (t-SNE), and uniform manifold approximation projection (UMAP). Furthermore, the framework employs agglomerative hierarchical clustering methods and provides a visualisation using a dendogram. We find that the proposed framework can effectively distinguish the major variants and hence can be used for distinguishing emerging variants in the future.
翻訳日:2022-08-03 13:03:09 公開日:2022-08-01
# プライバシー保全条件下でのdyadic運動同期推定

Dyadic Movement Synchrony Estimation Under Privacy-preserving Conditions ( http://arxiv.org/abs/2208.01100v1 )

ライセンス: Link先を確認
Jicheng Li, Anjana Bhat, Roghayeh Barmaki(参考訳) 運動同期(move synchrony)とは、相互作用する人の動きの間の動的時間的接続を指す。 ムーブメント同期の応用は広く広範である。 例えば、チームメイト間のコーディネーションの尺度として、同期スコアはスポーツでしばしば報告される。 自閉症コミュニティはまた、運動同期を子供の社会的、発達的業績の鍵となる指標と認識している。 一般に、生のビデオ記録は動きの同期推定によく使われ、人々のアイデンティティを明らかにする可能性があるという欠点がある。 さらに、このようなプライバシーに関する懸念は、データ共有を妨げ、自閉症の研究における異なるアプローチの公正な比較に対する大きな障害となる。 本稿では,プライバシ保護条件下で自動運動同期評価を行う最初のディープラーニング手法の一つである移動同期推定のためのアンサンブル手法を提案する。 提案手法は,スケルトンデータやオプティカルフローなど,共有可能でアイデンティティ非依存な二次データに完全に依存する。 1) 自閉症治療介入から収集したpt13データセットと, (2) シンクロダイビング競技から収集したtasd-2データセットである。 この文脈では、この手法はディープニューラルネットワークと代替ニューラルネットワークの両方のアプローチよりも優れています。

Movement synchrony refers to the dynamic temporal connection between the motions of interacting people. The applications of movement synchrony are wide and broad. For example, as a measure of coordination between teammates, synchrony scores are often reported in sports. The autism community also identifies movement synchrony as a key indicator of children's social and developmental achievements. In general, raw video recordings are often used for movement synchrony estimation, with the drawback that they may reveal people's identities. Furthermore, such privacy concern also hinders data sharing, one major roadblock to a fair comparison between different approaches in autism research. To address the issue, this paper proposes an ensemble method for movement synchrony estimation, one of the first deep-learning-based methods for automatic movement synchrony assessment under privacy-preserving conditions. Our method relies entirely on publicly shareable, identity-agnostic secondary data, such as skeleton data and optical flow. We validate our method on two datasets: (1) PT13 dataset collected from autism therapy interventions and (2) TASD-2 dataset collected from synchronized diving competitions. In this context, our method outperforms its counterpart approaches, both deep neural networks and alternatives.
翻訳日:2022-08-03 13:02:31 公開日:2022-08-01
# 可能かつ多様な集団合成のための深部生成モデル

A Deep Generative Model for Feasible and Diverse Population Synthesis ( http://arxiv.org/abs/2208.01403v1 )

ライセンス: Link先を確認
Eui-Jin Kim and Prateek Bansal(参考訳) 理想的な合成人口は、活動に基づくモデルへの重要な入力であり、実際の人口における個人および世帯レベルの属性の分布を模倣する。 人口全体の属性は一般に利用できないため、家庭旅行調査(HTS)サンプルが人口合成に使用されている。 HTSからの直接サンプリングによる集団の合成は、HTSサンプルでは観測されていないが、集団に存在する属性の組み合わせを無視している。 深層生成モデル(DGM)はサンプリングゼロを合成することができるが、「構造ゼロ」を生成するコスト(つまり、集団に存在しない非実用的属性の組み合わせ)がかかる。 本研究では,サンプリングゼロを保存しながら構造零点を最小化する新しい手法を提案する。 DGMのトレーニングをカスタマイズするために2つの正規化が考案され、GAN(generative adversarial network)とVAE(variantal autoencoder)に適用される。 人工個体群の実現可能性と多様性の指標は, サンプリングゼロと構造ゼロを生成する能力を示し, 低い構造ゼロと低いサンプリングゼロは, それぞれ高い実現可能性と低い多様性を示す。 その結果, 従来のモデルに比べて, 合成個体群の実現可能性や多様性が著しく向上することが示唆された。 提案されたVAEは79.2%の精度で無視された人口の23.5%(構造ゼロ率20.8%)を、提案されたGANは89.0%の精度で無視された人口の18.3%を発生させた。 提案されたdgmの改良は、より実現可能で多様な合成人口を生み出し、活動ベースのモデルの正確性に不可欠である。

An ideal synthetic population, a key input to activity-based models, mimics the distribution of the individual- and household-level attributes in the actual population. Since the entire population's attributes are generally unavailable, household travel survey (HTS) samples are used for population synthesis. Synthesizing population by directly sampling from HTS ignores the attribute combinations that are unobserved in the HTS samples but exist in the population, called 'sampling zeros'. A deep generative model (DGM) can potentially synthesize the sampling zeros but at the expense of generating 'structural zeros' (i.e., the infeasible attribute combinations that do not exist in the population). This study proposes a novel method to minimize structural zeros while preserving sampling zeros. Two regularizations are devised to customize the training of the DGM and applied to a generative adversarial network (GAN) and a variational autoencoder (VAE). The adopted metrics for feasibility and diversity of the synthetic population indicate the capability of generating sampling and structural zeros -- lower structural zeros and lower sampling zeros indicate the higher feasibility and the lower diversity, respectively. Results show that the proposed regularizations achieve considerable performance improvement in feasibility and diversity of the synthesized population over traditional models. The proposed VAE additionally generated 23.5% of the population ignored by the sample with 79.2% precision (i.e., 20.8% structural zeros rates), while the proposed GAN generated 18.3% of the ignored population with 89.0% precision. The proposed improvement in DGM generates a more feasible and diverse synthetic population, which is critical for the accuracy of an activity-based model.
翻訳日:2022-08-03 12:57:45 公開日:2022-08-01
# 超次元コンピューティングを用いたウェアラブルヘルスアプリケーションのための効率的なパーソナライズ学習

Efficient Personalized Learning for Wearable Health Applications using HyperDimensional Computing ( http://arxiv.org/abs/2208.01095v1 )

ライセンス: Link先を確認
Sina Shahhosseini, Yang Ni, Hamidreza Alikhani, Emad Kasaeyan Naeini, Mohsen Imani, Nikil Dutt, Amir M. Rahmani(参考訳) 健康モニタリングアプリケーションは、日常の環境でエンドユーザの生理的および行動的パターンを学ぶための機械学習技術にますます依存している。 人体パラメータのモニタリングにおけるウェアラブルデバイスの役割を考えると、オンデバイス学習は、行動パターンと生理パターンのパーソナライズされたモデルを構築し、同時にユーザのデータプライバシを提供するために利用することができる。 しかし、これらのウェアラブルデバイスのほとんどにおけるリソース制約は、オンライン学習の実行を妨げている。 この問題に対処するには、ウェアラブルデバイスで実行するのに適したアルゴリズムの観点から、機械学習モデルを再考する必要がある。 超次元コンピューティング(HDC)は、リソース制約のあるデバイスに対して、よく適合したオンデバイス学習ソリューションを提供し、プライバシ保護のパーソナライゼーションをサポートする。 当社のHDCベースの手法は,デバイス上でのパーソナライゼーションとプライバシ保護を実現しつつ,柔軟性,高効率,レジリエンス,パフォーマンスを提供する。 提案手法の有効性を3つのケーススタディを用いて評価し,最先端のDeep Neural Network(DNN)アルゴリズムと比較して,トレーニングのエネルギー効率を最大45.8\times$で向上することを示す。

Health monitoring applications increasingly rely on machine learning techniques to learn end-user physiological and behavioral patterns in everyday settings. Considering the significant role of wearable devices in monitoring human body parameters, on-device learning can be utilized to build personalized models for behavioral and physiological patterns, and provide data privacy for users at the same time. However, resource constraints on most of these wearable devices prevent the ability to perform online learning on them. To address this issue, it is required to rethink the machine learning models from the algorithmic perspective to be suitable to run on wearable devices. Hyperdimensional computing (HDC) offers a well-suited on-device learning solution for resource-constrained devices and provides support for privacy-preserving personalization. Our HDC-based method offers flexibility, high efficiency, resilience, and performance while enabling on-device personalization and privacy protection. We evaluate the efficacy of our approach using three case studies and show that our system improves the energy efficiency of training by up to $45.8\times$ compared with the state-of-the-art Deep Neural Network (DNN) algorithms while offering a comparable accuracy.
翻訳日:2022-08-03 12:56:23 公開日:2022-08-01
# vaccinet: パンデミックワクチンの流通連鎖最適化を学ぶためのスマートな枠組みを目指して

VacciNet: Towards a Smart Framework for Learning the Distribution Chain Optimization of Vaccines for a Pandemic ( http://arxiv.org/abs/2208.01112v1 )

ライセンス: Link先を確認
Jayeeta Mondal, Jeet Dutta, Hrishav Bakul Barua(参考訳) ウイルスに対するワクチンは、昔から常に時間を必要としてきた。 しかし、特にパンデミックの間、ワクチンを国中の隅々に(時間通りに)効果的に配布することは困難である。 人口の多さ、地域社会の多様化、スマート社会の要求を考えると、どの国・国家においてもワクチン流通戦略を効果的に最適化することが重要である。 様々なワクチン管理現場から収集されたデータ(ビッグデータ)が大量予防接種活動に関する貴重な洞察を得るために収集されているが、パンデミックに苦しむ国々の社会経済的危機を緩和するために、従来の大量予防接種キャンペーンに革命をもたらす試みはごくわずかである。 本稿では,研究と実験におけるこのギャップを橋渡しする。 毎日のワクチン接種データを収集し、それを慎重に分析し、完全な洞察と予測を生成する。 我々は,予防接種需要を予測できるVacciNet(VacciNet)と呼ばれる,監視学習・強化学習(RL)を活用した新たな枠組みを提案し,調達・供給の最小コストで国家に最適なワクチン割り当てを提案する。 現在,本フレームワークは米国における予防接種データを用いて訓練・試験されている。

Vaccinations against viruses have always been the need of the hour since long past. However, it is hard to efficiently distribute the vaccines (on time) to all the corners of a country, especially during a pandemic. Considering the vastness of the population, diversified communities, and demands of a smart society, it is an important task to optimize the vaccine distribution strategy in any country/state effectively. Although there is a profusion of data (Big Data) from various vaccine administration sites that can be mined to gain valuable insights about mass vaccination drives, very few attempts has been made towards revolutionizing the traditional mass vaccination campaigns to mitigate the socio-economic crises of pandemic afflicted countries. In this paper, we bridge this gap in studies and experimentation. We collect daily vaccination data which is publicly available and carefully analyze it to generate meaning-full insights and predictions. We put forward a novel framework leveraging Supervised Learning and Reinforcement Learning (RL) which we call VacciNet, that is capable of learning to predict the demand of vaccination in a state of a country as well as suggest optimal vaccine allocation in the state for minimum cost of procurement and supply. At the present, our framework is trained and tested with vaccination data of the USA.
翻訳日:2022-08-03 12:56:00 公開日:2022-08-01
# 疫学における同定可能な比較モデルに対するPINNのアプローチとCOVID-19への応用

A Modified PINN Approach for Identifiable Compartmental Models in Epidemiology with Applications to COVID-19 ( http://arxiv.org/abs/2208.01169v1 )

ライセンス: Link先を確認
Haoran Hu, Connor M Kennedy, Panayotis G. Kevrekidis, Hongkun Zhang(参考訳) 新型コロナウイルスのパンデミックや、これらのモデルを用いた機械学習手法の使用を研究するために、コンパートメンタルモデルを用いたさまざまなアプローチが利用されてきた。 本稿では,Covid-19 の米国開発におけるアクセシビリティデータを,学習を支援するためにモデルの知識を活用可能な "Physics Informed Neural Networks" (PINN) のバリエーションを用いて分析するアプローチを提案する。 本稿では,標準的なPINN手法を用いた場合の課題について述べるとともに,不完全情報の場合においてもネットワークの損失関数を適切に,かつ新規に修正する方法について述べる。 モデルパラメータの識別可能性の側面も評価し、ウェーブレット変換を用いて利用可能なデータを識別する方法も評価する。 最後に、様々なパラメータ値のモデルを扱うニューラルネットワーク方法論の能力と、集団においてどの程度効果的にケースをテストしているかを推定する具体的な応用について論じ、それぞれのテストによって米国の状態をランク付けする。

A variety of approaches using compartmental models have been used to study the COVID-19 pandemic and the usage of machine learning methods with these models has had particularly notable success. We present here an approach toward analyzing accessible data on Covid-19's U.S. development using a variation of the "Physics Informed Neural Networks" (PINN) which is capable of using the knowledge of the model to aid learning. We illustrate the challenges of using the standard PINN approach, then how with appropriate and novel modifications to the loss function the network can perform well even in our case of incomplete information. Aspects of identifiability of the model parameters are also assessed, as well as methods of denoising available data using a wavelet transform. Finally, we discuss the capability of the neural network methodology to work with models of varying parameter values, as well as a concrete application in estimating how effectively cases are being tested for in a population, providing a ranking of U.S. states by means of their respective testing.
翻訳日:2022-08-03 12:52:32 公開日:2022-08-01
# TextWorldExpress: テキストゲームを毎秒100万ステップでシミュレーションする

TextWorldExpress: Simulating Text Games at One Million Steps Per Second ( http://arxiv.org/abs/2208.01174v1 )

ライセンス: Link先を確認
Peter A. Jansen, Marc-Alexandre C\^ot\'e(参考訳) テキストベースのゲームは、言語理解、マルチステップ問題解決、常識推論における仮想エージェントを評価するための難しいテストベッドを提供する。 しかし、スピードは現在のテキストベースのゲームでは大きな制限であり、主にレガシーツールを使用するため、毎秒300ステップに制限される。 本研究では,3つの共通テキストゲームベンチマークの高性能実装であるTextWorldExpressを提案する。 これにより、実験の実行時間が大幅に削減され、およそ1日で数十億段階の実験が可能になる。

Text-based games offer a challenging test bed to evaluate virtual agents at language understanding, multi-step problem-solving, and common-sense reasoning. However, speed is a major limitation of current text-based games, capping at 300 steps per second, mainly due to the use of legacy tooling. In this work we present TextWorldExpress, a high-performance implementation of three common text game benchmarks that increases simulation throughput by approximately three orders of magnitude, reaching over one million steps per second on common desktop hardware. This significantly reduces experiment runtime, enabling billion-step-scale experiments in about one day.
翻訳日:2022-08-03 12:52:15 公開日:2022-08-01
# ヒト行動効果予測のためのGLIDEモデルの検討

Exploring the GLIDE model for Human Action-effect Prediction ( http://arxiv.org/abs/2208.01136v1 )

ライセンス: Link先を確認
Fangjun Li, David C. Hogg, Anthony G. Cohn(参考訳) 以下の行動効果予測課題に対処する。 世界の初期状態を表す画像と、テキストで表現された動作とを与えられた場合、その動作に続く世界の状態を表す画像を予測する。 予測は入力画像と同じシーンコンテキストを持つべきである。 本稿では,最近提案されたGLIDEモデルを用いて課題を遂行する。 GLIDEは、画像の(塗装された)マスキング領域を合成し、短いテキストに条件付けする生成ニューラルネットワークである。 我々の考えは、アクションの効果が期待される入力画像の領域をマスクアウトすることである。 GLIDEは、必要なアクションで条件付けられたマスクされた領域を塗り付けるために使用される。 このようにして、得られた画像は入力画像と同じ背景コンテキストを持ち、アクションの効果を示すように更新される。 アクションをラベル付けしたエゴ中心ビデオのEPICデータセットを用いた実験の質的な結果を示す。

We address the following action-effect prediction task. Given an image depicting an initial state of the world and an action expressed in text, predict an image depicting the state of the world following the action. The prediction should have the same scene context as the input image. We explore the use of the recently proposed GLIDE model for performing this task. GLIDE is a generative neural network that can synthesize (inpaint) masked areas of an image, conditioned on a short piece of text. Our idea is to mask-out a region of the input image where the effect of the action is expected to occur. GLIDE is then used to inpaint the masked region conditioned on the required action. In this way, the resulting image has the same background context as the input image, updated to show the effect of the action. We give qualitative results from experiments using the EPIC dataset of ego-centric videos labelled with actions.
翻訳日:2022-08-03 12:50:40 公開日:2022-08-01
# トランスフォーマーは文脈内で何を学べるのか? 簡易関数型授業のケーススタディ

What Can Transformers Learn In-Context? A Case Study of Simple Function Classes ( http://arxiv.org/abs/2208.01066v1 )

ライセンス: Link先を確認
Shivam Garg, Dimitris Tsipras, Percy Liang, Gregory Valiant(参考訳) インコンテキスト学習(in-context learning)とは、モデルがインコンテキストの例(あるタスクに対応する入出力ペア)からなるプロンプトシーケンスで条件付けする能力と、新しいクエリ入力を加えて、対応する出力を生成することである。 重要なことに、コンテキスト内学習はモデルにパラメータを更新することなく、推論時にのみ行われる。 GPT-3のような大規模言語モデルは、文脈内学習を行う能力を持っているが、それが成功するタスクとトレーニングデータに何が存在するのかははっきりしない。 コンテキスト内学習の理解に向けて進むために、モデルのインコンテキスト学習(例えば、線形関数)に関する明確に定義された問題を考える。つまり、クラス内のいくつかの関数から得られたデータから与えられたデータから、このクラスからインコンテキストで「最も」関数を学ぶようにモデルを訓練できるだろうか? 我々は,標準トランスフォーマーをスクラッチからトレーニングして,線形関数の文脈内学習を行うことを実証的に示す。つまり,トレーニングされたモデルは,最適最小二乗推定器に匹敵する性能で,テキスト内例から未知の線形関数を学習することができる。 実際、文脈内学習は2つの形態の分散シフトの下でも可能である。 (i)モデルのトレーニングデータと推論時間プロンプトの関係、 (ii) 推論中のコンテキスト内例とクエリ入力の間。 また、トランスフォーマーをトレーニングして、より複雑な関数クラス、すなわちスパース線形関数、二層ニューラルネットワーク、決定木を学習し、タスク固有の学習アルゴリズムに匹敵する性能を発揮できることも示します。 私たちのコードとモデルはhttps://github.com/dtsip/in-context-learning で利用可能です。

In-context learning refers to the ability of a model to condition on a prompt sequence consisting of in-context examples (input-output pairs corresponding to some task) along with a new query input, and generate the corresponding output. Crucially, in-context learning happens only at inference time without any parameter updates to the model. While large language models such as GPT-3 exhibit some ability to perform in-context learning, it is unclear what the relationship is between tasks on which this succeeds and what is present in the training data. To make progress towards understanding in-context learning, we consider the well-defined problem of training a model to in-context learn a function class (e.g., linear functions): that is, given data derived from some functions in the class, can we train a model to in-context learn "most" functions from this class? We show empirically that standard Transformers can be trained from scratch to perform in-context learning of linear functions -- that is, the trained model is able to learn unseen linear functions from in-context examples with performance comparable to the optimal least squares estimator. In fact, in-context learning is possible even under two forms of distribution shift: (i) between the training data of the model and inference-time prompts, and (ii) between the in-context examples and the query input during inference. We also show that we can train Transformers to in-context learn more complex function classes -- namely sparse linear functions, two-layer neural networks, and decision trees -- with performance that matches or exceeds task-specific learning algorithms. Our code and models are available at https://github.com/dtsip/in-context-learning .
翻訳日:2022-08-03 12:50:27 公開日:2022-08-01
# patent phrase to phrase semantic matching dataset (英語)

Patents Phrase to Phrase Semantic Matching Dataset ( http://arxiv.org/abs/2208.01171v1 )

ライセンス: Link先を確認
Grigor Aslanyan, Ian Wetherbee(参考訳) セマンティックテキスト類似性のための汎用ベンチマークデータセットは多数存在するが、いずれも特許や科学出版物に見られる技術的な概念に焦点を当てていない。 本研究の目的は,新しい人間格付き文脈句をフレーズマッチングデータセットに提示することで,このギャップを埋めることである。 データセット全体は5万ドル近い評価付きフレーズペアを含み、それぞれにコンテキストとしてCPC(Cooperative Patent Classification)クラスがある。 本稿では,データセットとベースラインモデルについて述べる。

There are many general purpose benchmark datasets for Semantic Textual Similarity but none of them are focused on technical concepts found in patents and scientific publications. This work aims to fill this gap by presenting a new human rated contextual phrase to phrase matching dataset. The entire dataset contains close to $50,000$ rated phrase pairs, each with a CPC (Cooperative Patent Classification) class as a context. This paper describes the dataset and some baseline models.
翻訳日:2022-08-03 12:45:52 公開日:2022-08-01
# MV6D:ディープポイントワイズ投票ネットワークを用いたRGB-Dフレーム上の多視点6Dポス推定

MV6D: Multi-View 6D Pose Estimation on RGB-D Frames Using a Deep Point-wise Voting Network ( http://arxiv.org/abs/2208.01172v1 )

ライセンス: Link先を確認
Fabian Duffhauss, Tobias Demmler, Gerhard Neumann(参考訳) オブジェクトの6Dポーズを推定することは、重要なコンピュータビジョンタスクである。 しかし、従来のアプローチのほとんどは単一の視点からのカメラデータに依存しているため、オクルージョンに苦しむ。 我々は,複数の視点からRGB-D画像に基づいて,全物体の6次元ポーズを正確に予測するMV6Dという新しい多視点6Dポーズ推定手法により,この問題を克服する。 対象オブジェクトのキーポイントを単一のrgb-dイメージで予測するpvn3dネットワークをベースとする。 複数のビューからコンバインドポイントクラウドを使用して,各ビューからのイメージを集中層で融合することにより,このアプローチを拡張する。 CosyPoseのような現在の多視点ポーズ検出ネットワークとは対照的に、MV6Dはエンドツーエンドで複数の視点の融合を学習することができ、複数の予測ステージやその後の予測の微調整を必要としない。 さらに,重閉塞の散逸したシーンの3つの新しいフォトリアリスティックデータセットを提示する。 それらすべてには、複数の視点からRGB-D画像が含まれており、例えばセマンティックセグメンテーションや6Dポーズ推定などの基礎的な真実が含まれている。 MV6Dは、カメラのポーズが不正確な場合にも、マルチビュー6Dのポーズ推定において最先端を著しく上回る。 さらに,本手法は動的カメラのセットアップに対して頑健であり,視点数の増加とともに精度が漸進的に向上することを示す。

Estimating 6D poses of objects is an essential computer vision task. However, most conventional approaches rely on camera data from a single perspective and therefore suffer from occlusions. We overcome this issue with our novel multi-view 6D pose estimation method called MV6D which accurately predicts the 6D poses of all objects in a cluttered scene based on RGB-D images from multiple perspectives. We base our approach on the PVN3D network that uses a single RGB-D image to predict keypoints of the target objects. We extend this approach by using a combined point cloud from multiple views and fusing the images from each view with a DenseFusion layer. In contrast to current multi-view pose detection networks such as CosyPose, our MV6D can learn the fusion of multiple perspectives in an end-to-end manner and does not require multiple prediction stages or subsequent fine tuning of the prediction. Furthermore, we present three novel photorealistic datasets of cluttered scenes with heavy occlusions. All of them contain RGB-D images from multiple perspectives and the ground truth for instance semantic segmentation and 6D pose estimation. MV6D significantly outperforms the state-of-the-art in multi-view 6D pose estimation even in cases where the camera poses are known inaccurately. Furthermore, we show that our approach is robust towards dynamic camera setups and that its accuracy increases incrementally with an increasing number of perspectives.
翻訳日:2022-08-03 12:44:10 公開日:2022-08-01
# ディープニューラルネットワークトレーニングにおけるバックプロパゲーションを生物学的に可能なトップダウンクレジット割り当てに置き換える

Replacing Backpropagation with Biological Plausible Top-down Credit Assignment in Deep Neural Networks Training ( http://arxiv.org/abs/2208.01416v1 )

ライセンス: Link先を確認
Jian-Hui Chen, Zuoren Wang, Cheng-Lin Liu(参考訳) 生体脳におけるトップダウン接続は高い認知機能において重要であることが示されている。 しかし、機械学習におけるこのメカニズムの機能は明確に定義されていない。 本研究では,ボトムアップとトップダウンネットワークによって構成されるフレームワークを整理する。 ここでは,従来のボトムアップネットワークのトレーニングパラダイムにおけるフィードバック機構である損失関数とバック伝播(bp)を置き換えるために,トップダウンクレジット割り当てネットワーク(tdca-network)を使用する。 以上の結果から,よく訓練されたTDCAネットワークによるクレジットは,複数のデータセットの異なる設定下での分類タスクのバックプロパゲーションからグラデーションに優れていた。 さらに、TDCAネットワークのパラメータ複雑性を低減するため、トレーニングやテストのパフォーマンスを一定に保つことができるクレジット拡散トリックをうまく利用した。 さらに重要なことは、パラメータランドスケープにおけるそれらの軌跡を比較することで、TDCA-ネットワークは、そのバックプロパゲーションとは対照的に、局所化された最適しか得られないことが分かる。 以上の結果から,TDCAネットワークが生物学的に有効な学習機構を提供するだけでなく,トップダウンのクレジット代入がバックプロパゲーションに取って代わり,ディープニューラルネットワークのためのよりよい学習フレームワークを提供する可能性が示唆された。

Top-down connections in the biological brain has been shown to be important in high cognitive functions. However, the function of this mechanism in machine learning has not been defined clearly. In this study, we propose to lay out a framework constituted by a bottom-up and a top-down network. Here, we use a Top-down Credit Assignment Network (TDCA-network) to replace the loss function and back propagation (BP) which serve as the feedback mechanism in traditional bottom-up network training paradigm. Our results show that the credit given by well-trained TDCA-network outperforms the gradient from backpropagation in classification task under different settings on multiple datasets. In addition, we successfully use a credit diffusing trick, which can keep training and testing performance remain unchanged, to reduce parameter complexity of the TDCA-network. More importantly, by comparing their trajectories in the parameter landscape, we find that TDCA-network directly achieved a global optimum, in contrast to that backpropagation only can gain a localized optimum. Thus, our results demonstrate that TDCA-network not only provide a biological plausible learning mechanism, but also has the potential to directly achieve global optimum, indicating that top-down credit assignment can substitute backpropagation, and provide a better learning framework for Deep Neural Networks.
翻訳日:2022-08-03 12:43:47 公開日:2022-08-01
# 単一コピー計測による量子状態学習の下位境界

Lower bounds for learning quantum states with single-copy measurements ( http://arxiv.org/abs/2207.14438v2 )

ライセンス: Link先を確認
Angus Lowe and Ashwin Nayak(参考訳) 量子トモグラフィーとシャドウトモグラフィーの問題は、未知の$d$次元状態の個々の同一のコピーで測定された。 我々はまず、これまで観測された結果(すなわち、それらは非適応的)とは独立に測定された場合、精度$\epsilon$のトレース距離を持つ量子トモグラフィーにおいて、Haah et al. (2017) による既知の下界を再考する。 私たちはこの結果の簡潔な証明を与える。 これは、学習者が一定の数の結果を持つ測定値を使用すると、より低い境界につながる。 特に、この手法は、サンプルの複雑さの観点から、民謡『Pauli tomography』アルゴリズムの最適性を厳格に確立する。 また、任意値と定値値の測定値を用いて、それぞれ$\Omega(r^2 d/\epsilon^2)$と$\Omega(r^2 d^2/\epsilon^2)$の新たな境界を学習する。 サンプルの複雑さに加えて、量子状態の学習に実用上重要な資源は、アルゴリズムが使用する異なる測定値の数である。 我々は,学習者が$\exp(O(d))$の固定されたセットから適応的な測定を行う場合に,下限を拡張する。 これは特に、適応性が効率的に実装できるシングルコピー測定を用いた利点を与えないことを意味する。 また,シャドートモグラフィ(shadow tomography)と呼ばれるタスクである観測可能なシーケンスの期待値を予測しようとする場合にも同様のバウンドが得られる。 最後に,多項式サイズの回路で実装可能な適応型単一コピー計測の場合,与えられた観測値の計算値に基づく簡単な戦略が最適であることを示す。

We study the problems of quantum tomography and shadow tomography using measurements performed on individual, identical copies of an unknown $d$-dimensional state. We first revisit a known lower bound due to Haah et al. (2017) on quantum tomography with accuracy $\epsilon$ in trace distance, when the measurements choices are independent of previously observed outcomes (i.e., they are nonadaptive). We give a succinct proof of this result. This leads to stronger lower bounds when the learner uses measurements with a constant number of outcomes. In particular, this rigorously establishes the optimality of the folklore ``Pauli tomography" algorithm in terms of its sample complexity. We also derive novel bounds of $\Omega(r^2 d/\epsilon^2)$ and $\Omega(r^2 d^2/\epsilon^2)$ for learning rank $r$ states using arbitrary and constant-outcome measurements, respectively, in the nonadaptive case. In addition to the sample complexity, a resource of practical significance for learning quantum states is the number of different measurements used by an algorithm. We extend our lower bounds to the case where the learner performs possibly adaptive measurements from a fixed set of $\exp(O(d))$ measurements. This implies in particular that adaptivity does not give us any advantage using single-copy measurements that are efficiently implementable. We also obtain a similar bound in the case where the goal is to predict the expectation values of a given sequence of observables, a task known as shadow tomography. Finally, in the case of adaptive, single-copy measurements implementable with polynomial-size circuits, we prove that a straightforward strategy based on computing sample means of the given observables is optimal.
翻訳日:2022-08-03 11:07:03 公開日:2022-08-01
# クラウス作用素の学習によるグラディエント・ディフレッシブ量子プロセストモグラフィー

Gradient-descent quantum process tomography by learning Kraus operators ( http://arxiv.org/abs/2208.00812v1 )

ライセンス: Link先を確認
Shahnawaz Ahmed, Fernando Quijandr\'ia, Anton Frisk Kockum(参考訳) 我々はクラウス演算子を用いてプロセス表現を学習し、離散および連続変数の量子システムに対して量子プロセストモグラフィー(QPT)を行う。 クラウス形式は、再構成された過程が完全に正であることを保証する。 プロセスのトレース保存を行うために、最適化中にいわゆるスティーフェル多様体上の制約付き勾配日射(GD)アプローチを用いてクラウス作用素を得る。 我々のアンザッツは数個のクラウス演算子を用いて、例えばChoi行列のような大きなプロセス行列の低ランク量子過程への直接推定を避ける。 GD-QPTは、圧縮センシング(CS)と2キュービットランダムプロセスのベンチマークにおける最小二乗QPT(PLS)の両方のパフォーマンスにマッチするが、これら2つの手法の最良の特徴を組み合わせることで輝く。 CS(PSSとは違って)と同様に、GD-QPTはごく少数のランダムな測定からプロセスを再構築することができ、PSS(CSとは違って)と同様に、最大5キュービットまでのシステムサイズでも動作する。 我々は、GD-QPTのデータ駆動方式が、中間スケール量子システムにおけるQPTのコストと計算労力を大幅に削減する実用的なツールとなることを示唆する。

We perform quantum process tomography (QPT) for both discrete- and continuous-variable quantum systems by learning a process representation using Kraus operators. The Kraus form ensures that the reconstructed process is completely positive. To make the process trace-preserving, we use a constrained gradient-descent (GD) approach on the so-called Stiefel manifold during optimization to obtain the Kraus operators. Our ansatz uses a few Kraus operators to avoid direct estimation of large process matrices, e.g., the Choi matrix, for low-rank quantum processes. The GD-QPT matches the performance of both compressed-sensing (CS) and projected least-squares (PLS) QPT in benchmarks with two-qubit random processes, but shines by combining the best features of these two methods. Similar to CS (but unlike PLS), GD-QPT can reconstruct a process from just a small number of random measurements, and similar to PLS (but unlike CS) it also works for larger system sizes, up to at least five qubits. We envisage that the data-driven approach of GD-QPT can become a practical tool that greatly reduces the cost and computational effort for QPT in intermediate-scale quantum systems.
翻訳日:2022-08-02 15:04:17 公開日:2022-08-01
# オンラインソーシャルネットワークにおける情報カスケードの再検討

Revisiting Information Cascades in Online Social Networks ( http://arxiv.org/abs/2208.00904v1 )

ライセンス: Link先を確認
Michael Sidorov and Dan Vilenchik(参考訳) 今では、オンラインソーシャルネットワーク(osn)プラットフォームでユーザーのアクティビティパターンを理解するには、友人やフォローしているユーザーを見る必要があります。 共通の認識は、これらの友人がユーザーに影響を与えることであり、コンテンツを再共有するかどうかの判断に影響を及ぼす。 この直感に基づいて、osnにおける情報の伝播を予測するために様々なモデルが開発された。 本稿では,この世界観を再検討し,新たな結論を得る。 ユーザのセットである$V$を前提として、ユーザが$u \in V$でコンテンツを再共有するかどうかを予測するタスクを、前回のタイムウィンドウですべてのユーザのアクティビティを考慮し、次のタイムウィンドウで、$v \in V$で再共有するかどうかを調査する。 我々は、u$の条件付き確率分布のみを学習する単純な欲求アルゴリズムから、残りの$V$を無視した畳み込みニューラルネットワークベースのアルゴリズムまで、このタスクのためにいくつかのアルゴリズムを設計する。 私たちは、twitterから収集した4つのデータセットでアルゴリズムをテストしました。 最大性能は、畳み込みニューラルネットワークによって達成された4つのデータセットの平均f1-score 0.86である。 単純でソーシャルリンクの無知なアルゴリズムは平均F1スコア0.78を達成した。

It's by now folklore that to understand the activity pattern of a user in an online social network (OSN) platform, one needs to look at his friends or the ones he follows. The common perception is that these friends exert influence on the user, effecting his decision whether to re-share content or not. Hinging upon this intuition, a variety of models were developed to predict how information propagates in OSN, similar to the way infection spreads in the population. In this paper, we revisit this world view and arrive at new conclusions. Given a set of users $V$, we study the task of predicting whether a user $u \in V$ will re-share content by some $v \in V$ at the following time window given the activity of all the users in $V$ in the previous time window. We design several algorithms for this task, ranging from a simple greedy algorithm that only learns $u$'s conditional probability distribution, ignoring the rest of $V$, to a convolutional neural network-based algorithm that receives the activity of all of $V$, but does not receive explicitly the social link structure. We tested our algorithms on four datasets that we collected from Twitter, each revolving around a different popular topic in 2020. The best performance, average F1-score of 0.86 over the four datasets, was achieved by the convolutional neural network. The simple, social-link ignorant, algorithm achieved an average F1-score of 0.78.
翻訳日:2022-08-02 15:03:53 公開日:2022-08-01
# サンプリングによるCNOPの随伴フリーアルゴリズム

An Adjoint-Free Algorithm for CNOP via Sampling ( http://arxiv.org/abs/2208.00956v1 )

ライセンス: Link先を確認
Bin Shi, Guodong Sun(参考訳) 本稿では,従来の決定論的最適化手法と本質的に異なる条件付き非線形最適摂動(CNOP)を得るための統計的機械学習に基づくサンプリングアルゴリズムを提案する。 新たなアプローチは、目的値(ゼロ階)情報によって、非常に高価な勾配(一階)情報を直接減少させるだけでなく、巨大な記憶問題や線形化の不安定性を引き起こす随伴技術の使用を避ける。 一方, サンプリングによる近似勾配に対する直感的解離と厳密な濃度不等式を示す。 理論モデルの標準空間構造であるバーガース方程式の粘度を小さくしてCNOPを得るための数値実験により、精度を損なうコストがかかると、副次法よりも比較的短い時間と定義から直接の時間を消費するサンプルが少なくなることを示した。 最後に,すべてのアルゴリズムで得られるcnopの非線形時間発展は,摂動のノルム二乗数,それらの差,相対差とほぼ一致していることを明らかにする。

In this paper, we propose a sampling algorithm based on statistical machine learning to obtain conditional nonlinear optimal perturbation (CNOP), which is essentially different from the traditional deterministic optimization methods. The new approach does not only reduce the extremely expensive gradient (first-order) information directly by the objective value (zeroth-order) information, but also avoid the use of adjoint technique that gives rise to the huge storage problem and the instability from linearization. Meanwhile, an intuitive anlysis and a rigorous concentration inequality for the approximate gradient by sampling are shown. The numerical experiments to obtain the CNOPs by the performance of standard spatial sturctures for a theoretical model, Burgers equation with small viscosity, demonstrate that at the cost of losing accuracy, fewer samples spend time relatively shorter than the adjoint-based method and directly from definition. Finally, we reveal that the nonlinear time evolution of the CNOPs obtained by all the algorithms are almost consistent with the quantity of norm square of perturbations, their difference and relative difference on the basis of the definition method.
翻訳日:2022-08-02 15:03:31 公開日:2022-08-01
# データ不足状態における畳み込みニューラルネットワークによる極端熱波の確率論的予測

Probabilistic forecasts of extreme heatwaves using convolutional neural networks in a regime of lack of data ( http://arxiv.org/abs/2208.00971v1 )

ライセンス: Link先を確認
George Miloshevich, Bastien Cozian, Patrice Abry, Pierre Borgnat, and Freddy Bouchet(参考訳) 極端な出来事とその可能性を理解することは、気候変動の影響、リスクアセスメント、適応、そして生物の保護を研究する上で鍵となる。 本研究では,極端熱波の予測モデルを構築する手法を開発する。 これらのモデルは、非常に長い8000年間の気候モデル出力に基づいて訓練された畳み込みニューラルネットワークに基づいている。 極端な事象の関係は本質的に確率的であるため、確率的予測と検証を強調する。 我々は、深層ニューラルネットワークが、フランスにおける14日間にわたる長時間のヒートウェーブ、高速動的ドライバ(500 hpaジオポテンシャル高原)の最大15日前、および遅い物理的ドライバ(土壌水分)のリードタイムに、この目的に適していることを実証する。 この方法は容易に実装でき、多用途である。 深部ニューラルネットワークは,北半球波数3パターンに付随する極端な熱波を選択する。 2mの温度場は,500 hpaの地電位高度と土壌水分場に加えられた場合,新たな熱波予報の統計情報を含まないことが判明した。 主な科学的メッセージは、極端に熱波を予測するためのディープニューラルネットワークのトレーニングは、データの急激な欠如の時代に起こるということだ。 これは、大規模大気や気候現象への他のほとんどの応用に当てはまる可能性が高い。 本稿では,レアイベントシミュレーションなど,データレジームの欠如に対処するための視点と,後者のタスクにおいてトランスファー学習が果たす役割について論じる。

Understanding extreme events and their probability is key for the study of climate change impacts, risk assessment, adaptation, and the protection of living beings. In this work we develop a methodology to build forecasting models for extreme heatwaves. These models are based on convolutional neural networks, trained on extremely long 8,000-year climate model outputs. Because the relation between extreme events is intrinsically probabilistic, we emphasise probabilistic forecast and validation. We demonstrate that deep neural networks are suitable for this purpose for long lasting 14-day heatwaves over France, up to 15 days ahead of time for fast dynamical drivers (500 hPa geopotential height fields), and also at much longer lead times for slow physical drivers (soil moisture). The method is easily implemented and versatile. We find that the deep neural network selects extreme heatwaves associated with a North-Hemisphere wavenumber-3 pattern. We find that the 2 meter temperature field does not contain any new useful statistical information for heatwave forecast, when added to the 500 hPa geopotential height and soil moisture fields. The main scientific message is that training deep neural networks for predicting extreme heatwaves occurs in a regime of drastic lack of data. We suggest that this is likely the case for most other applications to large scale atmosphere and climate phenomena. We discuss perspectives for dealing with the lack of data regime, for instance rare event simulations, and how transfer learning may play a role in this latter task.
翻訳日:2022-08-02 15:03:11 公開日:2022-08-01
# 視覚センサネットワークを用いたナビゲーション学習

Learning to Navigate using Visual Sensor Networks ( http://arxiv.org/abs/2208.00759v1 )

ライセンス: Link先を確認
Jan Blumenkamp and Qingbiao Li and Binyu Wang and Zhe Liu and Amanda Prorok(参考訳) 視覚センサが組み込まれている未知の環境において,移動ロボットが目標に向かって移動する際には,ロボットもセンサもグローバルな位置情報にアクセスできず,一対一の画像のみを使用するという問題を考える。 センサネットワークベースのナビゲーションでは、明示的なマッピングと計画手法が用いられ、しばしば外部の位置決めシステムによって支援されるが、グラフニューラルネットワーク(gnn)を利用して、関連する視点情報をモバイルロボットにエンコードし、通信するビジョンのみベースの学習手法を提案する。 ナビゲーション中、ロボットは模倣学習を通じて学習し、最適な動きプリミティブを近似し、効果的に(目標への)コストを予測するモデルで案内される。 実験では,センサレイアウトの異なる未認識環境に対して,まず一般化可能性を示す。 シミュレーションの結果、センサとロボット間のコミュニケーションを利用することで、パス・デトロー平均を29.3\%、変動可能性(variability)を48.4\%、成功率を18.1\%向上できることがわかった。 これは、グローバルマップ、測位データ、センサネットワークの事前校正を必要とせずに行われる。 第2に、シミュレーションから実世界へのモデルをゼロショット転送する。 この目的のために,実画像とシミュレーション画像の相対エンコーディングを変換する「トランスレータ」モデルを訓練し,ナビゲーションポリシー(完全にシミュレーションで訓練された)を,追加の微調整をすることなく実ロボットに直接使用できるようにする。 物理実験は、様々な乱雑な環境での有効性を実証する。

We consider the problem of navigating a mobile robot towards a target in an unknown environment that is endowed with visual sensors, where neither the robot nor the sensors have access to global positioning information and only use first-person-view images. While prior work in sensor network based navigation uses explicit mapping and planning techniques, and are often aided by external positioning systems, we propose a vision-only based learning approach that leverages a Graph Neural Network (GNN) to encode and communicate relevant viewpoint information to the mobile robot. During navigation, the robot is guided by a model that we train through imitation learning to approximate optimal motion primitives, thereby predicting the effective cost-to-go (to the target). In our experiments, we first demonstrate generalizability to previously unseen environments with various sensor layouts. Simulation results show that by utilizing communication among the sensors and robot, we can achieve a $18.1\%$ improvement in success rate while decreasing path detour mean by $29.3\%$ and variability by $48.4\%$. This is done without requiring a global map, positioning data, nor pre-calibration of the sensor network. Second, we perform a zero-shot transfer of our model from simulation to the real world. To this end, we train a `translator' model that translates between {latent encodings of} real and simulated images so that the navigation policy (which is trained entirely in simulation) can be used directly on the real robot, without additional fine-tuning. Physical experiments demonstrate our effectiveness in various cluttered environments.
翻訳日:2022-08-02 15:02:06 公開日:2022-08-01
# 任意型転送の品質評価:主観的研究と客観的基準

Quality Evaluation of Arbitrary Style Transfer: Subjective Study and Objective Metric ( http://arxiv.org/abs/2208.00623v1 )

ライセンス: Link先を確認
Hangwei Chen, Feng Shao, Xiongli Chai, Yuese Gu, Qiuping Jiang, Xiangchao Meng, Yo-Sung Ho(参考訳) 任意型ニューラルスタイル転送は研究価値と産業応用の展望に欠かせないトピックであり、ある画像の構造を別の画像のスタイルで表現しようとする試みである。 最近の研究は、任意のスタイル転送(AST)によるスタイル化の品質向上に多大な努力を払っている。 しかし、AST画像の品質評価に関する調査はごくわずかであり、異なるアルゴリズムの設計を導く可能性さえある。 本稿では,まず,150のコンテントスタイルの画像対と,8つの典型的なASTアルゴリズムによって生成された1200のスタイリング画像からなるAST画像品質評価データベース(AST-IQAD)を構築する。 次に,3つの主観的評価,すなわち,コンテンツ保存(cp),スタイル類似性(sr),全体視性(ov)において,すべてのスタイリゼーション画像の主観的評価スコアを求めるast-iqadデータベースを用いて主観的評価を行った。 ast画像の品質を定量的に測定するために,sparse特徴類似度を用いて品質を計算する新しいsparse representation-based image quality evaluation metric (srqe)を提案する。 AST-IQAD実験の結果,提案手法の優位性が確認された。 データセットとソースコードはhttps://github.com/Hangwei-Chen/AST-IQAD-SRQEで公開される。

Arbitrary neural style transfer is a vital topic with research value and industrial application prospect, which strives to render the structure of one image using the style of another. Recent researches have devoted great efforts on the task of arbitrary style transfer (AST) for improving the stylization quality. However, there are very few explorations about the quality evaluation of AST images, even it can potentially guide the design of different algorithms. In this paper, we first construct a new AST images quality assessment database (AST-IQAD) that consists 150 content-style image pairs and the corresponding 1200 stylized images produced by eight typical AST algorithms. Then, a subjective study is conducted on our AST-IQAD database, which obtains the subjective rating scores of all stylized images on the three subjective evaluations, i.e., content preservation (CP), style resemblance (SR), and overall visual (OV). To quantitatively measure the quality of AST image, we proposed a new sparse representation-based image quality evaluation metric (SRQE), which computes the quality using the sparse feature similarity. Experimental results on the AST-IQAD have demonstrated the superiority of the proposed method. The dataset and source code will be released at https://github.com/Hangwei-Chen/AST-IQAD-SRQE
翻訳日:2022-08-02 14:59:07 公開日:2022-08-01
# 運動量変換器:自己着脱と線形化との間の性能ギャップを閉じる

Momentum Transformer: Closing the Performance Gap Between Self-attention and Its Linearization ( http://arxiv.org/abs/2208.00579v1 )

ライセンス: Link先を確認
Tan Nguyen and Richard G. Baraniuk and Robert M. Kirby and Stanley J. Osher and Bao Wang(参考訳) トランスフォーマーはシーケンシャルモデリングとそれ以上で顕著な成功を収めてきたが、入力シーケンスの長さに関して二次計算とメモリの複雑さに苦しめられている。 効率の良い変圧器は、変圧器の二次的な複雑さを減らすために提案されているが、精度は著しく低下している。 そこで,我々はまず,アテンションマップを勾配降下ステップとして計算し,リニアアテンションと残差接続を解釈した。 次に、これらの成分に運動量を導入し、線形メモリと計算複雑性を維持しつつ、線形変圧器の精度を向上させる運動量を利用する「emph{momentum transformer}」を提案する。 さらに,2次最適化のための最適運動量に基づいて,モデルの運動量値を計算する適応戦略を開発した。 この適応運動量は最適運動量値の探索を不要とし、さらに運動量変換器の性能を向上させる。 画像生成や機械翻訳を含む自己回帰的および非自己回帰的タスクに関する実験は、運動量変換器が訓練効率と精度において一般的な線形変換器より優れていることを示した。

Transformers have achieved remarkable success in sequence modeling and beyond but suffer from quadratic computational and memory complexities with respect to the length of the input sequence. Leveraging techniques include sparse and linear attention and hashing tricks; efficient transformers have been proposed to reduce the quadratic complexity of transformers but significantly degrade the accuracy. In response, we first interpret the linear attention and residual connections in computing the attention map as gradient descent steps. We then introduce momentum into these components and propose the \emph{momentum transformer}, which utilizes momentum to improve the accuracy of linear transformers while maintaining linear memory and computational complexities. Furthermore, we develop an adaptive strategy to compute the momentum value for our model based on the optimal momentum for quadratic optimization. This adaptive momentum eliminates the need to search for the optimal momentum value and further enhances the performance of the momentum transformer. A range of experiments on both autoregressive and non-autoregressive tasks, including image generation and machine translation, demonstrate that the momentum transformer outperforms popular linear transformers in training efficiency and accuracy.
翻訳日:2022-08-02 14:57:26 公開日:2022-08-01
# エネルギーシステム最適スケジューリングのための深部RLアルゴリズムの性能比較

Performance Comparison of Deep RL Algorithms for Energy Systems Optimal Scheduling ( http://arxiv.org/abs/2208.00728v1 )

ライセンス: Link先を確認
Hou Shengren, Edgar Mauricio Salazar, Pedro P. Vergara, Peter Palensky(参考訳) データ駆動型およびモデルフリー機能を活用して、Deep Reinforcement Learning (DRL)アルゴリズムは、再生可能ベース生成の導入による不確実性の増加に対処する可能性がある。 エネルギーシステムの運用コストと技術的制約を同時に扱うためには、DRLアルゴリズムは報酬関数を設計する際にトレードオフを考慮する必要がある。 このトレードオフは、DRLアルゴリズムのパフォーマンスと実現可能なソリューションを提供する能力に影響を与える余分なハイパーパラメータを導入する。 本稿では,DDPG,TD3,SAC,PPOを含む異なるDRLアルゴリズムの性能比較を行った。 エネルギーシステムの最適スケジューリング問題に対して,これらのDRLアルゴリズムを公平に比較することを目的としている。 その結果,エネルギー系最適スケジューリング問題の数学的プログラミングモデルと比較した場合,DRLアルゴリズムが実時間で良質なソリューションを提供する能力を示した。 それにもかかわらず、ピーク消費が大きい場合、これらのアルゴリズムは実現可能なソリューションを提供しず、実用的な実装を阻害する可能性がある。

Taking advantage of their data-driven and model-free features, Deep Reinforcement Learning (DRL) algorithms have the potential to deal with the increasing level of uncertainty due to the introduction of renewable-based generation. To deal simultaneously with the energy systems' operational cost and technical constraints (e.g, generation-demand power balance) DRL algorithms must consider a trade-off when designing the reward function. This trade-off introduces extra hyperparameters that impact the DRL algorithms' performance and capability of providing feasible solutions. In this paper, a performance comparison of different DRL algorithms, including DDPG, TD3, SAC, and PPO, are presented. We aim to provide a fair comparison of these DRL algorithms for energy systems optimal scheduling problems. Results show DRL algorithms' capability of providing in real-time good-quality solutions, even in unseen operational scenarios, when compared with a mathematical programming model of the energy system optimal scheduling problem. Nevertheless, in the case of large peak consumption, these algorithms failed to provide feasible solutions, which can impede their practical implementation.
翻訳日:2022-08-02 14:57:07 公開日:2022-08-01
# ジャズコントラファクト検出

Jazz Contrafact Detection ( http://arxiv.org/abs/2208.00792v1 )

ライセンス: Link先を確認
C. Bunks and T. Weyde(参考訳) ジャズでは、コントラファクト(contrafact)は、既存の、しかししばしば再調和されたコード進行の上に作られた新しいメロディである。 リハーモナイゼーションは幅広いバリエーションをもたらす可能性があるため、コントラファクトの検出は難しい課題である。 本稿では, コード進行を表すベクトル空間モデルを開発し, コントラファクト検出に利用する。 この過程は、和音空間の次元性を減らし、共通のキーシグネチャ表現を決定し、和音共起行列を計算するために音楽理論の原理を適用する。 行列の行は、コード進行が一方向に線形な関数として表されるベクトル空間の基底を形成し、新しい距離メートル法である膜面積の計算により調和類似性を評価する。 本手法の有効性を説明するため,本手法を2,612個の和音進行コーパスに適用し,リハーモニゼーションを考慮し,反事実を見つける能力を示す例を示す。

In jazz, a contrafact is a new melody composed over an existing, but often reharmonized chord progression. Because reharmonization can introduce a wide range of variations, detecting contrafacts is a challenging task. This paper develops a novel vector-space model to represent chord progressions, and uses it for contrafact detection. The process applies principles from music theory to reduce the dimensionality of chord space, determine a common key signature representation, and compute a chordal co-occurrence matrix. The rows of the matrix form a basis for the vector space in which chord progressions are represented as piecewise linear functions, and harmonic similarity is evaluated by computing the membrane area, a novel distance metric. To illustrate our method's effectiveness, we apply it to the Impro-Visor corpus of 2,612 chord progressions, and present examples demonstrating its ability to account for reharmonizations and find contrafacts.
翻訳日:2022-08-02 14:56:49 公開日:2022-08-01
# 連続時間逐次レコメンデーションのための長期短期選好モデル

Long Short-Term Preference Modeling for Continuous-Time Sequential Recommendation ( http://arxiv.org/abs/2208.00593v1 )

ライセンス: Link先を確認
Huixuan Chi, Hao Xu, Hao Fu, Mengya Liu, Mengdi Zhang, Yuji Yang, Qinfen Hao, Wei Wu(参考訳) ユーザの好みの進化をモデル化することはレコメンデーションシステムに不可欠である。 近年,動的なグラフベース手法が研究され,ユーザの長期的嗜好の安定に焦点をあてたsomaが提案されている。 しかし、現実のシナリオでは、ユーザの短期的嗜好は時間とともに動的に進化する。 これをキャプチャしようとする逐次的手法は存在するが、動的グラフベースの手法で短期的嗜好の進化をモデル化する方法はまだよくわかっていない。 特に 1) 既存の方法は,シーケンシャルな方法のように,短期的選好の進化を明示的にエンコードし,捉えない。 2) 最後の数回の使用だけでは、変化傾向をモデル化するには不十分です。 本稿では,動的グラフ下での短期選好の進化を捉えるために,連続時間逐次レコメンデーション(lstsr)のための長期短期選好モデルを提案する。 具体的には、短期的な好みを明示的にエンコードし、メッセージ、集約、更新という3つの重要な操作を持つメモリ機構を通じて最適化します。 メモリメカニズムはワンホップ情報を格納するだけでなく、新しいインタラクションをオンラインで起動する。 5つの公開データセットで実施された大規模な実験により、LSTSRは様々なラインにわたる最先端のレコメンデーション手法を一貫して上回っていることが示された。

Modeling the evolution of user preference is essential in recommender systems. Recently, dynamic graph-based methods have been studied and achieved SOTA for recommendation, majority of which focus on user's stable long-term preference. However, in real-world scenario, user's short-term preference evolves over time dynamically. Although there exists sequential methods that attempt to capture it, how to model the evolution of short-term preference with dynamic graph-based methods has not been well-addressed yet. In particular: 1) existing methods do not explicitly encode and capture the evolution of short-term preference as sequential methods do; 2) simply using last few interactions is not enough for modeling the changing trend. In this paper, we propose Long Short-Term Preference Modeling for Continuous-Time Sequential Recommendation (LSTSR) to capture the evolution of short-term preference under dynamic graph. Specifically, we explicitly encode short-term preference and optimize it via memory mechanism, which has three key operations: Message, Aggregate and Update. Our memory mechanism can not only store one-hop information, but also trigger with new interactions online. Extensive experiments conducted on five public datasets show that LSTSR consistently outperforms many state-of-the-art recommendation methods across various lines.
翻訳日:2022-08-02 14:52:08 公開日:2022-08-01
# 分子ポテンシャルエネルギー表面のための局所フレーム付きグラフニューラルネットワーク

Graph Neural Network with Local Frame for Molecular Potential Energy Surface ( http://arxiv.org/abs/2208.00716v1 )

ライセンス: Link先を確認
Xiyuan Wang, Muhan Zhang(参考訳) 分子ポテンシャルエネルギー表面のモデリングは科学において重要な要素である。 グラフニューラルネットワークはこの分野で大きな成功を収めており、特に回転同変表現を用いている。 しかし、それらは複雑な数学的形式に苦しむか、理論的支援と設計原理を欠いている。 等価表現の使用を避けるために,分子表現学習のための新しい局所フレーム法を導入し,その表現力の解析を行う。 フレームとフレーム上の同変ベクトルの投影により、GNNは原子の局所環境をスカラー表現に誘導的にマッピングすることができる。 メッセージはフレームのプロジェクションをフレーム上でローカル環境に渡すこともできる。 ローカルフレームの構築のタイミングと方法をさらに分析する。 分子動力学シミュレーションでよく見られるように、局所環境が対称性を持たないとき、局所的フレームは常に存在することを示す。 対称分子では、縮退したフレームのみを構築できるが、局所的なフレーム法は自由度が低くなるため、しばしば高い表現力が得られる可能性がある。 scalar表現のみを使用することで、既存のシンプルでパワフルなgnnアーキテクチャを採用できます。 我々のモデルは実験において最先端のベースラインよりも優れています。 アーキテクチャがシンプルになるとスケーラビリティも向上する。 我々のモデルは、最高速のベースラインと比較して約30%の推論時間しかかからない。

Modeling molecular potential energy surface is of pivotal importance in science. Graph Neural Networks have shown great success in this field, especially those using rotation-equivariant representations. However, they either suffer from a complex mathematical form or lack theoretical support and design principle. To avoid using equivariant representations, we introduce a novel local frame method to molecule representation learning and analyze its expressive power. With a frame and the projection of equivariant vectors on the frame, GNNs can map the local environment of an atom to a scalar representation injectively. Messages can also be passed across local environments with frames' projection on frames. We further analyze when and how we can build such local frames. We prove that local frames always exist when the local environments have no symmetry, as is often the case in molecular dynamics simulations. For symmetric molecules, though only degenerate frames can be built, we find that the local frame method may still achieve high expressive power in some common cases due to the reduced degrees of freedom. Using only scalar representations allows us to adopt existing simple and powerful GNN architectures. Our model outperforms a range of state-of-the-art baselines in experiments. Simpler architectures also lead to higher scalability. Our model only takes about 30% inference time compared with the fastest baseline.
翻訳日:2022-08-02 14:51:47 公開日:2022-08-01
# GANDSE: ニューラルネットワーク加速器設計のためのジェネレーティブ・アドバイサル・ネットワークに基づく設計空間探索

GANDSE: Generative Adversarial Network based Design Space Exploration for Neural Network Accelerator Design ( http://arxiv.org/abs/2208.00800v1 )

ライセンス: Link先を確認
Lang Feng, Wenjian Liu, Chuliang Guo, Ke Tang, Cheng Zhuo, Zhongfeng Wang(参考訳) ディープラーニングの人気により、ディープラーニングのハードウェア実装プラットフォームへの関心が高まっている。 ディープラーニングアルゴリズムがソフトウェアレベルで実行される汎用デバイス、例えばcpuやgpuとは異なり、ニューラルネットワークハードウェアアクセラレータは、エネルギー効率とパフォーマンス改善の両方を達成するためにアルゴリズムを直接実行します。 しかし、ディープラーニングアルゴリズムが頻繁に進化するにつれて、ハードウェアアクセラレータを設計するエンジニアリングの労力とコストが大幅に増大する。 低コストで設計品質を向上させるため,ニューラルネットワーク加速器の設計自動化を提案し,設計空間内で最適化された加速器設計を自動的に探索する設計空間探索アルゴリズムを用いた。 それでも、ニューラルネットワークアクセラレータの複雑さの増大は、設計スペースの寸法の増大をもたらします。 その結果、以前の設計空間探索アルゴリズムは、もはや最適化された設計を見つけるのに十分効果的ではない。 本研究では,設計空間探索の問題を再考するGANDSEというニューラルネットワーク加速器設計自動化フレームワークを提案し,高次元大規模設計空間のための最適化探索を支援するために,GAN(Generative Adversarial Network)に基づく新しいアプローチを提案する。 実験の結果,GANDSEは多層パーセプトロンや深層強化学習といったアプローチと比較して,最適化された設計を無視できることがわかった。

With the popularity of deep learning, the hardware implementation platform of deep learning has received increasing interest. Unlike the general purpose devices, e.g., CPU, or GPU, where the deep learning algorithms are executed at the software level, neural network hardware accelerators directly execute the algorithms to achieve higher both energy efficiency and performance improvements. However, as the deep learning algorithms evolve frequently, the engineering effort and cost of designing the hardware accelerators are greatly increased. To improve the design quality while saving the cost, design automation for neural network accelerators was proposed, where design space exploration algorithms are used to automatically search the optimized accelerator design within a design space. Nevertheless, the increasing complexity of the neural network accelerators brings the increasing dimensions to the design space. As a result, the previous design space exploration algorithms are no longer effective enough to find an optimized design. In this work, we propose a neural network accelerator design automation framework named GANDSE, where we rethink the problem of design space exploration, and propose a novel approach based on the generative adversarial network (GAN) to support an optimized exploration for high dimension large design space. The experiments show that GANDSE is able to find the more optimized designs in negligible time compared with approaches including multilayer perceptron and deep reinforcement learning.
翻訳日:2022-08-02 14:51:29 公開日:2022-08-01
# パラメトリックスパンとしてのニューラルネットワーク層

Neural network layers as parametric spans ( http://arxiv.org/abs/2208.00809v1 )

ライセンス: Link先を確認
Mattia G. Bergomi, Pietro Vertechi(参考訳) コンポーザビリティや自動微分などの特性により、人工ニューラルネットワークは応用において普及したツールとなった。 より難しい問題に取り組むことで、ニューラルネットワークは徐々に複雑になり、数学的観点から定義が難しくなった。 本稿では、積分理論とパラメトリックスパンの概念に基づく分類的枠組みから生じる線形層の定義について述べる。 この定義は古典的な層(例えば、密度、畳み込み)を一般化し包含し、バックプロパゲーションのために層の微分の存在と計算可能性を保証する。

Properties such as composability and automatic differentiation made artificial neural networks a pervasive tool in applications. Tackling more challenging problems caused neural networks to progressively become more complex and thus difficult to define from a mathematical perspective. We present a general definition of linear layer arising from a categorical framework based on the notions of integration theory and parametric spans. This definition generalizes and encompasses classical layers (e.g., dense, convolutional), while guaranteeing existence and computability of the layer's derivatives for backpropagation.
翻訳日:2022-08-02 14:51:09 公開日:2022-08-01
# スタイルと社会イベントに基づくファッションレコメンデーション

Fashion Recommendation Based on Style and Social Events ( http://arxiv.org/abs/2208.00725v1 )

ライセンス: Link先を確認
Federico Becattini, Lavinia De Divitiis, Claudio Baecchi, Alberto Del Bimbo(参考訳) ファッションレコメンデーション(ファッションレコメンデーション)は、クエリーウェアを与えられたり、特定のユーザに適した服装を検索するタスクとして、しばしば拒否される。 本研究では,提案するドレッシングのスタイルに基づいたセマンティックレイヤを追加することで,この問題に対処する。 我々は,色の組み合わせパターンの背景に隠された気分と感情と,特定の種類の社会イベントにおいて得られた衣服の適切性という2つの重要な側面に基づいて,スタイルをモデル化する。 前者に対処するためには、小林重信のカラーイメージ尺度に依拠して、感情パターンやムードをカラートリプルに関連付ける。 後者は、社会イベントの画像から衣服を抽出して分析する。 全体としては,art clothing recommendation frameworkの状況と,スタイル分類器とイベント分類器を統合して,所定のクエリに対する推奨条件を設定します。

Fashion recommendation is often declined as the task of finding complementary items given a query garment or retrieving outfits that are suitable for a given user. In this work we address the problem by adding an additional semantic layer based on the style of the proposed dressing. We model style according to two important aspects: the mood and the emotion concealed behind color combination patterns and the appropriateness of the retrieved garments for a given type of social event. To address the former we rely on Shigenobu Kobayashi's color image scale, which associated emotional patterns and moods to color triples. The latter instead is analyzed by extracting garments from images of social events. Overall, we integrate in a state of the art garment recommendation framework a style classifier and an event classifier in order to condition recommendation on a given query.
翻訳日:2022-08-02 14:41:19 公開日:2022-08-01
# adawct:アダプティブ・ホワイトニングとカラースタイルインジェクション

AdaWCT: Adaptive Whitening and Coloring Style Injection ( http://arxiv.org/abs/2208.00921v1 )

ライセンス: Link先を確認
Antoine Dufour, Yohan Poirier-Ginter, Alexandre Lessard, Ryan Smith, Michael Lockyer and Jean-Francois Lalonde(参考訳) アダプティブインスタンス正規化(AdaIN)はスタイルインジェクションの標準手法となり、スケール・アンド・シフト操作によって機能を正規化することで、スタイル転送、画像生成、イメージ・ツー・イメージ翻訳に広く利用されている。 本稿では,大規模ganにおけるスタイルインジェクションに適用するadawct(whitening and coloring transformation)を応用したadainの一般化について述べる。 我々はstarganv2アーキテクチャの実験を通じて、この一般化は概念的には単純であるが、生成された画像の品質が大幅に向上することを示した。

Adaptive instance normalization (AdaIN) has become the standard method for style injection: by re-normalizing features through scale-and-shift operations, it has found widespread use in style transfer, image generation, and image-to-image translation. In this work, we present a generalization of AdaIN which relies on the whitening and coloring transformation (WCT) which we dub AdaWCT, that we apply for style injection in large GANs. We show, through experiments on the StarGANv2 architecture, that this generalization, albeit conceptually simple, results in significant improvements in the quality of the generated images.
翻訳日:2022-08-02 14:40:46 公開日:2022-08-01
# VolTeMorph: ボリューム表現のリアルタイム・制御可能・一般化可能なアニメーション

VolTeMorph: Realtime, Controllable and Generalisable Animation of Volumetric Representations ( http://arxiv.org/abs/2208.00949v1 )

ライセンス: Link先を確認
Stephan J. Garbin, Marek Kowalski, Virginia Estellers, Stanislaw Szymanowicz, Shideh Rezaeifar, Jingjing Shen, Matthew Johnson, Julien Valentin(参考訳) 近年,シーン再構成や新しいビュー合成のための容積表現の普及により,高画質・リアルタイムの容積コンテンツのアニメーション化に新たな焦点が当てられている。 学習関数に基づく暗黙的変形は印象的な結果を生み出すが、それらはアーティストやコンテンツクリエーターにとって'ブラックボックス'であり、意味のある一般化のために大量のトレーニングデータを必要とし、トレーニングデータの外では現実的な外挿を生じない。 本研究では,市販ソフトウェアで編集しやすく,説得力のあるボリューム変形法を導入することで,これらの問題を解決する。 本手法の汎用性を示すために,物理に基づく物体変形と,ブレンド形状を用いてアバターが制御されるテレプレゼンスという2つのシナリオを適用した。 また,本手法が,暗黙的変形と組み合わせたボリューム的アプローチとメッシュ変形に基づく手法とを好適に比較できることを示す実験を行った。

The recent increase in popularity of volumetric representations for scene reconstruction and novel view synthesis has put renewed focus on animating volumetric content at high visual quality and in real-time. While implicit deformation methods based on learned functions can produce impressive results, they are `black boxes' to artists and content creators, they require large amounts of training data to generalise meaningfully, and they do not produce realistic extrapolations outside the training data. In this work we solve these issues by introducing a volume deformation method which is real-time, easy to edit with off-the-shelf software and can extrapolate convincingly. To demonstrate the versatility of our method, we apply it in two scenarios: physics-based object deformation and telepresence where avatars are controlled using blendshapes. We also perform thorough experiments showing that our method compares favourably to both volumetric approaches combined with implicit deformation and methods based on mesh deformation.
翻訳日:2022-08-02 14:40:34 公開日:2022-08-01
# 高速2段階ブラインド光収差補正

Fast Two-step Blind Optical Aberration Correction ( http://arxiv.org/abs/2208.00950v1 )

ライセンス: Link先を確認
Thomas Eboli and Jean-Michel Morel and Gabriele Facciolo(参考訳) あらゆるカメラの光学は写真のシャープさを劣化させ、これは重要な視覚品質基準である。 この劣化は、光の波長に依存し、撮像領域全体に変動する点スプレッド関数(psf)によって特徴づけられる。 本稿では,カメラやレンズの事前情報なしに,1枚の生画像やJPEG画像の光収差を補正する2段階の手法を提案する。 まず,重複パッチに対する局所ガウシアンボケカーネルを推定し,非ブリンドデブラリング手法を用いて研削する。 数十個のレンズのPSFの測定に基づいて、これらのぼやけたカーネルは7つのパラメータで定義されたRGBガウスとしてモデル化される。 第2に、赤/緑/青/緑の残像を最小限に抑えるために、畳み込みニューラルネットワークを用いて、残りの横色収差(第1ステップでは考慮しない)を除去する。 合成画像と実画像の両方の実験により、これらの2段階の組み合わせは、商用の非盲目的アルゴリズムと競合する最先端のブラインド光学収差補償技術をもたらすことが示されている。

The optics of any camera degrades the sharpness of photographs, which is a key visual quality criterion. This degradation is characterized by the point-spread function (PSF), which depends on the wavelengths of light and is variable across the imaging field. In this paper, we propose a two-step scheme to correct optical aberrations in a single raw or JPEG image, i.e., without any prior information on the camera or lens. First, we estimate local Gaussian blur kernels for overlapping patches and sharpen them with a non-blind deblurring technique. Based on the measurements of the PSFs of dozens of lenses, these blur kernels are modeled as RGB Gaussians defined by seven parameters. Second, we remove the remaining lateral chromatic aberrations (not contemplated in the first step) with a convolutional neural network, trained to minimize the red/green and blue/green residual images. Experiments on both synthetic and real images show that the combination of these two stages yields a fast state-of-the-art blind optical aberration compensation technique that competes with commercial non-blind algorithms.
翻訳日:2022-08-02 14:40:16 公開日:2022-08-01
# e-Genia3 共感的エージェントのためのAgentSpeak拡張

e-Genia3 An AgentSpeak extension for empathic agents ( http://arxiv.org/abs/2208.00737v1 )

ライセンス: Link先を確認
Joaquin Taverner, Emilio Vivancos, and Vicente Botti(参考訳) 本稿では,e-Genia3にAgentSpeakを拡張して,共感エージェントの開発を支援する。 新たな拡張により、エージェントの推論プロセスは、分析されたイベントとエージェントの感情状態と性格に応じてプランを選択する。 さらに,提案手法では,他者の感情に対する反応として感情を誘発する共感的評価プロセスと,他の共感的でない感情的事象に対する通常の感情的評価プロセスという2つの異なる事象評価プロセスを通じて,自己と他のエージェントの区別をシミュレートすることができる。 共感的調節過程は、個人内要因(例えば、エージェントの性格と感情記憶)とエージェントの対人的特徴(例えば、エージェント間の感情的リンク)に基づいて、誘発された共感的感情を適応させる。 過去の出来事の記憶とそれに対応する感情の使用は、エージェント間の長期的な共感的相互作用をサポートする感情的リンクの維持を可能にする。

In this paper, we present e-Genia3 an extension of AgentSpeak to provide support to the development of empathic agents. The new extension modifies the agent's reasoning processes to select plans according to the analyzed event and the affective state and personality of the agent. In addition, our proposal allows a software agent to simulate the distinction between self and other agents through two different event appraisal processes: the empathic appraisal process, for eliciting emotions as a response to other agents emotions, and the regular affective appraisal process for other non-empathic affective events. The empathic regulation process adapts the elicited empathic emotion based on intrapersonal factors (e.g., the agent's personality and affective memory) and interpersonal characteristics of the agent (e.g., the affective link between the agents). The use of a memory of past events and their corresponding elicited emotions allows the maintaining of an affective link to support long-term empathic interaction between agents.
翻訳日:2022-08-02 14:39:36 公開日:2022-08-01
# MRIを用いた前立腺癌同定のための高度なディープラーニング技術

An Enhanced Deep Learning Technique for Prostate Cancer Identification Based on MRI Scans ( http://arxiv.org/abs/2208.00583v1 )

ライセンス: Link先を確認
Hussein Hashem, Yasmin Alsakar, Ahmed Elgarayhi, Mohammed Elmogy, Mohammed Sallah(参考訳) 前立腺がんは世界でも最も危険ながんである。 前立腺診断は、病変の複雑さ、観察者視認性、変動性など多くの要因に影響されている。 磁気共鳴イメージング(MRI)に基づく多くの技術が過去数十年間、前立腺がんの同定と分類に使われてきた。 これらの技術の開発は不可欠であり、治療効果と患者が生存する可能性を改善するため、医療効果が高い。 診断を改善するためにMRIに依存する新しい手法が提案されている。 この技法は2つの段階からなる。 まず、MRI画像が前処理され、医用画像が検出ステップに適合するようにした。 第二に、前立腺がんの同定は、事前訓練されたディープラーニングモデルであるInceptionResNetV2に基づいて行われ、多くの利点があり、効果的な結果が得られる。 本稿では,この目的に用いたインセプションresnetv2深層学習モデルは,平均精度が89.20%,曲線下(auc)が93.6%であることを示す。 提案手法の実験結果は,他の手法と比較して有望かつ効果的な結果を示すものである。

Prostate cancer is the most dangerous cancer diagnosed in men worldwide. Prostate diagnosis has been affected by many factors, such as lesion complexity, observer visibility, and variability. Many techniques based on Magnetic Resonance Imaging (MRI) have been used for prostate cancer identification and classification in the last few decades. Developing these techniques is crucial and has a great medical effect because they improve the treatment benefits and the chance of patients' survival. A new technique that depends on MRI has been proposed to improve the diagnosis. This technique consists of two stages. First, the MRI images have been preprocessed to make the medical image more suitable for the detection step. Second, prostate cancer identification has been performed based on a pre-trained deep learning model, InceptionResNetV2, that has many advantages and achieves effective results. In this paper, the InceptionResNetV2 deep learning model used for this purpose has average accuracy equals to 89.20%, and the area under the curve (AUC) equals to 93.6%. The experimental results of this proposed new deep learning technique represent promising and effective results compared to other previous techniques.
翻訳日:2022-08-02 14:33:58 公開日:2022-08-01
# 深層学習カプセルネットワークを用いた病理組織像に基づく乳癌の分類

Breast Cancer Classification Based on Histopathological Images Using a Deep Learning Capsule Network ( http://arxiv.org/abs/2208.00594v1 )

ライセンス: Link先を確認
Hayder A. Khikani, Naira Elazab, Ahmed Elgarayhi, Mohammed Elmogy, Mohammed Sallah(参考訳) 乳がんは女性に発生する最も深刻ながんの1つである。 病理組織像(HIs)解析による乳癌の自動診断は,患者とその予後にとって重要である。 HIsの分類は、臨床医に病気の正確な理解を与え、患者をより効率的に治療することを可能にする。 深層学習(DL)アプローチは、様々な分野、特に医療画像において、自動的に特徴を抽出する能力のために、うまく採用されている。 本研究の目的は, HIsを用いた乳癌の分類である。 本研究では,res2netブロックと4層の追加畳み込み層を用いて,マルチスケールな特徴を抽出する拡張カプセルネットワークを提案する。 さらに,小さな畳み込みカーネルとres2netブロックを使用するため,提案手法ではパラメータが小さくなる。 結果として、新しいメソッドは、可能な限り最高の機能を自動で学習するため、古いメソッドよりも優れています。 実験の結果, 従来のDL法よりも優れた性能を示した。

Breast cancer is one of the most serious types of cancer that can occur in women. The automatic diagnosis of breast cancer by analyzing histological images (HIs) is important for patients and their prognosis. The classification of HIs provides clinicians with an accurate understanding of diseases and allows them to treat patients more efficiently. Deep learning (DL) approaches have been successfully employed in a variety of fields, particularly medical imaging, due to their capacity to extract features automatically. This study aims to classify different types of breast cancer using HIs. In this research, we present an enhanced capsule network that extracts multi-scale features using the Res2Net block and four additional convolutional layers. Furthermore, the proposed method has fewer parameters due to using small convolutional kernels and the Res2Net block. As a result, the new method outperforms the old ones since it automatically learns the best possible features. The testing results show that the model outperformed the previous DL methods.
翻訳日:2022-08-02 14:33:42 公開日:2022-08-01
# 肺超音波映像の自動解析のためのソフトウェアパッケージ

Software Package for Automated Analysis of Lung Ultrasound Videos ( http://arxiv.org/abs/2208.00620v1 )

ライセンス: Link先を確認
Anito Anto, Linda Rose Jimson, Tanya Rose, Mohammed Jafrin, Mahesh Raveendranatha Panicker(参考訳) 近年、新型コロナウイルス(COVID-19)の急激な感染拡大に伴い、肺超音波は特に肺の持続的および定期的なモニタリングのために、迅速かつ強力な診断ツールとして登場した。 重症度分類、セグメンテーション、肺のキーランドマークの検出には多くの試みがあった。 この研究の成果を活かして、自動肺超音波ビデオ解析パッケージが紹介され、ビデオのキーフレームの要約、肺感染症によるキーフレームのフラグ付け、肺のランドマークを自動的に検出および分割するオプションが提供される。 統合パッケージはオープンソースWebアプリケーションとして実装され、https://github.com/anitoanto/alus-package.comリンクで利用できる。

In the recent past with the rapid surge of COVID-19 infections, lung ultrasound has emerged as a fast and powerful diagnostic tool particularly for continuous and periodic monitoring of the lung. There have been many attempts towards severity classification, segmentation and detection of key landmarks in the lung. Leveraging the progress, an automated lung ultrasound video analysis package is presented in this work, which can provide summary of key frames in the video, flagging of the key frames with lung infection and options to automatically detect and segment the lung landmarks. The integrated package is implemented as an open-source web application and available in the link https://github.com/anitoanto/alus-package.
翻訳日:2022-08-02 14:33:30 公開日:2022-08-01
# DeepHealth Toolkit を用いたCT肺結節分割術

Lung nodules segmentation from CT with DeepHealth toolkit ( http://arxiv.org/abs/2208.00641v1 )

ライセンス: Link先を確認
Hafiza Ayesha Hoor Chaudhry and Riccardo Renzulli and Daniele Perlo and Francesca Santinelli and Stefano Tibaldi and Carmen Cristiano and Marco Grosso and Attilio Fiandrotti and Maurizio Lucenteforte and Davide Cavagnino(参考訳) 正確かつ一貫した境界分割は、腫瘍体積推定と医療画像分割の分野における治療において重要な役割を担っている。 世界中で、肺がんは死の主要な原因の1つであり、肺結節の早期発見は、患者の早期のがん診断と生存率に不可欠である。 本研究の目的は,PyECVLおよびPyEDDLライブラリを含むDeephealthツールキットが肺結節を正確に分節できることを実証することであった。 PyECVLとPyEDDLを併用したUniToChestにおける肺結節分節法の実験を行った。 以上の結果より,肺結節の径範囲が広く,従来の検出法よりも精度が向上した。 本論文で使用されるデータセットとコードは,ベースライン参照として公開されている。

The accurate and consistent border segmentation plays an important role in the tumor volume estimation and its treatment in the field of Medical Image Segmentation. Globally, Lung cancer is one of the leading causes of death and the early detection of lung nodules is essential for the early cancer diagnosis and survival rate of patients. The goal of this study was to demonstrate the feasibility of Deephealth toolkit including PyECVL and PyEDDL libraries to precisely segment lung nodules. Experiments for lung nodules segmentation has been carried out on UniToChest using PyECVL and PyEDDL, for data pre-processing as well as neural network training. The results depict accurate segmentation of lung nodules across a wide diameter range and better accuracy over a traditional detection approach. The datasets and the code used in this paper are publicly available as a baseline reference.
翻訳日:2022-08-02 14:33:17 公開日:2022-08-01
# 検索かナビゲートか? オブジェクトナビゲーションのためのデュアル適応思考

Search for or Navigate to? Dual Adaptive Thinking for Object Navigation ( http://arxiv.org/abs/2208.00553v1 )

ライセンス: Link先を確認
Ronghao Dang, Liuyi Wang, Zongtao He, Shuai Su, Chengju Liu, Qijun Chen(参考訳) "Search for" あるいは "Navigate to"? 物体を見つけるとき、2つの選択は常に潜在意識に現れます。 ターゲットを見る前に、経験に基づいてターゲットを探索する。 ターゲットを見た後、ターゲットの位置を記憶し、ナビゲートします。 しかし、近年のオブジェクトナビゲーション分野における手法では、「探索」フェーズの重要さを無視しつつ、「探索」フェーズを強化するためにオブジェクトアソシエーションのみを考慮している。 そこで本稿では,異なるナビゲーション段階における異なる思考戦略を柔軟に調整する,二重適応思考(DAT)手法を提案する。 デュアル思考には、オブジェクト関連能力を持つ検索思考と、ターゲット位置能力を持つナビゲーション思考が含まれる。 ナビゲーション思考をより効果的にするために,歴史目標情報を格納する目標指向メモリグラフ (tomg) と,相対目標位置を符号化する目標対応マルチスケールアグリゲータ (tamsa) を設計した。 我々はAI2-Thorデータセットを用いて手法を評価する。 方法と比較すると, 成功率10.8%, 21.5%, 15.7%の増加, 経路長(SPL)による成功, ナビゲーション効率(SNE)による成功を報告した。

"Search for" or "Navigate to"? When finding an object, the two choices always come up in our subconscious mind. Before seeing the target, we search for the target based on experience. After seeing the target, we remember the target location and navigate to. However, recently methods in object navigation field almost only consider using object association to enhance "search for" phase while neglect the importance of "navigate to" phase. Therefore, this paper proposes the dual adaptive thinking (DAT) method to flexibly adjust the different thinking strategies at different navigation stages. Dual thinking includes search thinking with the object association ability and navigation thinking with the target location ability. To make the navigation thinking more effective, we design the target-oriented memory graph (TOMG) to store historical target information and the target-aware multi-scale aggregator (TAMSA) to encode the relative target position. We assess our methods on the AI2-Thor dataset. Compared with the state-of-the-art (SOTA) method, our method reports 10.8%, 21.5% and 15.7% increase in success rate (SR), success weighted by path length (SPL) and success weighted by navigation efficiency (SNE), respectively.
翻訳日:2022-08-02 14:29:58 公開日:2022-08-01
# 変分輸送と鏡面の輝きによる \textit{Constrained Domains} の分布最適化のための粒子アルゴリズム

A Particle-Based Algorithm for Distributional Optimization on \textit{Constrained Domains} via Variational Transport and Mirror Descent ( http://arxiv.org/abs/2208.00587v1 )

ライセンス: Link先を確認
Dai Hai Nguyen, Tetsuya Sakurai(参考訳) 目的関数を最小化するための最適化問題を考える。これは変分形式を許容し、理論解析とアルゴリズム設計の両方に挑戦する \textit{constrained domain} 上の確率分布上で定義される。 制約付き最適化のためのミラー降下アルゴリズムに着想を得て,Mirrored Variational Transport (\textbf{mirrorVT}) と呼ばれる反復的かつ粒子ベースのアルゴリズムを提案する。 各反復について、 \textbf{mirrorvt} は粒子をミラー写像によって誘導される拘束されない双対空間に写像し、次に粒子を押して双対空間上で定義される分布の多様体上のワッサーシュタイン勾配降下を概ね行う。 イテレーションの終わりに、粒子は元の制約された空間にマッピングされる。 模擬実験により, 単純およびユークリッド球制約領域上の確率分布上の関数を最小化するための \textbf{mirrorVT} の有効性を示す。 また,その理論特性を解析し,その収束を目的関数の極大最小値に特徴付ける。

We consider the optimization problem of minimizing an objective functional, which admits a variational form and is defined over probability distributions on the \textit{constrained domain}, which poses challenges to both theoretical analysis and algorithmic design. Inspired by the mirror descent algorithm for constrained optimization, we propose an iterative and particle-based algorithm, named Mirrored Variational Transport (\textbf{mirrorVT}). For each iteration, \textbf{mirrorVT} maps particles to a unconstrained dual space induced by a mirror map and then approximately perform Wasserstein gradient descent on the manifold of distributions defined over the dual space by pushing particles. At the end of iteration, particles are mapped back to the original constrained space. Through simulated experiments, we demonstrate the effectiveness of \textbf{mirrorVT} for minimizing the functionals over probability distributions on the simplex- and Euclidean ball-constrained domains. We also analyze its theoretical properties and characterize its convergence to the global minimum of the objective functional.
翻訳日:2022-08-02 14:29:34 公開日:2022-08-01
# 書き手・提案的相互作用の研究--順列・一致した次のフレーズによる書き手相互作用を理解するための質的研究

Studying writer-suggestion interaction: A qualitative study to understand writer interaction with aligned/misaligned next-phrase suggestion ( http://arxiv.org/abs/2208.00636v1 )

ライセンス: Link先を確認
Advait Bhat, Saaket Agashe, Niharika Mohile, Parth Oberoi, Ravi Jangir, Anirudha Joshi(参考訳) 著者が次回の提案とどのように相互作用するかを理解するための探索的質的研究を提案する。 提案システムによる執筆への影響に関する定量的研究はいくつかあるが、著者が提案システムとどのように相互作用し、それが執筆プロセスにどのように影響するかを理解するための質的な研究はほとんど行われていない。 本研究は,アマチュアの作家に対して,映画レビューを2つ,提案無しで1つ,一緒に書くように依頼した。 著者は提案の複数の部分を抽象化して,その内容に含めることができる – たとえ提案全体に反対であっても – といった,さまざまな複雑な方法で,次のフレーズの提案と対話できることが分かったのです。 また,提案システムは,筆記プロセスの異なる側面に独特な方法で寄与する書記プロセスに様々な影響を及ぼした。 本稿では,映画レビュー作成タスクとしてgpt-2を用いた書き手間対話のモデルを提案し,そのモデルが今後の研究に利用できる方法と,研究・設計の機会の概要について述べる。

We present an exploratory qualitative study to understand how writers interact with next-phrase suggestions. While there has been some quantitative research on the effects of suggestion systems on writing, there has been little qualitative work to understand how writers interact with suggestion systems and how it affects their writing process - specifically for a non-native but English writer. We conducted a study where amateur writers were asked to write two movie reviews each, one without suggestions and one with. We found writers interact with next-phrase suggestions in various complex ways - writers are able to abstract multiple parts of the suggestions and incorporate them within their writing - even when they disagree with the suggestion as a whole. The suggestion system also had various effects on the writing processes - contributing to different aspects of the writing process in unique ways. We propose a model of writer-suggestion interaction for writing with GPT-2 for a movie review writing task, followed by ways in which the model can be used for future research, along with outlining opportunities for research and design.
翻訳日:2022-08-02 14:29:14 公開日:2022-08-01
# 多層ケーキの比例フェア分割

Proportional Fair Division of Multi-layered Cakes ( http://arxiv.org/abs/2208.00726v1 )

ライセンス: Link先を確認
Mohammad Azharuddin Sanpui(参考訳) 本研究では,多層ケーキをエージェントに比例して分割する多層ケーキ切断問題について検討する。 この問題はHosseiniらによって始められた。 (2020) 二つの制約の下では、一方が連続性、もう一方が実現可能である。 基本的に、各エージェントと多数エージェントの切り替え点という概念を用いて、相性や実現可能性の制約を満たす任意の数の選好を持つエージェントに対して比例多重配置が存在することを示す。 まず、2種類の選好を持つ2つのエージェントに対して、正確なマルチアロケーションが保証されることを示す。 第二に, 3 種類の選好を持つエージェントに対して, 3 番目のエージェントのユニークな選好の知識がなくても,各エージェントが各レイヤにシェアを持つように, 実現可能性と連続性の制約を満たす, エンビーフリーなマルチアロケーションが常に得られることがわかった。

We study the multi-layered cake cutting problem, where the multi-layered cake is divided among agents proportionally. This problem was initiated by Hosseini et al.(2020) under two constraints, one is contiguity and the other is feasibility. Basically we will show the existence of proportional multi-allocation for any number of agents with any number of preferences that satisfies contiguity and feasibility constraints using the idea of switching point for individual agent and majority agents. First we show that exact feasible multi-allocation is guaranteed to exist for two agents with two types of preferences. Second we see that we always get an envy-free multi-allocation that satisfies the feasibility and contiguity constraints for three agent with two types of preferences such that each agent has a share to each layer even without the knowledge of the unique preference of the third agent.
翻訳日:2022-08-02 14:28:57 公開日:2022-08-01
# Relay Hindsight Experience Replay:Sparse Rewardsを用いたロボット操作タスクの継続的強化学習

Relay Hindsight Experience Replay: Continual Reinforcement Learning for Robot Manipulation Tasks with Sparse Rewards ( http://arxiv.org/abs/2208.00843v1 )

ライセンス: Link先を確認
Yongle Luo, Yuxin Wang, Kun Dong, Qiang Zhang, Erkang Cheng, Zhiyong Sun and Bo Song(参考訳) スパース報酬による学習は通常、強化学習(RL)では非効率である。 Hindsight Experience Replay (HER)は、ゴールレバリングによるスパース報酬による低いサンプル効率を扱う効果的なソリューションとして示されている。 しかし、HERは、特にロボット操作タスクにおいて、不変の達成目標に起因する暗黙の仮想陽性スパース報酬問題を持っている。 そこで本研究では,Relay-HER (RHER) と呼ばれるモデルレス連続RLアルゴリズムを提案する。 提案手法は, もともとのロングホリゾンタスクをインクリメンタルな新しいサブタスクに分解し, 再構成する。 その後、マルチタスクネットワークは、複雑さの順にサブタスクを学習するように設計される。 仮想正のスパース報酬問題を解くために,より複雑なサブタスクの達成目標を,より少ない複雑性のサブタスクの指導の下で迅速に変更する,ランダム混合探索戦略(rmes)を提案する。 実験結果は,プッシュ,ピックアンドプレース,引き出し,挿入,障害物プッシュの5つの典型的なロボット操作タスクにおいて,rhelのサンプル効率がバニラハーに比べて有意に向上したことを示している。 提案手法は,実ロボットの接触が多いプッシュタスクをスクラッチから学習するためにも適用されており,成功率は250エピソードで10/10に達した。

Learning with sparse rewards is usually inefficient in Reinforcement Learning (RL). Hindsight Experience Replay (HER) has been shown an effective solution to handle the low sample efficiency that results from sparse rewards by goal relabeling. However, the HER still has an implicit virtual-positive sparse reward problem caused by invariant achieved goals, especially for robot manipulation tasks. To solve this problem, we propose a novel model-free continual RL algorithm, called Relay-HER (RHER). The proposed method first decomposes and rearranges the original long-horizon task into new sub-tasks with incremental complexity. Subsequently, a multi-task network is designed to learn the sub-tasks in ascending order of complexity. To solve the virtual-positive sparse reward problem, we propose a Random-Mixed Exploration Strategy (RMES), in which the achieved goals of the sub-task with higher complexity are quickly changed under the guidance of the one with lower complexity. The experimental results indicate the significant improvements in sample efficiency of RHER compared to vanilla-HER in five typical robot manipulation tasks, including Push, PickAndPlace, Drawer, Insert, and ObstaclePush. The proposed RHER method has also been applied to learn a contact-rich push task on a physical robot from scratch, and the success rate reached 10/10 with only 250 episodes.
翻訳日:2022-08-02 14:28:43 公開日:2022-08-01
# 提案リスト vs. 連続生成: モバイルデバイス上で生成モデルを記述するためのインタラクション設計は、テキストの長さ、ワーキング、知覚された著者シップに影響する

Suggestion Lists vs. Continuous Generation: Interaction Design for Writing with Generative Models on Mobile Devices Affect Text Length, Wording and Perceived Authorship ( http://arxiv.org/abs/2208.00870v1 )

ライセンス: Link先を確認
Florian Lehmann, Niklas Markert, Hai Dang, Daniel Buschek(参考訳) ニューラルネットワークモデルは、人間の記述をサポートする可能性がある。 しかし、それらの統合と書き込みとアウトプットに対する影響に疑問が残る。 これに対処するため、私たちはモバイルデバイス上でaiと書くための2つのユーザーインターフェースを設計し、比較しました。 1) 連続生成したテキストで書き込むと、AIはテキスト・バイ・ワードとユーザー・ステアを付加する。 2)提案文でAIはフレーズを提案し,ユーザがリストから選択する。 教師付きオンライン研究(N=18)では、参加者はAIなしでこれらのプロトタイプとベースラインを使用した。 タッチインタラクション、インスピレーションや著者に関する評価、インタビューデータを集めました。 AIの提案では、人々は積極的に書くことは少なかったが、著者であると感じた。 連続生成されたテキストは、この認識された著者数を減らしたが、編集行動は増加した。 どちらの設計においても、AIはテキストの長さを長くし、言葉に影響を与えていると認識された。 この結果から,UI設計決定がユーザエクスペリエンスおよび共同創造システムによるアウトプットに与える影響について,新たな実証的証拠が得られた。

Neural language models have the potential to support human writing. However, questions remain on their integration and influence on writing and output. To address this, we designed and compared two user interfaces for writing with AI on mobile devices, which manipulate levels of initiative and control: 1) Writing with continuously generated text, the AI adds text word-by-word and user steers. 2) Writing with suggestions, the AI suggests phrases and user selects from a list. In a supervised online study (N=18), participants used these prototypes and a baseline without AI. We collected touch interactions, ratings on inspiration and authorship, and interview data. With AI suggestions, people wrote less actively, yet felt they were the author. Continuously generated text reduced this perceived authorship, yet increased editing behavior. In both designs, AI increased text length and was perceived to influence wording. Our findings add new empirical evidence on the impact of UI design decisions on user experience and output with co-creative systems.
翻訳日:2022-08-02 14:28:19 公開日:2022-08-01
# ユーザ入力をキャプチャする効果的なジェスチャベースフレームワーク

Effective Gesture Based Framework for Capturing User Input ( http://arxiv.org/abs/2208.00913v1 )

ライセンス: Link先を確認
Pabbathi Sri Charan, Saksham Gupta, Satvik Agrawal, Gadupudi Sahithi Sindhu(参考訳) 今日のコンピューターはラップトップやデスクトップだけではありません。 携帯電話やラップトップなどのモバイル機器も利用している。 しかし、過去50年で変わっていない入力デバイスがQWERTYキーボードです。 仮想キーボードのユーザーは、センサー技術と人工知能のおかげで、どんな表面でもキーボードのようにタイプできる。 本研究では,画像処理の考え方を用いて,コンピュータキーボードを見るためのアプリケーションを作成する。このフレームワークは,持続可能かつ経済的に実現可能でありながら,高精度なハンドジェスチャを検出できる。 カメラは、その後仮想キーボードとして機能するキーボードイメージと指の動きをキャプチャするために使用される。 また,指の座標を入力として受け入れる視覚的仮想マウスについても述べる。 このシステムは、周辺コストを削減し、外部機器に起因する電子機器の無駄を削減し、従来のキーボードやマウスを使えない人々にアクセシビリティを提供するという直接的な利点がある。

Computers today aren't just confined to laptops and desktops. Mobile gadgets like mobile phones and laptops also make use of it. However, one input device that hasn't changed in the last 50 years is the QWERTY keyboard. Users of virtual keyboards can type on any surface as if it were a keyboard thanks to sensor technology and artificial intelligence. In this research, we use the idea of image processing to create an application for seeing a computer keyboard using a novel framework which can detect hand gestures with precise accuracy while also being sustainable and financially viable. A camera is used to capture keyboard images and finger movements which subsequently acts as a virtual keyboard. In addition, a visible virtual mouse that accepts finger coordinates as input is also described in this study. This system has a direct benefit of reducing peripheral cost, reducing electronics waste generated due to external devices and providing accessibility to people who cannot use the traditional keyboard and mouse.
翻訳日:2022-08-02 14:28:05 公開日:2022-08-01
# 経時的リスクプレミアによる株価リターン予測のためのペナルティ付き2パス回帰法

A penalized two-pass regression to predict stock returns with time-varying risk premia ( http://arxiv.org/abs/2208.00972v1 )

ライセンス: Link先を確認
Gaetan Bakalli and St\'ephane Guerrier and Olivier Scaillet(参考訳) 時変因子負荷によるペナル化2パスレグレッションを開発する。 第1パスのペナライゼーションは、適切な係数群を正規化することにより、非アービタージ制限との互換性を維持しながら、時変ドライバのスパーシリティを強制する。 第2のパスは、株式過剰リターンを予測するためのリスク・プレミア予測を提供する。 モンテカルロの結果と、米国の個人株の大規模な横断的データセットにおける経験的な結果から、グループ化のないペナリゼーションは、非アービタージュ制限に違反する推定時間変動モデルにほぼ全ての結果をもたらすことが示されている。 また,提案手法は,適切なグループ化や時間不変因子モデルを用いずにペナルティ化アプローチと比較して予測誤差を低減できることを示した。

We develop a penalized two-pass regression with time-varying factor loadings. The penalization in the first pass enforces sparsity for the time-variation drivers while also maintaining compatibility with the no-arbitrage restrictions by regularizing appropriate groups of coefficients. The second pass delivers risk premia estimates to predict equity excess returns. Our Monte Carlo results and our empirical results on a large cross-sectional data set of US individual stocks show that penalization without grouping can yield to nearly all estimated time-varying models violating the no-arbitrage restrictions. Moreover, our results demonstrate that the proposed method reduces the prediction errors compared to a penalized approach without appropriate grouping or a time-invariant factor model.
翻訳日:2022-08-02 14:27:51 公開日:2022-08-01
# MultiPAR:マルチタスク学習による不規則なテンソル因子化

MULTIPAR: Supervised Irregular Tensor Factorization with Multi-task Learning ( http://arxiv.org/abs/2208.00993v1 )

ライセンス: Link先を確認
Yifei Ren, Jian Lou, Li Xiong, Joyce C Ho, Xiaoqian Jiang, Sivasubramanium Bhavan(参考訳) テンソル因子化は、レコメンダシステムや電子健康記録(EHR)マイニングなど多くの応用で多次元データ中の潜伏因子を捕捉する本質的な能力によって、関心が高まっている。 PARAFAC2とその変種は、テンソルモードの1つが整列していない不規則なテンソルに対処するために提案されている。 PARAFAC2は、有意義な医療概念(フェノタイプ)を抽出するために、EHRにうまく適用されている。 最近の進歩にもかかわらず、現在のモデルの予測可能性と解釈性は満足できないため、下流解析に有用性が制限されている。 本稿では,マルチタスク学習を用いた教師付き不規則テンソル分解法であるmultiparを提案する。 MultiPARは静的(院内死亡予測など)と連続的または動的(換気の必要性など)の両方を組み込むことが柔軟である。 下流予測タスクでテンソル分解を監督し、関連する複数の予測タスクの情報を活用することで、マルチパーはより意味のある表現型だけでなく下流タスクの予測性能も向上できる。 我々は、2つの実世界の時空間EHRデータセットに対して広範な実験を行い、MultiPARは拡張性があり、より有意義なサブグループに適合し、既存の最先端手法と比較してより強力な予測性能が得られることを示した。

Tensor factorization has received increasing interest due to its intrinsic ability to capture latent factors in multi-dimensional data with many applications such as recommender systems and Electronic Health Records (EHR) mining. PARAFAC2 and its variants have been proposed to address irregular tensors where one of the tensor modes is not aligned, e.g., different users in recommender systems or patients in EHRs may have different length of records. PARAFAC2 has been successfully applied on EHRs for extracting meaningful medical concepts (phenotypes). Despite recent advancements, current models' predictability and interpretability are not satisfactory, which limits its utility for downstream analysis. In this paper, we propose MULTIPAR: a supervised irregular tensor factorization with multi-task learning. MULTIPAR is flexible to incorporate both static (e.g. in-hospital mortality prediction) and continuous or dynamic (e.g. the need for ventilation) tasks. By supervising the tensor factorization with downstream prediction tasks and leveraging information from multiple related predictive tasks, MULTIPAR can yield not only more meaningful phenotypes but also better predictive performance for downstream tasks. We conduct extensive experiments on two real-world temporal EHR datasets to demonstrate that MULTIPAR is scalable and achieves better tensor fit with more meaningful subgroups and stronger predictive performance compared to existing state-of-the-art methods.
翻訳日:2022-08-02 14:24:25 公開日:2022-08-01
# リーフ調査のためのリアルタイムエッジAIシステム

A Real-time Edge-AI System for Reef Surveys ( http://arxiv.org/abs/2208.00598v1 )

ライセンス: Link先を確認
Yang Li, Jiajun Liu, Brano Kusy, Ross Marchant, Brendan Do, Torsten Merz, Joey Crosswell, Andy Steven, Lachlan Tychsen-Smith, David Ahmedt-Aristizabal, Jeremy Oorloff, Peyman Moghadam, Russ Babcock, Megha Malpani, Ard Oerlemans(参考訳) ソーン・オブ・ソーン・スターフィッシュ(COTS)の流行はグレートバリアリーフ(GBR)におけるサンゴの喪失の大きな原因であり、COTSの個体群を生態的に持続可能なレベルまで管理するための監視と管理プログラムが進行中である。 本稿では,cots監視のためのエッジデバイス上でのリアルタイム機械学習に基づく水中データ収集・キュレーションシステムを提案する。 特に、深層学習に基づく物体検出技術の力を活用し、エッジデバイス上で検出推測を行うリソース効率の良いCOTS検出器を提案し、データ収集フェーズ中にCOTS識別を行う海洋専門家を支援する。 予備結果は,計算効率を向上させるためのいくつかの戦略(バッチ処理,フレームスキップ,モデル入力サイズなど)を組み合わせることで,リソース消費量の低減と情報損失の低減を両立できることを示す。

Crown-of-Thorn Starfish (COTS) outbreaks are a major cause of coral loss on the Great Barrier Reef (GBR) and substantial surveillance and control programs are ongoing to manage COTS populations to ecologically sustainable levels. In this paper, we present a comprehensive real-time machine learning-based underwater data collection and curation system on edge devices for COTS monitoring. In particular, we leverage the power of deep learning-based object detection techniques, and propose a resource-efficient COTS detector that performs detection inferences on the edge device to assist marine experts with COTS identification during the data collection phase. The preliminary results show that several strategies for improving computational efficiency (e.g., batch-wise processing, frame skipping, model input size) can be combined to run the proposed detection model on edge hardware with low resource consumption and low information loss.
翻訳日:2022-08-02 14:17:28 公開日:2022-08-01
# ランダムなファジィ数に基づく回帰のための実証的ニューラルネットワークモデル

An Evidential Neural Network Model for Regression Based on Random Fuzzy Numbers ( http://arxiv.org/abs/2208.00647v1 )

ライセンス: Link先を確認
Thierry Denoeux(参考訳) 本稿では,実線上の信念関数によって予測の不確かさを定量化する回帰のための距離ベースニューラルネットワークモデルを提案する。 このモデルは、入力ベクトルからプロトタイプへの距離を、ガウスランダムファジィ数(GRFN)で表される証拠の断片として解釈し、一般化積交叉則(Dempsterの規則をランダムファジィ集合に拡張する作用素)に結合する。 ネットワーク出力はGRFNであり、最も妥当な予測値、この値の変動性、およびてんかんの不確かさを特徴付ける3つの数字で要約できる。 実際のデータセットを用いた実験は、最先端の明示的および統計的学習アルゴリズムと比較して、この手法の非常に優れた性能を示す。 \keywords{Evidence theory, Dempster-Shafer theory, belief function, machine learning, random fuzzy set。

We introduce a distance-based neural network model for regression, in which prediction uncertainty is quantified by a belief function on the real line. The model interprets the distances of the input vector to prototypes as pieces of evidence represented by Gaussian random fuzzy numbers (GRFN's) and combined by the generalized product intersection rule, an operator that extends Dempster's rule to random fuzzy sets. The network output is a GRFN that can be summarized by three numbers characterizing the most plausible predicted value, variability around this value, and epistemic uncertainty. Experiments with real datasets demonstrate the very good performance of the method as compared to state-of-the-art evidential and statistical learning algorithms. \keywords{Evidence theory, Dempster-Shafer theory, belief functions, machine learning, random fuzzy sets.
翻訳日:2022-08-02 14:17:12 公開日:2022-08-01
# 安全政策改善アプローチとその限界

Safe Policy Improvement Approaches and their Limitations ( http://arxiv.org/abs/2208.00724v1 )

ライセンス: Link先を確認
Philipp Scholl, Felix Dietrich, Clemens Otte, Steffen Udluft(参考訳) 安全政策改善(SPI)は、安全クリティカルアプリケーションにおけるオフライン強化学習において重要な手法であり、高い確率で行動ポリシーを改善する。 我々は、状態-作用対の不確実性を利用する方法に基づいて、文献から様々なSPIアプローチを2つのグループに分類する。 ソフトSPIBB(Soft Baseline Bootstrappingによるセーフポリシー改善)アルゴリズムに着目し,安全であるという主張が成立しないことを示す。 そこで本研究では,Adv-Soft-SPIBBアルゴリズムの適応法を開発し,その安全性を示す。 ヒューリスティックな適応であるlow-Approx-Soft-SPIBBは、2つのベンチマークで広範な実験を行い、全てのSPIBBアルゴリズムの中で最高の性能を得る。 また,安全確保可能なアルゴリズムの安全性保証を確認し,安全限界が実用的になるためには膨大なデータが必要であることを示す。

Safe Policy Improvement (SPI) is an important technique for offline reinforcement learning in safety critical applications as it improves the behavior policy with a high probability. We classify various SPI approaches from the literature into two groups, based on how they utilize the uncertainty of state-action pairs. Focusing on the Soft-SPIBB (Safe Policy Improvement with Soft Baseline Bootstrapping) algorithms, we show that their claim of being provably safe does not hold. Based on this finding, we develop adaptations, the Adv-Soft-SPIBB algorithms, and show that they are provably safe. A heuristic adaptation, Lower-Approx-Soft-SPIBB, yields the best performance among all SPIBB algorithms in extensive experiments on two benchmarks. We also check the safety guarantees of the provably safe algorithms and show that huge amounts of data are necessary such that the safety bounds become useful in practice.
翻訳日:2022-08-02 14:16:55 公開日:2022-08-01
# 異なるニューラルネットワーク探索のためのチャネル注意に基づく部分接続

Partial Connection Based on Channel Attention for Differentiable Neural Architecture Search ( http://arxiv.org/abs/2208.00791v1 )

ライセンス: Link先を確認
Yu Xue, Jiafeng Qin(参考訳) 微分可能なニューラルネットワーク探索(DARTS)は、勾配誘導探索法であり、計算コストを大幅に削減し、探索を高速化する。 dartでは、アーキテクチャパラメータが候補操作に導入されるが、いくつかの重み付き操作のパラメータは、初期段階ではうまくトレーニングされず、候補操作間の不公平な競合を引き起こす可能性がある。 重量のない操作は、パフォーマンスクラッシュの現象をもたらす多数のものが現れます。 さらに、トレーニングスーパーネット中に多くのメモリが占有され、メモリ使用率が低下する。 本稿では,adarts( differentiable neural architecture search)のためのチャネルアテンションに基づく部分チャネル接続を提案する。 重みの高い一部のチャネルは注意機構を介して選択され、操作空間に送られ、他のチャネルは処理されたチャネルに直接接触される。 注目度の高いチャンネルを選択することで、検索空間に重要な特徴情報を伝達し、検索効率とメモリ利用を大幅に向上させることができる。 ランダム選択によるネットワーク構造の不安定性も回避できる。 実験の結果、ADARTSはCIFAR-10とCIFAR-100でそれぞれ2.46%と17.06%の分類誤り率を達成した。 ADARTSは、多くのスキップ接続が検索プロセスに現れるという問題を効果的に解決し、より良い性能でネットワーク構造を得ることができる。

Differentiable neural architecture search (DARTS), as a gradient-guided search method, greatly reduces the cost of computation and speeds up the search. In DARTS, the architecture parameters are introduced to the candidate operations, but the parameters of some weight-equipped operations may not be trained well in the initial stage, which causes unfair competition between candidate operations. The weight-free operations appear in large numbers which results in the phenomenon of performance crash. Besides, a lot of memory will be occupied during training supernet which causes the memory utilization to be low. In this paper, a partial channel connection based on channel attention for differentiable neural architecture search (ADARTS) is proposed. Some channels with higher weights are selected through the attention mechanism and sent into the operation space while the other channels are directly contacted with the processed channels. Selecting a few channels with higher attention weights can better transmit important feature information into the search space and greatly improve search efficiency and memory utilization. The instability of network structure caused by random selection can also be avoided. The experimental results show that ADARTS achieved 2.46% and 17.06% classification error rates on CIFAR-10 and CIFAR-100, respectively. ADARTS can effectively solve the problem that too many skip connections appear in the search process and obtain network structures with better performance.
翻訳日:2022-08-02 14:16:39 公開日:2022-08-01
# 周期的グローバルガイダンスを用いた局所教師付き学習

Locally Supervised Learning with Periodic Global Guidance ( http://arxiv.org/abs/2208.00821v1 )

ライセンス: Link先を確認
Hasnain Irshad Bhatti and Jaekyun Moon(参考訳) 局所教師付き学習は、ネットワークの各分離モジュールにおけるグローバル損失関数の局所的な推定に基づいて、ニューラルネットワークをトレーニングすることを目的としている。 補助ネットワークは通常、局所的な損失に基づいて勾配更新を近似するためにモジュールに追加される。 並列性やメモリ消費の削減という点では有利だが、この訓練パラダイムはニューラルネットワークの一般化性能を著しく低下させる。 本稿では,主にモデルの一般化能力を高めるために,ニューラルネットワークの局所的ロスに基づくトレーニングに世界目標を反復的に再提示する周期的ガイド付き局所学習(PGL)を提案する。 単純な周期的誘導スキームは、メモリフットプリントを低くしながら、大幅なパフォーマンス向上をもたらすことを示す。 我々は,PGLの有効性を示すために,様々なデータセットやネットワーク上で広範囲に実験を行った。

Locally supervised learning aims to train a neural network based on a local estimation of the global loss function at each decoupled module of the network. Auxiliary networks are typically appended to the modules to approximate the gradient updates based on the greedy local losses. Despite being advantageous in terms of parallelism and reduced memory consumption, this paradigm of training severely degrades the generalization performance of neural networks. In this paper, we propose Periodically Guided local Learning (PGL), which reinstates the global objective repetitively into the local-loss based training of neural networks primarily to enhance the model's generalization capability. We show that a simple periodic guidance scheme begets significant performance gains while having a low memory footprint. We conduct extensive experiments on various datasets and networks to demonstrate the effectiveness of PGL, especially in the configuration with numerous decoupled modules.
翻訳日:2022-08-02 14:16:17 公開日:2022-08-01
# DeFL: クロスサイロ・フェデレーション学習のための分散重み集約

DeFL: Decentralized Weight Aggregation for Cross-silo Federated Learning ( http://arxiv.org/abs/2208.00848v1 )

ライセンス: Link先を確認
Jialiang Han, Yudong Han, Gang Huang, Yun Ma(参考訳) Federated Learning(FL)は、プライバシ保護機械学習(ML)の新たなパラダイムである。 重要なタイプのflはcross-silo flであり、秘密データをローカルに保持し、中央のパラメータサーバに重みを集約することで、小規模の組織が協調的に共有モデルを訓練できる。 しかし、中央サーバーは、実際には悪意のある攻撃やソフトウェア障害に弱い可能性がある。 そこで本稿では,クロスサイロFLのための分散重み集約フレームワークであるDeFLを提案する。 DeFLは各ノードの重みを集約することで中央サーバを排除し、現在のトレーニングラウンドのみの重みはすべてのノード間で維持および同期される。 我々はMulti-Krumを使って、正直なノードから正しい重みを集約し、HotStuffを使ってトレーニングラウンド数と重みの整合性を確保する。 さらに,DeFLの耐ビザンチン性,収束性,複雑さを理論的に解析した。 deflの性能を評価するために,広く採用されている2つの公開データセット,すなわちcifar-10とcmm140について広範な実験を行った。 結果は、deflは最小の精度損失で共通の脅威モデルに対して防御し、最先端の分散flアプローチと比較して、ストレージオーバーヘッドの最大100倍、ネットワークオーバーヘッドの最大12倍の削減を達成していることを示している。

Federated learning (FL) is an emerging promising paradigm of privacy-preserving machine learning (ML). An important type of FL is cross-silo FL, which enables a small scale of organizations to cooperatively train a shared model by keeping confidential data locally and aggregating weights on a central parameter server. However, the central server may be vulnerable to malicious attacks or software failures in practice. To address this issue, in this paper, we propose DeFL, a novel decentralized weight aggregation framework for cross-silo FL. DeFL eliminates the central server by aggregating weights on each participating node and weights of only the current training round are maintained and synchronized among all nodes. We use Multi-Krum to enable aggregating correct weights from honest nodes and use HotStuff to ensure the consistency of the training round number and weights among all nodes. Besides, we theoretically analyze the Byzantine fault tolerance, convergence, and complexity of DeFL. We conduct extensive experiments over two widely-adopted public datasets, i.e. CIFAR-10 and Sentiment140, to evaluate the performance of DeFL. Results show that DeFL defends against common threat models with minimal accuracy loss, and achieves up to 100x reduction in storage overhead and up to 12x reduction in network overhead, compared to state-of-the-art decentralized FL approaches.
翻訳日:2022-08-02 14:16:05 公開日:2022-08-01
# パラメータ化基本図の物理インフォームド機械学習

Physics-informed Machine Learning of Parameterized Fundamental Diagrams ( http://arxiv.org/abs/2208.00880v1 )

ライセンス: Link先を確認
James Koch, Thomas Maxner, Vinay Amatya, Andisheh Ranjbari, Chase Dowling(参考訳) 基本的な図は、いくつかの道路(または道路の集合)の構成における速度、流れ、密度の関係を記述する。 これらの図は典型的には反映しないが、速度-流れの関係が構成、天気などの外生変数の関数としてどのように変化するかは、文脈情報として表される。 本稿では,道路フラックスの既知の工学的制約と物理法則を尊重する機械学習手法を提案する。 モデル課題はニューラル正規微分方程式(Neural ODE)を用いたプローブ車両軌道再構成問題として定式化される。 提案手法では, 交通データを妨害する可能性のある非理想化道路セグメントに対して, 基本図を拡張する。 シミュレーションデータでは,車両構成,運転行動,帯状化の抑制などの学習段階における文脈情報を導入し,道路設計に依存しないこれらの外因性要因の関数として,速度-流れの関係がどのように変化するかを示す。

Fundamental diagrams describe the relationship between speed, flow, and density for some roadway (or set of roadway) configuration(s). These diagrams typically do not reflect, however, information on how speed-flow relationships change as a function of exogenous variables such as curb configuration, weather or other exogenous, contextual information. In this paper we present a machine learning methodology that respects known engineering constraints and physical laws of roadway flux - those that are captured in fundamental diagrams - and show how this can be used to introduce contextual information into the generation of these diagrams. The modeling task is formulated as a probe vehicle trajectory reconstruction problem with Neural Ordinary Differential Equations (Neural ODEs). With the presented methodology, we extend the fundamental diagram to non-idealized roadway segments with potentially obstructed traffic data. For simulated data, we generalize this relationship by introducing contextual information at the learning stage, i.e. vehicle composition, driver behavior, curb zoning configuration, etc, and show how the speed-flow relationship changes as a function of these exogenous factors independent of roadway design.
翻訳日:2022-08-02 14:15:43 公開日:2022-08-01
# ディープニューラルネットワークは医療画像で何を学ぶか?

What do Deep Neural Networks Learn in Medical Images? ( http://arxiv.org/abs/2208.00953v1 )

ライセンス: Link先を確認
Yusuf Brima and Marcellin Atemkeng(参考訳) 深層学習は、患者の成果を改善するために、医療に急速に採用されつつある。 これは、信頼できる実践者になるための必要な専門知識を得るために、広範なトレーニングを必要とする医用画像分析においても同様である。 しかし、ディープラーニング技術は最先端の予測性能を提供し続けているが、医療におけるこの進歩を妨げる主な課題の1つは、これらのモデルの推論メカニズムが不透明であることだ。 したがって、属性は、臨床上の決定を伝えるための深層学習モデルによる予測に対する利害関係者の信頼を高める上で重要な役割を果たす。 ディープニューラルネットワークモデルは、医療画像で何を学ぶのか? そこで我々は,適応経路に基づく勾配積分手法を用いた新しい帰属フレームワークを提案する。 結果は、入力予測相関構造を理解し、新しいバイオマーカーを発見し、潜在的なモデルバイアスを明らかにすることによって、医療結果を改善するためのドメインエキスパートへの信頼を構築する、有望な方向を示す。

Deep learning is increasingly gaining rapid adoption in healthcare to help improve patient outcomes. This is more so in medical image analysis which requires extensive training to gain the requisite expertise to become a trusted practitioner. However, while deep learning techniques have continued to provide state-of-the-art predictive performance, one of the primary challenges that stands to hinder this progress in healthcare is the opaque nature of the inference mechanism of these models. So, attribution has a vital role in building confidence in stakeholders for the predictions made by deep learning models to inform clinical decisions. This work seeks to answer the question: what do deep neural network models learn in medical images? In that light, we present a novel attribution framework using adaptive path-based gradient integration techniques. Results show a promising direction of building trust in domain experts to improve healthcare outcomes by allowing them to understand the input-prediction correlative structures, discover new bio-markers, and reveal potential model biases.
翻訳日:2022-08-02 14:15:25 公開日:2022-08-01
# froodo: 分散検出のためのフレームワーク

FrOoDo: Framework for Out-of-Distribution Detection ( http://arxiv.org/abs/2208.00963v1 )

ライセンス: Link先を確認
Jonathan Stieber, Moritz Fuchs, Anirban Mukhopadhyay(参考訳) froodoは、デジタル病理学における分散検出タスクの使いやすさと柔軟性を備えたフレームワークである。 pytorch分類とセグメンテーションモデルで使用することができ、そのモジュール設計により拡張が容易になる。 目標は、OoD Evaluationのタスクを自動化することで、新しいモデルの設計、新しいメソッド、新しいデータセットの評価といった目的に研究が集中できるようにすることだ。 コードはhttps://github.com/MECLabTUDA/FrOoDoで見ることができる。

FrOoDo is an easy-to-use and flexible framework for Out-of-Distribution detection tasks in digital pathology. It can be used with PyTorch classification and segmentation models, and its modular design allows for easy extension. The goal is to automate the task of OoD Evaluation such that research can focus on the main goal of either designing new models, new methods or evaluating a new dataset. The code can be found at https://github.com/MECLabTUDA/FrOoDo.
翻訳日:2022-08-02 14:12:00 公開日:2022-08-01
# 可視赤外人物再識別のための対物干渉特徴伝達

Counterfactual Intervention Feature Transfer for Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2208.00967v1 )

ライセンス: Link先を確認
Xulin Li, Yan Lu, Bin Liu, Yating Liu, Guojun Yin, Qi Chu, Jinyang Huang, Feng Zhu, Rui Zhao, Nenghai Yu(参考訳) グラフベースのモデルは、まず異なる人物間のグラフトポロジ構造(アフィニティ)を計算し、その情報を渡してより強力な機能を達成するという、個人の再識別タスクで大きな成功を収めています。 しかし,可視赤外人物再同定タスク (vi-reid) では,既存のグラフベース手法が2つの問題から,不一般化に苦しむことが判明した。 1) VI-ReIDタスクの特性であるモダリティバランスギャップについて検討した。 2つのモダリティデータの数はトレーニング段階でバランスが取れているが、推論では極めて不均衡であり、グラフベースのVI-ReID法の一般化が低くなる。 2) グラフモジュールのエンド・ツー・エンド学習方法に起因するサブ最適トポロジ構造。 十分に訓練された入力は、グラフトポロジーの学習を弱め、推論プロセス中に十分に一般化しないことを分析した。 本稿では,これらの問題に対処するためのCIFT法を提案する。 具体的には、一様・不均質な特徴移動(H2FT)は、2種類の独立なグラフモジュールと非バランスなシナリオシミュレーションにより、列車-テストのモダリティバランスギャップを低減するように設計されている。 また、対人関係介入(cri)は、対人関係介入と因果効果ツールを利用して、トレーニングプロセス全体におけるトポロジー構造の役割を強調し、グラフトポロジー構造をより信頼性の高いものにするために提案されている。 標準VI-ReIDベンチマークの大規模な実験により、CIFTは様々な条件下で最先端の手法よりも優れていることが示された。

Graph-based models have achieved great success in person re-identification tasks recently, which compute the graph topology structure (affinities) among different people first and then pass the information across them to achieve stronger features. But we find existing graph-based methods in the visible-infrared person re-identification task (VI-ReID) suffer from bad generalization because of two issues: 1) train-test modality balance gap, which is a property of VI-ReID task. The number of two modalities data are balanced in the training stage, but extremely unbalanced in inference, causing the low generalization of graph-based VI-ReID methods. 2) sub-optimal topology structure caused by the end-to-end learning manner to the graph module. We analyze that the well-trained input features weaken the learning of graph topology, making it not generalized enough during the inference process. In this paper, we propose a Counterfactual Intervention Feature Transfer (CIFT) method to tackle these problems. Specifically, a Homogeneous and Heterogeneous Feature Transfer (H2FT) is designed to reduce the train-test modality balance gap by two independent types of well-designed graph modules and an unbalanced scenario simulation. Besides, a Counterfactual Relation Intervention (CRI) is proposed to utilize the counterfactual intervention and causal effect tools to highlight the role of topology structure in the whole training process, which makes the graph topology structure more reliable. Extensive experiments on standard VI-ReID benchmarks demonstrate that CIFT outperforms the state-of-the-art methods under various settings.
翻訳日:2022-08-02 14:11:52 公開日:2022-08-01
# 医学画像分類におけるアクティブラーニングのための情報ゲインサンプリング

Information Gain Sampling for Active Learning in Medical Image Classification ( http://arxiv.org/abs/2208.00974v1 )

ライセンス: Link先を確認
Raghav Mehta, Changjian Shui, Brennan Nichyporuk, Tal Arbel(参考訳) 大規模な注釈付きデータセットは、大規模なデータセットのラベル付けに伴う制限時間、コスト、課題のため、医用画像解析では広く利用できない。 ラベルなしのデータセットは入手が容易であり、多くの文脈では、専門家が画像の小さなサブセットにラベルを提供することが可能である。 本研究は,評価データセット上での期待情報ゲイン(EIG)の最大化に基づいて,ラベル付け対象プールからの最適な画像選択を誘導する情報理論アクティブラーニングフレームワークを提案する。 多型糖尿病網膜症疾患の分類と多型皮膚病変の分類の2つの異なる医用画像分類データセットで実験を行った。 その結果,適応予測情報ゲイン(AEIG)は,多様性に基づくCoreSetや不確実性に基づく最大エントロピーサンプリングなど,いくつかの一般的なベースラインを上回っていることがわかった。 具体的には、aeigはトレーニングデータのわずか19%で全体のパフォーマンスの95%を達成し、他のアクティブラーニングアプローチでは約25%を必要とする。 注意深い設計選択により、我々のモデルは既存のディープラーニング分類器に統合できることが示される。

Large, annotated datasets are not widely available in medical image analysis due to the prohibitive time, costs, and challenges associated with labelling large datasets. Unlabelled datasets are easier to obtain, and in many contexts, it would be feasible for an expert to provide labels for a small subset of images. This work presents an information-theoretic active learning framework that guides the optimal selection of images from the unlabelled pool to be labeled based on maximizing the expected information gain (EIG) on an evaluation dataset. Experiments are performed on two different medical image classification datasets: multi-class diabetic retinopathy disease scale classification and multi-class skin lesion classification. Results indicate that by adapting EIG to account for class-imbalances, our proposed Adapted Expected Information Gain (AEIG) outperforms several popular baselines including the diversity based CoreSet and uncertainty based maximum entropy sampling. Specifically, AEIG achieves ~95% of overall performance with only 19% of the training data, while other active learning approaches require around 25%. We show that, by careful design choices, our model can be integrated into existing deep learning classifiers.
翻訳日:2022-08-02 14:11:27 公開日:2022-08-01
# 自己教師付きプロトタイプ学習による新しい視覚カテゴリの自動発見

Automatically Discovering Novel Visual Categories with Self-supervised Prototype Learning ( http://arxiv.org/abs/2208.00979v1 )

ライセンス: Link先を確認
Lu Zhang, Lu Qi, Xu Yang, Hong Qiao, Ming-Hsuan Yang, Zhiyong Liu(参考訳) 本稿では,大規模な画像収集において未知のカテゴリを識別することを目的とした,新しいカテゴリ発見(NCD)の問題に取り組む。 NCDタスクは、いくつかの部分的なクラスやイメージに遭遇しただけで、現実のシナリオに近いため、難しい。 ncdの他の作品とは異なり、我々はプロトタイプを利用してカテゴリ識別の重要性を強調し、新しいクラスのアノテーションの欠如の問題を軽減する。 具体的には、原型表現学習と原型自己学習という2つの主要な段階からなる適応型プロトタイプ学習手法を提案する。 第1段階では,基本カテゴリと新しいカテゴリを持つすべての画像に対して有効なロバストな特徴抽出器を得る。 自己教師付き学習と適応型プロトタイプによって特徴抽出器の例とカテゴリー識別能力が向上する。 第2段階では、プロトタイプを用いてオフラインの擬似ラベルを修正し、カテゴリクラスタリングのための最終的なパラメトリック分類器を訓練する。 4つのベンチマークデータセットについて広範な実験を行い,提案手法の有効性とロバスト性を示す。

This paper tackles the problem of novel category discovery (NCD), which aims to discriminate unknown categories in large-scale image collections. The NCD task is challenging due to the closeness to the real-world scenarios, where we have only encountered some partial classes and images. Unlike other works on the NCD, we leverage the prototypes to emphasize the importance of category discrimination and alleviate the issue of missing annotations of novel classes. Concretely, we propose a novel adaptive prototype learning method consisting of two main stages: prototypical representation learning and prototypical self-training. In the first stage, we obtain a robust feature extractor, which could serve for all images with base and novel categories. This ability of instance and category discrimination of the feature extractor is boosted by self-supervised learning and adaptive prototypes. In the second stage, we utilize the prototypes again to rectify offline pseudo labels and train a final parametric classifier for category clustering. We conduct extensive experiments on four benchmark datasets and demonstrate the effectiveness and robustness of the proposed method with state-of-the-art performance.
翻訳日:2022-08-02 14:11:08 公開日:2022-08-01
# MAFW:野生における動的顔表情認識のための大規模複合感情データベース

MAFW: A Large-scale, Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the Wild ( http://arxiv.org/abs/2208.00847v1 )

ライセンス: Link先を確認
Yuanyuan Liu, Wei Dai, Chuanxu Feng, Wenbin Wang, Guanghao Yin, Jiabei Zeng and Shiguang Shan(参考訳) 動的表情認識(FER)データベースは、感情コンピューティングとアプリケーションにとって重要なデータサポートを提供する。 しかし、ほとんどのferデータベースは、相互に排他的な感情的なカテゴリで注釈を付けており、ビデオのような1つのモダリティしか含まない。 単調なラベルとモダリティは人間の感情を正確に模倣することができず、現実世界での応用を達成できない。 本稿では,10,045本のビデオオーディオクリップを収録した大規模マルチモーダル複合感情データベースmafwを提案する。 各クリップには、複雑な感情カテゴリーと、クリップ内の被験者の感情行動を記述する2つの文が注釈付けされている。 複合感情アノテーションでは、それぞれのクリップは、怒り、嫌悪感、恐怖、幸福、中立、悲しみ、驚き、軽蔑、不安、無力感、失望など、広く使われている11の感情のうちの1つ以上に分類される。 ラベルの品質を確保するために,期待最大化(em)アルゴリズムによって信頼できないアノテーションをフィルタリングし,11の単一ラベル感情カテゴリと32のマルチラベル感情カテゴリを得る。 われわれの知る限りでは、mafwは複合感情アノテーションと感情関連キャプションでアノテートされた最初のマルチモーダルデータベースだ。 また,異なる感情とモダリティの表現変化関係を利用した複合感情認識のための,トランスフォーマティブに基づく表現スニペット特徴学習手法を提案する。 mafwデータベースの広範囲な実験は、ユニモーダルferとマルチモーダルferの両方の最先端手法よりも、提案手法の利点を示している。 mafwデータベースはhttps://mafw-database.github.io/mafwから公開しています。

Dynamic facial expression recognition (FER) databases provide important data support for affective computing and applications. However, most FER databases are annotated with several basic mutually exclusive emotional categories and contain only one modality, e.g., videos. The monotonous labels and modality cannot accurately imitate human emotions and fulfill applications in the real world. In this paper, we propose MAFW, a large-scale multi-modal compound affective database with 10,045 video-audio clips in the wild. Each clip is annotated with a compound emotional category and a couple of sentences that describe the subjects' affective behaviors in the clip. For the compound emotion annotation, each clip is categorized into one or more of the 11 widely-used emotions, i.e., anger, disgust, fear, happiness, neutral, sadness, surprise, contempt, anxiety, helplessness, and disappointment. To ensure high quality of the labels, we filter out the unreliable annotations by an Expectation Maximization (EM) algorithm, and then obtain 11 single-label emotion categories and 32 multi-label emotion categories. To the best of our knowledge, MAFW is the first in-the-wild multi-modal database annotated with compound emotion annotations and emotion-related captions. Additionally, we also propose a novel Transformer-based expression snippet feature learning method to recognize the compound emotions leveraging the expression-change relations among different emotions and modalities. Extensive experiments on MAFW database show the advantages of the proposed method over other state-of-the-art methods for both uni- and multi-modal FER. Our MAFW database is publicly available from https://mafw-database.github.io/MAFW.
翻訳日:2022-08-02 14:06:47 公開日:2022-08-01
# atca:ビデオフレーム補間のための曲率に着目したアーク軌道モデル

ATCA: an Arc Trajectory Based Model with Curvature Attention for Video Frame Interpolation ( http://arxiv.org/abs/2208.00856v1 )

ライセンス: Link先を確認
Jinfeng Liu and Lingtong Kong and Jie Yang(参考訳) ビデオフレーム補間は、古典的な低レベルのコンピュータビジョンタスクである。 近年,深層学習に基づく手法が目覚ましい成果を上げており,光学フローに基づく手法が高品質なフレームを合成できることが証明されている。 しかし、ほとんどのフローベース手法は、2つの入力フレーム間で一定の速度で直線軌道を仮定する。 ほんの少しの作業で曲線軌道で予測を強制するが、加速度を推定するためには入力として2フレーム以上を要し、実行にはより多くの時間とメモリを要する。 この問題に対処するために,2つの連続フレームのみから先行して動きを学習し,軽量なアーク軌道モデル(atca)を提案する。 実験により,本手法はより少ないパラメータと高速な推論速度を持つ多くのSOTA法よりも優れた性能を示した。

Video frame interpolation is a classic and challenging low-level computer vision task. Recently, deep learning based methods have achieved impressive results, and it has been proven that optical flow based methods can synthesize frames with higher quality. However, most flow-based methods assume a line trajectory with a constant velocity between two input frames. Only a little work enforces predictions with curvilinear trajectory, but this requires more than two frames as input to estimate the acceleration, which takes more time and memory to execute. To address this problem, we propose an arc trajectory based model (ATCA), which learns motion prior from only two consecutive frames and also is lightweight. Experiments show that our approach performs better than many SOTA methods with fewer parameters and faster inference speed.
翻訳日:2022-08-02 14:06:23 公開日:2022-08-01
# s$^2$contact:半教師付き学習による3次元物体接触推定のためのグラフベースネットワーク

S$^2$Contact: Graph-based Network for 3D Hand-Object Contact Estimation with Semi-Supervised Learning ( http://arxiv.org/abs/2208.00874v1 )

ライセンス: Link先を確認
Tze Ho Elden Tse, Zhongqun Zhang, Kwang In Kim, Ales Leonardis, Feng Zheng, Hyung Jin Chang(参考訳) 正確な3Dアノテーションとオブジェクトデータセットに対する最近の取り組みにもかかわらず、3Dの手とオブジェクトの再構築にはまだギャップがある。 既存の作業は接触マップを活用し、不正確な手動ポーズ推定を洗練し、与えられた対象モデルの把握を生成する。 しかし、これらは、ほとんど利用できない明示的な3D監視を必要とするため、熱カメラが操作対象の残留熱を観測するなど、制限された設定に限られる。 本稿では,単眼画像からの接触を学習できる,新しい半教師付きフレームワークを提案する。 具体的には、半教師付き学習において擬似ラベルを生成する大規模データセットにおける視覚的および幾何学的整合性制約を活用し、接触を推論するための効率的なグラフベースネットワークを提案する。 半教師付き学習フレームワークは,既存の教師付き学習手法よりも,‘限定’アノテーションで訓練されたデータに対して好適な改善を実現している。 特に,提案手法は,ネットワークパラメータとメモリアクセスコストの半分未満で,一般的なpointnetベースの手法と比較して優れた結果が得られる。 より正確な再構築を行うために手動インタラクションを規定するコンタクトマップを使用することの利点を示す。 さらに,疑似ラベルを用いたトレーニングがコンタクトマップ推定をドメイン外オブジェクトに拡張し,複数のデータセットにまたがってより一般化できることを実証する。

Despite the recent efforts in accurate 3D annotations in hand and object datasets, there still exist gaps in 3D hand and object reconstructions. Existing works leverage contact maps to refine inaccurate hand-object pose estimations and generate grasps given object models. However, they require explicit 3D supervision which is seldom available and therefore, are limited to constrained settings, e.g., where thermal cameras observe residual heat left on manipulated objects. In this paper, we propose a novel semi-supervised framework that allows us to learn contact from monocular images. Specifically, we leverage visual and geometric consistency constraints in large-scale datasets for generating pseudo-labels in semi-supervised learning and propose an efficient graph-based network to infer contact. Our semi-supervised learning framework achieves a favourable improvement over the existing supervised learning methods trained on data with `limited' annotations. Notably, our proposed model is able to achieve superior results with less than half the network parameters and memory access cost when compared with the commonly-used PointNet-based approach. We show benefits from using a contact map that rules hand-object interactions to produce more accurate reconstructions. We further demonstrate that training with pseudo-labels can extend contact map estimations to out-of-domain objects and generalise better across multiple datasets.
翻訳日:2022-08-02 14:06:11 公開日:2022-08-01
# コンピュータビジョンに基づく建物と建築環境の分析--最近のアプローチの体系的考察

Computer vision-based analysis of buildings and built environments: A systematic review of current approaches ( http://arxiv.org/abs/2208.00881v1 )

ライセンス: Link先を確認
Ma{\l}gorzata B. Starzy\'nska, Robin Roussel, Sam Jacoby, Ali Asadipour(参考訳) 2011年から2021年にかけて出版された88の資料を分析し,建築・都市デザイン研究における価値を評価するために,コンピュータビジョンに基づく建物および建築環境の分析を初めて体系的に検討した。 多段階選択プロセスの後, 建築分類, 詳細分類, 質的環境分析, 建築条件調査, 建築価値推定などのアーキテクチャ応用について, アルゴリズムの種類とデータソースについて検討した。 これは現在の研究のギャップとトレンドを明らかにし、研究目的の2つの主要なカテゴリを強調している。 まず、コンピュータビジョンの手法をアーキテクチャ画像データに使用または最適化することで、視覚分析の時間的、労働集約的、複雑なタスクを自動化する。 第2に,従来の手動解析の限界を克服できる視覚的,統計的,定性的データ間のパターンと関係を見出すことにより,構築環境に関する新たな疑問を機械学習手法の方法論的利点を探求する。 the growing body of researchは、建築とデザインの研究に新しい方法を提供し、論文は研究の今後の課題と方向性を特定する。

Analysing 88 sources published from 2011 to 2021, this paper presents a first systematic review of the computer vision-based analysis of buildings and the built environments to assess its value to architectural and urban design studies. Following a multi-stage selection process, the types of algorithms and data sources used are discussed in respect to architectural applications such as a building classification, detail classification, qualitative environmental analysis, building condition survey, and building value estimation. This reveals current research gaps and trends, and highlights two main categories of research aims. First, to use or optimise computer vision methods for architectural image data, which can then help automate time-consuming, labour-intensive, or complex tasks of visual analysis. Second, to explore the methodological benefits of machine learning approaches to investigate new questions about the built environment by finding patterns and relationships between visual, statistical, and qualitative data, which can overcome limitations of conventional manual analysis. The growing body of research offers new methods to architectural and design studies, with the paper identifying future challenges and directions of research.
翻訳日:2022-08-02 14:05:49 公開日:2022-08-01
# 相対的Pose回帰とOdometry-Aided Absolute Pose回帰に対するVisual-Inertial Deep Multimodal Fusionのベンチマーク

Benchmarking Visual-Inertial Deep Multimodal Fusion for Relative Pose Regression and Odometry-aided Absolute Pose Regression ( http://arxiv.org/abs/2208.00919v1 )

ライセンス: Link先を確認
Felix Ott and Nisha Lakshmana Raichur and David R\"ugamer and Tobias Feigl and Heiko Neumann and Bernd Bischl and Christopher Mutschler(参考訳) 視覚慣性ローカライゼーションは、仮想現実、自動運転車、航空機などのコンピュータビジョンやロボティクスアプリケーションにおいて重要な問題である。 目標は、環境またはダイナミクスが分かっているときに、オブジェクトの正確なポーズを推定することである。 最近の手法は畳み込みと時空間ネットワークを用いて直接ポーズを回帰する。 絶対ポーズ回帰(APR)技術は、既知のシーンでの画像入力から絶対カメラポーズを予測する。 オドメトリー法は、既知のオブジェクトの動的(視覚または慣性入力)から相対的なポーズを予測する相対的ポーズ回帰(rpr)を実行する。 クロスモーダル設定のために両データソースの情報を取得することにより、ローカライゼーションタスクを改善することができる。 本研究では,pgoとアテンションネットワークに基づく深層マルチモーダル融合の評価を行うためのベンチマークを行った。 APRタスクには補助学習とベイズ学習が統合されている。 本稿では,RPR支援型APRタスクと,航空機や携帯機器のRPR支援型RPRタスクの精度向上を示す。 我々はEuRoC MAVとPennCOSYVIOデータセットの実験を行い、新しい業界データセットを記録する。

Visual-inertial localization is a key problem in computer vision and robotics applications such as virtual reality, self-driving cars, and aerial vehicles. The goal is to estimate an accurate pose of an object when either the environment or the dynamics are known. Recent methods directly regress the pose using convolutional and spatio-temporal networks. Absolute pose regression (APR) techniques predict the absolute camera pose from an image input in a known scene. Odometry methods perform relative pose regression (RPR) that predicts the relative pose from a known object dynamic (visual or inertial inputs). The localization task can be improved by retrieving information of both data sources for a cross-modal setup, which is a challenging problem due to contradictory tasks. In this work, we conduct a benchmark to evaluate deep multimodal fusion based on PGO and attention networks. Auxiliary and Bayesian learning are integrated for the APR task. We show accuracy improvements for the RPR-aided APR task and for the RPR-RPR task for aerial vehicles and hand-held devices. We conduct experiments on the EuRoC MAV and PennCOSYVIO datasets, and record a novel industry dataset.
翻訳日:2022-08-02 14:05:28 公開日:2022-08-01
# オムニシティ:多視点・多視点画像を用いた全能都市理解

OmniCity: Omnipotent City Understanding with Multi-level and Multi-view Images ( http://arxiv.org/abs/2208.00928v1 )

ライセンス: Link先を確認
Weijia Li, Yawen Lai, Linning Xu, Yuanbo Xiangli, Jinhua Yu, Conghui He, Gui-Song Xia, Dahua Lin(参考訳) 本稿では,マルチレベル・マルチビュー画像から全能都市理解のための新しいデータセットであるOmniCityを提案する。 より正確には、omnicityには、複数のビューの衛星画像と、街並みのパノラマやモノビュー画像が含まれており、ニューヨーク市の25kの位置情報から適切に整列され、収集された10万画素の注釈付き画像で構成されている。 そこで我々は,衛星画像の既存のラベルマップと異なる視点(衛星,パノラマ,モノビュー)間の変換関係を利用する効率的なストリートビュー画像アノテーションパイプラインを提案する。 新たなOmniCityデータセットでは,フットプリント抽出や高さ推定,平面/インスタンス/きめ細かなセグメンテーションなど,さまざまなタスクのベンチマークが提供されている。 また、各タスクに対するビューの影響、異なるモデルの性能、既存のメソッドの制限などを分析します。 既存のマルチレベルおよびマルチビューベンチマークと比較すると、omnicityはリッチなアノテーションタイプとより多くのビューを持つイメージを多く含み、最先端モデルから得られたベースライン結果を提供し、ストリートレベルのパノラマイメージできめ細かいビルインスタンスセグメンテーションを行うための新しいタスクを導入しています。 さらに、OmniCityは、クロスビュー画像マッチング、合成、セグメンテーション、検出などの既存のタスクに新たな問題設定を提供し、大規模都市理解、再構築、シミュレーションのための新しい手法の開発を容易にする。 omnicityデータセットとベンチマークは、https://city-super.github.io/omnicityで入手できる。

This paper presents OmniCity, a new dataset for omnipotent city understanding from multi-level and multi-view images. More precisely, the OmniCity contains multi-view satellite images as well as street-level panorama and mono-view images, constituting over 100K pixel-wise annotated images that are well-aligned and collected from 25K geo-locations in New York City. To alleviate the substantial pixel-wise annotation efforts, we propose an efficient street-view image annotation pipeline that leverages the existing label maps of satellite view and the transformation relations between different views (satellite, panorama, and mono-view). With the new OmniCity dataset, we provide benchmarks for a variety of tasks including building footprint extraction, height estimation, and building plane/instance/fine-grained segmentation. We also analyze the impact of view on each task, the performance of different models, limitations of existing methods, etc. Compared with the existing multi-level and multi-view benchmarks, our OmniCity contains a larger number of images with richer annotation types and more views, provides more baseline results obtained from state-of-the-art models, and introduces a novel task for fine-grained building instance segmentation on street-level panorama images. Moreover, OmniCity provides new problem settings for existing tasks, such as cross-view image matching, synthesis, segmentation, detection, etc., and facilitates the developing of new methods for large-scale city understanding, reconstruction, and simulation. The OmniCity dataset as well as the benchmarks will be available at https://city-super.github.io/omnicity.
翻訳日:2022-08-02 14:05:09 公開日:2022-08-01
# 反復的ビデオテキストコトケライゼーションによるビデオ質問応答

Video Question Answering with Iterative Video-Text Co-Tokenization ( http://arxiv.org/abs/2208.00934v1 )

ライセンス: Link先を確認
AJ Piergiovanni and Kairo Morton and Weicheng Kuo and Michael S. Ryoo and Anelia Angelova(参考訳) ビデオ質問応答は、言語入力、個々のビデオフレーム内の視覚情報、およびビデオで発生した出来事に関する時間情報とを共同で理解する必要がある、困難なタスクである。 本稿では,複数の映像入力を用いたビデオ質問応答用マルチストリームビデオエンコーダと,ビデオに関するさまざまな質問に答える新たなビデオテキスト反復共分岐手法を提案する。 我々は,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットを用いて実験を行い,過去の最先端を大きなマージンで比較した。 同時に,本モデルでは,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを生成する。

Video question answering is a challenging task that requires understanding jointly the language input, the visual information in individual video frames, as well as the temporal information about the events occurring in the video. In this paper, we propose a novel multi-stream video encoder for video question answering that uses multiple video inputs and a new video-text iterative co-tokenization approach to answer a variety of questions related to videos. We experimentally evaluate the model on several datasets, such as MSRVTT-QA, MSVD-QA, IVQA, outperforming the previous state-of-the-art by large margins. Simultaneously, our model reduces the required GFLOPs from 150-360 to only 67, producing a highly efficient video question answering model.
翻訳日:2022-08-02 14:04:40 公開日:2022-08-01
# DoF-NeRF:ニューラル・ラジアンス・フィールドの深度

DoF-NeRF: Depth-of-Field Meets Neural Radiance Fields ( http://arxiv.org/abs/2208.00945v1 )

ライセンス: Link先を確認
Zijin Wu, Xingyi Li, Juewen Peng, Hao Lu, Zhiguo Cao, Weicai Zhong(参考訳) ニューラル・ラジアンス・フィールド(NeRF)とその変種は、3Dシーンの表現と写真リアリスティック・ノベルビューの合成で大きな成功を収めている。 しかし、一般にピンホールカメラモデルに基づいており、全フォーカス入力を想定している。 これにより、実世界から撮影した画像は、しばしば有限深度(DoF)を持つため、適用性が制限される。 この問題を軽減するために、我々は、浅いDoF入力に対処し、DoF効果をシミュレートできる新しいニューラルネットワークレンダリングアプローチであるDoF-NeRFを導入する。 特に、NeRFを拡張して幾何学光学の原理に従ってレンズの開口をシミュレートする。 このような物理的保証により、DoF-NeRFは異なるフォーカス構成でビューを操作できる。 DoF-NeRFは、明示的な開口モデリングから恩恵を受け、仮想開口と焦点パラメータを調整することで、DoF効果を直接操作できる。 プラグイン・アンド・プレイで、NeRFベースのフレームワークに挿入できる。 合成および実世界のデータセットの実験により、DoF-NeRFは、オールインフォーカス設定でNeRFと互換性があるだけでなく、浅いDoF入力で条件付けられたオールインフォーカスの新規ビューを合成できることが示されている。 DoF-NeRFのDoFレンダリングへの応用も興味深い。 ソースコードはhttps://github.com/zijinwuzijin/dof-nerfで入手できる。

Neural Radiance Field (NeRF) and its variants have exhibited great success on representing 3D scenes and synthesizing photo-realistic novel views. However, they are generally based on the pinhole camera model and assume all-in-focus inputs. This limits their applicability as images captured from the real world often have finite depth-of-field (DoF). To mitigate this issue, we introduce DoF-NeRF, a novel neural rendering approach that can deal with shallow DoF inputs and can simulate DoF effect. In particular, it extends NeRF to simulate the aperture of lens following the principles of geometric optics. Such a physical guarantee allows DoF-NeRF to operate views with different focus configurations. Benefiting from explicit aperture modeling, DoF-NeRF also enables direct manipulation of DoF effect by adjusting virtual aperture and focus parameters. It is plug-and-play and can be inserted into NeRF-based frameworks. Experiments on synthetic and real-world datasets show that, DoF-NeRF not only performs comparably with NeRF in the all-in-focus setting, but also can synthesize all-in-focus novel views conditioned on shallow DoF inputs. An interesting application of DoF-NeRF to DoF rendering is also demonstrated. The source code will be made available at https://github.com/zijinwuzijin/DoF-NeRF.
翻訳日:2022-08-02 14:04:26 公開日:2022-08-01
# 高速ビデオサルエント物体検出のためのモーションアウェアメモリネットワーク

Motion-aware Memory Network for Fast Video Salient Object Detection ( http://arxiv.org/abs/2208.00946v1 )

ライセンス: Link先を確認
Xing Zhao, Haoran Liang, Peipei Li, Guodao Sun, Dongdong Zhao, Ronghua Liang and Xiaofei He(参考訳) 従来の3DCNN, convLSTM, あるいは光流を用いた手法は, ビデオサルエント物体検出(VSOD)において大きな成功を収めている。 しかし、それでも高い計算コストや、生成されたサリエンシマップの品質に悩まされている。 これらの問題を解決するために,vodの時間分枝として,隣接フレームから現在フレームの有用な時間情報を抽出する時空間メモリ(stm)ベースのネットワークを設計する。 さらに,従来の手法は時間的関連のない単一フレーム予測のみを考慮した。 結果として、モデルは時間的情報に十分に集中できない。 そこで本研究ではまず,フレーム間移動予測をvsodに導入する。 我々のモデルは標準エンコーダ-デコーダアーキテクチャに従う。 符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。 このアプローチは光フローベースの手法よりも効率的である。 復号段階では,空間分枝と時間分枝の効果的な融合戦略を提案する。 ハイレベルな特徴のセマンティック情報は、低レベルな特徴にオブジェクトの詳細を融合するために使用され、時空的特徴を段階的に取得してサリエンシーマップを再構築する。 さらに,イメージ・サリエント・オブジェクト検出(ISOD)に共通する境界監督に着想を得て,物体の境界運動を予測するための動き認識損失を設計し,VSODのマルチタスク学習とオブジェクトの動作予測を同時に行うことにより,時空間の特徴を正確に抽出し,オブジェクトの整合性を維持することができる。 いくつかのデータセットに対する大規模な実験により,提案手法の有効性が実証され,いくつかのデータセット上で最先端のメトリクスを達成できた。 提案するモデルでは,光学フローなどの前処理を必要とせず,100FPSの速度に達することができる。

Previous methods based on 3DCNN, convLSTM, or optical flow have achieved great success in video salient object detection (VSOD). However, they still suffer from high computational costs or poor quality of the generated saliency maps. To solve these problems, we design a space-time memory (STM)-based network, which extracts useful temporal information of the current frame from adjacent frames as the temporal branch of VSOD. Furthermore, previous methods only considered single-frame prediction without temporal association. As a result, the model may not focus on the temporal information sufficiently. Thus, we initially introduce object motion prediction between inter-frame into VSOD. Our model follows standard encoder--decoder architecture. In the encoding stage, we generate high-level temporal features by using high-level features from the current and its adjacent frames. This approach is more efficient than the optical flow-based methods. In the decoding stage, we propose an effective fusion strategy for spatial and temporal branches. The semantic information of the high-level features is used to fuse the object details in the low-level features, and then the spatiotemporal features are obtained step by step to reconstruct the saliency maps. Moreover, inspired by the boundary supervision commonly used in image salient object detection (ISOD), we design a motion-aware loss for predicting object boundary motion and simultaneously perform multitask learning for VSOD and object motion prediction, which can further facilitate the model to extract spatiotemporal features accurately and maintain the object integrity. Extensive experiments on several datasets demonstrated the effectiveness of our method and can achieve state-of-the-art metrics on some datasets. The proposed model does not require optical flow or other preprocessing, and can reach a speed of nearly 100 FPS during inference.
翻訳日:2022-08-02 14:04:03 公開日:2022-08-01
# 弱教師付き表現学習による大規模製品検索

Large-Scale Product Retrieval with Weakly Supervised Representation Learning ( http://arxiv.org/abs/2208.00955v1 )

ライセンス: Link先を確認
Xiao Han, Kam Woh Ng, Sauradip Nag, Zhiyu Qu(参考訳) 大規模弱教師付き製品検索は実用上有用だが計算上難しい問題である。 本稿では,cvpr 2022の細粒度視覚分類ワークショップ(fgvc9)第9回ワークショップにおいて,ebay visual search challenge (eproduct) の新たなソリューションを提案する。 この競争には2つの課題がある。 (a)Eコマースは、微妙な視覚的差異のある多くの製品を含む、非常にきめ細かなドメインである。 b) モデルトレーニング対象のインスタンスレベルラベルが不足しており、粗いカテゴリラベルと製品タイトルのみが利用可能である。 これらの障害を克服するために、我々は一連の専用設計によって強い解を定式化する。 (a)テキストトレーニングデータを直接使用する代わりに、製品タイトルから何千もの擬似属性を抽出し、マルチラベル分類の土台として利用する。 (b)より識別的な表現学習のための高度なトレーニングレシピにいくつかの強力なバックボーンを組み込んだ。 (c) 検索強化のためのホワイトニング, 再ランク付け, モデルアンサンブルなど, 多数の後処理技術を紹介する。 71.53%のMARを達成することで、私たちのソリューションである"Involution King"がリーダーボードの第2位を獲得します。

Large-scale weakly supervised product retrieval is a practically useful yet computationally challenging problem. This paper introduces a novel solution for the eBay Visual Search Challenge (eProduct) held at the Ninth Workshop on Fine-Grained Visual Categorisation workshop (FGVC9) of CVPR 2022. This competition presents two challenges: (a) E-commerce is a drastically fine-grained domain including many products with subtle visual differences; (b) A lacking of target instance-level labels for model training, with only coarse category labels and product titles available. To overcome these obstacles, we formulate a strong solution by a set of dedicated designs: (a) Instead of using text training data directly, we mine thousands of pseudo-attributes from product titles and use them as the ground truths for multi-label classification. (b) We incorporate several strong backbones with advanced training recipes for more discriminative representation learning. (c) We further introduce a number of post-processing techniques including whitening, re-ranking and model ensemble for retrieval enhancement. By achieving 71.53% MAR, our solution "Involution King" achieves the second position on the leaderboard.
翻訳日:2022-08-02 14:03:36 公開日:2022-08-01
# 自己発声注意機構による低データレジームにおける微視的視覚認識の改善

Improving Fine-Grained Visual Recognition in Low Data Regimes via Self-Boosting Attention Mechanism ( http://arxiv.org/abs/2208.00617v1 )

ライセンス: Link先を確認
Yangyang Shu, Baosheng Yu, Haiming Xu, Lingqiao Liu(参考訳) きめ細かい視覚認識の課題は、しばしば重要な識別領域を発見することである。 このような領域は大規模ラベル付きデータセットから自動的に識別できるが、アノテーションが少しあれば、同様の手法は効果が低下する可能性がある。 低いデータ体制では、ネットワークは認識のための適切な領域を選択するのに苦労し、トレーニングデータから急激な相関パターンをオーバーフィットする傾向がある。 そこで本研究では,サンプルやクラス間で共有されるキー領域に注目するネットワークを正規化するための,自己起動型アテンション機構を提案する。 具体的には,まず,各トレーニング画像に対する注意マップを生成し,その特徴を識別する識別部分を強調する。 そして、生成された注目マップを擬似アノテーションとして使用する。 ネットワークはそれらを補助的なタスクとして適合するように強制される。 このアプローチを自発注意機構(SAM)と呼ぶ。 また、SAM-Bilinearと呼ばれるバイリニアプール方式の畳み込みマップを、SAMを用いて複数の注意マップを作成することで、変種を開発する。 広範な実験により,両手法は低データ領域における細粒度画像認識性能を著しく向上し,既存のネットワークアーキテクチャに組み込むことができることを示した。 ソースコードは、https://github.com/GANPerf/SAMで公開されている。

The challenge of fine-grained visual recognition often lies in discovering the key discriminative regions. While such regions can be automatically identified from a large-scale labeled dataset, a similar method might become less effective when only a few annotations are available. In low data regimes, a network often struggles to choose the correct regions for recognition and tends to overfit spurious correlated patterns from the training data. To tackle this issue, this paper proposes the self-boosting attention mechanism, a novel method for regularizing the network to focus on the key regions shared across samples and classes. Specifically, the proposed method first generates an attention map for each training image, highlighting the discriminative part for identifying the ground-truth object category. Then the generated attention maps are used as pseudo-annotations. The network is enforced to fit them as an auxiliary task. We call this approach the self-boosting attention mechanism (SAM). We also develop a variant by using SAM to create multiple attention maps to pool convolutional maps in a style of bilinear pooling, dubbed SAM-Bilinear. Through extensive experimental studies, we show that both methods can significantly improve fine-grained visual recognition performance on low data regimes and can be incorporated into existing network architectures. The source code is publicly available at: https://github.com/GANPerf/SAM
翻訳日:2022-08-02 14:01:13 公開日:2022-08-01
# 皮膚内視鏡画像分類と検索のための不変性を考慮した回転平均ネットワーク

A Rotation Meanout Network with Invariance for Dermoscopy Image Classification and Retrieval ( http://arxiv.org/abs/2208.00627v1 )

ライセンス: Link先を確認
Yilan Zhang, Fengying Xie, Xuedong Song, Hangning Zhou, Yiguang Yang, Haopeng Zhang, Jie Liu(参考訳) コンピュータ支援診断(cad)システムは、皮膚疾患の臨床診断の基準となる基礎を提供することができる。 畳み込みニューラルネットワーク(CNN)は、色や形状などの視覚要素だけでなく、意味的な特徴も抽出できる。 そのため、皮膚鏡画像の多くのタスクにおいて大きな改善がなされている。 皮膚内視鏡のイメージングは、主な方向を持たず、データセットに多数の皮膚病変の標的回転があることを示している。 しかし、CNNには抗回転能力がなく、CNNの特徴抽出能力に影響を及ぼす。 皮膚内視鏡画像から回転不変性を抽出する回転平均化(RM)ネットワークを提案する。 rmでは、回転した各特徴マップは、重み共有畳み込み出力のセットに対応し、それらを平均演算を用いて融合して最終特徴マップを得る。 理論的導出により、提案したRMネットワークは回転同変であり、大域平均プーリング(GAP)操作の後に回転不変の特徴を抽出することができる。 抽出した回転不変特徴は、皮膚内視鏡画像の分類および検索作業における元のデータをよりよく表現することができる。 提案するrmは一般的な操作であり、ネットワーク構造を変更したりパラメータを増やしたりせず、cnnの任意の部分に柔軟に組み込むことができる。 皮膚内視鏡画像データセットを用いて大規模な実験を行う。 以上の結果から,本手法は他の抗ローテーション法よりも優れており,皮膚内視鏡画像の分類や検索作業の大幅な改善を実現している。

The computer-aided diagnosis (CAD) system can provide a reference basis for the clinical diagnosis of skin diseases. Convolutional neural networks (CNNs) can not only extract visual elements such as colors and shapes but also semantic features. As such they have made great improvements in many tasks of dermoscopy images. The imaging of dermoscopy has no main direction, indicating that there are a large number of skin lesion target rotations in the datasets. However, CNNs lack anti-rotation ability, which is bound to affect the feature extraction ability of CNNs. We propose a rotation meanout (RM) network to extract rotation invariance features from dermoscopy images. In RM, each set of rotated feature maps corresponds to a set of weight-sharing convolution outputs and they are fused using meanout operation to obtain the final feature maps. Through theoretical derivation, the proposed RM network is rotation-equivariant and can extract rotation-invariant features when being followed by the global average pooling (GAP) operation. The extracted rotation-invariant features can better represent the original data in classification and retrieval tasks for dermoscopy images. The proposed RM is a general operation, which does not change the network structure or increase any parameter, and can be flexibly embedded in any part of CNNs. Extensive experiments are conducted on a dermoscopy image dataset. The results show our method outperforms other anti-rotation methods and achieves great improvements in dermoscopy image classification and retrieval tasks, indicating the potential of rotation invariance in the field of dermoscopy images.
翻訳日:2022-08-02 14:00:41 公開日:2022-08-01
# 方向性整合性ネットワークと高品質ベンチマークによるマルチスペクトル車両再同定

Multi-spectral Vehicle Re-identification with Cross-directional Consistency Network and a High-quality Benchmark ( http://arxiv.org/abs/2208.00632v1 )

ライセンス: Link先を確認
Aihua Zheng, Xianpeng Zhu, Chenglong Li, Jin Tang, Jixin Ma(参考訳) 複雑な照明環境や多様なシーンにおける車両再識別(Re-ID)の課題に対処するため、可視・赤外情報などのマルチスペクトル源を相補的優位性から考慮する。 しかし、多スペクトル車両Re-IDは、異なるモジュラリティの異質性によって引き起こされる異質性差に悩まされ、また、それぞれのアイデンティティに異なる視点を持つ多様な外観の大きな課題である。 一方、多様な環境干渉は、各モードにおける重いサンプル分布の相違をもたらす。 本研究では,モダリティとサンプルの差異を同時に克服する,新たな双方向一貫性ネットワークを提案する。 特に、各アイデンティティのモダリティ中心をクロスモダリティの不一致を緩和するために、新しい方向中心の損失をデザインする一方で、各アイデンティティのサンプル中心はサンプルの不一致を緩和する。 このような戦略は、車両用Re-IDの識別多スペクトル特徴表現を生成することができる。 さらに,適応層正規化ユニットを設計し,個々の特徴分布を動的に調整し,ロバスト学習のためのモダリティ内特徴の分布差を扱う。 総合的な評価プラットフォームを提供するため、幅広い視点、時間、環境の複雑さから310台の異なる車両を含む高品質なrgb-nir-tirマルチスペクトル車両re-idベンチマーク(msvr310)を作成する。 作成したデータセットと公開データセットの総合的な実験により、提案手法の有効性を最先端の手法と比較した。

To tackle the challenge of vehicle re-identification (Re-ID) in complex lighting environments and diverse scenes, multi-spectral sources like visible and infrared information are taken into consideration due to their excellent complementary advantages. However, multi-spectral vehicle Re-ID suffers cross-modality discrepancy caused by heterogeneous properties of different modalities as well as a big challenge of the diverse appearance with different views in each identity. Meanwhile, diverse environmental interference leads to heavy sample distributional discrepancy in each modality. In this work, we propose a novel cross-directional consistency network to simultaneously overcome the discrepancies from both modality and sample aspects. In particular, we design a new cross-directional center loss to pull the modality centers of each identity close to mitigate cross-modality discrepancy, while the sample centers of each identity close to alleviate the sample discrepancy. Such strategy can generate discriminative multi-spectral feature representations for vehicle Re-ID. In addition, we design an adaptive layer normalization unit to dynamically adjust individual feature distribution to handle distributional discrepancy of intra-modality features for robust learning. To provide a comprehensive evaluation platform, we create a high-quality RGB-NIR-TIR multi-spectral vehicle Re-ID benchmark (MSVR310), including 310 different vehicles from a broad range of viewpoints, time spans and environmental complexities. Comprehensive experiments on both created and public datasets demonstrate the effectiveness of the proposed approach comparing to the state-of-the-art methods.
翻訳日:2022-08-02 14:00:05 公開日:2022-08-01
# ファッション認知学習によるドレスアップ

Dress Well via Fashion Cognitive Learning ( http://arxiv.org/abs/2208.00639v1 )

ライセンス: Link先を確認
Kaicheng Pang, Xingxing Zou, Waikeung Wong(参考訳) ファッション互換性モデルにより、オンライン小売業者は高品質な多数の衣料品を簡単に入手することができる。 しかし、効果的なファッションレコメンデーションは、ファッションの深い顧客に対して正確なサービスを要求する。 本稿では,個人の身体的情報に基づくファッションレコメンデーションであるファッション認知学習について,最初の研究を行う。 そこで本稿では, ファッション認知ネットワーク (FCN) を用いて, 衣服構成の視覚的意味的埋め込みと, 外観的特徴との関係を学習する。 FCNには2つのサブモジュール、すなわち服用エンコーダとマルチラベルグラフニューラルネットワーク(ML-GCN)がある。 衣装エンコーダは、畳み込み層を使用して、衣服を組込み物にエンコードする。 後者のモジュールは、スタックされたGCNを介してラベル分類器を学習する。 我々は,新たに収集したO4Uデータセットについて広範な実験を行い,本フレームワークが代替手法より優れているという強い質的,定量的な証拠を得た。

Fashion compatibility models enable online retailers to easily obtain a large number of outfit compositions with good quality. However, effective fashion recommendation demands precise service for each customer with a deeper cognition of fashion. In this paper, we conduct the first study on fashion cognitive learning, which is fashion recommendations conditioned on personal physical information. To this end, we propose a Fashion Cognitive Network (FCN) to learn the relationships among visual-semantic embedding of outfit composition and appearance features of individuals. FCN contains two submodules, namely outfit encoder and Multi-label Graph Neural Network (ML-GCN). The outfit encoder uses a convolutional layer to encode an outfit into an outfit embedding. The latter module learns label classifiers via stacked GCN. We conducted extensive experiments on the newly collected O4U dataset, and the results provide strong qualitative and quantitative evidence that our framework outperforms alternative methods.
翻訳日:2022-08-02 13:59:40 公開日:2022-08-01
# siamixformer: バイタイムリモートセンシング画像からのビルディング検出と変更検出のためのsiameseトランスフォーマネットワーク

SiamixFormer: A Siamese Transformer Network For Building Detection And Change Detection From Bi-Temporal Remote Sensing Images ( http://arxiv.org/abs/2208.00657v1 )

ライセンス: Link先を確認
Amir mohammadian, Foad Ghaderi(参考訳) リモートセンシング画像による建物検出と変更検出は、都市と救助計画に役立つ。 また、自然災害後の建物被害評価にも利用できる。 現在、建物検出の既存のモデルのほとんどは、建物を検出するのに1つの画像(以前の画像)しか使用していない。 これは、解体後の建物の存在により、モデルの性能が低下するという考え方に基づいている。 本稿では,ディザスタ前画像とディザスタ後画像を入力として使用するsiamixformerモデルを提案する。 我々のモデルは2つのエンコーダを持ち、階層的なトランスフォーマーアーキテクチャを持っている。 両エンコーダの各ステージの出力は、前ディスカスター画像からクエリが生成され、後ディスカスター画像から(キー、値)が生成されるように、機能融合のための時間変換器に与えられる。 この目的のために、時間的特徴も機能融合において考慮される。 機能融合における時間変換器のもう1つの利点は、CNNと比較して、トランスフォーマーエンコーダによって生成される大きな受容場をよりよく維持できることである。 最後に、時間変換器の出力は各段階で単純なMPPデコーダに与えられる。 SiamixFormerモデルは、xBDとWHUデータセットで評価され、検出の構築と変更検出のためのLEVIR-CDとCDDデータセットで評価される。

Building detection and change detection using remote sensing images can help urban and rescue planning. Moreover, they can be used for building damage assessment after natural disasters. Currently, most of the existing models for building detection use only one image (pre-disaster image) to detect buildings. This is based on the idea that post-disaster images reduce the model's performance because of presence of destroyed buildings. In this paper, we propose a siamese model, called SiamixFormer, which uses pre- and post-disaster images as input. Our model has two encoders and has a hierarchical transformer architecture. The output of each stage in both encoders is given to a temporal transformer for feature fusion in a way that query is generated from pre-disaster images and (key, value) is generated from post-disaster images. To this end, temporal features are also considered in feature fusion. Another advantage of using temporal transformers in feature fusion is that they can better maintain large receptive fields generated by transformer encoders compared with CNNs. Finally, the output of the temporal transformer is given to a simple MLP decoder at each stage. The SiamixFormer model is evaluated on xBD, and WHU datasets, for building detection and on LEVIR-CD and CDD datasets for change detection and could outperform the state-of-the-art.
翻訳日:2022-08-02 13:59:25 公開日:2022-08-01
# 航空追跡のための局部知覚認識認識トランス

Local Perception-Aware Transformer for Aerial Tracking ( http://arxiv.org/abs/2208.00662v1 )

ライセンス: Link先を確認
Changhong Fu, Weiyu Peng, Sihang Li, Junjie Ye and Ziang Cao(参考訳) トランスフォーマーベースのビジュアルオブジェクトトラッキングが広く利用されている。 しかし、トランスフォーマー構造には十分なインダクティブバイアスが欠けている。 さらに、グローバル機能のエンコーディングにのみ注目することは、航空ロボットの追跡能力を制限するローカルディテールのモデリングに悪影響を及ぼす。 具体的には、局所モデリングからグローバル検索機構により、提案されたトラッカーはグローバルエンコーダを新しいローカル認識エンコーダに置き換える。 使用済みエンコーダにおいて、グローバル冗長情報干渉を低減し、局所インダクティブバイアスを増大させるために、局所認識注意および局所要素補正ネットワークを慎重に設計する。 一方、後者は、詳細問合せ網を通して、航空ビューの下で正確に局所的な物体の詳細をモデル化することができる。 提案手法は, 合計316列の高信頼性航空ベンチマークにおいて, 競争精度とロバスト性を実現する。 提案したトラッカーの実用性と効率は実世界の試験によって検証されている。

Transformer-based visual object tracking has been utilized extensively. However, the Transformer structure is lack of enough inductive bias. In addition, only focusing on encoding the global feature does harm to modeling local details, which restricts the capability of tracking in aerial robots. Specifically, with local-modeling to global-search mechanism, the proposed tracker replaces the global encoder by a novel local-recognition encoder. In the employed encoder, a local-recognition attention and a local element correction network are carefully designed for reducing the global redundant information interference and increasing local inductive bias. Meanwhile, the latter can model local object details precisely under aerial view through detail-inquiry net. The proposed method achieves competitive accuracy and robustness in several authoritative aerial benchmarks with 316 sequences in total. The proposed tracker's practicability and efficiency have been validated by the real-world tests.
翻訳日:2022-08-02 13:59:01 公開日:2022-08-01
# クロスアテンションに基づく制御可能な人物画像合成のためのスタイル分布

Cross Attention Based Style Distribution for Controllable Person Image Synthesis ( http://arxiv.org/abs/2208.00712v1 )

ライセンス: Link先を確認
Xinyue Zhou, Mingyu Yin, Xinyuan Chen, Li Sun, Changxin Gao, Qingli Li(参考訳) コントロール可能な人物画像合成タスクは、身体のポーズと外観を明確に制御することで、幅広い応用を可能にする。 そこで本稿では,ポーズ転送のためのターゲットポーズとソースセマンティックスタイルの相互関係を計算した,クロスアテンションに基づくスタイル分散モジュールを提案する。 モジュールは、各セマンティクスで表現されたスタイルを意図的に選択し、ターゲットのポーズに従って配布する。 クロスアテンションの注意行列は、ターゲットのポーズとすべてのセマンティクスのソーススタイルの動的類似性を表す。 そのため、ソース画像から色やテクスチャをルーティングすることができ、さらにターゲット解析マップによって制約を受け、より明確な目的を達成することができる。 同時に、ソースの外観を正確に符号化するために、異なるセマンティックスタイル間の自己注意も追加される。 本モデルの有効性は,ポーズ転送や仮想試行作業において定量的かつ質的に検証される。

Controllable person image synthesis task enables a wide range of applications through explicit control over body pose and appearance. In this paper, we propose a cross attention based style distribution module that computes between the source semantic styles and target pose for pose transfer. The module intentionally selects the style represented by each semantic and distributes them according to the target pose. The attention matrix in cross attention expresses the dynamic similarities between the target pose and the source styles for all semantics. Therefore, it can be utilized to route the color and texture from the source image, and is further constrained by the target parsing map to achieve a clearer objective. At the same time, to encode the source appearance accurately, the self attention among different semantic styles is also added. The effectiveness of our model is validated quantitatively and qualitatively on pose transfer and virtual try-on tasks.
翻訳日:2022-08-02 13:58:47 公開日:2022-08-01
# csdn:ポイントクラウド完成のためのクロスモーダルシェイプトランスファーデュアルレフィニメントネットワーク

CSDN: Cross-modal Shape-transfer Dual-refinement Network for Point Cloud Completion ( http://arxiv.org/abs/2208.00751v1 )

ライセンス: Link先を確認
Zhe Zhu, Liangliang Nan, Haoran Xie, Honghua Chen, Mingqiang Wei, Jun Wang, Jing Qin(参考訳) 物理的な物体をどうやって修理するの? 以前撮影された画像から元の形状を想像して、まず全体(グローバル)だが粗い形状を復元し、その後、局所的な詳細を磨き上げる。 我々は、点雲の完成に対処するための物理的修復手順を模倣する動機がある。 そこで本研究では,完全サイクル参加の画像を含む粗大なパラダイムであるクロスモーダルな形状変換型デュアルリファインメントネットワーク(CSDN)を提案する。 CSDNは、主に「シェイプ融合」と「デュアルリファインメント」モジュールから成り、クロスモーダルな課題に取り組む。 第1のモジュールは、単一画像から固有形状特性を転送し、点雲の欠落領域の幾何学的生成を導く。 第2モジュールは、局所改良部がグラフ畳み込みにより新規と入力点との幾何関係を利用する生成点の位置を調整することにより粗い出力を洗練し、大域制約部は入力画像を利用して生成されたオフセットを微調整する。 既存のほとんどのアプローチとは異なり、CSDNは画像から補完的な情報を探索するだけでなく、粗い補完手順全体において、効果的にクロスモーダルデータを利用する。 実験の結果、csdnはクロスモーダルベンチマークにおいて10の競合に対して好成績を示している。

How will you repair a physical object with some missings? You may imagine its original shape from previously captured images, recover its overall (global) but coarse shape first, and then refine its local details. We are motivated to imitate the physical repair procedure to address point cloud completion. To this end, we propose a cross-modal shape-transfer dual-refinement network (termed CSDN), a coarse-to-fine paradigm with images of full-cycle participation, for quality point cloud completion. CSDN mainly consists of "shape fusion" and "dual-refinement" modules to tackle the cross-modal challenge. The first module transfers the intrinsic shape characteristics from single images to guide the geometry generation of the missing regions of point clouds, in which we propose IPAdaIN to embed the global features of both the image and the partial point cloud into completion. The second module refines the coarse output by adjusting the positions of the generated points, where the local refinement unit exploits the geometric relation between the novel and the input points by graph convolution, and the global constraint unit utilizes the input image to fine-tune the generated offset. Different from most existing approaches, CSDN not only explores the complementary information from images but also effectively exploits cross-modal data in the whole coarse-to-fine completion procedure. Experimental results indicate that CSDN performs favorably against ten competitors on the cross-modal benchmark.
翻訳日:2022-08-02 13:58:32 公開日:2022-08-01
# dsla: アンカーフリーオブジェクト検出のための動的スムースラベル割り当て

DSLA: Dynamic smooth label assignment for efficient anchor-free object detection ( http://arxiv.org/abs/2208.00817v1 )

ライセンス: Link先を確認
Hu Su, Yonghao He, Jiabin Zhang, Wei Zou, Bin Fan(参考訳) アンカーフリー検出器は、基本的にオブジェクト検出を密な分類と回帰として定式化する。 一般的なアンカーフリー検出器では、局所化の質を推定するために個別の予測分岐を導入することが一般的である。 分類と品質推定のプラクティスを検討すると、以下の矛盾が観察される。 第一に、完全に異なるラベルが割り当てられた隣接するいくつかのサンプルの場合、訓練されたモデルは同様の分類スコアを生成する。 これはトレーニング目標に反し、パフォーマンスの低下につながる。 第2に,高い信頼度で検出された境界ボックスは,対応する接地面との重なりが小さいことが判明した。 正確な局所化バウンディングボックスは、Non-Maximum Suppression (NMS) 手順の精度の低いボックスによって抑制される。 不整合問題に対処するため,動的スムースラベル割り当て法(DSLA)を提案する。 FCOSで開発された中心性の概念に基づいて,スムーズな割り当て戦略を提案する。 ラベルは[0, 1]の連続的な値に滑らかにされ、正と負のサンプルを安定的に遷移させる。 IoU(Intersection-of-Union)はトレーニング中に動的に予測され、スムーズなラベルと結合される。 動的スムーズなラベルは分類ブランチを監督するために割り当てられる。 このような監督の下で、品質推定枝は自然に分類枝にマージされ、アンカーフリー検出器のアーキテクチャが単純化される。 総合的な実験はMS COCOベンチマークで実施される。 以上のようなアンカーフリー検出器の不一致を緩和することで,dslaは検出精度を大幅に向上させることができる。 私たちのコードはhttps://github.com/YonghaoHe/DSLA.orgで公開されています。

Anchor-free detectors basically formulate object detection as dense classification and regression. For popular anchor-free detectors, it is common to introduce an individual prediction branch to estimate the quality of localization. The following inconsistencies are observed when we delve into the practices of classification and quality estimation. Firstly, for some adjacent samples which are assigned completely different labels, the trained model would produce similar classification scores. This violates the training objective and leads to performance degradation. Secondly, it is found that detected bounding boxes with higher confidences contrarily have smaller overlaps with the corresponding ground-truth. Accurately localized bounding boxes would be suppressed by less accurate ones in the Non-Maximum Suppression (NMS) procedure. To address the inconsistency problems, the Dynamic Smooth Label Assignment (DSLA) method is proposed. Based on the concept of centerness originally developed in FCOS, a smooth assignment strategy is proposed. The label is smoothed to a continuous value in [0, 1] to make a steady transition between positive and negative samples. Intersection-of-Union (IoU) is predicted dynamically during training and is coupled with the smoothed label. The dynamic smooth label is assigned to supervise the classification branch. Under such supervision, quality estimation branch is naturally merged into the classification branch, which simplifies the architecture of anchor-free detector. Comprehensive experiments are conducted on the MS COCO benchmark. It is demonstrated that, DSLA can significantly boost the detection accuracy by alleviating the above inconsistencies for anchor-free detectors. Our codes are released at https://github.com/YonghaoHe/DSLA.
翻訳日:2022-08-02 13:58:06 公開日:2022-08-01
# セーフ・パーセプション - 階層的なモニターアプローチ

Safe Perception -- A Hierarchical Monitor Approach ( http://arxiv.org/abs/2208.00824v1 )

ライセンス: Link先を確認
Cornelius Buerkle, Fabian Oboril, Johannes Burr and Kay-Ulrich Scholl(参考訳) 私たちの輸送の世界は、ますます高まる自律性によって急速に変化しています。 しかし, 公用車両の完全自動運転免許を取得するためには, システム全体の安全性を確保する必要があるため, 依然として課題である。 これは、環境条件と道路利用者の多様性を扱う必要があるAIベースの認識システムに特に当てはまり、同時に、すべての安全関連オブジェクトを堅牢に検出する必要がある(つまり、検出ミスは発生しない)。 しかし、限られたトレーニングと検証データは、認識システムが公道の新しい未知の物体や状況に晒される可能性があるため、障害のない運用の証明をほとんど達成できない。 したがって、AIに基づく知覚システムのための新しい安全性アプローチが必要である。 そこで本稿では,主認識システムからオブジェクトリストを検証し,検出ミスを確実に検出できるとともに,誤警報率も極めて低い,新しい階層的モニタリング手法を提案する。

Our transportation world is rapidly transforming induced by an ever increasing level of autonomy. However, to obtain license of fully automated vehicles for widespread public use, it is necessary to assure safety of the entire system, which is still a challenge. This holds in particular for AI-based perception systems that have to handle a diversity of environmental conditions and road users, and at the same time should robustly detect all safety relevant objects (i.e no detection misses should occur). Yet, limited training and validation data make a proof of fault-free operation hardly achievable, as the perception system might be exposed to new, yet unknown objects or conditions on public roads. Hence, new safety approaches for AI-based perception systems are required. For this reason we propose in this paper a novel hierarchical monitoring approach that is able to validate the object list from a primary perception system, can reliably detect detection misses, and at the same time has a very low false alarm rate.
翻訳日:2022-08-02 13:57:43 公開日:2022-08-01
# AvatarGen: アニマタブルな人間のアバターのための3次元生成モデル

AvatarGen: a 3D Generative Model for Animatable Human Avatars ( http://arxiv.org/abs/2208.00561v1 )

ライセンス: Link先を確認
Jianfeng Zhang and Zihang Jiang and Dingdong Yang and Hongyi Xu and Yichun Shi and Guoxian Song and Zhongcong Xu and Xinchao Wang and Jiashi Feng(参考訳) 3次元アバターや他のAR/VRアプリケーションを作成するためには、さまざまな外観とアニマタブルポーズを持つ無監督仮想人間の生成が重要である。 既存の手法は剛体オブジェクトモデリングに制限されているか、生成的ではないため、高品質の仮想人間を合成してアニメーション化できない。 本研究では,AvatarGenを提案する。AvatarGenは多彩な外見を持つ非剛体世代だけでなく,ポーズや視点をフルに制御できると同時に,トレーニングに2次元画像のみを必要とする。 具体的には、粗い人体モデルを用いて、標準空間下の標準的なアバターに観察空間を向けることにより、最近の3d ganを衣服化した人間世代に拡張する。 非剛性力学をモデル化するために、正準空間におけるポーズ依存変形を学習する変形ネットワークを導入する。 生成する人間のアバターの幾何学的品質を改善するために、幾何学的表現として符号付き距離場を活用し、幾何学的学習における身体モデルからのより直接的な正則化を可能にする。 これらの設計の利点を生かして,従来の3D GANよりも優れた外観と幾何モデルを備えたアニマタブルな人体アバターを生成することができる。 さらに、シングルビュー再構成、再アニメーション、テキスト誘導合成など、多くのアプリケーションに向いている。 コードと事前トレーニングされたモデルが利用可能だ。

Unsupervised generation of clothed virtual humans with various appearance and animatable poses is important for creating 3D human avatars and other AR/VR applications. Existing methods are either limited to rigid object modeling, or not generative and thus unable to synthesize high-quality virtual humans and animate them. In this work, we propose AvatarGen, the first method that enables not only non-rigid human generation with diverse appearance but also full control over poses and viewpoints, while only requiring 2D images for training. Specifically, it extends the recent 3D GANs to clothed human generation by utilizing a coarse human body model as a proxy to warp the observation space into a standard avatar under a canonical space. To model non-rigid dynamics, it introduces a deformation network to learn pose-dependent deformations in the canonical space. To improve geometry quality of the generated human avatars, it leverages signed distance field as geometric representation, which allows more direct regularization from the body model on the geometry learning. Benefiting from these designs, our method can generate animatable human avatars with high-quality appearance and geometry modeling, significantly outperforming previous 3D GANs. Furthermore, it is competent for many applications, e.g., single-view reconstruction, reanimation, and text-guided synthesis. Code and pre-trained model will be available.
翻訳日:2022-08-02 13:52:36 公開日:2022-08-01
# CLIFF: フルフレームの位置情報を人文空間に搬送し, 形状推定

CLIFF: Carrying Location Information in Full Frames into Human Pose and Shape Estimation ( http://arxiv.org/abs/2208.00571v1 )

ライセンス: Link先を確認
Zhihao Li, Jianzhuang Liu, Zhensong Zhang, Songcen Xu, and Youliang Yan(参考訳) トップダウン法は、人間検出から切り離され、研究者が核となる問題に集中できるため、3d人間のポーズと形状推定の分野を支配している。 しかし、最初のステップである収穫は、位置情報を最初から取り除き、元のカメラ座標系におけるグローバルな回転を正確に予測することができない。 この問題に対処するため,本課題にフルフレーム(CLIFF)におけるキャリー位置情報を提案する。 具体的には、収穫された画像と、そのバウンディングボックス情報とを連結することにより、より包括的な機能をCLIFFに提供します。 画像に投影された人物のものと類似した投影過程を採り、フルフレームの広い視野で2次元再投影損失を算出する。 FedとCLIFFは、グローバルロケーション対応の情報に基づいて、より正確なポーズとともに、グローバルローテーションを直接予測する。 さらに,in-the-wild 2dデータセットに対して高品質な3dアノテーションを提供し,回帰に基づくメソッドに対して重要な完全な監視を提供するcliffに基づく擬似接地アノテーションを提案する。 人気のあるベンチマークに関する大規模な実験は、CLIFFが先行技術よりかなり優れており、AGORAのリーダーボード(SMPL-Algorithmsのトラック)で1位に達していることを示している。 コードとデータはhttps://github.com/huawei-noah/noah-research/tree/master/cliffで入手できる。

Top-down methods dominate the field of 3D human pose and shape estimation, because they are decoupled from human detection and allow researchers to focus on the core problem. However, cropping, their first step, discards the location information from the very beginning, which makes themselves unable to accurately predict the global rotation in the original camera coordinate system. To address this problem, we propose to Carry Location Information in Full Frames (CLIFF) into this task. Specifically, we feed more holistic features to CLIFF by concatenating the cropped-image feature with its bounding box information. We calculate the 2D reprojection loss with a broader view of the full frame, taking a projection process similar to that of the person projected in the image. Fed and supervised by global-location-aware information, CLIFF directly predicts the global rotation along with more accurate articulated poses. Besides, we propose a pseudo-ground-truth annotator based on CLIFF, which provides high-quality 3D annotations for in-the-wild 2D datasets and offers crucial full supervision for regression-based methods. Extensive experiments on popular benchmarks show that CLIFF outperforms prior arts by a significant margin, and reaches the first place on the AGORA leaderboard (the SMPL-Algorithms track). The code and data are available at https://github.com/huawei-noah/noah-research/tree/master/CLIFF.
翻訳日:2022-08-02 13:52:12 公開日:2022-08-01
# 衛星画像における建物の正確なポリゴンマッピング

Accurate Polygonal Mapping of Buildings in Satellite Imagery ( http://arxiv.org/abs/2208.00609v1 )

ライセンス: Link先を確認
Bowen Xu, Jiakun Xu, Nan Xue, Gui-Song Xia(参考訳) 本稿では, 予測されたマスクと多角形との顕著な性能差をもたらすマスク可逆性の問題に取り組むことにより, 建物の多角形マッピングの問題について考察する。 本研究では, 階層的な監視機構(下層階の頂点, 中層階の線分, 高層部のマスク)を活用し, 異なるレベルの監視信号から得られる特徴埋め込みの相互作用機構を提案し, 建物の多角形マッピングのための可逆的なビルディングマスクを得る。 その結果、学習した可逆型ビルディングマスクは、建物の多角形マッピングのための深い畳み込みニューラルネットワークの進歩の利点をすべて生かしていることがわかった。 実験では,AICrowdとInriaの2つの公開ベンチマークで評価を行った。 提案手法は,AICrowdデータセットを用いて,AP,APboundary,PoLiSのメトリクスを全会一致で改善する。 Inria データセットでは,IoU と Accuracy のメトリクスに関して非常に競合的な結果が得られる。 モデルとソースコードはhttps://github.com/sarahwxuで入手できる。

This paper studies the problem of polygonal mapping of buildings by tackling the issue of mask reversibility that leads to a notable performance gap between the predicted masks and polygons from the learning-based methods. We addressed such an issue by exploiting the hierarchical supervision (of bottom-level vertices, mid-level line segments and the high-level regional masks) and proposed a novel interaction mechanism of feature embedding sourced from different levels of supervision signals to obtain reversible building masks for polygonal mapping of buildings. As a result, we show that the learned reversible building masks take all the merits of the advances of deep convolutional neural networks for high-performing polygonal mapping of buildings. In the experiments, we evaluated our method on the two public benchmarks of AICrowd and Inria. On the AICrowd dataset, our proposed method obtains unanimous improvements on the metrics of AP, APboundary and PoLiS. For the Inria dataset, our proposed method also obtains very competitive results on the metrics of IoU and Accuracy. The models and source code are available at https://github.com/SarahwXU.
翻訳日:2022-08-02 13:51:48 公開日:2022-08-01
# 確率セルオートマトンにおける臨界行動のロバスト性の評価

Assessing the robustness of critical behavior in stochastic cellular automata ( http://arxiv.org/abs/2208.00746v1 )

ライセンス: Link先を確認
Sidney Pontes-Filho, Pedro Lind and Stefano Nichele(参考訳) 脳のような生物学的システムは、ノイズに頑健な重要な構造で動作し、ゆらぎによってその中に留まることができるという証拠がある。 本研究では,クリティカルシステムのノイズに対する堅牢性の問題に対処する。 特に,確率的セルオートマトン(CA)の臨界における堅牢性について検討した。 確率CAは臨界性を示す最も単純な確率モデルの一つである。 確率CAの遷移状態は確率の集合を通して定義される。 批判的な振る舞いを生じることが知られている最適な確率的CAの確率を系統的に摂動し,そのようなCAが一定の騒音レベルまで臨界状態に留まることができることを報告した。 本稿では,kolmogorov-smirnov 統計学やkullback-leibler divergence などのパワーローフィッティングの誤差メトリクスを用いて結果を示す。 我々は、脳にインスパイアされた人工知能システムの実現に向けた研究結果の意義について論じる。

There is evidence that biological systems, such as the brain, work at a critical regime robust to noise, and are therefore able to remain in it under perturbations. In this work, we address the question of robustness of critical systems to noise. In particular, we investigate the robustness of stochastic cellular automata (CAs) at criticality. A stochastic CA is one of the simplest stochastic models showing criticality. The transition state of stochastic CA is defined through a set of probabilities. We systematically perturb the probabilities of an optimal stochastic CA known to produce critical behavior, and we report that such a CA is able to remain in a critical regime up to a certain degree of noise. We present the results using error metrics of the resulting power-law fitting, such as Kolmogorov-Smirnov statistic and Kullback-Leibler divergence. We discuss the implication of our results in regards to future realization of brain-inspired artificial intelligence systems.
翻訳日:2022-08-02 13:43:21 公開日:2022-08-01
# DictBERT:辞書記述知識 コントラスト学習による言語モデル事前学習

DictBERT: Dictionary Description Knowledge Enhanced Language Model Pre-training via Contrastive Learning ( http://arxiv.org/abs/2208.00635v1 )

ライセンス: Link先を確認
Qianglong Chen, Feng-Lin Li, Guohai Xu, Ming Yan, Ji Zhang, Yin Zhang(参考訳) プレトレーニング言語モデル(PLM)は、様々な自然言語処理(NLP)タスクにおいて最先端のパフォーマンスを達成したが、知識駆動タスクを扱う際には知識が不足していることが示されている。 PLMに知識を注入するための多くの努力にもかかわらず、この問題は未解決のままである。 この課題に対処するために,知識グラフ(KG)よりも取得が容易な辞書知識で PLM を強化する新しいアプローチである \textbf{DictBERT} を提案する。 事前学習中に,比較学習を通じて辞書知識をplmに注入する2つの新しい事前学習タスクを示す: \textit{dictionary entry prediction} と \textit{entry description discrimination} である。 微調整では、プレトレーニングされたDictBERTをプラグイン知識ベース(KB)として、入力シーケンス内の特定エントリに対する暗黙的な知識を検索し、検索した知識を入力に注入し、新しいエクストラホップアテンション機構を通じてその表現を強化する。 我々は、NER、関係抽出、CommonsenseQA、OpenBookQA、GLUEなど、さまざまな知識駆動型および言語理解タスクに対するアプローチを評価した。 実験結果から,本モデルではそれぞれ0.5 %,2.9 %,9.0 %,7.1 %,3.3 %の大幅な改善が可能であり,RoBERTa-largeにも有効であることがわかった。

Although pre-trained language models (PLMs) have achieved state-of-the-art performance on various natural language processing (NLP) tasks, they are shown to be lacking in knowledge when dealing with knowledge driven tasks. Despite the many efforts made for injecting knowledge into PLMs, this problem remains open. To address the challenge, we propose \textbf{DictBERT}, a novel approach that enhances PLMs with dictionary knowledge which is easier to acquire than knowledge graph (KG). During pre-training, we present two novel pre-training tasks to inject dictionary knowledge into PLMs via contrastive learning: \textit{dictionary entry prediction} and \textit{entry description discrimination}. In fine-tuning, we use the pre-trained DictBERT as a plugin knowledge base (KB) to retrieve implicit knowledge for identified entries in an input sequence, and infuse the retrieved knowledge into the input to enhance its representation via a novel extra-hop attention mechanism. We evaluate our approach on a variety of knowledge driven and language understanding tasks, including NER, relation extraction, CommonsenseQA, OpenBookQA and GLUE. Experimental results demonstrate that our model can significantly improve typical PLMs: it gains a substantial improvement of 0.5\%, 2.9\%, 9.0\%, 7.1\% and 3.3\% on BERT-large respectively, and is also effective on RoBERTa-large.
翻訳日:2022-08-02 13:37:23 公開日:2022-08-01
# giMLPs:MLPの抑制機構を持つゲート

giMLPs: Gate with Inhibition Mechanism in MLPs ( http://arxiv.org/abs/2208.00929v1 )

ライセンス: Link先を確認
Cheng Kang, Jindich Prokop, Lei Tong, Huiyu Zhou, Yong Hu, Daneil Novak(参考訳) 本稿では,新しいモデルアーキテクチャであるGate with inhibition MLP (giMLP)を提案する。 CycleMLP(gi-CycleMLP)を阻害するゲートは、ImageNetの分類タスクで同等の性能を発揮し、また、2つの新しい技術に依存してBERT、Roberta、DeBERTaV3モデルを改善する。 1つ目は Gating MLP で、モデルの適応を更に調整するために MLP と trunk Attention の行列乗算を行う。 2つ目は分岐調節を阻害または増強する抑制であり、抑制レベルが増大するにつれて、より筋肉的な特徴の制限をモデルに提供する。 抑制レベルが低いgiCycleMLPは、ImageNet分類精度の観点から、オリジナルのCycleMLPと競合できることを示す。 さらに,これらの手法が細調整したNLU下流タスクの性能を著しく向上させるという,総合的な実証研究を通しても示している。 DeBERTa(giDeBERTa)の微細調整における MLP 抑制ゲートについては,NLU タスクのほとんどの部分において,追加の事前訓練を行なわずに魅力的な結果が得られる。 また,ゲートが阻害された場合,アクティベーション関数は短く滑らかな負の尾を持ち,重要でない特徴や傷ついたモデルが適度に阻害されることがある。 imagenetと12の言語下流タスクにおける実験は、画像分類と自然言語微調整の能力向上の両方において、事前学習なしでゲートを阻害する効果を示している。

This paper presents a new model architecture, gate with inhibition MLP (giMLP).The gate with inhibition on CycleMLP (gi-CycleMLP) can produce equal performance on the ImageNet classification task, and it also improves the BERT, Roberta, and DeBERTaV3 models depending on two novel techniques. The first is the gating MLP, where matrix multiplications between the MLP and the trunk Attention input in further adjust models' adaptation. The second is inhibition which inhibits or enhances the branch adjustment, and with the inhibition levels increasing, it offers models more muscular features restriction. We show that the giCycleMLP with a lower inhibition level can be competitive with the original CycleMLP in terms of ImageNet classification accuracy. In addition, we also show through a comprehensive empirical study that these techniques significantly improve the performance of fine-tuning NLU downstream tasks. As for the gate with inhibition MLPs on DeBERTa (giDeBERTa) fine-tuning, we find it can achieve appealing results on most parts of NLU tasks without any extra pretraining again. We also find that with the use of Gate With Inhibition, the activation function should have a short and smooth negative tail, with which the unimportant features or the features that hurt models can be moderately inhibited. The experiments on ImageNet and twelve language downstream tasks demonstrate the effectiveness of Gate With Inhibition, both for image classification and for enhancing the capacity of nature language fine-tuning without any extra pretraining.
翻訳日:2022-08-02 13:36:56 公開日:2022-08-01
# Masader Plus:500以上のアラビアのNLPデータセットを探索するインターフェース

Masader Plus: A New Interface for Exploring +500 Arabic NLP Datasets ( http://arxiv.org/abs/2208.00932v1 )

ライセンス: Link先を確認
Yousef Altaher, Ali Fadel, Mazen Alotaibi, Mazen Alyazidi, Mishari Al-Mutairi, Mutlaq Aldhbuiub, Abdulrahman Mosaibah, Abdelrahman Rezk, Abdulrazzaq Alhendi, Mazen Abo Shal, Emad A. Alghamdi, Maged S. Alshaibani, Jezia Zakraoui, Wafaa Mohammed, Kamel Gaanoun, Khalid N. Elmadani, Mustafa Ghaleb, Nouamane Tazi, Raed Alharbi, Maraim Masoud and Zaid Alyafeai(参考訳) masader (alyafeai et al., 2021) はアラビア語のnlpデータセットのカタログ作成に使用されるメタデータ構造を作成した。 しかし、そのようなカタログを探索する簡単な方法の開発は難しい課題である。 このカタログを探索するユーザや研究者に最適な体験を与えるためには、いくつかの設計とユーザエクスペリエンスの課題を解決する必要がある。 さらに、Webサイトとのユーザインタラクションは、カタログを改善するための簡単なアプローチを提供するかもしれない。 本稿では,Masder Plusを紹介し,Masderを閲覧するためのWebインターフェースを提案する。 データ探索、フィルタリング、バックエンドからデータセットを調べるためのシンプルなAPIをデモします。 Masader Plus は https://arbml.github.io/masader というリンクで調べることができる。 インターフェースを説明するビデオ録画は、https://www.youtube.com/watch? v=SEtdlSeqchk。

Masader (Alyafeai et al., 2021) created a metadata structure to be used for cataloguing Arabic NLP datasets. However, developing an easy way to explore such a catalogue is a challenging task. In order to give the optimal experience for users and researchers exploring the catalogue, several design and user experience challenges must be resolved. Furthermore, user interactions with the website may provide an easy approach to improve the catalogue. In this paper, we introduce Masader Plus, a web interface for users to browse Masader. We demonstrate data exploration, filtration, and a simple API that allows users to examine datasets from the backend. Masader Plus can be explored using this link https://arbml.github.io/masader. A video recording explaining the interface can be found here https://www.youtube.com/watch?v=SEtdlSeqchk.
翻訳日:2022-08-02 13:36:14 公開日:2022-08-01
# centroid-based pretrainingを用いたマルチドキュメント要約

Multi-Document Summarization with Centroid-Based Pretraining ( http://arxiv.org/abs/2208.01006v1 )

ライセンス: Link先を確認
Ratish Puduppully and Mark Steedman(参考訳) multi-document summarization (mds) では、入力はドキュメントのクラスタであり、出力はクラスタサマリーである。 本稿では,mdsの事前学習目標について述べる。 具体的には,各文書クラスタのルージュベースのセンタロイドを要約のプロキシとして選択する,簡単な事前学習目標を提案する。 この目的は人による要約を必要とせず、文書の集合のみを含むデータセットの事前学習に使用できる。 複数のMDSデータセットに対するゼロショットおよび完全教師付き実験を通じて、私たちのモデルであるCentrumは最先端のモデルより優れているか同等であることを示す。 私たちはトレーニング済みで微調整されたモデルをhttps://github.com/ratishsp/centrumでリリースしています。

In multi-document summarization (MDS), the input is a cluster of documents, and the output is the cluster summary. In this paper, we focus on pretraining objectives for MDS. Specifically, we introduce a simple pretraining objective of choosing the ROUGE-based centroid of each document cluster as a proxy for its summary. Our objective thus does not require human written summaries and can be used for pretraining on a dataset containing only clusters of documents. Through zero-shot and fully supervised experiments on multiple MDS datasets, we show that our model Centrum is better or comparable to a state-of-the-art model. We release our pretrained and finetuned models at https://github.com/ratishsp/centrum.
翻訳日:2022-08-02 13:35:57 公開日:2022-08-01
# BabelBERT:多言語変換器は多言語レキシカルなリソースと出会う

BabelBERT: Massively Multilingual Transformers Meet a Massively Multilingual Lexical Resource ( http://arxiv.org/abs/2208.01018v1 )

ライセンス: Link先を確認
Tommaso Green and Simone Paolo Ponzetto and Goran Glava\v{s}(参考訳) 事前訓練された言語モデル(PLM)は、主に様々な下流タスクに微調整できる汎用テキストエンコーダとして機能するが、近年の研究では、高品質な単語表現(静的単語埋め込み)の生成や、型レベルの語彙タスクにおける優れたパフォーマンスが得られることが示されている。 既存の研究は主にモノリンガルおよびバイリンガル設定におけるPLMの語彙的特殊化に焦点を当てているが、この研究では、多言語の語彙的知識に多言語的変換器(MMT、mBERT、XLM-R)を公開し、BabelNetを多言語および多言語型レベルの語彙的知識の豊富な情報源として活用する。 具体的には、BabelNetの多言語構文を利用して50ドルの言語をまたいだ同義語ペアを作成し、MMT(mBERTとXLM-R)を対照的な目的によってガイドされた語彙的特殊化手順に従わせる。 このような多言語レキシカル特殊化は、バイリンガルレキシコン誘導(英語版)と言語間単語類似性(英語版)の2つの標準言語間レキシカルタスク、および言語間文検索において大きな利益をもたらすことを示す。 重要な点として,多言語語彙の特殊化は語彙制約のない言語への一般化を可能にすることを示す。 その後の一連の制御実験において,MMTにおける単語表現の事前学習品質は,制約セットの言語的多様性よりも,性能にはるかに大きな影響を及ぼすことを示した。 これは、低リソース言語を含む語彙的タスクがリソース豊富な言語の語彙的知識から最も恩恵を受けることを示唆している。

While pretrained language models (PLMs) primarily serve as general purpose text encoders that can be fine-tuned for a wide variety of downstream tasks, recent work has shown that they can also be rewired to produce high-quality word representations (i.e., static word embeddings) and yield good performance in type-level lexical tasks. While existing work primarily focused on lexical specialization of PLMs in monolingual and bilingual settings, in this work we expose massively multilingual transformers (MMTs, e.g., mBERT or XLM-R) to multilingual lexical knowledge at scale, leveraging BabelNet as the readily available rich source of multilingual and cross-lingual type-level lexical knowledge. Concretely, we leverage BabelNet's multilingual synsets to create synonym pairs across $50$ languages and then subject the MMTs (mBERT and XLM-R) to a lexical specialization procedure guided by a contrastive objective. We show that such massively multilingual lexical specialization brings massive gains in two standard cross-lingual lexical tasks, bilingual lexicon induction and cross-lingual word similarity, as well as in cross-lingual sentence retrieval. Crucially, we observe gains for languages unseen in specialization, indicating that the multilingual lexical specialization enables generalization to languages with no lexical constraints. In a series of subsequent controlled experiments, we demonstrate that the pretraining quality of word representations in the MMT for languages involved in specialization has a much larger effect on performance than the linguistic diversity of the set of constraints. Encouragingly, this suggests that lexical tasks involving low-resource languages benefit the most from lexical knowledge of resource-rich languages, generally much more available.
翻訳日:2022-08-02 13:35:41 公開日:2022-08-01
# 変圧器を用いたソシオドモグラフィ適応の限界について

On the Limitations of Sociodemographic Adaptation with Transformers ( http://arxiv.org/abs/2208.01029v1 )

ライセンス: Link先を確認
Chia-Chien Hung, Anne Lauscher, Dirk Hovy, Simone Paolo Ponzetto, Goran Glava\v{s}(参考訳) 社会学的な要素(性別や年齢など)が言語を形成する。 従来のNLPモデルでは,特定の社会デマトグラフィー因子を組み込むことで,様々なNLPタスクのパフォーマンスが一貫して向上することが示された。 これまでの研究結果が最先端の予習変圧器であるかどうかについて検討した。 事前学習されたトランスフォーマー(ドメイン固有あるいは地理的知識など)に外部知識を組み込むのに有効な3つの共通特殊化手法を用いる。 我々は,言語モデルと動的マルチタスク学習を用いて,ジェンダーと年齢の社会デマログラフの次元に言語表現を適応させ,社会デマログラフクラスの予測と言語モデリングを組み合わせた。 多言語モデルを用いた結果,4言語(英語,ドイツ語,フランス語,デンマーク語)で有意な性能向上を示した。 これらの結果は、過去の研究結果と一致し、社会デミノグラフィーの専門化の成功を約束する。 しかし、ドメインや言語のような相反する要因の制御は、社会デマログラフの適応は下流のパフォーマンスを改善するが、その利得は必ずしも社会デマログラフの知識に由来するわけではないことを示している。 以上の結果から,社会デマトグラフィーの専門化は非常に重要であるものの,NLPでは未解決の問題であることが示唆された。

Sociodemographic factors (e.g., gender or age) shape our language. Previous work showed that incorporating specific sociodemographic factors can consistently improve performance for various NLP tasks in traditional NLP models. We investigate whether these previous findings still hold with state-of-the-art pretrained Transformers. We use three common specialization methods proven effective for incorporating external knowledge into pretrained Transformers (e.g., domain-specific or geographic knowledge). We adapt the language representations for the sociodemographic dimensions of gender and age, using continuous language modeling and dynamic multi-task learning for adaptation, where we couple language modeling with the prediction of a sociodemographic class. Our results when employing a multilingual model show substantial performance gains across four languages (English, German, French, and Danish). These findings are in line with the results of previous work and hold promise for successful sociodemographic specialization. However, controlling for confounding factors like domain and language shows that, while sociodemographic adaptation does improve downstream performance, the gains do not always solely stem from sociodemographic knowledge. Our results indicate that sociodemographic specialization, while very important, is still an unresolved problem in NLP.
翻訳日:2022-08-02 13:35:06 公開日:2022-08-01
# SMART:テキスト評価の基本単位としての文

SMART: Sentences as Basic Units for Text Evaluation ( http://arxiv.org/abs/2208.01030v1 )

ライセンス: Link先を確認
Reinald Kim Amplayo, Peter J. Liu, Yao Zhao, Shashi Narayan(参考訳) テキスト生成に広く使用される評価指標は、長いテキストではうまく動作しないか、テキスト品質のすべての側面を評価できないかのいずれかである。 本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。 具体的には,文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。 候補文はソース文書の文と比較され、根拠付け(例えば事実性)の評価が可能である。 この結果から,提案手法とモデルベースマッチング関数のシステムレベルの相関は,SummEvalの要約メタ評価データセット上での競合指標よりも優れており,文字列ベースマッチング関数の類似指標は現行のモデルベースメトリクスと競合することがわかった。 後者は神経モデルを使用しないが、リソースが制限され、迅速な評価が必要となるモデル開発フェーズで有用である。 最後に,提案するメトリクスがより長い要約でうまく機能し,特定のモデルに対する偏りが少ないことを示す広範な分析を行った。

Widely used evaluation metrics for text generation either do not work well with longer texts or fail to evaluate all aspects of text quality. In this paper, we introduce a new metric called SMART to mitigate such limitations. Specifically, We treat sentences as basic units of matching instead of tokens, and use a sentence matching function to soft-match candidate and reference sentences. Candidate sentences are also compared to sentences in the source documents to allow grounding (e.g., factuality) evaluation. Our results show that system-level correlations of our proposed metric with a model-based matching function outperforms all competing metrics on the SummEval summarization meta-evaluation dataset, while the same metric with a string-based matching function is competitive with current model-based metrics. The latter does not use any neural model, which is useful during model development phases where resources can be limited and fast evaluation is required. Finally, we also conducted extensive analyses showing that our proposed metrics work well with longer summaries and are less biased towards specific models.
翻訳日:2022-08-02 13:34:43 公開日:2022-08-01
# 構造因果モデルのための最適抽象化の計算に向けて

Towards Computing an Optimal Abstraction for Structural Causal Models ( http://arxiv.org/abs/2208.00894v1 )

ライセンス: Link先を確認
Fabio Massimo Zennaro, Paolo Turrini, Theodoros Damoulas(参考訳) 異なるレベルの抽象レベルで因果モデルを扱うことは、科学の重要な特徴である。 既存の研究は、因果モデル間の抽象関係を正式に表現する問題を既に検討している。 本稿では,抽象学習の問題に焦点をあてる。 まず、一貫性の標準尺度の最適化の観点から学習問題を形式的に定義することから始める。 そこで我々は,この手法の限界を指摘し,情報損失を考慮に入れた用語で目的関数を拡張することを提案する。 我々は,情報損失の具体的な尺度を提案し,その新しい抽象化の学習への貢献を説明する。

Working with causal models at different levels of abstraction is an important feature of science. Existing work has already considered the problem of expressing formally the relation of abstraction between causal models. In this paper, we focus on the problem of learning abstractions. We start by defining the learning problem formally in terms of the optimization of a standard measure of consistency. We then point out the limitation of this approach, and we suggest extending the objective function with a term accounting for information loss. We suggest a concrete measure of information loss, and we illustrate its contribution to learning new abstractions.
翻訳日:2022-08-02 13:34:04 公開日:2022-08-01
# 漁業情報と情報理論量によるデータサブセット選択の統一的アプローチ

Unifying Approaches in Data Subset Selection via Fisher Information and Information-Theoretic Quantities ( http://arxiv.org/abs/2208.00549v1 )

ライセンス: Link先を確認
Andreas Kirsch, Yarin Gal(参考訳) 予測とモデルパラメータ間の相互情報 - 予測情報ゲイン、あるいは機械学習におけるBALD - は、情報量を測定する。 ベイジアン能動学習とベイジアン最適実験設計において一般的な獲得関数である。 データサブセットの選択、すなわち、アクティブラーニングとアクティブサンプリングでは、いくつかの最近の研究はフィッシャー情報、ヘッセン、勾配に基づく類似度行列、あるいは単に勾配長を用いてサンプル選択を導いた取得スコアを計算する。 これらの異なるアプローチは結び付いているのでしょうか? 本稿では,フィッシャー情報を再検討し,それを用いて情報理論量の近似として複数の異なる手法がどのように接続されているかを示す。

The mutual information between predictions and model parameters -- also referred to as expected information gain or BALD in machine learning -- measures informativeness. It is a popular acquisition function in Bayesian active learning and Bayesian optimal experiment design. In data subset selection, i.e. active learning and active sampling, several recent works use Fisher information, Hessians, similarity matrices based on the gradients, or simply the gradient lengths to compute the acquisition scores that guide sample selection. Are these different approaches connected, and if so how? In this paper, we revisit the Fisher information and use it to show how several otherwise disparate methods are connected as approximations of information-theoretic quantities.
翻訳日:2022-08-02 13:30:44 公開日:2022-08-01
# UniToBrainデータセット: Brain Perfusionデータセット

UniToBrain dataset: a Brain Perfusion Dataset ( http://arxiv.org/abs/2208.00650v1 )

ライセンス: Link先を確認
Daniele Perlo and Enzo Tartaglione and Umberto Gava and Federico D'Agata and Edwin Benninck and Mauro Bergui(参考訳) CT灌流(CT Perfusion, CTP)は、造影液の脳内通過をピクセル単位で測定するための医学的検査である。 虚血性病変に対して「灌流図」(脳血流量、脳血流量、ピークまでの時間)を非常に迅速に描き、コア領域とペヌムブラ領域を区別できるようにすることが目的である。 虚血性脳梗塞の文脈において、正確かつ迅速な診断は、脳組織の運命を決定し、緊急時の介入と治療を導くことができる。 本稿では,ctp用のオープンソースデータセットであるunitobrain datasetを提案する。 それは100人以上の患者からなるコホートであり、最先端アルゴリズムで得られた患者のメタデータと根拠真理マップを伴っている。 また、画像処理と深層学習モデルの開発に欧州のECVLとEDDLを用いて、ニューラルネットワークに基づく新しいアルゴリズムを提案する。 ニューラルネットワークモデルによって得られた結果は、地上の真実と一致し、必要な数のCTマップの潜在的サブサンプリングへの道を開くことで、患者に大量の放射線を照射する。

The CT perfusion (CTP) is a medical exam for measuring the passage of a bolus of contrast solution through the brain on a pixel-by-pixel basis. The objective is to draw "perfusion maps" (namely cerebral blood volume, cerebral blood flow and time to peak) very rapidly for ischemic lesions, and to be able to distinguish between core and penumubra regions. A precise and quick diagnosis, in a context of ischemic stroke, can determine the fate of the brain tissues and guide the intervention and treatment in emergency conditions. In this work we present UniToBrain dataset, the very first open-source dataset for CTP. It comprises a cohort of more than a hundred of patients, and it is accompanied by patients metadata and ground truth maps obtained with state-of-the-art algorithms. We also propose a novel neural networks-based algorithm, using the European library ECVL and EDDL for the image processing and developing deep learning models respectively. The results obtained by the neural network models match the ground truth and open the road towards potential sub-sampling of the required number of CT maps, which impose heavy radiation doses to the patients.
翻訳日:2022-08-02 13:23:29 公開日:2022-08-01
# TransDeepLab: コンボリューションフリーなトランスフォーマーベースのDeepLab v3+

TransDeepLab: Convolution-Free Transformer-based DeepLab v3+ for Medical Image Segmentation ( http://arxiv.org/abs/2208.00713v1 )

ライセンス: Link先を確認
Reza Azad, Moein Heidari, Moein Shariatnia, Ehsan Khodapanah Aghdam, Sanaz Karimijafarbigloo, Ehsan Adeli, Dorit Merhof(参考訳) 畳み込みニューラルネットワーク(CNN)は、長年にわたり様々なコンピュータビジョンタスクのデファクトスタンダードとなっている。 特に、スキップ接続を持つU字型モデルやピラミッドプーリングを伴うアトラス畳み込みのようなセミナルアーキテクチャに基づくディープニューラルネットワークは、幅広い医療画像解析タスクに最適化されている。 このようなアーキテクチャの主な利点は、汎用的なローカル機能を保持する傾向があることである。 しかし、一般的なコンセンサスとして、cnnは畳み込み操作の限定受容場サイズの本質的性質のため、長距離依存性と空間相関を捉えることができない。 あるいは、自己認識機構に由来するグローバル情報モデリングから利益を得るTransformerは、最近、自然言語処理とコンピュータビジョンにおいて顕著なパフォーマンスを達成した。 それにもかかわらず、従来の研究では、局所的特徴と大域的特徴の両方が、異なる形状と構成を持つ複雑な構造を分割するなど、密集予測において深いモデルにとって重要であることが証明されている。 そこで本研究では,医療画像セグメンテーションのための新しいトランスフォーマであるTransDeepLabを提案する。 具体的には,deeplabv3の拡張とatrous spatial pyramid pooling (aspp)モジュールのモデル化のために,シフトウィンドウを用いた階層型スウィントランスフォーマを活用した。 関連する文献を徹底的に検索した結果、私たちはまず、DeepLabモデルを純粋なTransformerベースのモデルでモデル化した。 様々な医用画像分割タスクに関する広範囲な実験により、視覚トランスフォーマーとcnnベースの手法を融合した現代のほとんどの作品に匹敵する性能と、モデルの複雑さの大幅な低減が検証された。 コードとトレーニングされたモデルはhttps://github.com/rezazad68/transdeeplabで公開されている。

Convolutional neural networks (CNNs) have been the de facto standard in a diverse set of computer vision tasks for many years. Especially, deep neural networks based on seminal architectures such as U-shaped models with skip-connections or atrous convolution with pyramid pooling have been tailored to a wide range of medical image analysis tasks. The main advantage of such architectures is that they are prone to detaining versatile local features. However, as a general consensus, CNNs fail to capture long-range dependencies and spatial correlations due to the intrinsic property of confined receptive field size of convolution operations. Alternatively, Transformer, profiting from global information modelling that stems from the self-attention mechanism, has recently attained remarkable performance in natural language processing and computer vision. Nevertheless, previous studies prove that both local and global features are critical for a deep model in dense prediction, such as segmenting complicated structures with disparate shapes and configurations. To this end, this paper proposes TransDeepLab, a novel DeepLab-like pure Transformer for medical image segmentation. Specifically, we exploit hierarchical Swin-Transformer with shifted windows to extend the DeepLabv3 and model the Atrous Spatial Pyramid Pooling (ASPP) module. A thorough search of the relevant literature yielded that we are the first to model the seminal DeepLab model with a pure Transformer-based model. Extensive experiments on various medical image segmentation tasks verify that our approach performs superior or on par with most contemporary works on an amalgamation of Vision Transformer and CNN-based methods, along with a significant reduction of model complexity. The codes and trained models are publicly available at https://github.com/rezazad68/transdeeplab
翻訳日:2022-08-02 13:23:11 公開日:2022-08-01
# 失地景観の平滑化による敵防衛の攻撃

Attacking Adversarial Defences by Smoothing the Loss Landscape ( http://arxiv.org/abs/2208.00862v1 )

ライセンス: Link先を確認
Panagiotis Eustratiadis, Henry Gouk, Da Li and Timothy Hospedales(参考訳) 本報告では, 敵の移動が困難である騒音, 不連続性, あるいは頑丈な損失景観を創り出すために, 成功の一部を負う敵の攻撃を防御するための一連の手法について検討する。 この効果を達成する一般的な方法だが普遍的ではない方法は、確率的ニューラルネットワークの利用である。 これは勾配難読化の一形態であり、Weierstrass変換に基づく勾配ベースの逆数への一般化を提案し、損失関数の表面を滑らかにし、より信頼性の高い勾配推定を提供する。 さらに、同じ原理が勾配のない敵を強化できることが示される。 この種の難読化による強固性を示す確率的・非確率的抗戦防御に対するロス・スモーキング法の有効性を実証する。 さらに, 確率的防御に使用されている勾配サンプリング法である, 変換に対する期待と相互作用の解析を行う。

This paper investigates a family of methods for defending against adversarial attacks that owe part of their success to creating a noisy, discontinuous, or otherwise rugged loss landscape that adversaries find difficult to navigate. A common, but not universal, way to achieve this effect is via the use of stochastic neural networks. We show that this is a form of gradient obfuscation, and propose a general extension to gradient-based adversaries based on the Weierstrass transform, which smooths the surface of the loss function and provides more reliable gradient estimates. We further show that the same principle can strengthen gradient-free adversaries. We demonstrate the efficacy of our loss-smoothing method against both stochastic and non-stochastic adversarial defences that exhibit robustness due to this type of obfuscation. Furthermore, we provide analysis of how it interacts with Expectation over Transformation; a popular gradient-sampling method currently used to attack stochastic defences.
翻訳日:2022-08-02 13:22:42 公開日:2022-08-01
# ニューラルディスクリプタフィールドに基づくロバスト変化検出

Robust Change Detection Based on Neural Descriptor Fields ( http://arxiv.org/abs/2208.01014v1 )

ライセンス: Link先を確認
Jiahui Fu, Yilun Du, Kurran Singh, Joshua B. Tenenbaum, and John J. Leonard(参考訳) 環境の変化を推論する能力は、長期にわたって動作するロボットにとって不可欠である。 エージェントは、動作中に変更をキャプチャし、アクションを追跡して、作業セッションのスムーズな進行を保証することが期待されている。 しかし、視角の変化と累積位置推定誤差により、ロボットは観測の重なりや漂流物体の関連が低かったため、周囲の環境の変化を誤検出することが容易である。 本稿では,最近提案されたカテゴリレベルのニューラル・ディスクリプタ・フィールド(NDF)に基づいて,部分的に重なり合う観測結果やノイズのある局所化結果に頑健なオブジェクトレベルのオンライン変化検出手法を開発する。 NDFの形状完了能力とSE(3)-等価性を利用して、部分的な観測から全物体形状を符号化するコンパクトな形状符号を持つ物体を表現する。 オブジェクトは ndfs から回収されたオブジェクトセンタに基づいた空間ツリー構造で構成され、オブジェクト近傍の高速クエリを行う。 形状コード類似性を用いて物体を連想させ,局所的な物体間空間配置を比較することにより,観測重なりや局所化ノイズに対するロバスト性を示す。 合成と実世界の双方で実験を行い,複数のベースライン法と比較して改良された変化検出結果を得た。 プロジェクトWebページ: https://yilundu.github.io/ndf_change

The ability to reason about changes in the environment is crucial for robots operating over extended periods of time. Agents are expected to capture changes during operation so that actions can be followed to ensure a smooth progression of the working session. However, varying viewing angles and accumulated localization errors make it easy for robots to falsely detect changes in the surrounding world due to low observation overlap and drifted object associations. In this paper, based on the recently proposed category-level Neural Descriptor Fields (NDFs), we develop an object-level online change detection approach that is robust to partially overlapping observations and noisy localization results. Utilizing the shape completion capability and SE(3)-equivariance of NDFs, we represent objects with compact shape codes encoding full object shapes from partial observations. The objects are then organized in a spatial tree structure based on object centers recovered from NDFs for fast queries of object neighborhoods. By associating objects via shape code similarity and comparing local object-neighbor spatial layout, our proposed approach demonstrates robustness to low observation overlap and localization noises. We conduct experiments on both synthetic and real-world sequences and achieve improved change detection results compared to multiple baseline methods. Project webpage: https://yilundu.github.io/ndf_change
翻訳日:2022-08-02 13:22:27 公開日:2022-08-01
# CBAG:グラフバーニング問題に対する効率的な遺伝的アルゴリズム

CBAG: An Efficient Genetic Algorithm for the Graph Burning Problem ( http://arxiv.org/abs/2208.01008v1 )

ライセンス: Link先を確認
Mahdi Nazeri, Ali Mollahosseini and Iman Izadi(参考訳) 情報拡散は、情報、影響、感染がネットワークを介してどのように伝播するかを研究するネットワーク科学の研究において興味深いトピックである。 グラフバーニングは、情報のネットワーク内での拡散方法の単純化された決定論的モデルである。 この問題の複雑なNP完全性は、正確なアルゴリズムを用いて計算的に解くのを困難にしている。 したがって、グラフ燃焼問題に関する文献では、多くのヒューリスティックスと近似アルゴリズムが提案されている。 本稿では,グラフバーニング問題を解決するために,Centrality BAsed Genetic-algorithm (CBAG) と呼ばれる効率的な遺伝的アルゴリズムを提案する。 グラフバーニング問題の特異性を考慮して,新規な遺伝操作者,染色体表現および評価法を提案する。 提案アルゴリズムでは、染色体初期化過程のバックボーンとして、よく知られた相互性中心性を用いる。 提案アルゴリズムは, 異なるサイズの15個のベンチマークグラフ上で, 従来のヒューリスティックスおよび近似アルゴリズムと比較した。 この結果から,提案アルゴリズムは従来の最先端ヒューリスティックスと比較して性能が向上していることがわかる。 完全なソースコードはオンラインで利用可能であり、グラフバーニング問題に対する最適あるいはほぼ最適のソリューションを見つけるために使用できる。

Information spread is an intriguing topic to study in network science, which investigates how information, influence, or contagion propagate through networks. Graph burning is a simplified deterministic model for how information spreads within networks. The complicated NP-complete nature of the problem makes it computationally difficult to solve using exact algorithms. Accordingly, a number of heuristics and approximation algorithms have been proposed in the literature for the graph burning problem. In this paper, we propose an efficient genetic algorithm called Centrality BAsed Genetic-algorithm (CBAG) for solving the graph burning problem. Considering the unique characteristics of the graph burning problem, we introduce novel genetic operators, chromosome representation, and evaluation method. In the proposed algorithm, the well-known betweenness centrality is used as the backbone of our chromosome initialization procedure. The proposed algorithm is implemented and compared with previous heuristics and approximation algorithms on 15 benchmark graphs of different sizes. Based on the results, it can be seen that the proposed algorithm achieves better performance in comparison to the previous state-of-the-art heuristics. The complete source code is available online and can be used to find optimal or near-optimal solutions for the graph burning problem.
翻訳日:2022-08-02 13:18:40 公開日:2022-08-01
# 信頼できないラベルを用いた不偏表現学習

De-biased Representation Learning for Fairness with Unreliable Labels ( http://arxiv.org/abs/2208.00651v1 )

ライセンス: Link先を確認
Yixuan Zhang, Feng Zhou, Zhidong Li, Yang Wang, Fang Chen(参考訳) 全てのタスク関連情報を保持しながらバイアスを取り除くことは、正当表現学習法では、センシティブ属性がラベルと相関するときに、ランダムまたは退化表現w.r.t.ラベルを生成するため、困難である。 このような問題を克服するために、ラベル情報を学習手順に注入する既存の作業が提案されている。 しかし、観測されたラベルがクリーンであるという仮定は必ずしも満たされない。 実際、ラベルバイアスは差別を誘発する主要な源として認識されている。 言い換えると、公正な前処理方法は、学習手順または評価段階中にラベルに符号化された識別を無視する。 この矛盾は、学習された表現の公平さに疑問符を打つ。 この問題を回避するために、我々は以下の質問を探索する: \emph{Can我々は信頼できないラベルのみにアクセスすると、潜在理想のフェアラベルに予測可能なフェア表現を学ぶ。 本稿では,非感受性属性からセンシティブな情報を分離し,観察されたバイアスのある属性よりも理想的フェアラベルに予測可能な表現を保ちながら,非感受性属性からセンシティブな情報を分離する, \textbf{d}e-\textbf{b}iased \textbf{r}epresentation learning for \textbf{f}airness (dbrf)フレームワークを提案する。 相互情報や情報のボトルネックといった情報理論的な概念を通して、偏りのない学習枠組みを定式化する。 DBRFの中核となる概念は、機密情報が信頼できないラベルの予測に利益をもたらす場合、信頼できないラベルを監督するために使用しないことを提唱することである。 合成データと実世界データの両方に対する実験結果から,DBRFは理想ラベルに対する非バイアス表現を効果的に学習することを示した。

Removing bias while keeping all task-relevant information is challenging for fair representation learning methods since they would yield random or degenerate representations w.r.t. labels when the sensitive attributes correlate with labels. Existing works proposed to inject the label information into the learning procedure to overcome such issues. However, the assumption that the observed labels are clean is not always met. In fact, label bias is acknowledged as the primary source inducing discrimination. In other words, the fair pre-processing methods ignore the discrimination encoded in the labels either during the learning procedure or the evaluation stage. This contradiction puts a question mark on the fairness of the learned representations. To circumvent this issue, we explore the following question: \emph{Can we learn fair representations predictable to latent ideal fair labels given only access to unreliable labels?} In this work, we propose a \textbf{D}e-\textbf{B}iased \textbf{R}epresentation Learning for \textbf{F}airness (DBRF) framework which disentangles the sensitive information from non-sensitive attributes whilst keeping the learned representations predictable to ideal fair labels rather than observed biased ones. We formulate the de-biased learning framework through information-theoretic concepts such as mutual information and information bottleneck. The core concept is that DBRF advocates not to use unreliable labels for supervision when sensitive information benefits the prediction of unreliable labels. Experiment results over both synthetic and real-world data demonstrate that DBRF effectively learns de-biased representations towards ideal labels.
翻訳日:2022-08-02 13:17:46 公開日:2022-08-01
# 深層強化学習による3次元octree観測による月面把握の学習

Learning to Grasp on the Moon from 3D Octree Observations with Deep Reinforcement Learning ( http://arxiv.org/abs/2208.00818v1 )

ライセンス: Link先を確認
Andrej Orsula, Simon B{\o}gh, Miguel Olivares-Mendez and Carol Martinez(参考訳) 汎用ロボットアームを備えた地球外ローバーは、月や惑星探査に多くの可能性を持つ。 このようなシステムに自律性を導入することは、ローバーが科学データを収集しサンプルを集める時間を増やすために望ましい。 本研究は,月面物体の視覚に基づくロボット把持における深層強化学習の適用性について検討する。 不均一な地形と厳しい照明を備えた非構造シーンにおいて,課題条件下でエージェントを訓練するために,手続き的に生成されたデータセットを用いた新しいシミュレーション環境を構築した。 モデルフリーのオフ・ポリシー・アクタ-クリティックアルゴリズムは、コンパクトなオツリー観測をカルテジアン空間の連続的なアクションに直接マップするポリシーのエンドツーエンド学習に使用される。 実験結果から,3次元データ表現は従来の画像に基づく観察と比較して,より効果的な操作スキルの学習を可能にすることが示唆された。 ドメインランダム化は、未確認のオブジェクトと異なる照明条件を持つ新しいシーンへの学習ポリシーの一般化を改善する。 そこで本研究では,実ロボットの訓練エージェントを評価することで,実機へのゼロショットsim-to-real転送を実証する。

Extraterrestrial rovers with a general-purpose robotic arm have many potential applications in lunar and planetary exploration. Introducing autonomy into such systems is desirable for increasing the time that rovers can spend gathering scientific data and collecting samples. This work investigates the applicability of deep reinforcement learning for vision-based robotic grasping of objects on the Moon. A novel simulation environment with procedurally-generated datasets is created to train agents under challenging conditions in unstructured scenes with uneven terrain and harsh illumination. A model-free off-policy actor-critic algorithm is then employed for end-to-end learning of a policy that directly maps compact octree observations to continuous actions in Cartesian space. Experimental evaluation indicates that 3D data representations enable more effective learning of manipulation skills when compared to traditionally used image-based observations. Domain randomization improves the generalization of learned policies to novel scenes with previously unseen objects and different illumination conditions. To this end, we demonstrate zero-shot sim-to-real transfer by evaluating trained agents on a real robot in a Moon-analogue facility.
翻訳日:2022-08-02 13:17:17 公開日:2022-08-01
# 神経密度推定のための量子適応フーリエ特徴

Quantum Adaptive Fourier Features for Neural Density Estimation ( http://arxiv.org/abs/2208.00564v1 )

ライセンス: Link先を確認
Joseph A. Gallego M. and Fabio A. Gonz\'alez(参考訳) 密度推定は、統計や機械学習のアプリケーションにおける基本的なタスクである。 核密度推定は低次元での非パラメトリック密度推定の強力なツールであるが、高次元ではその性能は劣る。 さらに、その予測複雑性は、より多くのトレーニングデータポイントで線形にスケールする。 本稿では,核密度推定の一種として見ることができるが,高い予測計算複雑性を伴わない神経密度推定法を提案する。 この方法は密度行列、量子力学で使われる形式主義、適応フーリエ特徴に基づいている。 この方法は最適化なしで訓練できるが、ディープラーニングアーキテクチャと統合して、勾配勾配を使って訓練することもできる。 したがって、これは神経密度推定法の一形態と見なすことができる。 本手法は, 異なる合成および実データを用いて評価し, その性能を最先端のニューラル密度推定法と比較し, 競争結果を得た。

Density estimation is a fundamental task in statistics and machine learning applications. Kernel density estimation is a powerful tool for non-parametric density estimation in low dimensions; however, its performance is poor in higher dimensions. Moreover, its prediction complexity scale linearly with more training data points. This paper presents a method for neural density estimation that can be seen as a type of kernel density estimation, but without the high prediction computational complexity. The method is based on density matrices, a formalism used in quantum mechanics, and adaptive Fourier features. The method can be trained without optimization, but it could be also integrated with deep learning architectures and trained using gradient descent. Thus, it could be seen as a form of neural density estimation method. The method was evaluated in different synthetic and real datasets, and its performance compared against state-of-the-art neural density estimation methods, obtaining competitive results.
翻訳日:2022-08-02 13:16:33 公開日:2022-08-01
# メタボロミクスデータ分析のための重み付けスケーリングアプローチ

Weighted Scaling Approach for Metabolomics Data Analysis ( http://arxiv.org/abs/2208.00603v1 )

ライセンス: Link先を確認
Biplab Biswas, Nishith Kumar, Md Aminul Hoque, Md Ashad Alam(参考訳) メタボロミクスデータ分析では、体系的変動が一般的な問題である。 したがって、さまざまなスケーリングと正規化技術を使用して、メタボロミクスデータ分析のためのデータを前処理する。 いくつかのスケーリング手法は文献で利用可能であるが、スケーリング、変換、および/または正規化技術の選択は、さらなる統計分析に影響を与える。 下流分析の適切なスケーリングテクニックを選択することで、正確な結果を得るか、あるいは適切な判断を下すことは困難である。 さらに、既存のスケーリングテクニックは、外れ値や極端な値に敏感です。 このギャップを埋めるため、当社の目標は、外れ値に影響されず、下流解析により正確な結果を提供する、堅牢なスケーリングアプローチの導入です。 ここでは,データ前処理に付加的な外れ値検出・処理ステップが不要となるような,外れ値に対して堅牢な新たなスケーリング手法を導入し,人工メタボロミクスデータセットによる従来のスケーリングおよび正規化手法と比較した。 メタボロミクスデータ解析を用いて, 従来のスケーリング手法と比較して, 提案手法の性能評価を行った。 その結果,多くの場合,提案手法は従来のスケーリング手法よりも,異常値の欠如と存在の両方において優れた性能を示すことがわかった。 提案手法はより下流のメタボロミクス解析を改善する。 提案手法のR関数はhttps://github.com/nishithkumarpaul/robustScaling/blob/main/wscaling.Rで利用可能である。

Systematic variation is a common issue in metabolomics data analysis. Therefore, different scaling and normalization techniques are used to preprocess the data for metabolomics data analysis. Although several scaling methods are available in the literature, however, choice of scaling, transformation and/or normalization technique influence the further statistical analysis. It is challenging to choose the appropriate scaling technique for downstream analysis to get accurate results or to make a proper decision. Moreover, the existing scaling techniques are sensitive to outliers or extreme values. To fill the gap, our objective is to introduce a robust scaling approach that is not influenced by outliers as well as provides more accurate results for downstream analysis. Here, we introduced a new weighted scaling approach that is robust against outliers however, where no additional outlier detection/treatment step is needed in data preprocessing and also compared it with the conventional scaling and normalization techniques through artificial and real metabolomics datasets. We evaluated the performance of the proposed method in comparison to the other existing conventional scaling techniques using metabolomics data analysis in both the absence and presence of different percentages of outliers. Results show that in most cases, the proposed scaling technique performs better than the traditional scaling methods in both the absence and presence of outliers. The proposed method improves the further downstream metabolomics analysis. The R function of the proposed robust scaling method is available at https://github.com/nishithkumarpaul/robustScaling/blob/main/wscaling.R
翻訳日:2022-08-02 13:16:20 公開日:2022-08-01
# 線形構造方程式モデルの代数的制約に対する図形表現

Graphical Representations for Algebraic Constraints of Linear Structural Equations Models ( http://arxiv.org/abs/2208.00926v1 )

ライセンス: Link先を確認
Thijs van Ommen and Mathias Drton(参考訳) 線形構造方程式モデルの観測特性は、観測された共分散行列上の多項式制約によって効果的に記述できる。 しかし、これらの多項式は指数関数的に大きくなり、多くの目的のために非現実的である。 本稿では,これらの多項式制約の多くに対するグラフィカルな表記法を提案する。 この表記の表現力は理論的にも経験的にも研究されている。

The observational characteristics of a linear structural equation model can be effectively described by polynomial constraints on the observed covariance matrix. However, these polynomials can be exponentially large, making them impractical for many purposes. In this paper, we present a graphical notation for many of these polynomial constraints. The expressive power of this notation is investigated both theoretically and empirically.
翻訳日:2022-08-02 13:15:57 公開日:2022-08-01
# コーシー問題による視覚トランスフォーマーの逆ロバスト性理解

Understanding Adversarial Robustness of Vision Transformers via Cauchy Problem ( http://arxiv.org/abs/2208.00906v1 )

ライセンス: Link先を確認
Zheng Wang and Wenjie Ruan(参考訳) 近年のディープラーニングのロバスト性に関する研究では、視覚変換器(ViT)が、自然破壊や敵攻撃などの摂動の下で、畳み込みニューラルネットワーク(CNN)を超越していることが示されている。 一部の論文では、ViTの優れたロバスト性は入力画像のセグメンテーションに由来すると主張しているが、Multi-head Self-Attention (MSA) がロバスト性を維持する鍵であると主張する者もいる。 本稿では,vitのロバスト性に関する議論を調査するために,原理的かつ統一的な理論的枠組みを提案する。 まず、自然言語処理におけるトランスフォーマーとは異なり、ViTsがLipschitz連続であることを証明する。 次に、コーシー問題の観点から、理論的にViTの対角的ロバスト性を分析し、このロバスト性がどのように層を通して伝播するかを定量化する。 第一層と最後の層がvitのロバスト性に影響を与える重要な要因であることを実証する。 さらに,本理論に基づき,msaは,既存研究の主張と異なり,fgsmなどの弱い攻撃下でのvitsの敵対的堅牢性にのみ寄与すること,そして驚くべきことに,msaは実際には強力な攻撃(pgd攻撃など)の下で,モデルの敵対的強固性を構成すること,等を実証的に示す。

Recent research on the robustness of deep learning has shown that Vision Transformers (ViTs) surpass the Convolutional Neural Networks (CNNs) under some perturbations, e.g., natural corruption, adversarial attacks, etc. Some papers argue that the superior robustness of ViT comes from the segmentation of its input images; others say that the Multi-head Self-Attention (MSA) is the key to preserving the robustness. In this paper, we aim to introduce a principled and unified theoretical framework to investigate such an argument on ViT's robustness. We first theoretically prove that, unlike Transformers in Natural Language Processing, ViTs are Lipschitz continuous. Then we theoretically analyze the adversarial robustness of ViTs from the perspective of the Cauchy Problem, via which we can quantify how the robustness propagates through layers. We demonstrate that the first and last layers are the critical factors to affect the robustness of ViTs. Furthermore, based on our theory, we empirically show that unlike the claims from existing research, MSA only contributes to the adversarial robustness of ViTs under weak adversarial attacks, e.g., FGSM, and surprisingly, MSA actually comprises the model's adversarial robustness under stronger attacks, e.g., PGD attacks.
翻訳日:2022-08-02 13:11:15 公開日:2022-08-01
# 深部強化学習におけるアクタクリティカルアルゴリズムのオフポリティ補正

Off-Policy Correction for Actor-Critic Algorithms in Deep Reinforcement Learning ( http://arxiv.org/abs/2208.00755v1 )

ライセンス: Link先を確認
Baturay Saglam, Dogan C. Cicek, Furkan B. Mutlu, Suleyman S. Kozat(参考訳) オンライン政策勾配法と比較すると,事前収集データを用いた非政治モデルフリー深部強化学習(RL)アプローチはサンプリング効率を向上させることができる。 しかし、関心の政策の分布とデータを収集した政策との相違が大きくなると、政治以外の学習は困難になる。 この矛盾を補うために、よく研究された重要度サンプリングとオフポリシーの政策勾配技術が提案されたが、それらは通常、計算の複雑さを増加させ、勾配の消失や爆発のような追加の問題を引き起こす長い軌道の集まりを必要とする。 さらに、連続的なアクションドメインへの一般化は、決定論的ポリシーには不向きなアクション確率を必要とするため、厳密に制限されている。 これらの制約を克服するために, 連続的な行動空間に対する代替のオフポリシー補正アルゴリズム, Actor-Critic Off-Policy Correction (AC-Off-POC)を導入する。 ランダムにサンプリングされた一連の遷移の状態に関するエージェントの最近の行動決定によって計算された新しい不一致測定によって、このアプローチは、任意のポリシーに対して実際のまたは推定された行動確率を必要としず、適切な一段階の重要サンプリングを提供する。 理論的な結果は、導入されたアプローチが固定された一意点を持つ縮退写像を達成できることを示している。 実験結果から,AC-Off-POCはQ-ラーニングとポリシー最適化の学習率を効率的にスケジューリングすることにより,最先端の手法を一貫して改善し,競合手法よりも少ないステップで高いリターンを達成することが示唆された。

Compared to on-policy policy gradient techniques, off-policy model-free deep reinforcement learning (RL) approaches that use previously gathered data can improve sampling efficiency. However, off-policy learning becomes challenging when the discrepancy between the distributions of the policy of interest and the policies that collected the data increases. Although the well-studied importance sampling and off-policy policy gradient techniques were proposed to compensate for this discrepancy, they usually require a collection of long trajectories that increases the computational complexity and induce additional problems such as vanishing or exploding gradients. Moreover, their generalization to continuous action domains is strictly limited as they require action probabilities, which is unsuitable for deterministic policies. To overcome these limitations, we introduce an alternative off-policy correction algorithm for continuous action spaces, Actor-Critic Off-Policy Correction (AC-Off-POC), to mitigate the potential drawbacks introduced by the previously collected data. Through a novel discrepancy measure computed by the agent's most recent action decisions on the states of the randomly sampled batch of transitions, the approach does not require actual or estimated action probabilities for any policy and offers an adequate one-step importance sampling. Theoretical results show that the introduced approach can achieve a contraction mapping with a fixed unique point, which allows a "safe" off-policy learning. Our empirical results suggest that AC-Off-POC consistently improves the state-of-the-art and attains higher returns in fewer steps than the competing methods by efficiently scheduling the learning rate in Q-learning and policy optimization.
翻訳日:2022-08-02 13:06:55 公開日:2022-08-01
# オンラインおよびオフライン深層強化学習を用いた保守計画フレームワーク

A Maintenance Planning Framework using Online and Offline Deep Reinforcement Learning ( http://arxiv.org/abs/2208.00808v1 )

ライセンス: Link先を確認
Zaharah A. Bukhsh, Nils Jansen, Hajo Molegraaf(参考訳) コスト効率のよい資産管理は、いくつかの産業にまたがる関心の領域である。 具体的には,水管の連続劣化に対する最適再生方針を自動決定する深部強化学習(DRL)ソリューションを開発した。 オンラインおよびオフラインDRL設定におけるリハビリテーション計画の問題にアプローチする。 オンラインDRLでは、エージェントは異なる長さ、材料、故障率特性を持つ複数のパイプのシミュレーション環境と相互作用する。 エージェントは、DQN(Deep Q-learning)を用いて、最小限の平均コストと失敗確率の低減で最適なポリシーを学ぶように訓練する。 オフライン学習において、エージェントは静的データ、例えばDQNリプレイデータを使用して、環境とのさらなる相互作用なしに保守的なQ-ラーニングアルゴリズムを介して最適なポリシーを学習する。 我々は、drlベースのポリシーが、標準の予防、是正、および欲深い計画の代替案よりも改善できることを実証する。 さらに、固定DQNリプレイデータセットからの学習は、オンラインDQN設定を超える。 その結果,大規模で多様な状態と行動軌跡からなる水道管の既存の劣化プロファイルは,シミュレータを必要とせずにオフライン環境でのリハビリテーション政策を学ぶ上で有用な手段であることがわかった。

Cost-effective asset management is an area of interest across several industries. Specifically, this paper develops a deep reinforcement learning (DRL) solution to automatically determine an optimal rehabilitation policy for continuously deteriorating water pipes. We approach the problem of rehabilitation planning in an online and offline DRL setting. In online DRL, the agent interacts with a simulated environment of multiple pipes with distinct length, material, and failure rate characteristics. We train the agent using deep Q-learning (DQN) to learn an optimal policy with minimal average costs and reduced failure probability. In offline learning, the agent uses static data, e.g., DQN replay data, to learn an optimal policy via a conservative Q-learning algorithm without further interactions with the environment. We demonstrate that DRL-based policies improve over standard preventive, corrective, and greedy planning alternatives. Additionally, learning from the fixed DQN replay dataset surpasses the online DQN setting. The results warrant that the existing deterioration profiles of water pipes consisting of large and diverse states and action trajectories provide a valuable avenue to learn rehabilitation policies in the offline setting without needing a simulator.
翻訳日:2022-08-02 13:06:25 公開日:2022-08-01
# beyond knn: 最適輸送による適応的、スパースな近傍グラフ

Beyond kNN: Adaptive, Sparse Neighborhood Graphs via Optimal Transport ( http://arxiv.org/abs/2208.00604v1 )

ライセンス: Link先を確認
Tetsuya Matsumoto, Stephen Zhang, Geoffrey Schiebinger(参考訳) 近辺のグラフはデータセットの幾何やトポロジをキャプチャするために広く使われている。 そのようなグラフを構成する最も一般的な戦略の1つは、各点に対して固定数 k の近傍 (knn) を選択することである。 しかし、サンプリング密度やノイズレベルがデータセットによって異なる場合、kNNヒューリスティックは不適切になる可能性がある。 これを回避しようとする戦略は、通常、チューニングが必要な追加のパラメータをもたらす。 2次正規化最適輸送に基づく1つのパラメータから適応的近傍グラフを構築するための簡単な手法を提案する。 この方法で構築されたグラフは,教師なしおよび半教師なし学習アプリケーションにおいて好適に機能することを示す。

Nearest neighbour graphs are widely used to capture the geometry or topology of a dataset. One of the most common strategies to construct such a graph is based on selecting a fixed number k of nearest neighbours (kNN) for each point. However, the kNN heuristic may become inappropriate when sampling density or noise level varies across datasets. Strategies that try to get around this typically introduce additional parameters that need to be tuned. We propose a simple approach to construct an adaptive neighbourhood graph from a single parameter, based on quadratically regularised optimal transport. Our numerical experiments show that graphs constructed in this manner perform favourably in unsupervised and semi-supervised learning applications.
翻訳日:2022-08-02 13:05:05 公開日:2022-08-01
# 誘導的交通信号制御のためのモデルベースグラフ強化学習

Model-based graph reinforcement learning for inductive traffic signal control ( http://arxiv.org/abs/2208.00659v1 )

ライセンス: Link先を確認
Fran\c{c}ois-Xavier Devailly, Denis Larocque, Laurent Charlin(参考訳) 適応的信号制御のための強化学習手法の多くは、新しい交差点や道路網、交通分布、あるいは訓練中に経験した行動制約の変更の後に、スクラッチからトレーニングを行う必要がある。 考える 1)そのような方法の訓練に必要な膨大な経験、及び 2) その経験は, 実際の道路網利用者との探索的なインタラクションによって収集されなければならない。 近年のアプローチは、未確認の道路ネットワークトポロジや交通分布を一般化する学習ポリシーを実現し、この課題を部分的に解決している。 しかし、文献は循環の学習(交点における接続の進化はサイクルを尊重しなければならない)と非循環的(制約のない)ポリシーと、これらの伝達可能な方法とに分けられている。 1) 循環的制約とのみ対応し, 2) 調整を許可しない。 モデルに基づく新しい手法である MuJAM を導入する。これは,大規模で明示的な協調を可能にする上で,コントローラの制約を一般化することで,一般化をさらに進める。 マンハッタンの交通信号制御装置3,971台を制御した大規模な移動実験では,循環的制約と非循環的制約の両方を用いて,MJAMがドメイン固有のベースラインを上回り,他の転送可能なアプローチよりも優れていることを示す。

Most reinforcement learning methods for adaptive-traffic-signal-control require training from scratch to be applied on any new intersection or after any modification to the road network, traffic distribution, or behavioral constraints experienced during training. Considering 1) the massive amount of experience required to train such methods, and 2) that experience must be gathered by interacting in an exploratory fashion with real road-network-users, such a lack of transferability limits experimentation and applicability. Recent approaches enable learning policies that generalize for unseen road-network topologies and traffic distributions, partially tackling this challenge. However, the literature remains divided between the learning of cyclic (the evolution of connectivity at an intersection must respect a cycle) and acyclic (less constrained) policies, and these transferable methods 1) are only compatible with cyclic constraints and 2) do not enable coordination. We introduce a new model-based method, MuJAM, which, on top of enabling explicit coordination at scale for the first time, pushes generalization further by allowing a generalization to the controllers' constraints. In a zero-shot transfer setting involving both road networks and traffic settings never experienced during training, and in a larger transfer experiment involving the control of 3,971 traffic signal controllers in Manhattan, we show that MuJAM, using both cyclic and acyclic constraints, outperforms domain-specific baselines as well as another transferable approach.
翻訳日:2022-08-02 13:04:54 公開日:2022-08-01
# ニューラルネットワークが階層的タスクをいかに学習するか

How Wide Convolutional Neural Networks Learn Hierarchical Tasks ( http://arxiv.org/abs/2208.01003v1 )

ライセンス: Link先を確認
Francesco Cagnetta, Alessandro Favero and Matthieu Wyart(参考訳) 彼らの成功にもかかわらず、畳み込みニューラルネットワーク(CNN)が高次元関数を効率的に学習する方法を理解することは、根本的な課題である。 一般的な考えでは、これらのモデルは画像などの自然データの合成と階層構造を利用する。 しかし、そのような構造がパフォーマンスに与える影響を定量的に理解していない。例えば、トレーニングサンプルの数による一般化誤差の減衰率である。 本稿ではカーネルシステムにおける深部CNNについて述べる。 一 対応するカーネルとその漸近性のスペクトルがネットワークの階層構造を継承していることを示す。 二 一般化境界を用いて、深部CNNが目標関数の空間スケールに適応していることを証明すること。 三 教師学生の設定における誤差の減衰率を計算し、この結果を説明する。そこで、深度CNNがランダムに初期化パラメータを持つ別の深度CNNの出力に基づいて訓練される。 教師関数が入力変数のある種の低次元部分集合に依存する場合、その割合はこれらの部分集合の有効次元性によって制御される。 逆に、教師関数が入力変数の完全な集合に依存する場合、誤差率は入力次元に逆比例する。 興味深いことに、その階層構造にもかかわらず、深層cnnによって生成される関数は豊かすぎて、高次元で効率的に学習できない。

Despite their success, understanding how convolutional neural networks (CNNs) can efficiently learn high-dimensional functions remains a fundamental challenge. A popular belief is that these models harness the compositional and hierarchical structure of natural data such as images. Yet, we lack a quantitative understanding of how such structure affects performances, e.g. the rate of decay of the generalisation error with the number of training samples. In this paper we study deep CNNs in the kernel regime: i) we show that the spectrum of the corresponding kernel and its asymptotics inherit the hierarchical structure of the network; ii) we use generalisation bounds to prove that deep CNNs adapt to the spatial scale of the target function; iii) we illustrate this result by computing the rate of decay of the error in a teacher-student setting, where a deep CNN is trained on the output of another deep CNN with randomly-initialised parameters. We find that if the teacher function depends on certain low-dimensional subsets of the input variables, then the rate is controlled by the effective dimensionality of these subsets. Conversely, if the teacher function depends on the full set of input variables, then the error rate is inversely proportional to the input dimension. Interestingly, this implies that despite their hierarchical structure, the functions generated by deep CNNs are too rich to be efficiently learnable in high dimension.
翻訳日:2022-08-02 13:04:28 公開日:2022-08-01
# 強化学習による手術相転移の検索

Retrieval of surgical phase transitions using reinforcement learning ( http://arxiv.org/abs/2208.00902v1 )

ライセンス: Link先を確認
Yitong Zhang, Sophia Bano, Ann-Sophie Page, Jan Deprest, Danail Stoyanov, Francisco Vasconcelos(参考訳) 最小限の侵襲手術では、ビデオ解析による手術ワークフローの分割がよく研究されている。 従来の手法では、個々のビデオフレームを手術フェーズラベルとみなすマルチクラス分類問題として定義されている。 オフライン位相遷移検索のための新しい強化学習形式を導入する。 すべてのビデオフレームを分類する代わりに、各フェーズ遷移のタイムスタンプを特定します。 構成上, 本モデルでは, スプリアス相転移やノイズ相転移は生じず, 連続相ブロックを発生させる。 このモデルの2つの異なる構成について検討する。 1つはビデオ中のすべてのフレーム(2つの異なるアプリケーションにおけるフレームの60%と20%のみ)を処理する必要はないが、その結果は最先端の精度よりわずかに低い。 第2の構成は、すべてのビデオフレームを処理し、同等の計算コストで最先端の処理を行う。 提案手法は,公共データセットColec80のTeCNOとTrans-SVNet,および腹腔鏡下サロコポペキシーの社内データセット上での最近のトップパフォーマンスフレームベースアプローチと比較した。 我々は、フレームベース(精度、精度、リコール、F1スコア)とイベントベース(イベント比)の両方でアルゴリズムの評価を行う。

In minimally invasive surgery, surgical workflow segmentation from video analysis is a well studied topic. The conventional approach defines it as a multi-class classification problem, where individual video frames are attributed a surgical phase label. We introduce a novel reinforcement learning formulation for offline phase transition retrieval. Instead of attempting to classify every video frame, we identify the timestamp of each phase transition. By construction, our model does not produce spurious and noisy phase transitions, but contiguous phase blocks. We investigate two different configurations of this model. The first does not require processing all frames in a video (only <60% and <20% of frames in 2 different applications), while producing results slightly under the state-of-the-art accuracy. The second configuration processes all video frames, and outperforms the state-of-the art at a comparable computational cost. We compare our method against the recent top-performing frame-based approaches TeCNO and Trans-SVNet on the public dataset Cholec80 and also on an in-house dataset of laparoscopic sacrocolpopexy. We perform both a frame-based (accuracy, precision, recall and F1-score) and an event-based (event ratio) evaluation of our algorithms.
翻訳日:2022-08-02 13:00:30 公開日:2022-08-01
# フローシートからの学習:フローシートの自動補完のための生成トランスモデル

Learning from flowsheets: A generative transformer model for autocompletion of flowsheets ( http://arxiv.org/abs/2208.00859v1 )

ライセンス: Link先を確認
Gabriel Vogel and Lukas Schulze Balhorn and Artur M. Schweidtmann(参考訳) ケミカルフローシートの自動補完を可能にする新しい手法を提案する。 このアイデアはテキストの自動補完に着想を得ている。 本研究では、テキストベースのSFILES 2.0表記法を用いてフローシートを文字列として表現し、変換器ベースの言語モデルを用いて、フローシートにおけるSFILES 2.0言語の文法構造と共通パターンを学習する。 我々は、フローシート言語文法を学ぶために、合成生成フローシートに関するモデルを事前学習する。 次に,実際のフローシートトポロジ上での転送学習ステップでモデルを微調整する。 最後に、訓練されたモデルを用いて因果言語モデリングを行い、フローシートを自動補完する。 提案手法は, 対話型フローシート合成において, 化学工学者を推薦することができる。 この結果は、将来のAI支援プロセス合成におけるこのアプローチの可能性を示している。

We propose a novel method enabling autocompletion of chemical flowsheets. This idea is inspired by the autocompletion of text. We represent flowsheets as strings using the text-based SFILES 2.0 notation and learn the grammatical structure of the SFILES 2.0 language and common patterns in flowsheets using a transformer-based language model. We pre-train our model on synthetically generated flowsheets to learn the flowsheet language grammar. Then, we fine-tune our model in a transfer learning step on real flowsheet topologies. Finally, we use the trained model for causal language modeling to autocomplete flowsheets. Eventually, the proposed method can provide chemical engineers with recommendations during interactive flowsheet synthesis. The results demonstrate a high potential of this approach for future AI-assisted process synthesis.
翻訳日:2022-08-02 12:59:32 公開日:2022-08-01
# 常微分方程式をもつ潜在空間における合成可能なテキスト制御演算

Composable Text Control Operations in Latent Space with Ordinary Differential Equations ( http://arxiv.org/abs/2208.00638v1 )

ライセンス: Link先を確認
Guangyi Liu, Zeyu Feng, Yuan Gao, Zichao Yang, Xiaodan Liang, Junwei Bao, Xiaodong He, Shuguang Cui, Zhen Li, Zhiting Hu(参考訳) 現実世界のテキストアプリケーションは、属性のテキストを編集したり、キーワードや構造を操作したり、所望のプロパティの新しいテキストを生成するなど、幅広いテキスト制御操作を行うことが多い。 従来の作業は通常、個別または特定の操作サブセットを実行するために言語モデル(LM)を学習/微調整する。 近年の研究では、複雑なシーケンス空間におけるコストのかかる探索や最適化を伴う、プラグ・アンド・プレイ方式の操作の組み合わせを研究している。 本稿では,コンパクトテキスト空間における構成可能なテキスト操作のための新しい効率的なアプローチを提案する。 テキスト潜在ベクトルの低次元性と微分可能性により、任意のプラグイン演算子(例えば属性分類器)を与えられた通常の微分方程式(ODE)に基づいて効率的なサンプリング器を開発することができる。 事前訓練されたLM(例えば GPT2)を効率的な適応により潜在空間に接続することにより、サンプルベクトルを所望のテキストシーケンスにデコードする。 フレキシブルなアプローチでは、さまざまな制御演算子(知覚、緊張、形式、キーワードなど)が、異なるドメインから関連するデータを使って取得できる。 実験により,これらの操作者を構成することによって,高品質テキストの生成や編集が容易になり,従来手法に比べて生成品質や効率が大幅に向上することを示した。

Real-world text applications often involve composing a wide range of text control operations, such as editing the text w.r.t. an attribute, manipulating keywords and structure, and generating new text of desired properties. Prior work typically learns/finetunes a language model (LM) to perform individual or specific subsets of operations. Recent research has studied combining operations in a plug-and-play manner, often with costly search or optimization in the complex sequence space. This paper proposes a new efficient approach for composable text operations in the compact latent space of text. The low-dimensionality and differentiability of the text latent vector allow us to develop an efficient sampler based on ordinary differential equations (ODEs) given arbitrary plug-in operators (e.g., attribute classifiers). By connecting pretrained LMs (e.g., GPT2) to the latent space through efficient adaption, we then decode the sampled vectors into desired text sequences. The flexible approach permits diverse control operators (sentiment, tense, formality, keywords, etc.) acquired using any relevant data from different domains. Experiments show that composing those operators within our approach manages to generate or edit high-quality text, substantially improving over previous methods in terms of generation quality and efficiency.
翻訳日:2022-08-02 12:55:01 公開日:2022-08-01
# フランス語方言のデータ収集と分析

Data Collection and Analysis of French Dialects ( http://arxiv.org/abs/2208.00752v1 )

ライセンス: Link先を確認
Omar Shaur Choudhry, Paul Omara Odida, Joshua Reiner, Keiron Appleyard, Danielle Kushnir and William Toon(参考訳) 本稿では,データマイニングとテキスト分析のための新しいデータセットの作成と解析について論じ,国立方言コーパスのためのリーズ大学共同研究プロジェクトに寄与する。 本報告は,様々なフランス語を話す国でフランス語方言のサンプルを分類する機械学習分類器について検討する。 本報告では,CRISP-DM手法の手順に従って,テキスト解析のためのデータ収集プロセス,データ品質問題,データ変換について検討する。 最後に, 適切なデータマイニング手法を適用し, 評価方法, 最良の全体特徴, 分類器, 結論について考察した。

This paper discusses creating and analysing a new dataset for data mining and text analytics research, contributing to a joint Leeds University research project for the Corpus of National Dialects. This report investigates machine learning classifiers to classify samples of French dialect text across various French-speaking countries. Following the steps of the CRISP-DM methodology, this report explores the data collection process, data quality issues and data conversion for text analysis. Finally, after applying suitable data mining techniques, the evaluation methods, best overall features and classifiers and conclusions are discussed.
翻訳日:2022-08-02 12:54:39 公開日:2022-08-01
# XOOD:画像分類のための極値に基づく外部分布検出

XOOD: Extreme Value Based Out-Of-Distribution Detection For Image Classification ( http://arxiv.org/abs/2208.00629v1 )

ライセンス: Link先を確認
Frej Berglind, Haron Temam, Supratik Mukhopadhyay, Kamalika Das, Md Saiful Islam Sajol, Sricharan Kumar, Kumar Kallurupalli(参考訳) 機械学習の多くのアプリケーションにおいて、推論時にOOD(out-of-distriion)データを検出することが重要である。 本稿では、2つのアルゴリズムからなる画像分類のための新しい極値に基づくOOD検出フレームワークXOODを提案する。 第1のXOOD-Mは完全に監督されていないが、第2のXOOD-Lは自己監督されている。 どちらのアルゴリズムも、ニューラルネットワークのアクティベーション層におけるデータの極端な値によってキャプチャされた信号に依存して、分散中のインスタンスとOODインスタンスを区別する。 我々は,XOOD-MとXOOD-Lの両者が,多くのベンチマークデータセットに対して,効率と精度の両方で精度良く,偽陽性率(FPR95)を50%削減し,参照時間を桁違いに改善することを示した。

Detecting out-of-distribution (OOD) data at inference time is crucial for many applications of machine learning. We present XOOD: a novel extreme value-based OOD detection framework for image classification that consists of two algorithms. The first, XOOD-M, is completely unsupervised, while the second XOOD-L is self-supervised. Both algorithms rely on the signals captured by the extreme values of the data in the activation layers of the neural network in order to distinguish between in-distribution and OOD instances. We show experimentally that both XOOD-M and XOOD-L outperform state-of-the-art OOD detection methods on many benchmark data sets in both efficiency and accuracy, reducing false-positive rate (FPR95) by 50%, while improving the inferencing time by an order of magnitude.
翻訳日:2022-08-02 12:47:41 公開日:2022-08-01
# 動的バッチ適応

Dynamic Batch Adaptation ( http://arxiv.org/abs/2208.00815v1 )

ライセンス: Link先を確認
Cristian Simionescu, George Stoica, Robert Herscovici(参考訳) 現在のディープラーニング適応最適化手法は、各パラメータが使用する効果的な学習率を変化させることで、パラメータ更新のステップサイズを調整する。 更新ステップの大きさにおけるバッチサイズと学習率の既知の逆関係に動機づけられ、現在の更新ステップの次元と構成を動的に決定する新しいトレーニング手順を導入する。 提案手法である動的バッチ適応(dba)は,各サンプルの勾配を解析し,ネットワークの各レイヤの勾配分散など,特定のメトリックを最も良くするサブセットを選択する。 DBAはモデル収束の速度を大幅に改善することを示す。 さらに、DBAは、データ不足時に標準オプティマイザよりも改善され、収束速度に加えて、モデル一般化も大幅に向上し、MNISTデータセットのわずか1%を使用して単一の完全に接続された隠れ層でネットワークをトレーニングし、97.79%のテスト精度に達する。 さらに極端なシナリオでは、クラス毎に10サンプルしか使用せず、97.44%のテスト精度に達する。 これらの結果は、標準オプティマイザであるStochastic Gradient Descent (SGD)とAdamと比較して、それぞれ81.78%と88.07%の相対誤差率の低下を示している。

Current deep learning adaptive optimizer methods adjust the step magnitude of parameter updates by altering the effective learning rate used by each parameter. Motivated by the known inverse relation between batch size and learning rate on update step magnitudes, we introduce a novel training procedure that dynamically decides the dimension and the composition of the current update step. Our procedure, Dynamic Batch Adaptation (DBA) analyzes the gradients of every sample and selects the subset that best improves certain metrics such as gradient variance for each layer of the network. We present results showing DBA significantly improves the speed of model convergence. Additionally, we find that DBA produces an increased improvement over standard optimizers when used in data scarce conditions where, in addition to convergence speed, it also significantly improves model generalization, managing to train a network with a single fully connected hidden layer using only 1% of the MNIST dataset to reach 97.79% test accuracy. In an even more extreme scenario, it manages to reach 97.44% test accuracy using only 10 samples per class. These results represent a relative error rate reduction of 81.78% and 88.07% respectively, compared to the standard optimizers, Stochastic Gradient Descent (SGD) and Adam.
翻訳日:2022-08-02 12:47:25 公開日:2022-08-01
# 視覚的質問応答に対する生成バイアス

Generative Bias for Visual Question Answering ( http://arxiv.org/abs/2208.00690v1 )

ライセンス: Link先を確認
Jae Won Cho, Dong-jin Kim, Hyeonggon Ryu, In So Kweon(参考訳) VQA(Visual Question Answering)のタスクは、データセット内のバイアスを利用して最終的な予測を行うVQAモデルの問題に悩まされていることが知られている。 多くの従来のアンサンブルに基づくデバイアス法では、ロバストターゲットモデルのトレーニングを支援するために、追加モデルにバイアスを負わせるように意図的に訓練する手法が提案されている。 しかし、これらの手法は、トレーニングデータのラベル統計や単一のモーダル分岐から直接モデルに対するバイアスを計算する。 対照的に,本研究では,対象vqaモデルが抱えるバイアスをよりよく学習するために,genb と呼ばれるバイアスモデル \emph{directly from the target model} を訓練するための生成法を提案する。 特に、genbは生成ネットワークを使用して、敵の目的と知識の蒸留の組み合わせを通してバイアスを学ぶ。 次に、GenBをバイアスモデルとしてターゲットモデルをデバイアス化し、VQA-CP2、VQA-CP1、GQA-OOD、VQA-CEなどの様々なVQAバイアスデータセットに対する手法の効果を広範な実験を通して示す。

The task of Visual Question Answering (VQA) is known to be plagued by the issue of VQA models exploiting biases within the dataset to make its final prediction. Many previous ensemble based debiasing methods have been proposed where an additional model is purposefully trained to be biased in order to aid in training a robust target model. However, these methods compute the bias for a model from the label statistics of the training data or directly from single modal branches. In contrast, in this work, in order to better learn the bias a target VQA model suffers from, we propose a generative method to train the bias model \emph{directly from the target model}, called GenB. In particular, GenB employs a generative network to learn the bias through a combination of the adversarial objective and knowledge distillation. We then debias our target model with GenB as a bias model, and show through extensive experiments the effects of our method on various VQA bias datasets including VQA-CP2, VQA-CP1, GQA-OOD, and VQA-CE.
翻訳日:2022-08-02 12:43:52 公開日:2022-08-01
# Evo* 2022 -- Late-Breaking Abstracts Volume

Evo* 2022 -- Late-Breaking Abstracts Volume ( http://arxiv.org/abs/2208.00555v1 )

ライセンス: Link先を確認
A.M. Mora, A.I. Esparcia-Alc\'azar(参考訳) マドリード(スペイン)で4月20日から22日まで開催されたEvo* 2022会議に提出されたラテンブレキング抽象書の巻 これらの論文は, バイオインスパイアド・メソッド(主に進化的計算)の異なるアプローチを様々な問題に適用するための研究と予備的な成果を提示する。

Volume with the Late-Breaking Abstracts submitted to the Evo* 2022 Conference, held in Madrid (Spain), from 20 to 22 of April. These papers present ongoing research and preliminary results investigating on the application of different approaches of Bioinspired Methods (mainly Evolutionary Computation) to different problems, most of them real world ones.
翻訳日:2022-08-02 12:43:31 公開日:2022-08-01
# 短文モデルを用いた効率的な長文理解

Efficient Long-Text Understanding with Short-Text Models ( http://arxiv.org/abs/2208.00748v1 )

ライセンス: Link先を確認
Maor Ivgi, Uri Shaham, Jonathan Berant(参考訳) トランスフォーマティブに基づく事前学習言語モデル(lms)は自然言語理解において普遍的であるが、二次的な複雑さのため、物語、科学記事、長い文書といった長いシーケンスに適用できない。 多数の効率的な変圧器が提案されているが、これらは通常、スクラッチから高価な事前訓練を必要とするカスタム実装に基づいている。 本研究では,sledle: slide-encoder と decoder を提案する。sledle: slide-encoder と decoder は,戦闘でテストされたショートテキストプリトレーニング lms を再利用し活用する,長いシーケンスを処理する単純なアプローチである。 具体的には、入力を重なり合うチャンクに分割し、それぞれを短文のLMエンコーダでエンコードし、事前訓練されたデコーダを使用してチャンク間で情報を融合する(fusion-in-decoder)。 我々は、SLEDが長いテキスト理解のための実行可能な戦略を提供し、SCROLLS(SCROLLS)に対する我々のアプローチを評価するための制御された実験を通して説明する。 SLEDは、最大50倍の大きさで、専用で高価な事前訓練ステップを必要とする特殊なモデルと競合している。

Transformer-based pretrained language models (LMs) are ubiquitous across natural language understanding, but cannot be applied to long sequences such as stories, scientific articles and long documents, due to their quadratic complexity. While a myriad of efficient transformer variants have been proposed, they are typically based on custom implementations that require expensive pretraining from scratch. In this work, we propose SLED: SLiding-Encoder and Decoder, a simple approach for processing long sequences that re-uses and leverages battle-tested short-text pretrained LMs. Specifically, we partition the input into overlapping chunks, encode each with a short-text LM encoder and use the pretrained decoder to fuse information across chunks (fusion-in-decoder). We illustrate through controlled experiments that SLED offers a viable strategy for long text understanding and evaluate our approach on SCROLLS, a benchmark with seven datasets across a wide range of language understanding tasks. We find that SLED is competitive with specialized models that are up to 50x larger and require a dedicated and expensive pretraining step.
翻訳日:2022-08-02 12:42:29 公開日:2022-08-01
# Unpredictable データを用いたFew-shot Adaptation

Few-shot Adaptation Works with UnpredicTable Data ( http://arxiv.org/abs/2208.01009v1 )

ライセンス: Link先を確認
Jun Shern Chan, Michael Pieler, Jonathan Jao, J\'er\'emy Scheurer, Ethan Perez(参考訳) 言語モデル(LM)に関する以前の研究は、多種多様なタスクのトレーニングが、新しいタスクにおける数ショット学習(FSL)のパフォーマンスを改善することを示している。 私たちはこれを極端なものにし、インターネットテーブルから413,299のタスクを自動的に抽出します。 結果のデータセットを微調整すると、自然言語処理(NLP)タスクにおけるFSLのパフォーマンスが向上するが、データセットスケールに比例しない。 実際、データセットの狭いサブセットは、しばしばより多様なデータセットよりも優れています。 例えば、support.google.comによるソフトウェアドキュメンテーションの微調整では、52の下流タスクで平均+7.5%の性能が向上し、40のNLPデータセット(+6.7%)のトレーニングに勝っている。 様々な狭いデータセットを微調整すると、テストタスク全体でも同様に広範囲に改善され、ドメイン適応からではなく、一般にFSLに適応することが示唆される。 fsl向上につながるデータセット間の明確なパターンを観察しておらず、特定のデータがfslになぜ役立つのかという疑問が残されている。

Prior work on language models (LMs) shows that training on a large number of diverse tasks improves few-shot learning (FSL) performance on new tasks. We take this to the extreme, automatically extracting 413,299 tasks from internet tables - orders of magnitude more than the next-largest public datasets. Finetuning on the resulting dataset leads to improved FSL performance on Natural Language Processing (NLP) tasks, but not proportionally to dataset scale. In fact, we find that narrow subsets of our dataset sometimes outperform more diverse datasets. For example, finetuning on software documentation from support.google.com raises FSL performance by a mean of +7.5% on 52 downstream tasks, which beats training on 40 human-curated NLP datasets (+6.7%). Finetuning on various narrow datasets leads to similar broad improvements across test tasks, suggesting that the gains are not from domain adaptation but adapting to FSL in general. We do not observe clear patterns between the datasets that lead to FSL gains, leaving open questions about why certain data helps with FSL.
翻訳日:2022-08-02 12:42:07 公開日:2022-08-01
# 共変量アライメントと概念アライメント--領域一般化の枠組み

Joint covariate-alignment and concept-alignment: a framework for domain generalization ( http://arxiv.org/abs/2208.00898v1 )

ライセンス: Link先を確認
Thuan Nguyen, Boyang Lyu, Prakash Ishwar, Matthias Scheutz, and Shuchin Aeron(参考訳) 本稿では,unseenドメインのリスクに対する新たな上限に基づく新しいドメイン一般化(dg)フレームワークを提案する。 特に,共変量シフトと既往領域間の概念シフトを共同で最小化し,未発見領域の性能を向上させることを提案する。 提案手法は,共変量-アリゲーションと概念-アリゲーションモジュールの任意の組み合わせによって実装できるが,本研究では,分布的アライメントのための確立されたアプローチ,すなわち最大平均偏差(mmd)と共分散アライメント(coral)を用いて,不変リスク最小化(irm)に基づく概念アライメントを行う。 以上の結果から,提案手法は,複数のデータセット上での領域一般化の最先端技術と同等以上の性能を示した。

In this paper, we propose a novel domain generalization (DG) framework based on a new upper bound to the risk on the unseen domain. Particularly, our framework proposes to jointly minimize both the covariate-shift as well as the concept-shift between the seen domains for a better performance on the unseen domain. While the proposed approach can be implemented via an arbitrary combination of covariate-alignment and concept-alignment modules, in this work we use well-established approaches for distributional alignment namely, Maximum Mean Discrepancy (MMD) and covariance Alignment (CORAL), and use an Invariant Risk Minimization (IRM)-based approach for concept alignment. Our numerical results show that the proposed methods perform as well as or better than the state-of-the-art for domain generalization on several data sets.
翻訳日:2022-08-02 12:40:53 公開日:2022-08-01
# 大規模言語モデルと逆チューリングテスト

Large Language Models and the Reverse Turing Test ( http://arxiv.org/abs/2207.14382v2 )

ライセンス: Link先を確認
Terrence Sejnowski(参考訳) 大規模言語モデル(llm)は変貌を遂げた。 それらは事前訓練された基礎モデルであり、様々な自然言語タスクに微調整を施すことができ、それぞれが以前別のネットワークモデルを必要としていた。 これは、人間の言語の並外れた汎用性に一歩近づいたものである。 GPT-3および近年のLaMDAは、いくつかの例で最小限のプライミングの後、多くのトピックで人間と対話することができる。 しかし、これらのLSMが自分たちの言っていることを理解しているか、あるいは知性の兆候を示すかについて、幅広い反応があった。 この高いばらつきは、LLMの3つのインタビューで、非常に異なる結論に達する。 この相違を説明する新たな可能性が明らかになった。 LLMのインテリジェンスに見えるのは、実際にインタビュアーのインテリジェンスを反映したミラーかもしれない。 もしそうなら、インタビューを勉強することで、llmの知性よりもインタビュアーの知性と信念について学んでいるかもしれません。 LLMがより能力を持つようになると、情報へのアクセスと利用の方法を変えるかもしれません。

Large Language Models (LLMs) have been transformative. They are pre-trained foundational models that can be adapted with fine tuning to many different natural language tasks, each of which previously would have required a separate network model. This is one step closer to the extraordinary versatility of human language. GPT-3 and more recently LaMDA can carry on dialogs with humans on many topics after minimal priming with a few examples. However, there has been a wide range of reactions on whether these LLMs understand what they are saying or exhibit signs of intelligence. This high variance is exhibited in three interviews with LLMs reaching wildly different conclusions. A new possibility was uncovered that could explain this divergence. What appears to be intelligence in LLMs may in fact be a mirror that reflects the intelligence of the interviewer, a remarkable twist that could be considered a Reverse Turing Test. If so, then by studying interviews we may be learning more about the intelligence and beliefs of the interviewer than the intelligence of the LLMs. As LLMs become more capable they may transform the way we access and use information.
翻訳日:2022-08-02 11:04:16 公開日:2022-08-01
# NeRFアテンションによるエンドツーエンドビュー合成

End-to-end View Synthesis via NeRF Attention ( http://arxiv.org/abs/2207.14741v2 )

ライセンス: Link先を確認
Zelin Zhao, Jiaya Jia(参考訳) 本稿では、ビュー合成のための単純なセク2セクの定式化を行い、そこでは、一組の光点を入力色として、その光に対応する出力色として取り出す。 このseq2seq定式化に標準トランスフォーマーを直接適用するには、2つの制限がある。 第一に、標準の注意はボリュームレンダリング手順に適さないため、合成ビューでは高周波成分が欠落している。 第二に、すべての光線とピクセルにグローバルな注意を向けることは極めて非効率である。 神経放射場 (NeRF) に着想を得て, 上記の問題に対処するためのNeRFアテンション (NeRFA) を提案する。 一方、NeRFAはボリュームレンダリング方程式をソフトな特徴変調法とみなしている。 このようにして、特徴変調は、nrfのようなインダクティブバイアスでトランスフォーマーを増強する。 一方、NeRFAは計算オーバーヘッドを低減するために多段階の注意を払っている。 さらに、NeRFAモデルは、光線とピクセルの相互作用を学ぶために、光線と画素変換器を採用する。 NeRFAは、DeepVoxels、Blender、LLFF、CO3Dの4つのデータセット上で、NeRFとNerFormerよりも優れたパフォーマンスを示している。 さらに、NeRFAは、単一シーンビュー合成とカテゴリ中心の新規ビュー合成という2つの設定の下で、新しい最先端技術を確立する。 コードは公開される予定だ。

In this paper, we present a simple seq2seq formulation for view synthesis where we take a set of ray points as input and output colors corresponding to the rays. Directly applying a standard transformer on this seq2seq formulation has two limitations. First, the standard attention cannot successfully fit the volumetric rendering procedure, and therefore high-frequency components are missing in the synthesized views. Second, applying global attention to all rays and pixels is extremely inefficient. Inspired by the neural radiance field (NeRF), we propose the NeRF attention (NeRFA) to address the above problems. On the one hand, NeRFA considers the volumetric rendering equation as a soft feature modulation procedure. In this way, the feature modulation enhances the transformers with the NeRF-like inductive bias. On the other hand, NeRFA performs multi-stage attention to reduce the computational overhead. Furthermore, the NeRFA model adopts the ray and pixel transformers to learn the interactions between rays and pixels. NeRFA demonstrates superior performance over NeRF and NerFormer on four datasets: DeepVoxels, Blender, LLFF, and CO3D. Besides, NeRFA establishes a new state-of-the-art under two settings: the single-scene view synthesis and the category-centric novel view synthesis. The code will be made publicly available.
翻訳日:2022-08-02 11:04:00 公開日:2022-08-01
# 多様なビデオからのグラフ逆強化学習

Graph Inverse Reinforcement Learning from Diverse Videos ( http://arxiv.org/abs/2207.14299v2 )

ライセンス: Link先を確認
Sateesh Kumar, Jonathan Zamora, Nicklas Hansen, Rishabh Jangir, Xiaolong Wang(参考訳) 3人称ビデオからの逆強化学習(IRL)の研究は、ロボット作業のための手動報酬設計の必要性を除去するための奨励的な結果を示している。 しかし、以前の作品のほとんどは、ビデオの比較的限られた領域からのトレーニングによって制限されている。 本稿では,3人称IRLの真の可能性は,ビデオの多様性を高めることにある,と論じる。 様々なビデオから報奨機能を学ぶために,動画上でグラフ抽象化を行い,そのグラフ空間で時間マッチングを行い,タスクの進捗を計測する。 私たちの洞察では、タスクはグラフを形成するエンティティ相互作用によって記述することができ、このグラフ抽象化はテクスチャのような無関係な情報を取り除くのに役立ち、より堅牢な報酬関数をもたらす。 我々は,X-MRIにおけるクロスボデーメント学習と実ロボット操作のための人間の実演からの学習に対するアプローチであるGraphIRLを評価した。 従来の手法よりも多種多様なビデオデモに対するロバスト性を大幅に向上させ,実際のロボットプッシュタスクにおいて手動報酬設計よりも優れた結果が得られることを示した。 ビデオはhttps://sateeshkumar21.github.io/graphirlで閲覧できる。

Research on Inverse Reinforcement Learning (IRL) from third-person videos has shown encouraging results on removing the need for manual reward design for robotic tasks. However, most prior works are still limited by training from a relatively restricted domain of videos. In this paper, we argue that the true potential of third-person IRL lies in increasing the diversity of videos for better scaling. To learn a reward function from diverse videos, we propose to perform graph abstraction on the videos followed by temporal matching in the graph space to measure the task progress. Our insight is that a task can be described by entity interactions that form a graph, and this graph abstraction can help remove irrelevant information such as textures, resulting in more robust reward functions. We evaluate our approach, GraphIRL, on cross-embodiment learning in X-MAGICAL and learning from human demonstrations for real-robot manipulation. We show significant improvements in robustness to diverse video demonstrations over previous approaches, and even achieve better results than manual reward design on a real robot pushing task. Videos are available at https://sateeshkumar21.github.io/GraphIRL .
翻訳日:2022-08-02 11:03:39 公開日:2022-08-01
# マルチモーダルトラッキングのためのプロンプト

Prompting for Multi-Modal Tracking ( http://arxiv.org/abs/2207.14571v2 )

ライセンス: Link先を確認
Jinyu Yang and Zhe Li and Feng Zheng and Ale\v{s} Leonardis and Jingkuan Song(参考訳) マルチモーダルトラッキングは、従来のrgbベースのトラッキングよりも複雑なシナリオで正確で堅牢であることから注目を集めている。 その鍵は、マルチモーダルデータを融合し、モダリティ間のギャップを減らす方法にある。 しかし、マルチモーダルトラッキングは依然としてデータ不足に苦しむため、融合モジュールの学習が不十分になる。 本稿では、このような融合モジュールを構築する代わりに、マルチモーダル視覚プロンプトに重きを置くことで、マルチモーダルトラッキングの新しい視点を提供する。 我々は,マルチモーダル入力をプロンプトパラダイムによって単一のモーダルに転送可能な,新しいマルチモーダルプロンプトトラッカ(protrack)を設計した。 事前学習したrgbトラッカの追跡能力を最大限に活用することで,マルチモーダルデータのトレーニングを必要とせずとも,入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。 5つのベンチマークデータセットに関する広範な実験は、提案するprotrackの有効性を示している。

Multi-modal tracking gains attention due to its ability to be more accurate and robust in complex scenarios compared to traditional RGB-based tracking. Its key lies in how to fuse multi-modal data and reduce the gap between modalities. However, multi-modal tracking still severely suffers from data deficiency, thus resulting in the insufficient learning of fusion modules. Instead of building such a fusion module, in this paper, we provide a new perspective on multi-modal tracking by attaching importance to the multi-modal visual prompts. We design a novel multi-modal prompt tracker (ProTrack), which can transfer the multi-modal inputs to a single modality by the prompt paradigm. By best employing the tracking ability of pre-trained RGB trackers learning at scale, our ProTrack can achieve high-performance multi-modal tracking by only altering the inputs, even without any extra training on multi-modal data. Extensive experiments on 5 benchmark datasets demonstrate the effectiveness of the proposed ProTrack.
翻訳日:2022-08-02 11:03:19 公開日:2022-08-01
# コンテンツ指向学習画像圧縮

Content-oriented learned image compression ( http://arxiv.org/abs/2207.14168v2 )

ライセンス: Link先を確認
Meng Li, Shangyin Gao, Yihui Feng, Yibo Shi, and Jing Wang(参考訳) 近年、ディープニューラルネットワークの発展に伴い、エンドツーエンドに最適化された画像圧縮が大幅に進歩し、レート歪み性能の点で古典的手法を上回っている。 しかし、ほとんどの学習ベースの画像圧縮手法はラベルがなく、モデルを最適化する際に画像意味論や内容を考慮していない。 実際、人間の目は異なる内容に対して異なる感性を持っているため、画像の内容も考慮する必要がある。 本稿では,様々な種類の画像コンテンツを異なる戦略で処理する,コンテンツ指向の画像圧縮手法を提案する。 実験の結果,提案手法は最先端の学習画像圧縮手法や古典的手法と比較して,競合する主観的な結果が得られることがわかった。

In recent years, with the development of deep neural networks, end-to-end optimized image compression has made significant progress and exceeded the classic methods in terms of rate-distortion performance. However, most learning-based image compression methods are unlabeled and do not consider image semantics or content when optimizing the model. In fact, human eyes have different sensitivities to different content, so the image content also needs to be considered. In this paper, we propose a content-oriented image compression method, which handles different kinds of image contents with different strategies. Extensive experiments show that the proposed method achieves competitive subjective results compared with state-of-the-art end-to-end learned image compression methods or classic methods.
翻訳日:2022-08-02 11:03:02 公開日:2022-08-01