このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211207となっている論文です。

PDF登録状況(公開日: 20211207)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 人道的利益のための信頼されたヒューマンaiネットワークの開発 [全文訳有]

Developing a Trusted Human-AI Network for Humanitarian Benefit ( http://arxiv.org/abs/2112.11191v1 )

ライセンス: CC BY 4.0
Susannah Kate Devitt, Jason Scholz, Timo Schless, Larry Lewis(参考訳) 人間と人工知能(AI)は、デジタルおよび物理的に紛争に参加しているが、エージェントやプラットフォーム間の信頼できるコミュニケーションが欠如している。 例えば、災害や紛争の人間はすでにメッセージやソーシャルメディアを使って情報を共有しているが、国際的な人道支援組織はこの情報を検証不可能で信頼できないものとして扱う。 AIは「戦前の恐怖」を減らし、成果を改善するが、AIの実装は不安定で、適用範囲が狭く、倫理的リスクも広い。 一方、人的ミスは国際人道法に従おうとする戦闘員にも重大な民間人的被害をもたらす。 AIは戦争の悲劇を減らし、それを必要とする人々に人道支援を提供する機会を提供する。 本稿では、通信プロトコル(「ホワイトフラッグプロトコル」)、分散台帳技術、および人工知能(ai)との情報融合を統合し、「保護保証理解状況と実体」(pause)と呼ばれる紛争コミュニケーションを改善することを検討する。 このような信頼できる人間-AIコミュニケーションネットワークは、人間と機械の紛争における保護された実体、重要なインフラ、人道的信号、ステータス更新に関する説明可能な情報交換を提供することができる。

Humans and artificial intelligences (AI) will increasingly participate digitally and physically in conflicts, yet there is a lack of trusted communications across agents and platforms. For example, humans in disasters and conflict already use messaging and social media to share information, however, international humanitarian relief organisations treat this information as unverifiable and untrustworthy. AI may reduce the 'fog-of-war' and improve outcomes, however AI implementations are often brittle, have a narrow scope of application and wide ethical risks. Meanwhile, human error causes significant civilian harms even by combatants committed to complying with international humanitarian law. AI offers an opportunity to help reduce the tragedy of war and deliver humanitarian aid to those who need it. In this paper we consider the integration of a communications protocol (the 'Whiteflag protocol'), distributed ledger technology, and information fusion with artificial intelligence (AI), to improve conflict communications called 'Protected Assurance Understanding Situation and Entities' (PAUSE). Such a trusted human-AI communication network could provide accountable information exchange regarding protected entities, critical infrastructure; humanitarian signals and status updates for humans and machines in conflicts.
翻訳日:2021-12-26 15:12:35 公開日:2021-12-07
# (参考訳) 意味応答型と関係予測タスク(SMART 2021) [全文訳有]

Semantic Answer Type and Relation Prediction Task (SMART 2021) ( http://arxiv.org/abs/2112.07606v1 )

ライセンス: CC BY 4.0
Nandana Mihindukulasooriya, Mohnish Dubey, Alfio Gliozzo, Jens Lehmann, Axel-Cyrille Ngonga Ngomo, Ricardo Usbeck, Gaetano Rossiello, Uttam Kumar(参考訳) 毎年国際セマンティックウェブ会議がセマンティックウェブチャレンジを組織し、いくつかの問題領域における最先端のソリューションを前進させる競争を確立する。 セマンティック回答タイプと関係予測タスク(smart)タスクは、iswc 2021セマンティックwebチャレンジの1つです。 ISWC 2020でのSMART 2020の成功に続く2年目となる。 今年のバージョンでは、知識ベース質問回答(KBQA: Answer Type Prediction and Relation Prediction)において非常に重要な2つのサブタスクに焦点を当てている。 質問タイプと回答タイプ予測は、正しい質問を生成したり、回答候補をランク付けするのに役立つ期待される回答についての洞察を提供する知識ベース質問応答システムにおいて重要な役割を果たす。 より具体的には、自然言語の質問が与えられた場合、第一のタスクは、ターゲットオントロジー(例えばDBpediaやWikidata)を使って答えの型を予測することである。 同様に、第2のタスクは、自然言語クエリ内の関係を識別し、ターゲットオントロジー内の関係とリンクすることである。 本稿では,タスク記述,ベンチマークデータセット,評価指標について論じる。 詳細はhttps://smart-task.g ithub.io/2021/を参照。

Each year the International Semantic Web Conference organizes a set of Semantic Web Challenges to establish competitions that will advance state-of-the-art solutions in some problem domains. The Semantic Answer Type and Relation Prediction Task (SMART) task is one of the ISWC 2021 Semantic Web challenges. This is the second year of the challenge after a successful SMART 2020 at ISWC 2020. This year's version focuses on two sub-tasks that are very important to Knowledge Base Question Answering (KBQA): Answer Type Prediction and Relation Prediction. Question type and answer type prediction can play a key role in knowledge base question answering systems providing insights about the expected answer that are helpful to generate correct queries or rank the answer candidates. More concretely, given a question in natural language, the first task is, to predict the answer type using a target ontology (e.g., DBpedia or Wikidata. Similarly, the second task is to identify relations in the natural language query and link them to the relations in a target ontology. This paper discusses the task descriptions, benchmark datasets, and evaluation metrics. For more information, please visit https://smart-task.g ithub.io/2021/.
翻訳日:2021-12-19 14:56:16 公開日:2021-12-07
# (参考訳) ゴーデルの不完全性定理 [全文訳有]

Goedel's Incompleteness Theorem ( http://arxiv.org/abs/2112.06641v1 )

ライセンス: CC BY 4.0
Serafim Batzoglou(参考訳) ゴーデルの第一不完全性定理の証明を直感的に提示し、技術的に困難なステップをすべてカバーする。 ゴエデルの不動点補題を二文・多文版に一般化し、嘘つきのパラドックスの円形版による不完全性の証明を可能にする。 Goedel の完全性定理と Goedel の完全性定理の関係を論じ,これらの結果が数学,計算,心の理論,AI にもたらす影響について考察する。

I present the proof of Goedel's First Incompleteness theorem in an intuitive manner, while covering all technically challenging steps. I present generalizations of Goedel's fixed point lemma to two-sentence and multi-sentence versions, which allow proof of incompleteness through circular versions of the liar's paradox. I discuss the relation of Goedel's First and Second Incompletneness theorems to Goedel's Completeness theorems, and conclude with remarks on implications of these results for mathematics, computation, theory of mind and AI.
翻訳日:2021-12-19 14:47:58 公開日:2021-12-07
# (参考訳) ワイヤレスネットワークによる協調学習 : 序説 [全文訳有]

Collaborative Learning over Wireless Networks: An Introductory Overview ( http://arxiv.org/abs/2112.05559v1 )

ライセンス: CC BY 4.0
Emre Ozfatura and Deniz Gunduz and H. Vincent Poor(参考訳) この章では、主にワイヤレスデバイス間の協調トレーニングに焦点を当てます。 MLモデルのトレーニングは最適化問題の解決と同等であり、過去数十年にわたって多くの分散最適化アルゴリズムが開発されてきた。 これらの分散MLアルゴリズムは、データの局所性を提供する。つまり、ジョイントモデルは、各参加デバイスで利用可能なデータがローカルのままで、協調的にトレーニングすることができる。 これはプライバシーの懸念に対処するものだ。 また、多くのエッジデバイスに分散した計算リソースを活用できるため、計算スケーラビリティも提供する。 しかし、実際には、これはデバイス数で全体の学習速度が直線的に向上するわけではない。 これは部分的には、全体的な計算速度を制限する通信ボトルネックのためである。 さらに、無線デバイスはその計算能力において非常に異質であり、計算速度と通信速度は物理的要因により非常に時間的に変化する。 したがって、分散学習アルゴリズム、特に無線ネットワークエッジで実装するアルゴリズムは、デバイスの不均一性や確率的計算能力だけでなく、時間変化通信ネットワークの影響も考慮して慎重に設計する必要がある。

In this chapter, we will mainly focus on collaborative training across wireless devices. Training a ML model is equivalent to solving an optimization problem, and many distributed optimization algorithms have been developed over the last decades. These distributed ML algorithms provide data locality; that is, a joint model can be trained collaboratively while the data available at each participating device remains local. This addresses, to some extend, the privacy concern. They also provide computational scalability as they allow exploiting computational resources distributed across many edge devices. However, in practice, this does not directly lead to a linear gain in the overall learning speed with the number of devices. This is partly due to the communication bottleneck limiting the overall computation speed. Additionally, wireless devices are highly heterogeneous in their computational capabilities, and both their computation speed and communication rate can be highly time-varying due to physical factors. Therefore, distributed learning algorithms, particularly those to be implemented at the wireless network edge, must be carefully designed taking into account the impact of time-varying communication network as well as the heterogeneous and stochastic computation capabilities of devices.
翻訳日:2021-12-19 13:35:45 公開日:2021-12-07
# ラベリング振動データ生成のための生成逆ネットワーク

Generative Adversarial Networks for Labelled Vibration Data Generation ( http://arxiv.org/abs/2112.08195v1 )

ライセンス: Link先を確認
Furkan Luleci, F. Necati Catbas, Onur Avci(参考訳) 近年, 構造健康モニタリング (SHM) の実施が進み, 土木構造物の運用モーダル分析の利用が, 工学的構造物の評価・評価においてますます重要になっている。 機械学習(ML)とディープラーニング(DL)アルゴリズムは、過去数十年間、土木構造物の構造的損傷診断に使われてきた。 本論文では, 深部畳み込みニューラルネットワーク(DCNN)上に構築されたGAN(Generative Adversarial Networks)を導入し, 構造損傷診断に使用する人工ラベル付きデータを生成するためにWasserstein Distanceを用いた。 著者らは、開発した1次元W-DCGANモデルと、入力と非常によく似た振動データを生成した。 本稿では,SHM領域における振動データ生成手法について述べる。

As Structural Health Monitoring (SHM) being implemented more over the years, the use of operational modal analysis of civil structures has become more significant for the assessment and evaluation of engineering structures. Machine Learning (ML) and Deep Learning (DL) algorithms have been in use for structural damage diagnostics of civil structures in the last couple of decades. While collecting vibration data from civil structures is a challenging and expensive task for both undamaged and damaged cases, in this paper, the authors are introducing Generative Adversarial Networks (GAN) that is built on the Deep Convolutional Neural Network (DCNN) and using Wasserstein Distance for generating artificial labelled data to be used for structural damage diagnostic purposes. The authors named the developed model 1D W-DCGAN and successfully generated vibration data which is very similar to the input. The methodology presented in this paper will pave the way for vibration data generation for numerous future applications in the SHM domain.
翻訳日:2021-12-19 13:01:09 公開日:2021-12-07
# 構造健康モニタリングにおけるデータ生成のためのジェネレータネットワーク

Generative Adversarial Networks for Data Generation in Structural Health Monitoring ( http://arxiv.org/abs/2112.08196v1 )

ライセンス: Link先を確認
Furkan Luleci, F. Necati Catbas, Onur Avci(参考訳) 構造健康モニタリング(SHM)は、データサイエンスの分野での進歩から継続的に恩恵を受けている。 様々なタイプの人工知能(ai)手法が市民構造の評価と評価に利用されている。 AIでは、機械学習(ML)とディープラーニング(DL)アルゴリズムは、トレーニングに多くのデータセットを必要とする。 しかし、SHMアプリケーションでは、センサーを介して土木構造物からデータを収集することは高価であり、有用なデータ(関連するデータ)を得ることは困難である。 本稿では, グラディエントペナルティ(WDCGAN-GP)を用いた1次元Wasserstein損失深部畳み込み生成共振ネットワークを用いて, 入力に類似した損傷関連振動データセットを生成する。 振動に基づく損傷診断のために、1次元深層畳み込みニューラルネットワーク(1-d dcnn)を構築し、トレーニングし、実データと生成されたデータセットの両方でテストする。 両方のデータセットにおける1-D DCNNの分類結果は、互いに非常によく似ている。 本稿では,DLやMLに基づく損傷診断において不十分なデータに対して,1次元WDCGAN-GPがトレーニング対象モデルのデータを生成可能であることを示す。 キーワード:1-D Generative Adversarial Networks (GAN), Deep Convolutional Generative Adversarial Networks (DCGAN), Wasserstein Generative Adversarial Networks with Gradient Penalty (WGAN-GP), 1-D Convolutional Neural Networks (CNN), Structure Health Monitoring (SHM), Structure damage Diagnostics, Structure damage Detections

Structural Health Monitoring (SHM) has been continuously benefiting from the advancements in the field of data science. Various types of Artificial Intelligence (AI) methods have been utilized for the assessment and evaluation of civil structures. In AI, Machine Learning (ML) and Deep Learning (DL) algorithms require plenty of datasets to train; particularly, the more data DL models are trained with, the better output it yields. Yet, in SHM applications, collecting data from civil structures through sensors is expensive and obtaining useful data (damage associated data) is challenging. In this paper, 1-D Wasserstein loss Deep Convolutional Generative Adversarial Networks using Gradient Penalty (1-D WDCGAN-GP) is utilized to generate damage associated vibration datasets that are similar to the input. For the purpose of vibration-based damage diagnostics, a 1-D Deep Convolutional Neural Network (1-D DCNN) is built, trained, and tested on both real and generated datasets. The classification results from the 1-D DCNN on both datasets resulted to be very similar to each other. The presented work in this paper shows that for the cases of insufficient data in DL or ML-based damage diagnostics, 1-D WDCGAN-GP can successfully generate data for the model to be trained on. Keywords: 1-D Generative Adversarial Networks (GAN), Deep Convolutional Generative Adversarial Networks (DCGAN), Wasserstein Generative Adversarial Networks with Gradient Penalty (WGAN-GP), 1-D Convolutional Neural Networks (CNN), Structural Health Monitoring (SHM), Structural Damage Diagnostics, Structural Damage Detection
翻訳日:2021-12-19 13:00:17 公開日:2021-12-07
# 臨床自然言語処理における公開言語課題のスコーピングレビュー

A Scoping Review of Publicly Available Language Tasks in Clinical Natural Language Processing ( http://arxiv.org/abs/2112.05780v1 )

ライセンス: Link先を確認
Yanjun Gao, Dmitriy Dligach, Leslie Christensen, Samuel Tesch, Ryan Laffin, Dongfang Xu, Timothy Miller, Ozlem Uzuner, Matthew M Churpek, Majid Afshar(参考訳) 目的:患者のコホートから公開されている電子健康記録データを利用する臨床自然言語処理(NLP)タスクに関する論文のスコーピングレビューを提供する。 Materials and Methods: バイオメディカルリサーチとコンピュータサイエンス文献データベースを含む6つのデータベースを検索した。 2人のレビュアーがタイトル/抽象スクリーニングとフルテキストスクリーニングを行った。 提案手法は,PRISMAガイドライン(Preferred Reporting Items for Systematic Reviews and Meta-Analysis)に従っている。 結果: 2007年から2021年の間,臨床nlp47タスクを含む35の論文が包括的基準を満たした。 課題は、名前認識、要約、その他のNLPタスクを含む、NLP問題の種類によって分類した。 いくつかの課題は、薬物乱用、表現型化、臨床試験のためのコホート選択など、臨床決定支援の応用について紹介された。 タスクを公開とデータセット情報で要約した。 議論:NLPの分野が言語システムの発展とともに進化するにつれて,臨床NLPタスクの幅が拡大し続けている。 しかし,一般領域のNLPコミュニティと臨床情報化コミュニティの相違や,データソースの一般化性にはギャップが存在する。 また、時間に敏感なデータの欠如や、問題のサイズや評価の無効性など、データ選択と準備の問題点も特定した。 結論: 既存の臨床NLPタスクは幅広いトピックをカバーし, この分野は成長を続け, 一般領域NLPと臨床情報学の双方から注目が集まる。 我々は,複数分野の連携,透明性の報告,データ準備における標準化を今後の研究に組み込むことを奨励する。

Objective: to provide a scoping review of papers on clinical natural language processing (NLP) tasks that use publicly available electronic health record data from a cohort of patients. Materials and Methods: We searched six databases, including biomedical research and computer science literature database. A round of title/abstract screening and full-text screening were conducted by two reviewers. Our method followed the Preferred Reporting Items for Systematic Reviews and Meta-Analysis (PRISMA) guidelines. Results: A total of 35 papers with 47 clinical NLP tasks met inclusion criteria between 2007 and 2021. We categorized the tasks by the type of NLP problems, including name entity recognition, summarization, and other NLP tasks. Some tasks were introduced with a topic of clinical decision support applications, such as substance abuse, phenotyping, cohort selection for clinical trial. We summarized the tasks by publication and dataset information. Discussion: The breadth of clinical NLP tasks keeps growing as the field of NLP evolves with advancements in language systems. However, gaps exist in divergent interests between general domain NLP community and clinical informatics community, and in generalizability of the data sources. We also identified issues in data selection and preparation including the lack of time-sensitive data, and invalidity of problem size and evaluation. Conclusions: The existing clinical NLP tasks cover a wide range of topics and the field will continue to grow and attract more attention from both general domain NLP and clinical informatics community. We encourage future work to incorporate multi-disciplinary collaboration, reporting transparency, and standardization in data preparation.
翻訳日:2021-12-19 12:27:43 公開日:2021-12-07
# (参考訳) i-SpaSP:スパース信号再生による構造化ニューラルプルーニング [全文訳有]

i-SpaSP: Structured Neural Pruning via Sparse Signal Recovery ( http://arxiv.org/abs/2112.04905v1 )

ライセンス: CC BY 4.0
Cameron R. Wolfe and Anastasios Kyrillidis(参考訳) ニューラルネットワークのための新しい構造化プルーニングアルゴリズム - i-SpaSPと呼ばれる反復的なスパース構造化プルーニングアルゴリズムを提案する。 i-SpaSPはスパース信号リカバリのアイデアに触発され、ネットワーク内の重要なパラメータ群(フィルタやニューロンなど)の集合を反復的に同定し、プルーニングと密度の高いネットワーク出力の残差に最も寄与し、より小さく定義されたプルーニング比に基づいてこれらのグループを閾値付けする。 ReLUアクティベーションを持つ2層ネットワークアーキテクチャと多層ネットワークアーキテクチャにおいて、i-SpaSPによるプルーニングによる誤差は多項式的に減少し、この多項式の次数は高密度ネットワークの隠蔽表現の空間性に基づいて任意に大きくなる。 我々の実験では、i-SpaSPは様々なデータセット(MNISTとImageNet)とアーキテクチャ(フィードフォワードネットワーク、ResNet34、MobileNetV2)で評価され、ハイパフォーマンスなサブネットワークを発見し、証明可能なベースライン方法論のプルーニング効率を数桁改善することが示されている。 簡単に言えば、i-spaspは自動微分によって容易に実装でき、強力な経験的結果を達成し、理論的収束保証を伴い、効率的である。

We propose a novel, structured pruning algorithm for neural networks -- the iterative, Sparse Structured Pruning algorithm, dubbed as i-SpaSP. Inspired by ideas from sparse signal recovery, i-SpaSP operates by iteratively identifying a larger set of important parameter groups (e.g., filters or neurons) within a network that contribute most to the residual between pruned and dense network output, then thresholding these groups based on a smaller, pre-defined pruning ratio. For both two-layer and multi-layer network architectures with ReLU activations, we show the error induced by pruning with i-SpaSP decays polynomially, where the degree of this polynomial becomes arbitrarily large based on the sparsity of the dense network's hidden representations. In our experiments, i-SpaSP is evaluated across a variety of datasets (i.e., MNIST and ImageNet) and architectures (i.e., feed forward networks, ResNet34, and MobileNetV2), where it is shown to discover high-performing sub-networks and improve upon the pruning efficiency of provable baseline methodologies by several orders of magnitude. Put simply, i-SpaSP is easy to implement with automatic differentiation, achieves strong empirical results, comes with theoretical convergence guarantees, and is efficient, thus distinguishing itself as one of the few computationally efficient, practical, and provable pruning algorithms.
翻訳日:2021-12-11 04:10:31 公開日:2021-12-07
# (参考訳) 電力供給の安全性評価のための人工知能と実験の設計--レビューと戦略的展望

Artificial Intelligence and Design of Experiments for Assessing Security of Electricity Supply: A Review and Strategic Outlook ( http://arxiv.org/abs/2112.04889v1 )

ライセンス: CC BY 4.0
Jan Priesmann, Justin M\"unch, Elias Ridha, Thomas Spiegel, Marius Reich, Mario Adam, Lars Nolting, Aaron Praktiknjo(参考訳) エネルギーの移行とエネルギー市場の自由化が資源の適正性に与える影響を評価することはますます重要で要求される課題である。 エネルギーシステムの複雑さの増大は、計算要求の増加につながるエネルギーシステムのモデリングに適切な方法を必要とする。 さらに、複雑さとともに不確実性が増大し、確率的評価とシナリオ分析が要求される。 これらの様々な要件に適切にかつ効率的に対処するためには、現在の手法を加速するために、データサイエンスの分野からの新しい手法が必要である。 系統的な文献レビューにより,(1)電源の安全性の評価,(2)人工知能,(3)実験の設計の3分野間のギャップを埋めたい。 そこで我々は,選択した応用分野と手法について大規模に定量的に検討し,異なる分野を相互に関連付ける合成を行う。 本稿では,ai手法を用いた電力供給モデルの複雑なセキュリティのメタモデリングと,ストレージディスパッチの予測と(非)可用性のためのaiベースの手法の応用を,まだ十分にカバーされていない有望なアプリケーション分野として認識する。 我々は、電力供給の安全性評価における現在および今後の課題を適切にかつ効率的に解決するための新しい方法論パイプラインを導出する。

Assessing the effects of the energy transition and liberalization of energy markets on resource adequacy is an increasingly important and demanding task. The rising complexity in energy systems requires adequate methods for energy system modeling leading to increased computational requirements. Furthermore, with complexity, uncertainty increases likewise calling for probabilistic assessments and scenario analyses. To adequately and efficiently address these various requirements, new methods from the field of data science are needed to accelerate current methods. With our systematic literature review, we want to close the gap between the three disciplines (1) assessment of security of electricity supply, (2) artificial intelligence, and (3) design of experiments. For this, we conduct a large-scale quantitative review on selected fields of application and methods and make a synthesis that relates the different disciplines to each other. Among other findings, we identify metamodeling of complex security of electricity supply models using AI methods and applications of AI-based methods for forecasts of storage dispatch and (non-)availabilities as promising fields of application that have not sufficiently been covered, yet. We end with deriving a new methodological pipeline for adequately and efficiently addressing the present and upcoming challenges in the assessment of security of electricity supply.
翻訳日:2021-12-11 02:48:51 公開日:2021-12-07
# ネットワーク上でのマルチタスク学習

Multi-Task Learning on Networks ( http://arxiv.org/abs/2112.04891v1 )

ライセンス: Link先を確認
Andrea Ponti(参考訳) マルチタスク学習(MTL)パラダイムはCaruana (1997)の初期の論文に遡ることができる。 矛盾する目的を持ったMTLのソリューションでは、それらの間のトレードオフをモデル化する必要があります。 理論的に原理的かつ計算学的に効果的な戦略は、パレート分析で取り扱われているように、他の人に支配されない解を見つけることである。 マルチタスク学習コンテキストで発生する多目的最適化問題は、特定の特徴を持ち、アドホックな方法を必要とする。 これらの特徴の分析と新しい計算手法の提案は、この研究の焦点を表している。 多目的進化アルゴリズム(MOEA)は、支配の概念やパレート分析を簡単に含めることができる。 MOEAの最大の欠点は、機能評価に関して低いサンプル効率である。 この欠点の主な理由は、進化的アプローチのほとんどが対象関数の近似にモデルを使用しないからである。 ベイズ最適化はガウス過程のような代理モデルに基づいて根本的に異なるアプローチを取る。 この論文では、入力空間の解は、関数評価に含まれる知識をカプセル化した確率分布として表現される。 確率分布のこの空間では、ワッサーシュタイン距離によって与えられる距離が与えられ、入力空間からのオブジェクトをヒストグラムにマッピングする中間情報空間において、モデルが目的関数に直接依存しないような新しいアルゴリズムMOEA/WSTを設計することができる。 計算結果から,MOEA/WSTで提供されるPareto集合の試料効率と品質は,標準MOEAよりも有意に優れていることがわかった。

The multi-task learning (MTL) paradigm can be traced back to an early paper of Caruana (1997) in which it was argued that data from multiple tasks can be used with the aim to obtain a better performance over learning each task independently. A solution of MTL with conflicting objectives requires modelling the trade-off among them which is generally beyond what a straight linear combination can achieve. A theoretically principled and computationally effective strategy is finding solutions which are not dominated by others as it is addressed in the Pareto analysis. Multi-objective optimization problems arising in the multi-task learning context have specific features and require adhoc methods. The analysis of these features and the proposal of a new computational approach represent the focus of this work. Multi-objective evolutionary algorithms (MOEAs) can easily include the concept of dominance and therefore the Pareto analysis. The major drawback of MOEAs is a low sample efficiency with respect to function evaluations. The key reason for this drawback is that most of the evolutionary approaches do not use models for approximating the objective function. Bayesian Optimization takes a radically different approach based on a surrogate model, such as a Gaussian Process. In this thesis the solutions in the Input Space are represented as probability distributions encapsulating the knowledge contained in the function evaluations. In this space of probability distributions, endowed with the metric given by the Wasserstein distance, a new algorithm MOEA/WST can be designed in which the model is not directly on the objective function but in an intermediate Information Space where the objects from the input space are mapped into histograms. Computational results show that the sample efficiency and the quality of the Pareto set provided by MOEA/WST are significantly better than in the standard MOEA.
翻訳日:2021-12-10 14:22:23 公開日:2021-12-07
# 欠落データの存在下での公平性の評価

Assessing Fairness in the Presence of Missing Data ( http://arxiv.org/abs/2112.04899v1 )

ライセンス: Link先を確認
Yiliang Zhang, Qi Long(参考訳) データ不足は一般的な問題であり、実際のデータ分析における厄介な課題である。 完全観測データの解析における公平性に関する文献が増えているが、不完全データの解析における公平性を調査する理論的研究は少ない。 実際には、欠落データを扱う一般的な分析アプローチは、完全なケースのセット、すなわち予測アルゴリズムをトレーニングするために、すべての機能が完全に観測された観察のみを使用することである。 しかし、データメカニズムの欠如により、完全なケースの分布と完全なデータの分布は大きく異なる可能性がある。 不足値のない完全データ領域で公正なアルゴリズムを開発することが目標である場合、完全データ領域でフェアなアルゴリズムは、完全データ領域内のいくつかの辺境化群に対して不釣り合いなバイアスを示す可能性がある。 この大きなギャップを埋めるために、完全ケースのみを用いて評価した任意のモデルに対して、完全データ領域における公平性を推定する問題を考察する。 フェアネス推定誤差の上限を上下に設定し, 数値実験を行い, 理論的結果を評価する。 我々の研究は、不完全データの解析における公正性保証に関する最初の理論的結果を提供する。

Missing data are prevalent and present daunting challenges in real data analysis. While there is a growing body of literature on fairness in analysis of fully observed data, there has been little theoretical work on investigating fairness in analysis of incomplete data. In practice, a popular analytical approach for dealing with missing data is to use only the set of complete cases, i.e., observations with all features fully observed to train a prediction algorithm. However, depending on the missing data mechanism, the distribution of complete cases and the distribution of the complete data may be substantially different. When the goal is to develop a fair algorithm in the complete data domain where there are no missing values, an algorithm that is fair in the complete case domain may show disproportionate bias towards some marginalized groups in the complete data domain. To fill this significant gap, we study the problem of estimating fairness in the complete data domain for an arbitrary model evaluated merely using complete cases. We provide upper and lower bounds on the fairness estimation error and conduct numerical experiments to assess our theoretical results. Our work provides the first known theoretical results on fairness guarantee in analysis of incomplete data.
翻訳日:2021-12-10 13:46:41 公開日:2021-12-07
# JueWu-MC: サンプル効率のよい階層的強化学習でMinecraftをプレイする

JueWu-MC: Playing Minecraft with Sample-efficient Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2112.04907v1 )

ライセンス: Link先を確認
Zichuan Lin, Junyou Li, Jianing Shi, Deheng Ye, Qiang Fu, Wei Yang(参考訳) minecraftのようなオープンワールドゲームにおける合理的な振る舞いの学習は、部分的可観測性、高次元視覚知覚、遅滞報酬という複合的な課題により、強化学習(rl)研究において依然として困難である。 これを解決するために,表現学習と模倣学習を備えたサンプル効率の高い階層的RLアプローチであるJueWu-MCを提案する。 具体的には、高レベルのコントローラがオプションを制御するポリシーを学習し、低レベルのワーカーが各サブタスクの解決を学ぶという2つの階層構造を含む。 サブタスクの学習を促進するために,提案手法の組み合わせを提案する。 1)行動と表現の基本的な関係を捉えた行動認識表現学習 2)効率的な探索のための差別者に基づく自己イメージ学習 3) 整合性フィルタリングによるアンサンブル動作のクローン化。 大規模な実験により、JueWu-MCはサンプル効率を大幅に改善し、ベースラインのセットを大きなマージンで上回ることを示した。 特に、私たちはneurips minerl 2021研究コンペティションで優勝し、史上最高のパフォーマンススコアを獲得しました。

Learning rational behaviors in open-world games like Minecraft remains to be challenging for Reinforcement Learning (RL) research due to the compound challenge of partial observability, high-dimensional visual perception and delayed reward. To address this, we propose JueWu-MC, a sample-efficient hierarchical RL approach equipped with representation learning and imitation learning to deal with perception and exploration. Specifically, our approach includes two levels of hierarchy, where the high-level controller learns a policy to control over options and the low-level workers learn to solve each sub-task. To boost the learning of sub-tasks, we propose a combination of techniques including 1) action-aware representation learning which captures underlying relations between action and representation, 2) discriminator-based self-imitation learning for efficient exploration, and 3) ensemble behavior cloning with consistency filtering for policy robustness. Extensive experiments show that JueWu-MC significantly improves sample efficiency and outperforms a set of baselines by a large margin. Notably, we won the championship of the NeurIPS MineRL 2021 research competition and achieved the highest performance score ever.
翻訳日:2021-12-10 13:46:21 公開日:2021-12-07
# (参考訳) SemanticStyleGAN: 制御可能な画像合成と編集のための構成生成優先学習 [全文訳有]

SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing ( http://arxiv.org/abs/2112.02236v2 )

ライセンス: CC BY 4.0
Yichun Shi, Xiao Yang, Yangyue Wan, Xiaohui Shen(参考訳) 近年の研究では、StyleGANは画像合成と編集の下流タスクに有望な事前モデルを提供することが示された。 しかし,スタイルガンの潜在符号はグローバルスタイルを制御するために設計されているため,合成画像に対するきめ細かい制御は困難である。 本稿では,ジェネレータが局所的な意味部分を個別にモデル化し,構成的に画像を合成するように訓練されるSemanticStyleGANを提案する。 異なる局所部分の構造とテクスチャは対応する潜在コードによって制御される。 実験の結果, 異なる空間領域間の強い絡み合いが得られた。 StyleGAN用に設計された編集方法と組み合わせることで、合成画像や実画像のよりきめ細かい編集が可能となる。 モデルは転送学習を通じて他のドメインに拡張することもできる。 したがって、ビルトインのアンタングルを組み込んだ一般的な事前モデルとして、GANベースのアプリケーション開発を促進し、より潜在的な下流タスクを可能にすることができる。

Recent studies have shown that StyleGANs provide promising prior models for downstream tasks on image synthesis and editing. However, since the latent codes of StyleGANs are designed to control global styles, it is hard to achieve a fine-grained control over synthesized images. We present SemanticStyleGAN, where a generator is trained to model local semantic parts separately and synthesizes images in a compositional way. The structure and texture of different local parts are controlled by corresponding latent codes. Experimental results demonstrate that our model provides a strong disentanglement between different spatial areas. When combined with editing methods designed for StyleGANs, it can achieve a more fine-grained control to edit synthesized or real images. The model can also be extended to other domains via transfer learning. Thus, as a generic prior model with built-in disentanglement, it could facilitate the development of GAN-based applications and enable more potential downstream tasks.
翻訳日:2021-12-10 09:41:58 公開日:2021-12-07
# (参考訳) fNIRSハイパースキャンデータを用いた性構成と課題分類 [全文訳有]

Dyadic Sex Composition and Task Classification Using fNIRS Hyperscanning Data ( http://arxiv.org/abs/2112.03911v1 )

ライセンス: CC BY 4.0
Liam A. Kruse, Allan L. Reiss, Mykel J. Kochenderfer, Stephanie Balters(参考訳) fnirs(hyperscanning with functional near-infrared spectroscopy)は、社会的相互作用の基礎となるニュアンスを計測する新しい神経イメージングアプリケーションである。 研究者は、人間と人間の相互作用中の脳間コヒーレンスに対するセックスとタスクタイプ(例えば、協力と競争)の効果を評価した。 しかしながら、fnirsハイパースキャンコンテキストにおけるセックスやタスクベースの差異に対する洞察を抽出するために、ディープラーニングベースのアプローチを用いた研究はまだない。 本研究は,n=222$の参加者を持つ大規模ハイパースキャンデータセットのdyadic sex合成とタスク分類に対する畳み込みニューラルネットワークに基づくアプローチを提案する。 入力データとして動的時間ワープを用いて計算した脳間信号類似性を用いる。 提案手法は80ドル以上の最大分類精度を実現し、複雑な脳の振る舞いを探索し理解するための新たな道を提供する。

Hyperscanning with functional near-infrared spectroscopy (fNIRS) is an emerging neuroimaging application that measures the nuanced neural signatures underlying social interactions. Researchers have assessed the effect of sex and task type (e.g., cooperation versus competition) on inter-brain coherence during human-to-human interactions. However, no work has yet used deep learning-based approaches to extract insights into sex and task-based differences in an fNIRS hyperscanning context. This work proposes a convolutional neural network-based approach to dyadic sex composition and task classification for an extensive hyperscanning dataset with $N = 222$ participants. Inter-brain signal similarity computed using dynamic time warping is used as the input data. The proposed approach achieves a maximum classification accuracy of greater than $80$ percent, thereby providing a new avenue for exploring and understanding complex brain behavior.
翻訳日:2021-12-10 05:17:56 公開日:2021-12-07
# (参考訳) ランダムグラフィカルゲームにおけるナッシュ平衡の近似

Approximating Nash Equilibrium in Random Graphical Games ( http://arxiv.org/abs/2112.03442v1 )

ライセンス: CC BY 4.0
Morris Yau(参考訳) マルチエージェントゲームにおけるナッシュ均衡の計算は、ゲーム理論とコンピュータ科学のインターフェイスにおける長年の課題である。 N のプレイヤーと k の戦略における一般的な正規形式ゲームは単に書き下すために指数空間を必要とすることはよく知られている。 このマルチエージェントの曲線は、効率的に書き下ろすことができる簡潔なゲームの研究を促す。 簡潔なゲームの典型例はグラフィカルゲームであり、マルコフランダム場と直接類似して隣人とのみ相互作用するグラフ内のノードとしてプレイヤーをモデル化する。 グラフィックゲームは、無線、金融、ソーシャルネットワークに応用されている。 しかし、グラフィックゲームのnash equilbriumの計算は困難であることが証明されている。 ポリマトリクスゲームにおいても、エージェントへの支払いをエージェントの隣人との相互作用の支払いの和として記述することができるが、エプシロン近似ナッシュ平衡の計算は定数よりも小さいエプシロンに対してPPAD困難であることが示されている。 この研究の焦点は、平均ケースグラフモデル、すなわちランダムグラフを考慮し、この計算困難を回避することである。 確率の高い辺密度のポリ(k, 1/epsilon, ln(N))$より大きいランダムグラフ上で、ポリマトリクスゲームのエプシロン近似ナッシュ平衡を計算するための準多項式時間近似スキーム(QPTAS)を提供する。 さらに、同じランタイムで、ゲームの任意のナッシュ平衡の最大社会福祉を近似するエプシロン近似ナッシュ平衡を計算することができる。 我々の主要な技術的革新は、ナッシュ均衡問題のための新しい階層的凸プログラムの「加速丸め」である。 我々の高速化された丸みは、同じランダムグラフ群上のmax-2cspのより高速なアルゴリズムも生み出します。

Computing Nash equilibrium in multi-agent games is a longstanding challenge at the interface of game theory and computer science. It is well known that a general normal form game in N players and k strategies requires exponential space simply to write down. This Curse of Multi-Agents prompts the study of succinct games which can be written down efficiently. A canonical example of a succinct game is the graphical game which models players as nodes in a graph interacting with only their neighbors in direct analogy with markov random fields. Graphical games have found applications in wireless, financial, and social networks. However, computing the nash equilbrium of graphical games has proven challenging. Even for polymatrix games, a model where payoffs to an agent can be written as the sum of payoffs of interactions with the agent's neighbors, it has been shown that computing an epsilon approximate nash equilibrium is PPAD hard for epsilon smaller than a constant. The focus of this work is to circumvent this computational hardness by considering average case graph models i.e random graphs. We provide a quasipolynomial time approximation scheme (QPTAS) for computing an epsilon approximate nash equilibrium of polymatrix games on random graphs with edge density greater than poly(k, 1/epsilon, ln(N))$ with high probability. Furthermore, with the same runtime we can compute an epsilon-approximate Nash equilibrium that epsilon-approximates the maximum social welfare of any nash equilibrium of the game. Our primary technical innovation is an "accelerated rounding" of a novel hierarchical convex program for the nash equilibrium problem. Our accelerated rounding also yields faster algorithms for Max-2CSP on the same family of random graphs, which may be of independent interest.
翻訳日:2021-12-10 05:03:58 公開日:2021-12-07
# (参考訳) mimic-iiiに基づく合成急性血圧低下と敗血症データセットの作成と健康体育館プロジェクトの一環としての公開 [全文訳有]

Synthetic Acute Hypotension and Sepsis Datasets Based on MIMIC-III and Published as Part of the Health Gym Project ( http://arxiv.org/abs/2112.03914v1 )

ライセンス: CC BY 4.0
Nicholas I-Hsien Kuo, Mark Polizzotto, Simon Finfer, Louisa Jorm, Sebastiano Barbieri(参考訳) これらの2つの合成データセットは, 急性低血圧患者3,910例, ICU患者2,164例に対して, バイタルサイン, 検査結果, 投与液中ボースおよび血管圧薬を含む。 患者コホートは以前に公表された包括的包括的・排他的基準を用いて構築され,そのデータはGAN(Generative Adversarial Networks)とMIMIC-III Clinical Databaseを用いて作成された。 これらのデータ公開に伴うアイデンティティ開示のリスクは非常に低い (0.045%) と推定された。 データセットはhealth gymの一部として生成され、公開され、機械学習アルゴリズム(特にオフライン強化学習に焦点を当てた)と教育目的のための合成縦断健康データを一般に配布することを目的としている。

These two synthetic datasets comprise vital signs, laboratory test results, administered fluid boluses and vasopressors for 3,910 patients with acute hypotension and for 2,164 patients with sepsis in the Intensive Care Unit (ICU). The patient cohorts were built using previously published inclusion and exclusion criteria and the data were created using Generative Adversarial Networks (GANs) and the MIMIC-III Clinical Database. The risk of identity disclosure associated with the release of these data was estimated to be very low (0.045%). The datasets were generated and published as part of the Health Gym, a project aiming to publicly distribute synthetic longitudinal health data for developing machine learning algorithms (with a particular focus on offline reinforcement learning) and for educational purposes.
翻訳日:2021-12-10 05:02:44 公開日:2021-12-07
# (参考訳) 医療のランドマークを見つけるために、どの画像にラベルをつけるか? [全文訳有]

Which images to label for few-shot medical landmark detection? ( http://arxiv.org/abs/2112.04386v1 )

ライセンス: CC BY-SA 4.0
Quan Quan, Qingsong Yao, Jun Li, S. Kevin Zhou(参考訳) ディープラーニング手法の成功は、十分にラベル付けされた大規模データセットの可用性に依存している。 しかし、医用画像の場合、このような豊富なトレーニングデータに注釈をつけるには経験豊富な放射線技師が必要であり、限られた時間を消費する。 この負担を軽減するために,いくつかのラベル付きデータだけで競争力のあるパフォーマンスを実現する,少数ショット学習が開発されている。 しかし、数ショット学習においてこれまで見過ごされてきた重要な問題は、学習前のアノテーションのためのテンプレートイメージの選択であり、最終的なパフォーマンスに影響する。 本稿では,アノテーションのための「最も価値のある」画像を選択するための新しいサンプル選択ポリシー(scp)を提案する。 scpは3つの部分からなる。 1)放射線画像から特徴を抽出する事前訓練された深部モデル構築のための自己指導型訓練 2)情報パッチのローカライズのためのキーポイント提案及び 3)最も代表的なサンプルやテンプレートを検索するための代表スコア推定。 SCPの利点は、広く使われている3つの公開データセットに関する様々な実験によって示される。 一発の医用ランドマーク検出では、ケパロメトリデータセットとハンドX線データセットの平均放射誤差をそれぞれ14.2%(3.595mmから3.083mm)、35.5%(4.114mmから2.653mm)削減する。

The success of deep learning methods relies on the availability of well-labeled large-scale datasets. However, for medical images, annotating such abundant training data often requires experienced radiologists and consumes their limited time. Few-shot learning is developed to alleviate this burden, which achieves competitive performances with only several labeled data. However, a crucial yet previously overlooked problem in few-shot learning is about the selection of template images for annotation before learning, which affects the final performance. We herein propose a novel Sample Choosing Policy (SCP) to select "the most worthy" images for annotation, in the context of few-shot medical landmark detection. SCP consists of three parts: 1) Self-supervised training for building a pre-trained deep model to extract features from radiological images, 2) Key Point Proposal for localizing informative patches, and 3) Representative Score Estimation for searching the most representative samples or templates. The advantage of SCP is demonstrated by various experiments on three widely-used public datasets. For one-shot medical landmark detection, its use reduces the mean radial errors on Cephalometric and HandXray datasets by 14.2% (from 3.595mm to 3.083mm) and 35.5% (4.114mm to 2.653mm), respectively.
翻訳日:2021-12-10 04:55:31 公開日:2021-12-07
# (参考訳) 承認投票による真実追跡: 規模 [全文訳有]

Truth-tracking via Approval Voting: Size Matters ( http://arxiv.org/abs/2112.04387v1 )

ライセンス: CC BY 4.0
Tahar Allouche, J\'er\^ome Lang, Florian Yger(参考訳) エピステマティックな社会的選択は、投票に関する騒々しいシグナルとして解釈される、隠れた真実の投票を公開することを目的としている。 ここでは、投票が承認投票からなる簡単な設定を考えます。 各投票者は、彼らが考えうる代替案のセットを承認します。 より信頼性の高い投票には選択肢が少ないという直感的な考えに基づいて、Mallowsモデルの投票変種を承認するいくつかのノイズモデルを定義する。 確率最大化の選択肢は、投票の重みが基数によって減少する重み付き承認規則の勝者として特徴づけられる。 我々は3つの画像アノテーションデータセットについて実験を行い、ノイズモデルに基づくルールは標準承認投票よりも優れており、最高のパフォーマンスはcondorcetノイズモデルの変種によって得られると結論づけた。

Epistemic social choice aims at unveiling a hidden ground truth given votes, which are interpreted as noisy signals about it. We consider here a simple setting where votes consist of approval ballots: each voter approves a set of alternatives which they believe can possibly be the ground truth. Based on the intuitive idea that more reliable votes contain fewer alternatives, we define several noise models that are approval voting variants of the Mallows model. The likelihood-maximizin g alternative is then characterized as the winner of a weighted approval rule, where the weight of a ballot decreases with its cardinality. We have conducted an experiment on three image annotation datasets; they conclude that rules based on our noise model outperform standard approval voting; the best performance is obtained by a variant of the Condorcet noise model.
翻訳日:2021-12-10 04:38:40 公開日:2021-12-07
# (参考訳) GraDIRN: 変形可能な画像登録のための反復的勾配線量に基づくエネルギー最小化 [全文訳有]

GraDIRN: Learning Iterative Gradient Descent-based Energy Minimization for Deformable Image Registration ( http://arxiv.org/abs/2112.03915v1 )

ライセンス: CC BY 4.0
Huaqi Qiu, Kerstin Hammernik, Chen Qin, Daniel Rueckert(参考訳) 本稿では、勾配に基づく反復エネルギー最小化をディープラーニングフレームワークに組み込むことにより、変形可能な画像登録を学習するためのグラディエントDescent-based Image Registration Network(GraDIRN)を提案する。 従来の画像登録アルゴリズムは、通常、反復エネルギー最小化最適化を使用して、1対のイメージ間の最適な変換を見つける。 対照的に、最近の学習ベースの手法は、ディープニューラルネットワークをトレーニングすることで、このコストのかかる反復最適化を償い、トレーニング後の高速なネットワークフォワードパスによって、1対の画像の登録を可能にする。 深層学習と反復変動エネルギー最適化の数学的構造を組み合わせた画像再構成手法の成功に動機づけられ,マルチレゾリューション勾配降下エネルギー最小化に基づく新しい登録ネットワークを構築した。 ネットワークの前方通過は、明示的な画像差分勾配ステップと、畳み込みニューラルネットワーク(CNN)によってパラメータ化された一般化正規化ステップを一定回数の反復で行う。 自動微分を用いて、この変換の明示的な画像差分勾配 w.r.t. に対して前方の計算グラフを導出するので、任意の画像差分勾配のメトリクスと変換モデルは、複雑でエラーを起こしやすい勾配の導出を伴わずに利用できる。 2次元心臓mr画像と3次元脳mr画像を用いた登録タスクを広範囲に評価し,学習可能なパラメータを低減しつつ,最先端の登録性能を実現することを実証した。

We present a Gradient Descent-based Image Registration Network (GraDIRN) for learning deformable image registration by embedding gradient-based iterative energy minimization in a deep learning framework. Traditional image registration algorithms typically use iterative energy-minimization optimization to find the optimal transformation between a pair of images, which is time-consuming when many iterations are needed. In contrast, recent learning-based methods amortize this costly iterative optimization by training deep neural networks so that registration of one pair of images can be achieved by fast network forward pass after training. Motivated by successes in image reconstruction techniques that combine deep learning with the mathematical structure of iterative variational energy optimization, we formulate a novel registration network based on multi-resolution gradient descent energy minimization. The forward pass of the network takes explicit image dissimilarity gradient steps and generalized regularization steps parameterized by Convolutional Neural Networks (CNN) for a fixed number of iterations. We use auto-differentiation to derive the forward computational graph for the explicit image dissimilarity gradient w.r.t. the transformation, so arbitrary image dissimilarity metrics and transformation models can be used without complex and error-prone gradient derivations. We demonstrate that this approach achieves state-of-the-art registration performance while using fewer learnable parameters through extensive evaluations on registration tasks using 2D cardiac MR images and 3D brain MR images.
翻訳日:2021-12-10 04:24:17 公開日:2021-12-07
# (参考訳) 進化を通してプレイヤーペルソナに手続き的コンテンツ生成を適用する [全文訳有]

Adapting Procedural Content Generation to Player Personas Through Evolution ( http://arxiv.org/abs/2112.04406v1 )

ライセンス: CC BY 4.0
Pedro M. Fernandes, Jonathan J{\o}rgensen, Niels N. T. G. Poldervaart(参考訳) ゲームコンテンツをプレイヤーに自動的に適応させると、ゲーム開発のための新しいドアが開く。 本稿では,ペルソナエージェントと経験指標を用いたアーキテクチャを提案する。 というゲームを使って、このアプローチが3つの異なる経験指標に対して4つのルールベースのペルソナエージェントにうまく適応できることを実証しました。 さらに、適応性は自然に特異的であることが示され、つまり、レベルはペルソナ意識であり、選択されたメトリックに関する一般的な最適化だけではない。

Automatically adapting game content to players opens new doors for game development. In this paper we propose an architecture using persona agents and experience metrics, which enables evolving procedurally generated levels tailored for particular player personas. Using our game, "Grave Rave", we demonstrate that this approach successfully adapts to four rule-based persona agents over three different experience metrics. Furthermore, the adaptation is shown to be specific in nature, meaning that the levels are persona-conscious, and not just general optimizations with regard to the selected metric.
翻訳日:2021-12-10 04:09:58 公開日:2021-12-07
# (参考訳) BT-Unet:Barlow TwinsとU-Netモデルを用いたバイオメディカルイメージセグメンテーションのための自己教師型学習フレームワーク [全文訳有]

BT-Unet: A self-supervised learning framework for biomedical image segmentation using Barlow Twins with U-Net models ( http://arxiv.org/abs/2112.03916v1 )

ライセンス: CC BY 4.0
Narinder Singh Punn and Sonali Agarwal(参考訳) 深層学習は、医用画像のデライン化を自動化するために、バイオメディカルイメージセグメンテーションに最も深い貢献をもたらした。 このようなタスクを達成するには、バイナリマスクで関心のある領域を強調する大量の注釈付きまたはラベル付きデータを使用して、モデルをトレーニングする必要がある。 しかし、このような膨大なデータに対するアノテーションの効率的な生成には、専門家のバイオメディカルアナリストと広範な手作業が必要である。 面倒で高価な作業だが、人間のエラーにも弱い。 この問題を解決するために、BT-Unetという自己教師付き学習フレームワークが提案され、Barlow Twinsアプローチを用いて、教師なしの方法でデータ表現を学習する冗長化を通じてU-Netモデルのエンコーダを事前訓練する。 その後、完全なネットワークが微調整され、実際のセグメンテーションが実行される。 BT-Unetフレームワークは、限られた数のアノテートサンプルでトレーニングできると同時に、多数のアンノテートサンプルを持つことができる。 このフレームワークは、標準評価メトリクスを使用して限られた数のラベル付きサンプルのシナリオを生成することで、さまざまなデータセット上の複数のu-netモデル上で検証される。 総括実験により,BT-UnetフレームワークがU-Netモデルの性能を向上させることが確認された。

Deep learning has brought the most profound contribution towards biomedical image segmentation to automate the process of delineation in medical imaging. To accomplish such task, the models are required to be trained using huge amount of annotated or labelled data that highlights the region of interest with a binary mask. However, efficient generation of the annotations for such huge data requires expert biomedical analysts and extensive manual effort. It is a tedious and expensive task, while also being vulnerable to human error. To address this problem, a self-supervised learning framework, BT-Unet is proposed that uses the Barlow Twins approach to pre-train the encoder of a U-Net model via redundancy reduction in an unsupervised manner to learn data representation. Later, complete network is fine-tuned to perform actual segmentation. The BT-Unet framework can be trained with a limited number of annotated samples while having high number of unannotated samples, which is mostly the case in real-world problems. This framework is validated over multiple U-Net models over diverse datasets by generating scenarios of a limited number of labelled samples using standard evaluation metrics. With exhaustive experiment trials, it is observed that the BT-Unet framework enhances the performance of the U-Net models with significant margin under such circumstances.
翻訳日:2021-12-10 03:56:59 公開日:2021-12-07
# (参考訳) ctスキャンにおける銃検出のためのスケーラブル3次元セマンティクスセグメンテーション [全文訳有]

Scalable 3D Semantic Segmentation for Gun Detection in CT Scans ( http://arxiv.org/abs/2112.03917v1 )

ライセンス: CC BY 4.0
Marius Memmel, Christoph Reich, Nicolas Wagner, Faraz Saeedan(参考訳) 3Dデータの可用性が向上するにつれ、ソリューション処理の必要性も急速に高まった。 しかし、既に確実に正確な2Dアプローチに次元を加えると、メモリ消費が大きくなり、計算量が複雑になる。 これらの問題により、現在のハードウェアはその限界に達し、ほとんどのメソッドは入力解像度を劇的に減らさざるを得なくなった。 本研究の主な貢献は,高分解能voxelizedボリュームの高速トレーニングと低ビデオメモリ消費を可能にする,手荷物ctスキャンにおける銃検出のための深部3次元意味セグメンテーション手法である。 インスタンスのセグメンテーションに、推論時に複数のフォワードパスを利用する移動ピラミッドアプローチを導入する。

With the increased availability of 3D data, the need for solutions processing those also increased rapidly. However, adding dimension to already reliably accurate 2D approaches leads to immense memory consumption and higher computational complexity. These issues cause current hardware to reach its limitations, with most methods forced to reduce the input resolution drastically. Our main contribution is a novel deep 3D semantic segmentation method for gun detection in baggage CT scans that enables fast training and low video memory consumption for high-resolution voxelized volumes. We introduce a moving pyramid approach that utilizes multiple forward passes at inference time for segmenting an instance.
翻訳日:2021-12-10 03:46:15 公開日:2021-12-07
# (参考訳) スパースグラフに沿ったFew-Shot画像分類 [全文訳有]

Few-Shot Image Classification Along Sparse Graphs ( http://arxiv.org/abs/2112.03951v1 )

ライセンス: CC BY 4.0
Joseph F Comer and Philip L Jacobson and Heiko Hoffmann(参考訳) 殆どの現実世界のデータに対して、満足のいく1ショットの精度で学習することは難しい問題だ。 ここでは、ディープネットワークの機能空間におけるデータ分布の異なる視点を示し、これを数発の学習に活用する方法を示す。 第一に、特徴空間の最も近い隣人は、同じクラスの高い確率部材を持ち、一方、1つのクラスの2つのランダムな点は、異なるクラスの点よりも互いにあまり近づかない。 この観察から、特徴空間のクラスは密クラスターの代わりに疎連結グラフを形成することが示唆される。 この特性を利用するために,ラベルのない空間に少量のラベル伝搬を行い,各クラスの特徴空間データ分布の決定境界としてカーネルpca再構成誤差を用いることを提案する。 この手法をk-propと呼び、バックボーンネットワークを高いクラス内近距離確率でトレーニング可能なデータセットに対して、マイナショット学習性能(resisc45衛星画像データセットにおける1ショット5ウェイ分類の83%精度など)を大きく改善した。 6つの異なるデータセットを用いてこの関係を実証する。

Few-shot learning remains a challenging problem, with unsatisfactory 1-shot accuracies for most real-world data. Here, we present a different perspective for data distributions in the feature space of a deep network and show how to exploit it for few-shot learning. First, we observe that nearest neighbors in the feature space are with high probability members of the same class while generally two random points from one class are not much closer to each other than points from different classes. This observation suggests that classes in feature space form sparse, loosely connected graphs instead of dense clusters. To exploit this property, we propose using a small amount of label propagation into the unlabeled space and then using a kernel PCA reconstruction error as decision boundary for the feature-space data distribution of each class. Using this method, which we call "K-Prop," we demonstrate largely improved few-shot learning performances (e.g., 83% accuracy for 1-shot 5-way classification on the RESISC45 satellite-images dataset) for datasets for which a backbone network can be trained with high within-class nearest-neighbor probabilities. We demonstrate this relationship using six different datasets.
翻訳日:2021-12-10 03:33:53 公開日:2021-12-07
# (参考訳) 顧客レビューにおける感情因果対抽出 [全文訳有]

Emotion-Cause Pair Extraction in Customer Reviews ( http://arxiv.org/abs/2112.03984v1 )

ライセンス: CC0 1.0
Arpit Mittal, Jeel Tejaskumar Vaishnav, Aishwarya Kaliki, Nathan Johns, Wyatt Pease(参考訳) Emotion-Cause Pair extract (ECPE)は、自然言語処理において、その重要性と様々な分野の潜在的な応用により、複雑だが一般的な分野である。 本報告では,オンラインレビュー分野におけるECPEの取り組みについて述べる。 手動で注釈付きデータセットを用いて、ニューラルネットワークを用いて感情の原因ペアを抽出するアルゴリズムを探索する。 さらに,過去の参考資料を用いたモデルを提案し,感情に起因したペア抽出と感情認識単語の埋め込み領域の研究を組み合わせることにより,これらの埋め込みをBi-LSTM層に送信し,感情に関連のある節を提示する。 制限されたデータセットの制約により、.net frameworkが実現しました。 本報告の全体範囲は、包括的な文献レビュー、データセット構築と初期モデルトレーニングのための参照メソッドの実装、パイプラインの改善を提案してECPEの以前の作業を修正すること、レビューの特定の領域に対するアルゴリズム開発と実装を含む。

Emotion-Cause Pair Extraction (ECPE) is a complex yet popular area in Natural Language Processing due to its importance and potential applications in various domains. In this report , we aim to present our work in ECPE in the domain of online reviews. With a manually annotated dataset, we explore an algorithm to extract emotion cause pairs using a neural network. In addition, we propose a model using previous reference materials and combining emotion-cause pair extraction with research in the domain of emotion-aware word embeddings, where we send these embeddings into a Bi-LSTM layer which gives us the emotionally relevant clauses. With the constraint of a limited dataset, we achieved . The overall scope of our report comprises of a comprehensive literature review, implementation of referenced methods for dataset construction and initial model training, and modifying previous work in ECPE by proposing an improvement to the pipeline, as well as algorithm development and implementation for the specific domain of reviews.
翻訳日:2021-12-10 03:21:29 公開日:2021-12-07
# (参考訳) 多国間アドレス解析:ゼロショット評価 [全文訳有]

Multinational Address Parsing: A Zero-Shot Evaluation ( http://arxiv.org/abs/2112.04008v1 )

ライセンス: CC BY 4.0
Marouane Yassine and David Beauchemin and Fran\c{c}ois Laviolette and Luc Lamontagne(参考訳) アドレス解析は、住所(街路名や郵便番号など)を構成するセグメントを識別することから成り立っている。 レコードリンクのようなタスクで重要であるため、アドレス解析は多くのテクニックでアプローチされており、最新のものはニューラルネットワークに依存している。 これらのモデルは顕著な結果をもたらすが、ニューラルネットワークに関するこれまでの研究は、単一のソース国からのアドレスを解析することのみに焦点を当てていた。 本稿では,ゼロショット転校学習環境において,深層学習モデルの学習によって得られたアドレス解析知識を,ゼロショット転校学習環境での訓練を行わずに他国に伝達する可能性について検討する。 また、同じゼロショット転送設定において、注意機構とドメイン敵訓練アルゴリズムを用いて、パフォーマンスを向上させる実験を行った。 どちらの方法も、テストされたほとんどの国で最先端のパフォーマンスをもたらし、残りの国に良い結果を与える。 また,最善のモデルに対する不完全アドレスの影響についても検討し,トレーニング中の不完全アドレスの使用による影響を評価した。 さらに、いくつかのトレーニングされたモデルのオープンソースpython実装も提案します。

Address parsing consists of identifying the segments that make up an address, such as a street name or a postal code. Because of its importance for tasks like record linkage, address parsing has been approached with many techniques, the latest relying on neural networks. While these models yield notable results, previous work on neural networks has only focused on parsing addresses from a single source country. This paper explores the possibility of transferring the address parsing knowledge acquired by training deep learning models on some countries' addresses to others with no further training in a zero-shot transfer learning setting. We also experiment using an attention mechanism and a domain adversarial training algorithm in the same zero-shot transfer setting to improve performance. Both methods yield state-of-the-art performance for most of the tested countries while giving good results to the remaining countries. We also explore the effect of incomplete addresses on our best model, and we evaluate the impact of using incomplete addresses during training. In addition, we propose an open-source Python implementation of some of our trained models.
翻訳日:2021-12-10 03:15:37 公開日:2021-12-07
# (参考訳) データ駆動型機能接続探索のためのディープラーニングモデル [全文訳有]

A deep learning model for data-driven discovery of functional connectivity ( http://arxiv.org/abs/2112.04013v1 )

ライセンス: CC BY 4.0
Usman Mahmood, Zening Fu, Vince Calhoun, Sergey Plis(参考訳) 機能的接続性(FC)の研究は、fMRI相関行列の無方向重み付きグラフを通して、脳とその障害を研究するという大まかな価値を実証している。 しかし、fcとの作業のほとんどは接続の計算方法に依存しており、さらにfc行列の手動のポストホック解析に依存する。 本研究では,主題分類の学習の一環として,接続構造を学習するディープラーニングアーキテクチャbraingnnを提案する。 この学習グラフにグラフィカルニューラルネットワークを同時に適用し、予測タスクに重要な脳領域のスパースサブセットを選択することを学ぶ。 統合失調症 fMRI データセット上でのモデルの最先端分類性能を実証し,イントロスペクションが障害関連所見に与える影響を実証した。 モデルによって学習されたグラフは強い階級識別を示し、関連する領域のスパース部分集合は統合失調症文学と一致している。

Functional connectivity (FC) studies have demonstrated the overarching value of studying the brain and its disorders through the undirected weighted graph of fMRI correlation matrix. Most of the work with the FC, however, depends on the way the connectivity is computed, and further depends on the manual post-hoc analysis of the FC matrices. In this work we propose a deep learning architecture BrainGNN that learns the connectivity structure as part of learning to classify subjects. It simultaneously applies a graphical neural network to this learned graph and learns to select a sparse subset of brain regions important to the prediction task. We demonstrate the model's state-of-the-art classification performance on a schizophrenia fMRI dataset and demonstrate how introspection leads to disorder relevant findings. The graphs learned by the model exhibit strong class discrimination and the sparse subset of relevant regions are consistent with the schizophrenia literature.
翻訳日:2021-12-10 02:14:56 公開日:2021-12-07
# (参考訳) ニューラルアクティベーション符号化による教師なし表現学習 [全文訳有]

Unsupervised Representation Learning via Neural Activation Coding ( http://arxiv.org/abs/2112.04014v1 )

ライセンス: CC BY 4.0
Yookoon Park, Sangho Lee, Gunhee Kim, David M. Blei(参考訳) 本稿では,神経アクティベーションコーディング(nac)を,ラベルなしデータから下流アプリケーションへの深層表現を学習するための新しい手法として提示する。 より深いエンコーダは、その表現力を最大限に活用するために、下流予測器のデータに対する非線形表現率を最大化するべきである。 これにより、NACは、エンコーダのアクティベーションパターンと、ノイズの多い通信チャネル上のデータとの相互情報を最大化する。 ノイズロバストアクティベーション符号の学習は、reluエンコーダの異なる線形領域の数を増加させ、したがって最大非線形表現率を増加させる。 さらに興味深いことに、NACはデータの連続表現と離散表現の両方を学び、それぞれが下流の2つのタスクで評価する。 (i)CIFAR-10とImageNet-1Kの線形分類 (ii) CIFAR-10とFLICKR-25Kの近接検索 実験結果から,nac は simclr や distillhash などの最近のベースラインよりも,両方のタスクで優れた性能を得られることがわかった。 さらに、NACプレトレーニングは、深い生成モデルのトレーニングに重要な利益をもたらす。 私たちのコードはhttps://github.com/y ookoon/nacで利用可能です。

We present neural activation coding (NAC) as a novel approach for learning deep representations from unlabeled data for downstream applications. We argue that the deep encoder should maximize its nonlinear expressivity on the data for downstream predictors to take full advantage of its representation power. To this end, NAC maximizes the mutual information between activation patterns of the encoder and the data over a noisy communication channel. We show that learning for a noise-robust activation code increases the number of distinct linear regions of ReLU encoders, hence the maximum nonlinear expressivity. More interestingly, NAC learns both continuous and discrete representations of data, which we respectively evaluate on two downstream tasks: (i) linear classification on CIFAR-10 and ImageNet-1K and (ii) nearest neighbor retrieval on CIFAR-10 and FLICKR-25K. Empirical results show that NAC attains better or comparable performance on both tasks over recent baselines including SimCLR and DistillHash. In addition, NAC pretraining provides significant benefits to the training of deep generative models. Our code is available at https://github.com/y ookoon/nac.
翻訳日:2021-12-10 02:03:43 公開日:2021-12-07
# (参考訳) deepface-emd:パッチワイズ・アース・ムーバー距離を用いた再ランキングによる分散的顔識別の改善 [全文訳有]

DeepFace-EMD: Re-ranking Using Patch-wise Earth Mover's Distance Improves Out-Of-Distribution Face Identification ( http://arxiv.org/abs/2112.04016v1 )

ライセンス: CC BY 4.0
Hai Phan, Anh Nguyen(参考訳) 顔認証(FI)はユビキタスであり、法執行機関による多くの高い判断を導いている。 State-of-the-art FIアプローチは、イメージ埋め込み間のコサイン類似性を採って、2つの画像を比較する。 しかし、このようなアプローチは、トレーニングセットやギャラリーに含まれない新しいタイプの画像(例えば、クエリフェイスがマスクされたり、カットされたり、回転したりする場合)に対する不適切な分散(ood)一般化に苦しむ。 そこで本稿では,画像パッチの深部空間的特徴について,Earth Mover's Distanceを用いて2つの顔を比較した。 比較段階は,細粒度の画像類似性(例えば目から目まで)を明示的に検討し,従来のfiよりもood摂動や咬合に頑健である。 興味深いことに,提案手法は機能抽出器を使わずに,マスク,トリミング,回転,逆方向のOODクエリの精度を常に向上し,分布内画像でも同様の結果が得られる。

Face identification (FI) is ubiquitous and drives many high-stake decisions made by law enforcement. State-of-the-art FI approaches compare two images by taking the cosine similarity between their image embeddings. Yet, such an approach suffers from poor out-of-distribution (OOD) generalization to new types of images (e.g., when a query face is masked, cropped, or rotated) not included in the training set or the gallery. Here, we propose a re-ranking approach that compares two faces using the Earth Mover's Distance on the deep, spatial features of image patches. Our extra comparison stage explicitly examines image similarity at a fine-grained level (e.g., eyes to eyes) and is more robust to OOD perturbations and occlusions than traditional FI. Interestingly, without finetuning feature extractors, our method consistently improves the accuracy on all tested OOD queries: masked, cropped, rotated, and adversarial while obtaining similar results on in-distribution images.
翻訳日:2021-12-10 01:47:09 公開日:2021-12-07
# (参考訳) モデルへのトランスフォーマーの関与と海馬形成の神経表現

Relating transformers to models and neural representations of the hippocampal formation ( http://arxiv.org/abs/2112.04035v1 )

ライセンス: CC BY 4.0
James C.R. Whittington, Joseph Warren, Timothy E.J. Behrens(参考訳) 脳ネットワークに基づく多くのディープニューラルネットワークアーキテクチャは、最近、脳内で観察される神経の発射パターンを再現することが示されている。 最もエキサイティングで有望な新しいアーキテクチャの一つであるTransformer Neural Networkは、脳を念頭に置いて開発された。 本研究では, トランスフォーマーが再帰的な位置エンコーディングを備えると, 海馬形成の正確な空間表現を再現できること, 特にプレースセルとグリッドセルについて述べる。 さらに,神経科学の現在の海馬モデルと密接な関係にあることから,この結果は驚きではない。 さらに、トランスバージョンは神経科学バージョンよりも劇的なパフォーマンス向上を提供することを示した。 この研究は、人工と脳のネットワークの計算を結合し続け、海馬と皮質の相互作用の新たな理解を提供し、言語理解のような現在の神経科学モデルを超えて、より広い皮質領域が複雑なタスクを果たすことを示唆している。

Many deep neural network architectures loosely based on brain networks have recently been shown to replicate neural firing patterns observed in the brain. One of the most exciting and promising novel architectures, the Transformer neural network, was developed without the brain in mind. In this work, we show that transformers, when equipped with recurrent position encodings, replicate the precisely tuned spatial representations of the hippocampal formation; most notably place and grid cells. Furthermore, we show that this result is no surprise since it is closely related to current hippocampal models from neuroscience. We additionally show the transformer version offers dramatic performance gains over the neuroscience version. This work continues to bind computations of artificial and brain networks, offers a novel understanding of the hippocampal-cortical interaction, and suggests how wider cortical areas may perform complex tasks beyond current neuroscience models such as language comprehension.
翻訳日:2021-12-10 01:18:33 公開日:2021-12-07
# (参考訳) Deep Diagnosis: ディープラーニングプログラムにおける障害の自動診断と推奨可能な修正 [全文訳有]

DeepDiagnosis: Automatically Diagnosing Faults and Recommending Actionable Fixes in Deep Learning Programs ( http://arxiv.org/abs/2112.04036v1 )

ライセンス: CC BY 4.0
Mohammad Wardat, Breno Dantas Cruz, Wei Le, Hridesh Rajan(参考訳) ディープニューラルネットワーク(DNN)は様々なアプリケーションで使われている。 しかしながら、他のソフトウェアアプリケーションと同様に、DNNベースのアプリケーションはバグに悩まされている。 これまでの研究によると、DNNのバグ修正パターンは従来のバグ修正パターンとは異なる。 さらに、これらのバグモデルでは、未解決エラーによる診断と修正が簡単ではない。 バグの特定と修正を支援するために,障害のローカライズ,エラー症状の報告,DNNプログラムの修正提案といった,新しいデバッグアプローチであるDeepDiagnosisを提案する。 第1段階では,本手法は訓練モデルを監視し,周期的に8種類のエラー条件をチェックする。 そして、問題が発生した場合、モデルに実行可能な修正を行うのに十分な情報を含むメッセージを報告する。 評価では、GitHubとStack Overflowによる444のモデル-53の実世界と、AUTOTRAINERによる391のキュレーションを徹底的に検討した。 DeepDiagnosisはUMLUATやDeepLocalizeと比較して精度が高い。 我々の手法は断層定位においてAUTOTRAINERよりも高速である。 その結果,本手法では追加型のモデルをサポートできるが,最新技術では分類のみに対応できることがわかった。 我々の技術は、トレーニング中に数値エラーとして現れないバグを報告することができた。 また、deeplocalizeはトレーニング中に数値エラーにつながる障害のみを報告できるが、修正のための実行可能な洞察を提供することもできる。 DeepDiagnosisは、他のアプローチと比較して、障害の検出、バグのローカライゼーション、および症状の識別の最も優れた能力を示す。

Deep Neural Networks (DNNs) are used in a wide variety of applications. However, as in any software application, DNN-based apps are afflicted with bugs. Previous work observed that DNN bug fix patterns are different from traditional bug fix patterns. Furthermore, those buggy models are non-trivial to diagnose and fix due to inexplicit errors with several options to fix them. To support developers in locating and fixing bugs, we propose DeepDiagnosis, a novel debugging approach that localizes the faults, reports error symptoms and suggests fixes for DNN programs. In the first phase, our technique monitors a training model, periodically checking for eight types of error conditions. Then, in case of problems, it reports messages containing sufficient information to perform actionable repairs to the model. In the evaluation, we thoroughly examine 444 models -53 real-world from GitHub and Stack Overflow, and 391 curated by AUTOTRAINER. DeepDiagnosis provides superior accuracy when compared to UMLUAT and DeepLocalize. Our technique is faster than AUTOTRAINER for fault localization. The results show that our approach can support additional types of models, while state-of-the-art was only able to handle classification ones. Our technique was able to report bugs that do not manifest as numerical errors during training. Also, it can provide actionable insights for fix whereas DeepLocalize can only report faults that lead to numerical errors during training. DeepDiagnosis manifests the best capabilities of fault detection, bug localization, and symptoms identification when compared to other approaches.
翻訳日:2021-12-10 01:07:01 公開日:2021-12-07
# (参考訳) adasのためのビジョン・クラウドデータ融合:レーン変更予測のケーススタディ [全文訳有]

Vision-Cloud Data Fusion for ADAS: A Lane Change Prediction Case Study ( http://arxiv.org/abs/2112.04042v1 )

ライセンス: CC0 1.0
Yongkang Liu, Ziran Wang, Kyungtae Han, Zhenyu Shou, Prashant Tiwari, John H.L. Hansen(参考訳) インテリジェントな車両と先進的な運転支援システム(adas)の急速な発展により、人間の運転者参加の混合レベルが輸送システムに関与するという新しいトレンドが生まれている。 そのため,この状況下では,運転者の視覚指導が極めて重要である。 視覚誘導システムの開発を進めるために,視覚・クラウドデータ融合手法を新たに導入し,カメラ画像とデジタルツイン情報をクラウドから統合し,インテリジェントな車両の意思決定を支援する。 対象車両バウンディングボックスを、物体検出装置(自走車上で動作)と位置情報(雲から受信)の助けを借りて描画して一致させる。 最適なマッチング結果である0.7の閾値を交叉する79.2%の精度が、追加の特徴源としての深度画像と共に得られる。 提案手法の有効性を示すために,車線変化予測のケーススタディを行った。 このケーススタディでは,車線変化予測手法を改良した多層パーセプトロンアルゴリズムを提案する。 unity game engineから得られたヒューマン・イン・ザ・ループシミュレーションの結果から,提案モデルが安全性,快適性,環境持続性の観点から高速道路走行性能を著しく向上できることが判明した。

With the rapid development of intelligent vehicles and Advanced Driver-Assistance Systems (ADAS), a new trend is that mixed levels of human driver engagements will be involved in the transportation system. Therefore, necessary visual guidance for drivers is vitally important under this situation to prevent potential risks. To advance the development of visual guidance systems, we introduce a novel vision-cloud data fusion methodology, integrating camera image and Digital Twin information from the cloud to help intelligent vehicles make better decisions. Target vehicle bounding box is drawn and matched with the help of the object detector (running on the ego-vehicle) and position information (received from the cloud). The best matching result, a 79.2% accuracy under 0.7 intersection over union threshold, is obtained with depth images served as an additional feature source. A case study on lane change prediction is conducted to show the effectiveness of the proposed data fusion methodology. In the case study, a multi-layer perceptron algorithm is proposed with modified lane change prediction approaches. Human-in-the-loop simulation results obtained from the Unity game engine reveal that the proposed model can improve highway driving performance significantly in terms of safety, comfort, and environmental sustainability.
翻訳日:2021-12-10 00:43:36 公開日:2021-12-07
# 多モードデータ解析のための流体拡散モデルに基づくグラフ表現:理論的側面とコミュニティ検出の強化

A graph representation based on fluid diffusion model for multimodal data analysis: theoretical aspects and enhanced community detection ( http://arxiv.org/abs/2112.04388v1 )

ライセンス: Link先を確認
Andrea Marinoni and Christian Jutten and Mark Girolami(参考訳) グラフ構造によるデータ表現は、複数のデータ分析アプリケーションで情報を抽出するための最も有効な方法の1つである。 多様なセンシング戦略によって収集された記録を考慮し、探索することにより、マルチモーダルデータセットを調査する場合に特に当てはまる。 それにもかかわらず、古典的なグラフ信号処理は、熱拡散機構に応じて構成される情報伝達のモデルに基づいている。 このシステムは、特に異種ソースから収集された大規模データセットを考慮すれば、マルチモーダルデータ解析には有効ではないデータプロパティに関するいくつかの制約と仮定を提供するため、結果の正確性と堅牢性が著しく危ぶまれる可能性がある。 本稿では,流体拡散に基づくグラフ定義の新しいモデルを提案する。 提案手法は, 運用シナリオにおける最新のデータ解析の課題を考慮に入れるグラフデータ解析の能力を向上し, 試験中の記録の基礎となる現象の正確, 汎用, 効率的な理解のためのプラットフォームを提供し, データの徹底的なキャラクタリゼーションとその意義を得る上で, 記録の多様性が与える可能性を完全に活用する。 本研究では,この流体拡散モデルを用いて,マルチモーダルデータセットをノード間の類似性に応じて多数のグループに分割するコミュニティ検出手法を,教師なし方式で推進することに着目した。 実マルチモーダルデータセットを様々なアプリケーションシナリオでテストすることで得られた実験結果は、マルチモーダルデータ解析におけるコミュニティ検出のための最先端のスキームを強力に上回ることができることを示している。

Representing data by means of graph structures identifies one of the most valid approach to extract information in several data analysis applications. This is especially true when multimodal datasets are investigated, as records collected by means of diverse sensing strategies are taken into account and explored. Nevertheless, classic graph signal processing is based on a model for information propagation that is configured according to heat diffusion mechanism. This system provides several constraints and assumptions on the data properties that might be not valid for multimodal data analysis, especially when large scale datasets collected from heterogeneous sources are considered, so that the accuracy and robustness of the outcomes might be severely jeopardized. In this paper, we introduce a novel model for graph definition based on fluid diffusion. The proposed approach improves the ability of graph-based data analysis to take into account several issues of modern data analysis in operational scenarios, so to provide a platform for precise, versatile, and efficient understanding of the phenomena underlying the records under exam, and to fully exploit the potential provided by the diversity of the records in obtaining a thorough characterization of the data and their significance. In this work, we focus our attention to using this fluid diffusion model to drive a community detection scheme, i.e., to divide multimodal datasets into many groups according to similarity among nodes in an unsupervised fashion. Experimental results achieved by testing real multimodal datasets in diverse application scenarios show that our method is able to strongly outperform state-of-the-art schemes for community detection in multimodal data analysis.
翻訳日:2021-12-09 16:47:29 公開日:2021-12-07
# 局所的および大域的視点を用いた深層学習による病理組織像の核セグメンテーション

Nuclei Segmentation in Histopathology Images using Deep Learning with Local and Global Views ( http://arxiv.org/abs/2112.03998v1 )

ライセンス: Link先を確認
Mahdi Arab Loodaricheh, Nader Karimi, Shadrokh Samavi(参考訳) デジタル病理学は現代医学における最も重要な発展の1つである。 病理検査は医療プロトコルのゴールドスタンダードであり、診断において基本的な役割を果たす。 近年,デジタルスキャナが出現し,組織組織病理のスライドがデジタル化され,デジタル画像として保存できるようになった。 その結果、デジタル化された病理組織はコンピュータ支援画像解析プログラムや機械学習技術に使用できる。 核の検出とセグメンテーションは、がんの診断に不可欠なステップの一つである。 近年, 深層学習が核分割に用いられている。 しかしながら、核セグメンテーションのためのディープラーニングの方法における問題のひとつは、パッチ外からの情報の欠如である。 本稿では,パッチ境界領域における誤予測問題に対処する,深層学習に基づく核セグメンテーション手法を提案する。 最終セグメンテーションマップの予測にはローカルパッチとグローバルパッチの両方を使用します。 マルチオルガン病理組織学データセットにおける実験結果から,本手法がベースライン核セグメンテーションおよび一般的なセグメンテーションモデルよりも優れていることが示された。

Digital pathology is one of the most significant developments in modern medicine. Pathological examinations are the gold standard of medical protocols and play a fundamental role in diagnosis. Recently, with the advent of digital scanners, tissue histopathology slides can now be digitized and stored as digital images. As a result, digitized histopathological tissues can be used in computer-aided image analysis programs and machine learning techniques. Detection and segmentation of nuclei are some of the essential steps in the diagnosis of cancers. Recently, deep learning has been used for nuclei segmentation. However, one of the problems in deep learning methods for nuclei segmentation is the lack of information from out of the patches. This paper proposes a deep learning-based approach for nuclei segmentation, which addresses the problem of misprediction in patch border areas. We use both local and global patches to predict the final segmentation map. Experimental results on the Multi-organ histopathology dataset demonstrate that our method outperforms the baseline nuclei segmentation and popular segmentation models.
翻訳日:2021-12-09 16:46:33 公開日:2021-12-07
# MPCにおける最適値関数学習のためのテーラーニューラルネットワーク

Tailored neural networks for learning optimal value functions in MPC ( http://arxiv.org/abs/2112.03975v1 )

ライセンス: Link先を確認
Dieter Teichrib and Moritz Schulze Darup(参考訳) 学習に基づく予測制御は最適化ベースのmpcにとって有望な代替手段である。 しかし、最適制御方針、最適値関数、あるいはq関数を効率的に学習するには、適切な関数近似子が必要である。 しばしば人工ニューラルネットワーク(ANN)が検討されるが、適切なトポロジを選択することも容易ではない。 このような背景から、ANNは原則として、その断片的なアフィン構造を利用して線形MPCの最適制御ポリシーを正確に記述できることを示した。 本稿では,線形 mpc に対して分割二次であることが知られている最適値関数と q-関数を表す同様の結果を示す。

Learning-based predictive control is a promising alternative to optimization-based MPC. However, efficiently learning the optimal control policy, the optimal value function, or the Q-function requires suitable function approximators. Often, artificial neural networks (ANN) are considered but choosing a suitable topology is also non-trivial. Against this background, it has recently been shown that tailored ANN allow, in principle, to exactly describe the optimal control policy in linear MPC by exploiting its piecewise affine structure. In this paper, we provide a similar result for representing the optimal value function and the Q-function that are both known to be piecewise quadratic for linear MPC.
翻訳日:2021-12-09 16:46:20 公開日:2021-12-07
# マルチチップモジュール上での機械学習モデルを分割するトランスファーブルアプローチ

A Transferable Approach for Partitioning Machine Learning Models on Multi-Chip-Modules ( http://arxiv.org/abs/2112.04041v1 )

ライセンス: Link先を確認
Xinfeng Xie, Prakash Prabhu, Ulysse Beaugnon, Phitchaya Mangpo Phothilimthana, Sudip Roy, Azalia Mirhoseini, Eugene Brevdo, James Laudon, Yanqi Zhou(参考訳) マルチチップモジュール(MCM)は、機械学習(ML)アクセラレータの設計と製造コストを削減し、モノリシックな大型チップと同等の性能とエネルギー効率を提供する。 しかし、MCMをターゲットとするMLコンパイラは、この高い性能を達成するために、複雑な最適化問題を最適かつ効率的に解決する必要がある。 そのような問題の1つは、MCMにおけるチップレット上のテンソル計算グラフにおける演算の最適パーティショニングと配置を決定するマルチチップパーティショニング問題である。 MCMのためのMLグラフの分割は、探索空間が利用可能なチップレットの数とニューラルネットワーク内のノード数とともに指数関数的に増加するため、特に難しい。 さらに、基盤となるハードウェアが課す制約は、有効な解決策が極めて少ない検索空間を生み出す。 本稿では,制約ソルバによって修正される可能性のある候補分割を生成するための,深層強化学習(rl)フレームワークを用いた戦略を提案する。 制約解法を用いることで、RLはスパース空間の有効な解に遭遇し、非学習戦略と比較して少ないサンプルに収束する。 ポリシーネットワークのアーキテクチャ上の選択により、さまざまなMLグラフをまたいだ一般化が可能になります。 実ハードウェア上で生産規模モデルbertを評価した結果,rlポリシーを用いた分割処理はランダム探索およびシミュレーションアニーリングよりも6.11%,5.85%高いスループットを達成した。 さらに、事前訓練されたRLポリシーを微調整することで、検索時間を3時間から9分に短縮し、RLポリシーをスクラッチからトレーニングするのと同じスループットを実現する。

Multi-Chip-Modules (MCMs) reduce the design and fabrication cost of machine learning (ML) accelerators while delivering performance and energy efficiency on par with a monolithic large chip. However, ML compilers targeting MCMs need to solve complex optimization problems optimally and efficiently to achieve this high performance. One such problem is the multi-chip partitioning problem where compilers determine the optimal partitioning and placement of operations in tensor computation graphs on chiplets in MCMs. Partitioning ML graphs for MCMs is particularly hard as the search space grows exponentially with the number of chiplets available and the number of nodes in the neural network. Furthermore, the constraints imposed by the underlying hardware produce a search space where valid solutions are extremely sparse. In this paper, we present a strategy using a deep reinforcement learning (RL) framework to emit a possibly invalid candidate partition that is then corrected by a constraint solver. Using the constraint solver ensures that RL encounters valid solutions in the sparse space frequently enough to converge with fewer samples as compared to non-learned strategies. The architectural choices we make for the policy network allow us to generalize across different ML graphs. Our evaluation of a production-scale model, BERT, on real hardware reveals that the partitioning generated using RL policy achieves 6.11% and 5.85% higher throughput than random search and simulated annealing. In addition, fine-tuning the pre-trained RL policy reduces the search time from 3 hours to only 9 minutes, while achieving the same throughput as training RL policy from scratch.
翻訳日:2021-12-09 15:24:02 公開日:2021-12-07
# 学習理論はグラフニューラルネットワークの一般化を(時々)説明できる

Learning Theory Can (Sometimes) Explain Generalisation in Graph Neural Networks ( http://arxiv.org/abs/2112.03968v1 )

ライセンス: Link先を確認
Pascal Mattia Esser, Leena Chennuru Vankadara, Debarghya Ghoshdastidar(参考訳) 近年,教師付き学習環境におけるいくつかの結果から,vc次元などの古典的統計的学習理論の尺度では,無限幅と反復領域で多くの作業が促進される深層学習モデルの性能を十分に説明できないことが示唆された。 しかし、教師付きセッティングを超えてニューラルネットワークが成功するという理論的説明はほとんどない。 本稿では, 分布的仮定の下では, 古典的学習理論的な尺度が, トランスダクティブ・セッティングにおけるグラフニューラルネットワークの一般化を十分に説明できることを示す。 特に,ノード分類問題に対するグラフ畳み込みネットワークの一般化特性を解析することにより,トランスダクティブ推論の文脈におけるニューラルネットワークの性能の厳密な解析を行う。 VC次元は、この設定において自明な一般化誤差境界をもたらすが、帰納的ラデマッハ複雑性は確率ブロックモデルに対するグラフ畳み込みネットワークの一般化特性を説明することができることを示す。 さらに,トランスダクティブラデマッハ複雑性に基づく一般化誤差境界を用いて,グラフ畳み込みとネットワークアーキテクチャがより小さな一般化誤差を達成する上で果たす役割を実証し,グラフ構造が学習にいつ役立つのかを考察する。 本研究の成果は,ニューラルネットワークの一般化を学習理論的尺度で研究することへの関心を再考するものである。

In recent years, several results in the supervised learning setting suggested that classical statistical learning-theoretic measures, such as VC dimension, do not adequately explain the performance of deep learning models which prompted a slew of work in the infinite-width and iteration regimes. However, there is little theoretical explanation for the success of neural networks beyond the supervised setting. In this paper we argue that, under some distributional assumptions, classical learning-theoretic measures can sufficiently explain generalization for graph neural networks in the transductive setting. In particular, we provide a rigorous analysis of the performance of neural networks in the context of transductive inference, specifically by analysing the generalisation properties of graph convolutional networks for the problem of node classification. While VC Dimension does result in trivial generalisation error bounds in this setting as well, we show that transductive Rademacher complexity can explain the generalisation properties of graph convolutional networks for stochastic block models. We further use the generalisation error bounds based on transductive Rademacher complexity to demonstrate the role of graph convolutions and network architectures in achieving smaller generalisation error and provide insights into when the graph structure can help in learning. The findings of this paper could re-new the interest in studying generalisation in neural networks in terms of learning-theoretic measures, albeit in specific problems.
翻訳日:2021-12-09 14:36:58 公開日:2021-12-07
# SHRIMP: 反復マグニチュードプルーニングによるスペーサーランダム特徴モデル

SHRIMP: Sparser Random Feature Models via Iterative Magnitude Pruning ( http://arxiv.org/abs/2112.04002v1 )

ライセンス: Link先を確認
Yuege Xie, Bobby Shi, Hayden Schaeffer, Rachel Ward(参考訳) スパーススランク加法モデルとスパースランダム特徴モデルは、変数間の相互作用が少ない低次関数を学習する方法として別々に開発されたが、どちらも計算効率は良くない。 一方、$\ell_2$-based shrunk additive model は効率的であるが、係数ベクトルが密度が高いため特徴選択は提供されない。 ニューラルネットワークの宝くじ発見における反復的等級プルーニング手法の成功に触発されて, IMP(ShRIMP)によるスペーサーランダム特徴モデル(Sprser Random Feature Models)を提案する。 提案手法は,2層密集ネットワークにおける疎く宝くじを作成・発見するための複合的なプロセスとみなすことができる。 そこで我々は,SHRIMPの観測された利点を,しきい値のベイシス・パースーツの一般化誤差と固有値の有界性に関する洗練された解析によって説明する。 合成データと実世界のベンチマークデータセットの関数近似実験から,SHRIMPは,最先端スパース機能やSRFE-S,SSAM,SALSAなどの付加手法と比較して,競争力のあるテスト精度が得られることを示した。 一方、SHRIMPは計算複雑性の低い特徴選択を行い、プルーニング率に頑健であり、得られたサブネットの構造の堅牢性を示している。 モデルと重み/ニューロンサブネットワークの対応を指摘し,エビによる抽選チケット仮説を考察した。

Sparse shrunk additive models and sparse random feature models have been developed separately as methods to learn low-order functions, where there are few interactions between variables, but neither offers computational efficiency. On the other hand, $\ell_2$-based shrunk additive models are efficient but do not offer feature selection as the resulting coefficient vectors are dense. Inspired by the success of the iterative magnitude pruning technique in finding lottery tickets of neural networks, we propose a new method -- Sparser Random Feature Models via IMP (ShRIMP) -- to efficiently fit high-dimensional data with inherent low-dimensional structure in the form of sparse variable dependencies. Our method can be viewed as a combined process to construct and find sparse lottery tickets for two-layer dense networks. We explain the observed benefit of SHRIMP through a refined analysis on the generalization error for thresholded Basis Pursuit and resulting bounds on eigenvalues. From function approximation experiments on both synthetic data and real-world benchmark datasets, we show that SHRIMP obtains better than or competitive test accuracy compared to state-of-art sparse feature and additive methods such as SRFE-S, SSAM, and SALSA. Meanwhile, SHRIMP performs feature selection with low computational complexity and is robust to the pruning rate, indicating a robustness in the structure of the obtained subnetworks. We gain insight into the lottery ticket hypothesis through SHRIMP by noting a correspondence between our model and weight/neuron subnetworks.
翻訳日:2021-12-09 14:30:10 公開日:2021-12-07
# 類似性に基づく知識蒸留による自己監督型映像表現のための補助学習

Auxiliary Learning for Self-Supervised Video Representation via Similarity-based Knowledge Distillation ( http://arxiv.org/abs/2112.04011v1 )

ライセンス: Link先を確認
Amirhossein Dadashzadeh, Alan Whone, Majid Mirmehdi(参考訳) ビデオ表現学習のための自己教師付き事前学習手法が際立った成功にもかかわらず、事前学習のためのラベル付きデータセットが小さい場合や、ソースタスク(事前学習)におけるラベル付きデータとターゲットタスク(ファインタニング)におけるラベル付きデータとの領域差が重要である場合、それらを一般化する。 これらの問題を緩和するため,Kineetics-400 ではなく Kinetics-100 などのビデオデータを用いて,知識類似度蒸留法である auxSKD に基づいて,自己指導型プレトレーニングを補助的プレトレーニングフェーズで補完する手法を提案する。 本手法は,学習者の学習モデルに対する知識を反復的に消し去る教師ネットワークを,ビデオデータのセグメント間の類似性情報をキャプチャすることで展開する。 学生モデルは、この事前知識を活用することによって、プレテキストタスクを解決する。 また,新たなプリテキストタスクであるビデオセグメントペース予測(vspp)を導入することで,入力映像のランダムに選択されたセグメントの再生速度を予測し,より信頼性の高い自己教師付き表現を提供する。 実験の結果,UCF101データセットとHMDB51データセットの両方で,K100で事前トレーニングを行う場合,技術の現状に優れた結果が得られた。 さらに,我々の補助的関連であるauxSKDは,最近の自己管理手法( VideoPace や RSPNet など)に追加の事前訓練フェーズとして付加された場合,UCF101 と HMDB51 の成績が向上することを示した。 私たちのコードはまもなくリリースされます。

Despite the outstanding success of self-supervised pretraining methods for video representation learning, they generalise poorly when the unlabeled dataset for pretraining is small or the domain difference between unlabelled data in source task (pretraining) and labeled data in target task (finetuning) is significant. To mitigate these issues, we propose a novel approach to complement self-supervised pretraining via an auxiliary pretraining phase, based on knowledge similarity distillation, auxSKD, for better generalisation with a significantly smaller amount of video data, e.g. Kinetics-100 rather than Kinetics-400. Our method deploys a teacher network that iteratively distils its knowledge to the student model by capturing the similarity information between segments of unlabelled video data. The student model then solves a pretext task by exploiting this prior knowledge. We also introduce a novel pretext task, Video Segment Pace Prediction or VSPP, which requires our model to predict the playback speed of a randomly selected segment of the input video to provide more reliable self-supervised representations. Our experimental results show superior results to the state of the art on both UCF101 and HMDB51 datasets when pretraining on K100. Additionally, we show that our auxiliary pertaining, auxSKD, when added as an extra pretraining phase to recent state of the art self-supervised methods (e.g. VideoPace and RSPNet), improves their results on UCF101 and HMDB51. Our code will be released soon.
翻訳日:2021-12-09 14:24:15 公開日:2021-12-07
# 表面欠陥検出のためのロバスト完全局所二分パターン(rclbp)

A Robust Completed Local Binary Pattern (RCLBP) for Surface Defect Detection ( http://arxiv.org/abs/2112.04021v1 )

ライセンス: Link先を確認
Nana Kankam Gyimah, Abenezer Girma, Mahmoud Nabil Mahmoud, Shamila Nateghi, Abdollah Homaifar, Daniel Opoku(参考訳) 本稿では,表面欠陥検出タスクのためのRobust Completed Local Binary Pattern (RCLBP) フレームワークを提案する。 提案手法では,ウェーブレットしきい値を用いたNon-Local(NL)平均フィルタとCLBP(Completed Local Binary Pattern)を組み合わせて,表面欠陥検出のための分類器に供給されるロバストな特徴を抽出する。 本稿では,非局所的(nl)平均フィルタに基づくノイズ除去手法とウェーブレットしきい値付きフィルタを組み合わせることで,テクスチャやエッジを保ちながらノイズを解消する。 次に,CLBP法を用いて識別特徴を抽出した。 最後に、識別機能は分類器に供給され、検出モデルを構築し、提案フレームワークの性能を評価する。 東北大学 (NEU) の実際の鋼表面欠陥データベースを用いて, 欠陥検出モデルの性能評価を行った。 実験により, RCLBP法はノイズ耐性を有し, クラス内およびクラス間変化の異なる条件下での表面欠陥検出にも適用可能であることが示された。

In this paper, we present a Robust Completed Local Binary Pattern (RCLBP) framework for a surface defect detection task. Our approach uses a combination of Non-Local (NL) means filter with wavelet thresholding and Completed Local Binary Pattern (CLBP) to extract robust features which are fed into classifiers for surface defects detection. This paper combines three components: A denoising technique based on Non-Local (NL) means filter with wavelet thresholding is established to denoise the noisy image while preserving the textures and edges. Second, discriminative features are extracted using the CLBP technique. Finally, the discriminative features are fed into the classifiers to build the detection model and evaluate the performance of the proposed framework. The performance of the defect detection models are evaluated using a real-world steel surface defect database from Northeastern University (NEU). Experimental results demonstrate that the proposed approach RCLBP is noise robust and can be applied for surface defect detection under varying conditions of intra-class and inter-class changes and with illumination changes.
翻訳日:2021-12-09 14:23:47 公開日:2021-12-07
# 視線追跡と瞳孔ダイナミックスに基づくプレゼンテーションアタック検出法:包括的調査

Presentation Attack Detection Methods based on Gaze Tracking and Pupil Dynamic: A Comprehensive Survey ( http://arxiv.org/abs/2112.04038v1 )

ライセンス: Link先を確認
Jalil Nourmohammadi Khiarak(参考訳) 本研究の目的は, バイオメトリック・コミュニティにおいて, 可視的人間の特徴はモバイルデバイス上での検証と識別に人気があり, 有効である。 しかし、impostersは、システムを騙すために偽の生体認証と人工生体認証を作成することで、そのような特徴を偽証することができる。 バイシブルバイオメトリックシステムは、プレゼンテーションアタックの高いセキュリティリスクに悩まされている。 方法: 課題ベースの手法,特に視線追跡と瞳孔ダイナミックは,非接触生体計測システムにおいて他の方法よりも安全な方法であると考えられる。 本研究は,視線追跡と瞳孔の動的活力検出に関する既存の研究を概観する。 本研究は,視線追跡と瞳孔ダイナミックな提示攻撃のさまざまな側面,例えば,最先端のライブネス検出アルゴリズム,さまざまな種類のアーティファクト,公開データベースのアクセシビリティ,この分野における標準化の要約を分析した。 さらに,課題ベースのシステムに基づくセキュアなライブネス検出を実現するための,今後の取り組みとオープンチャレンジについて論じる。

Purpose of the research: In the biometric community, visible human characteristics are popular and viable for verification and identification on mobile devices. However, imposters are able to spoof such characteristics by creating fake and artificial biometrics to fool the system. Visible biometric systems have suffered a high-security risk of presentation attack. Methods: In the meantime, challenge-based methods, in particular, gaze tracking and pupil dynamic appear to be more secure methods than others for contactless biometric systems. We review the existing work that explores gaze tracking and pupil dynamic liveness detection. The principal results: This research analyzes various aspects of gaze tracking and pupil dynamic presentation attacks, such as state-of-the-art liveness detection algorithms, various kinds of artifacts, the accessibility of public databases, and a summary of standardization in this area. In addition, we discuss future work and the open challenges to creating a secure liveness detection based on challenge-based systems.
翻訳日:2021-12-09 14:23:26 公開日:2021-12-07
# RIDノイズ:雑音環境下でのロバストな逆設計を目指して

RID-Noise: Towards Robust Inverse Design under Noisy Environments ( http://arxiv.org/abs/2112.03912v1 )

ライセンス: Link先を確認
Jia-Qi Yang, Ke-Bin Fan, Hao Ma, De-Chuan Zhan(参考訳) エンジニアリングの観点からは、設計は理想的な状態でうまく機能するだけでなく、ノイズにも耐えるべきである。 このような設計手法、すなわち堅牢な設計は、製品の品質管理のために業界で広く実装されている。 しかしながら、古典的なロバスト設計は単一の設計対象に対して多くの評価を必要とするが、これらの評価の結果は新しい目標のために再利用できない。 データ効率のよいロバストな設計を実現するために,既存の雑音データを利用して条件付き可逆ニューラルネットワーク(cINN)を訓練するロバスト逆設計(RID-Noise)を提案する。 具体的には,その予測可能性から設計パラメータのロバスト性を推定し,フォワードニューラルネットワークの予測誤差を推定する。 また,cinnに基づく逆モデルの最大重み付き確率推定に使用できるサンプル回りの重みも定義する。 実験の結果から, RID-Noiseがデータから分布とロバスト性を学ぶことによって, どのように機能するかを明確にする。 ノイズのある実世界のベンチマークタスクのさらなる実験により、この手法は他の最先端の逆設計手法よりも効果的であることが確認された。 コードと補足はhttps://github.com/T hyrixYang/rid-noise- aaai22で公開されている。

From an engineering perspective, a design should not only perform well in an ideal condition, but should also resist noises. Such a design methodology, namely robust design, has been widely implemented in the industry for product quality control. However, classic robust design requires a lot of evaluations for a single design target, while the results of these evaluations could not be reused for a new target. To achieve a data-efficient robust design, we propose Robust Inverse Design under Noise (RID-Noise), which can utilize existing noisy data to train a conditional invertible neural network (cINN). Specifically, we estimate the robustness of a design parameter by its predictability, measured by the prediction error of a forward neural network. We also define a sample-wise weight, which can be used in the maximum weighted likelihood estimation of an inverse model based on a cINN. With the visual results from experiments, we clearly justify how RID-Noise works by learning the distribution and robustness from data. Further experiments on several real-world benchmark tasks with noises confirm that our method is more effective than other state-of-the-art inverse design methods. Code and supplementary is publicly available at https://github.com/T hyrixYang/rid-noise- aaai22
翻訳日:2021-12-09 13:48:45 公開日:2021-12-07
# 画像分類器は小さな摂動に対して堅牢にできない

Image classifiers can not be made robust to small perturbations ( http://arxiv.org/abs/2112.04033v1 )

ライセンス: Link先を確認
Zheng Dai and David K. Gifford(参考訳) 入力中の小さな摂動に対する画像分類器の感度は、しばしばその構成の欠陥と見なされる。 この感度が分類器の基本特性であることを実証する。 例えば、$n$-by-$n$の画像集合上の任意の分類器について、1つのクラスを除くすべてのクラスに対して、ハミング距離を含む任意の$p$-normで測定された画像空間の直径と比較して、そのクラスの画像のごく一部を除いて、その分類を変更することができることを示す。 次に,この現象が人間の視覚に与える影響を考察し,コンピュータビジョンシステムの設計上の意義について考察する。

The sensitivity of image classifiers to small perturbations in the input is often viewed as a defect of their construction. We demonstrate that this sensitivity is a fundamental property of classifiers. For any arbitrary classifier over the set of $n$-by-$n$ images, we show that for all but one class it is possible to change the classification of all but a tiny fraction of the images in that class with a tiny modification compared to the diameter of the image space when measured in any $p$-norm, including the hamming distance. We then examine how this phenomenon manifests in human visual perception and discuss its implications for the design considerations of computer vision systems.
翻訳日:2021-12-09 13:48:12 公開日:2021-12-07
# 端から端までの記号回帰による科学的実験の理解の加速

Accelerating Understanding of Scientific Experiments with End to End Symbolic Regression ( http://arxiv.org/abs/2112.04023v1 )

ライセンス: Link先を確認
Nikos Arechiga and Francine Chen and Yan-Ying Chen and Yanxia Zhang and Rumen Iliev and Heishiro Toyoda and Kent Lyons(参考訳) 我々は,任意の科学領域において実験によって得られたような,生データから自由形記号表現を学習する問題について考察する。 科学的現象の正確な解釈モデルが科学研究の基盤となっている。 線形回帰やロジスティック回帰や決定木のような単純で解釈可能なモデルは予測精度に欠けることが多い。 あるいは、ディープニューラルネットワークのような正確なブラックボックスモデルは高い予測精度をもたらすが、その現象の科学的理論を豊かにする方法で人間の理解を容易に認めない。 科学における多くの大きなブレークスルーは、ニュートンの法則、普遍重力、マクスウェルの方程式など、予測精度の高い擬似方程式モデルの開発に発展をもたらした。 データから方程式モデルの探索を自動化する以前の研究は、ドメイン固有のヒューリスティックスと、遺伝的プログラミングやモンテカルロ探索のような計算コストの高い技術を組み合わせたものだった。 シンボル回帰問題をエンドツーエンドの教師付き学習問題として扱うディープニューラルネットワーク(MACSYMA)を開発した。 MACSYMAはデータセットを記述するシンボリック表現を生成することができる。 タスクの計算複雑性は、ニューラルネットワークのフィードフォワード計算に還元される。 さまざまな長さのデータテーブルとさまざまなノイズレベルからなる合成データセットでニューラルネットワークをトレーニングし、ニューラルネットワークがトークンによって正しいシンボリック表現トークンを生成することを学ばなければなりません。 最後に,行動科学の公開データセット上で動作させることで,我々の手法を検証する。

We consider the problem of learning free-form symbolic expressions from raw data, such as that produced by an experiment in any scientific domain. Accurate and interpretable models of scientific phenomena are the cornerstone of scientific research. Simple yet interpretable models, such as linear or logistic regression and decision trees often lack predictive accuracy. Alternatively, accurate blackbox models such as deep neural networks provide high predictive accuracy, but do not readily admit human understanding in a way that would enrich the scientific theory of the phenomenon. Many great breakthroughs in science revolve around the development of parsimonious equational models with high predictive accuracy, such as Newton's laws, universal gravitation, and Maxwell's equations. Previous work on automating the search of equational models from data combine domain-specific heuristics as well as computationally expensive techniques, such as genetic programming and Monte-Carlo search. We develop a deep neural network (MACSYMA) to address the symbolic regression problem as an end-to-end supervised learning problem. MACSYMA can generate symbolic expressions that describe a dataset. The computational complexity of the task is reduced to the feedforward computation of a neural network. We train our neural network on a synthetic dataset consisting of data tables of varying length and varying levels of noise, for which the neural network must learn to produce the correct symbolic expression token by token. Finally, we validate our technique by running on a public dataset from behavioral science.
翻訳日:2021-12-09 13:46:37 公開日:2021-12-07
# (参考訳) 航空画像におけるボックス制御インスタンスセグメンテーションのためのディープレベルセット [全文訳有]

Deep Level Set for Box-supervised Instance Segmentation in Aerial Images ( http://arxiv.org/abs/2112.03451v1 )

ライセンス: CC BY 4.0
Wentong Li, Yijie Chen, Wenyu Liu, Jianke Zhu(参考訳) box-supervised instance segmentationは最近多くの研究成果を集めているが、航空画像領域ではあまり注目されていない。 一般的なオブジェクトコレクションとは対照的に、空中オブジェクトはクラス内の大きなばらつきと複雑な背景とのクラス間の類似性を持つ。 さらに、高解像度衛星画像には多数の小さな物体が存在する。 これにより,近年のペアワイズ・アフィニティ・モデリング手法では,不利な結果を伴うノイズの監視が必然的に必要となる。 このような問題に対処するため,本研究では,ボックスアノテーションのみを終端的に使用して,空域オブジェクトの一連のレベルセット関数を学習する,新しい空域インスタンスセグメンテーション手法を提案する。 一対の親和性を学習する代わりに、慎重に設計されたエネルギー関数を持つレベルセット法は、対象のセグメンテーションを曲線の進化として扱い、オブジェクトの境界を正確に回復し、区別できない背景や類似の物体からの干渉を防ぐことができる。 実験の結果,提案手法は最先端のボックス管理インスタンスセグメンテーション法よりも優れていることがわかった。 ソースコードはhttps://github.com/l iwentomng/boxlevelse tで入手できる。

Box-supervised instance segmentation has recently attracted lots of research efforts while little attention is received in aerial image domain. In contrast to the general object collections, aerial objects have large intra-class variances and inter-class similarity with complex background. Moreover, there are many tiny objects in the high-resolution satellite images. This makes the recent pairwise affinity modeling method inevitably to involve the noisy supervision with the inferior results. To tackle these problems, we propose a novel aerial instance segmentation approach, which drives the network to learn a series of level set functions for the aerial objects with only box annotations in an end-to-end fashion. Instead of learning the pairwise affinity, the level set method with the carefully designed energy functions treats the object segmentation as curve evolution, which is able to accurately recover the object's boundaries and prevent the interference from the indistinguishable background and similar objects. The experimental results demonstrate that the proposed approach outperforms the state-of-the-art box-supervised instance segmentation methods. The source code is available at https://github.com/L iWentomng/boxlevelse t.
翻訳日:2021-12-09 03:43:22 公開日:2021-12-07
# (参考訳) hybrid guiding:gigapixelの病理組織像における意味的セグメンテーションのためのマルチレゾリューション・リファインメントアプローチ [全文訳有]

Hybrid guiding: A multi-resolution refinement approach for semantic segmentation of gigapixel histopathological images ( http://arxiv.org/abs/2112.03455v1 )

ライセンス: CC BY 4.0
Andr\'e Pedersen, Erik Smistad, Tor V. Rise, Vibeke G. Dale, Henrik S. Pettersen, Tor-Arne S. Nordmo, David Bouget, Ingerid Reinertsen, Marit Valla(参考訳) 病理組織学的癌診断は複雑化しており、多くの病理研究所では生検の増加が課題となっている。 したがって,病理組織学的癌部位の自動評価法の開発が重要である。 本研究では,ノルウェーのコホートから得られた乳癌の624枚のスライド画像(WSI)を用いた。 ギガピクセルの病理像のセマンティックセグメンテーションのために,h2g-netと呼ばれる逐次畳み込みニューラルネットワークの設計を提案する。 設計は、パッチワイズ方式による検出段階と、畳み込みオートエンコーダを用いた改良段階とを含む。 この設計を検証するため,パイプライン内の選択成分が腫瘍セグメンテーションに及ぼす影響を評価するためのアブレーション試験を行った。 病理組織像の分画には,階層的サンプリングと深部熱マップの精査が有用であった。 生成した腫瘍セグメンテーション熱マップのポストプロセッシングに精製網を用いた場合, 顕著な改善が得られた。 全体的な最高の設計は90 WSIの独立したテストセットでDiceスコア0.933を達成した。 この設計は、MobileNetV2 (0.872) と低解像度 U-Net (0.874) を用いたクラスタ誘導、パッチワイド高分解能分類のような単一分解能アプローチよりも優れていた。 さらに、代表のx400 WSIのセグメンテーションはCPUのみを使用して約58秒を要した。 本研究は,パッチワイズ予測を改善するために,改良ネットワークを活用する可能性を示す。 ソリューションは効率的で、重複するパッチ推論やアンサンブルを必要としない。 さらに,複数の異なるラベルを同時にバランスさせるランダムサンプリングスキームを用いて,ディスクにパッチを格納することなく,ディープニューラルネットワークをトレーニングできることを示した。 今後の作業には、より効率的なパッチ生成とサンプリング、クラスタリングの改善が含まれるはずだ。

Histopathological cancer diagnostics has become more complex, and the increasing number of biopsies is a challenge for most pathology laboratories. Thus, development of automatic methods for evaluation of histopathological cancer sections would be of value. In this study, we used 624 whole slide images (WSIs) of breast cancer from a Norwegian cohort. We propose a cascaded convolutional neural network design, called H2G-Net, for semantic segmentation of gigapixel histopathological images. The design involves a detection stage using a patch-wise method, and a refinement stage using a convolutional autoencoder. To validate the design, we conducted an ablation study to assess the impact of selected components in the pipeline on tumour segmentation. Guiding segmentation, using hierarchical sampling and deep heatmap refinement, proved to be beneficial when segmenting the histopathological images. We found a significant improvement when using a refinement network for postprocessing the generated tumour segmentation heatmaps. The overall best design achieved a Dice score of 0.933 on an independent test set of 90 WSIs. The design outperformed single-resolution approaches, such as cluster-guided, patch-wise high-resolution classification using MobileNetV2 (0.872) and a low-resolution U-Net (0.874). In addition, segmentation on a representative x400 WSI took ~58 seconds, using only the CPU. The findings demonstrate the potential of utilizing a refinement network to improve patch-wise predictions. The solution is efficient and does not require overlapping patch inference or ensembling. Furthermore, we showed that deep neural networks can be trained using a random sampling scheme that balances on multiple different labels simultaneously, without the need of storing patches on disk. Future work should involve more efficient patch generation and sampling, as well as improved clustering.
翻訳日:2021-12-09 03:29:23 公開日:2021-12-07
# (参考訳) Glue: 単一テーブルのカードを適宜マージしてクエリサイズを推定する [全文訳有]

Glue: Adaptively Merging Single Table Cardinality to Estimate Join Query Size ( http://arxiv.org/abs/2112.03458v1 )

ライセンス: CC BY 4.0
Rong Zhu, Tianjing Zeng, Andreas Pfadler, Wei Chen, Bolin Ding, Jingren Zhou(参考訳) クエリオプティマイザの中心コンポーネントである濃度推定(cardest)は、dbmsで高品質なクエリプランを生成する上で重要な役割を果たす。 CardEst問題は、従来のML強化法とML強化法の両方を用いて、過去数十年にわたって広く研究されてきた。 しかし、cardestの最も難しい問題は、例えば、複数のテーブル上の結合クエリサイズを見積もる方法であるが、広く解決されていない。 現在の方法は、独立の前提に応答するか、重い負担でテクニックを適用するかのいずれかであり、そのパフォーマンスはまだ十分ではない。 さらに悪いことに、既存のCardEstメソッドは、しばしば1つのゴール、すなわち、異なる状況に適応できない推論速度や推定精度を最適化するために設計されている。 本稿では,これらの課題に取り組むために,glue と呼ばれる非常に一般的なフレームワークを提案する。 キーとなるアイデアは、異なるテーブル間の相関をエレガントに分離し、単一テーブルのcardest結果を損失なくマージして結合クエリサイズを見積もることである。 Glueは既存のCardEstメソッドを使用して単一のテーブル単位のCardEst結果を取得することをサポートし、複雑な結合スキーマを処理できる。 したがって、高速な推定時間を持つOLTPや高い推定精度を持つOLAPなど、異なる性能要件を持つ異なるシナリオに容易に適応できる。 一方、Glueは計画探索プロセスにシームレスに統合され、異なる数の値のカウントをサポートすることができることを示す。 これらの特性はすべて、現実のDBMSにGlueをデプロイする潜在的な進歩を示している。

Cardinality estimation (CardEst), a central component of the query optimizer, plays a significant role in generating high-quality query plans in DBMS. The CardEst problem has been extensively studied in the last several decades, using both traditional and ML-enhanced methods. Whereas, the hardest problem in CardEst, i.e., how to estimate the join query size on multiple tables, has not been extensively solved. Current methods either reply on independence assumptions or apply techniques with heavy burden, whose performance is still far from satisfactory. Even worse, existing CardEst methods are often designed to optimize one goal, i.e., inference speed or estimation accuracy, which can not adapt to different occasions. In this paper, we propose a very general framework, called Glue, to tackle with these challenges. Its key idea is to elegantly decouple the correlations across different tables and losslessly merge single table CardEst results to estimate the join query size. Glue supports obtaining the single table-wise CardEst results using any existing CardEst method and can process any complex join schema. Therefore, it easily adapts to different scenarios having different performance requirements, i.e., OLTP with fast estimation time or OLAP with high estimation accuracy. Meanwhile, we show that Glue can be seamlessly integrated into the plan search process and is able to support counting distinct number of values. All these properties exhibit the potential advances of deploying Glue in real-world DBMS.
翻訳日:2021-12-09 03:10:27 公開日:2021-12-07
# (参考訳) アダム家アルゴリズムの新しい収束解析 [全文訳有]

A Novel Convergence Analysis for Algorithms of the Adam Family ( http://arxiv.org/abs/2112.03459v1 )

ライセンス: CC BY 4.0
Zhishuai Guo, Yi Xu, Wotao Yin, Rong Jin, Tianbao Yang(参考訳) 2014年の発明以来、アダム・オプティマイザは大きな注目を集めてきた。 一方、深層学習において広く用いられ、多くの変種が提案されている一方、理論収束性は謎のままである。 実際には必ずしも適用できない更新について強い仮定を必要とする研究もあるが、アダムのオリジナルの問題収束解析に従う研究もあるが、収束を保証するには十分ではないことが示されている。 アダムの厳密な収束解析は存在するが、アダムの他の多くの変種をカバーできるほど一般的ではない適応的なステップサイズの更新に特定の要求を課している。 これらの問題に対処するために、この拡張抽象論において、Adam型メソッド(Adam, AMSGrad, Adaboundなど)の族に対する単純で一般的な収束の証明を示す。 本分析では, 1次モーメントの「モーメント」パラメータの増大と, 実際に用いられる場合, ステップサイズの適応係数の有界条件のみを要し, 確率勾配の緩やかな条件下でのAdamのすべての変種に適用する。 また, 使用済み確率勾配推定器の分散低減効果も確立した。 実際、adamの分析は非常に単純で汎用的なので、min-max、 compositional、bilevel optimization問題を含む、より広範な非凸最適化問題群を解決するための収束を確立するために活用できます。 この拡張抽象の完全な(早期)バージョンについては、arXiv:2104.14840を参照してください。

Since its invention in 2014, the Adam optimizer has received tremendous attention. On one hand, it has been widely used in deep learning and many variants have been proposed, while on the other hand their theoretical convergence property remains to be a mystery. It is far from satisfactory in the sense that some studies require strong assumptions about the updates, which are not necessarily applicable in practice, while other studies still follow the original problematic convergence analysis of Adam, which was shown to be not sufficient to ensure convergence. Although rigorous convergence analysis exists for Adam, they impose specific requirements on the update of the adaptive step size, which are not generic enough to cover many other variants of Adam. To address theses issues, in this extended abstract, we present a simple and generic proof of convergence for a family of Adam-style methods (including Adam, AMSGrad, Adabound, etc.). Our analysis only requires an increasing or large "momentum" parameter for the first-order moment, which is indeed the case used in practice, and a boundness condition on the adaptive factor of the step size, which applies to all variants of Adam under mild conditions of stochastic gradients. We also establish a variance diminishing result for the used stochastic gradient estimators. Indeed, our analysis of Adam is so simple and generic that it can be leveraged to establish the convergence for solving a broader family of non-convex optimization problems, including min-max, compositional, and bilevel optimization problems. For the full (earlier) version of this extended abstract, please refer to arXiv:2104.14840.
翻訳日:2021-12-09 02:39:55 公開日:2021-12-07
# (参考訳) マルチビュー検出のためのVoxelized 3D Feature Aggregation [全文訳有]

Voxelized 3D Feature Aggregation for Multiview Detection ( http://arxiv.org/abs/2112.03471v1 )

ライセンス: CC BY 4.0
Jiahao Ma, Jinguang Tong, Shan Wang, Wei Zhao, Liang Zheng, Chuong Nguyen(参考訳) マルチビュー検出は、複数のカメラビューが混在するシーンにおける閉塞を軽減するために組み込まれており、最先端のアプローチでは、ホモグラフィ変換を採用して、マルチビュー機能を地上面に投影する。 しかし、これらの2次元変換は物体の高さを考慮せず、同じ物体の垂直方向に沿って無視される特徴が同一の平面上に投影されないため、不純な地上面の特徴が生じることが判明した。 この問題を解決するために,多視点検出における特徴変換とアグリゲーションのためのvfa,voxelized 3d feature aggregateを提案する。 具体的には、3d空間をボクセル化し、それぞれのカメラビューにボクセルを投影し、2d機能をこれらの投影ボクセルと関連付ける。 これにより、同じ垂直線に沿って2次元特徴を識別して集約し、プロジェクション歪みを広範囲に緩和することができる。 また、異なる種類の物体(人間と牛)は地上面に異なる形状を持つため、そのような形状に適合する向き付けガウス符号化を導入することにより、精度と効率性が向上する。 マルチビュー2次元検出とマルチビュー3次元検出に関する実験を行った。 4つのデータセット(新たに導入されたMultiviewCデータセットを含む)の結果、我々のシステムは最先端のアプローチと比較して非常に競争力があることがわかった。 コードとMultiviewCはhttps://github.com/R obert-Mar/VFA.comでリリースされる。

Multi-view detection incorporates multiple camera views to alleviate occlusion in crowded scenes, where the state-of-the-art approaches adopt homography transformations to project multi-view features to the ground plane. However, we find that these 2D transformations do not take into account the object's height, and with this neglection features along the vertical direction of same object are likely not projected onto the same ground plane point, leading to impure ground-plane features. To solve this problem, we propose VFA, voxelized 3D feature aggregation, for feature transformation and aggregation in multi-view detection. Specifically, we voxelize the 3D space, project the voxels onto each camera view, and associate 2D features with these projected voxels. This allows us to identify and then aggregate 2D features along the same vertical line, alleviating projection distortions to a large extent. Additionally, because different kinds of objects (human vs. cattle) have different shapes on the ground plane, we introduce the oriented Gaussian encoding to match such shapes, leading to increased accuracy and efficiency. We perform experiments on multiview 2D detection and multiview 3D detection problems. Results on four datasets (including a newly introduced MultiviewC dataset) show that our system is very competitive compared with the state-of-the-art approaches. %Our code and data will be open-sourced.Code and MultiviewC are released at https://github.com/R obert-Mar/VFA.
翻訳日:2021-12-09 02:26:37 公開日:2021-12-07
# (参考訳) 知識蒸留のための最適輸送距離を用いた神経言語横断要約の改善 [全文訳有]

Improving Neural Cross-Lingual Summarization via Employing Optimal Transport Distance for Knowledge Distillation ( http://arxiv.org/abs/2112.03473v1 )

ライセンス: CC BY 4.0
Thong Nguyen, Luu Anh Tuan(参考訳) 現在の最先端のクロスリンガル要約モデルは、共有語彙モジュールで動作するマルチタスク学習パラダイムを採用しており、2つの言語におけるトークン間の自己照応機構に依存している。 しかし、自己言及によって学習される相関は、しばしば緩く暗黙的であり、言語間の重要な言語間表現を捉えるのに非効率である。 形態的あるいは構造的な特徴の異なる言語で実行すると、問題は悪化し、言語間のアライメントが難しくなり、結果としてパフォーマンスが低下する。 この問題を解決するために,単言語要約教師の知識を言語間要約学習者に蒸留することにより,言語間相関を明示的に構築することを目的とした,言語間要約のための知識蒸留ベースのフレームワークを提案する。 教師と生徒の表現は2つの異なるベクトル空間上に置かれているため,教師と学生の表現の相違を推定するために,最適-輸送距離であるシンクホーン拡散を用いた知識蒸留損失を提案する。 Sinkhorn Divergenceの直感的に幾何学的な性質のため、学生モデルは、生成した言語間隠れ状態とモノリンガル隠れ状態との整合性を生産的に学習することができる。 遠隔言語ペアにおける言語横断要約データセットの実験により,高レベルおよび低ソース設定下での最先端モデルよりも優れた結果が得られる。

Current state-of-the-art cross-lingual summarization models employ multi-task learning paradigm, which works on a shared vocabulary module and relies on the self-attention mechanism to attend among tokens in two languages. However, correlation learned by self-attention is often loose and implicit, inefficient in capturing crucial cross-lingual representations between languages. The matter worsens when performing on languages with separate morphological or structural features, making the cross-lingual alignment more challenging, resulting in the performance drop. To overcome this problem, we propose a novel Knowledge-Distillati on-based framework for Cross-Lingual Summarization, seeking to explicitly construct cross-lingual correlation by distilling the knowledge of the monolingual summarization teacher into the cross-lingual summarization student. Since the representations of the teacher and the student lie on two different vector spaces, we further propose a Knowledge Distillation loss using Sinkhorn Divergence, an Optimal-Transport distance, to estimate the discrepancy between those teacher and student representations. Due to the intuitively geometric nature of Sinkhorn Divergence, the student model can productively learn to align its produced cross-lingual hidden states with monolingual hidden states, hence leading to a strong correlation between distant languages. Experiments on cross-lingual summarization datasets in pairs of distant languages demonstrate that our method outperforms state-of-the-art models under both high and low-resourced settings.
翻訳日:2021-12-09 02:03:49 公開日:2021-12-07
# (参考訳) 組込み外部特徴の検証によるモデル盗み防止 [全文訳有]

Defending against Model Stealing via Verifying Embedded External Features ( http://arxiv.org/abs/2112.03476v1 )

ライセンス: CC BY 4.0
Yiming Li, Linghui Zhu, Xiaojun Jia, Yong Jiang, Shu-Tao Xia, Xiaochun Cao(参考訳) 十分に訓練されたモデルを持つことは、高価なデータ収集とトレーニング手順を必要とするため、モデルは貴重な知的財産である。 最近の研究では、訓練サンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵が配置されたモデルを‘ステア’することができることが明らかになった。 現在、この脅威を和らげるための防衛方法がいくつかあり、主にモデル盗難のコストを増大させた。 本稿では,疑わしいモデルがディフェンダー指定の \emph{external features} の知識を含むかどうかを検証することにより,別の角度からディフェンシブを探索する。 具体的には、いくつかのトレーニングサンプルをスタイル転送でテンパリングすることで、外部機能を組み込む。 次にメタ分類器をトレーニングして、モデルが被害者から盗まれているかどうかを判断します。 このアプローチは、盗まれたモデルが被害者モデルによって学習された機能に関する知識を含むべきであるという理解から着想を得ている。 この手法をcifar-10とimagenetのデータセットで検討する。 実験の結果,複数ステージの盗み処理によって盗み出したモデルが得られても,複数の種類の盗みを同時に検出できることがわかった。 主な結果を再現するためのコードはgithubで入手できる(https://github.com/ zlh-thu/stealingveri fication)。

Obtaining a well-trained model involves expensive data collection and training procedures, therefore the model is a valuable intellectual property. Recent studies revealed that adversaries can `steal' deployed models even when they have no training samples and can not get access to the model parameters or structures. Currently, there were some defense methods to alleviate this threat, mostly by increasing the cost of model stealing. In this paper, we explore the defense from another angle by verifying whether a suspicious model contains the knowledge of defender-specified \emph{external features}. Specifically, we embed the external features by tempering a few training samples with style transfer. We then train a meta-classifier to determine whether a model is stolen from the victim. This approach is inspired by the understanding that the stolen models should contain the knowledge of features learned by the victim model. We examine our method on both CIFAR-10 and ImageNet datasets. Experimental results demonstrate that our method is effective in detecting different types of model stealing simultaneously, even if the stolen model is obtained via a multi-stage stealing process. The codes for reproducing main results are available at Github (https://github.com/ zlh-thu/StealingVeri fication).
翻訳日:2021-12-09 01:48:40 公開日:2021-12-07
# (参考訳) BDFA:ディープニューラルネットワークにおけるブラインドデータ逆ビットフリップ攻撃 [全文訳有]

BDFA: A Blind Data Adversarial Bit-flip Attack on Deep Neural Networks ( http://arxiv.org/abs/2112.03477v1 )

ライセンス: CC BY 4.0
Behnam Ghavami, Mani Sadati, Mohammad Shahidzadeh, Zhenman Fang, Lesley Shannon(参考訳) ニューラルネットワーク重みに対する逆ビットフリップ攻撃(BFA)は、非常に少数のビットを反転させることで壊滅的な精度低下をもたらす。 以前のビットフリップ攻撃手法の大きな欠点は、テストデータに依存することである。 これは、機密データやプロプライエタリデータを含むアプリケーションではしばしば不可能である。 本稿では,bfaをトレーニングやテストデータにアクセスせずに有効化する新しい手法であるbdfaを提案する。 これは、ネットワークの異なる層とターゲットラベルにまたがるバッチ正規化の統計にマッチするように設計された合成データセットを最適化することで実現される。 実験の結果、BDFAはResNet50の精度を75.96\%から13.94\%に大幅に下げることができた。

Adversarial bit-flip attack (BFA) on Neural Network weights can result in catastrophic accuracy degradation by flipping a very small number of bits. A major drawback of prior bit flip attack techniques is their reliance on test data. This is frequently not possible for applications that contain sensitive or proprietary data. In this paper, we propose Blind Data Adversarial Bit-flip Attack (BDFA), a novel technique to enable BFA without any access to the training or testing data. This is achieved by optimizing for a synthetic dataset, which is engineered to match the statistics of batch normalization across different layers of the network and the targeted label. Experimental results show that BDFA could decrease the accuracy of ResNet50 significantly from 75.96\% to 13.94\% with only 4 bits flips.
翻訳日:2021-12-09 01:30:19 公開日:2021-12-07
# (参考訳) ショット学習のための学習インスタンスとタスク対応動的カーネル [全文訳有]

Learning Instance and Task-Aware Dynamic Kernels for Few Shot Learning ( http://arxiv.org/abs/2112.03494v1 )

ライセンス: CC BY 4.0
Rongkai Ma, Pengfei Fang, Gil Avraham, Yan Zuo, Tom Drummond, Mehrtash Harandi(参考訳) サンプルが少ない新しい概念(Few-Shot Learning)を学習し、一般化することは、現実世界のアプリケーションにとって依然として重要な課題である。 最小ショット学習を実現する基本的な方法は、与えられたタスクのコンテキストに迅速に適応できるモデルを実現することである。 動的ネットワークは、コンテンツ適応パラメータを効率的に学習し、数ショットの学習に適していることが示されている。 本稿では,畳み込みネットワークの動的カーネルをタスクの関数として学習し,より高速な一般化を実現することを提案する。 この目的のために,タスク全体と各サンプルに基づいて動的カーネルを取得し,各チャネルと位置を独立に条件付けする機構を開発する。 この結果、動的カーネルは、利用可能な最小の詳細を考慮しながら、グローバル情報に同時に出席する。 本研究では,いくつかのベースラインモデルに対して有意な改善を達成し,少数ショット分類および検出タスクの性能向上を実証的に示す。 これには、mini-ImageNet、tyred-ImageNet、CUB、FC100という4つの数ショット分類ベンチマークの最先端結果と、数ショット検出データセットであるMS COCO-PASCAL-VOCの競合結果が含まれる。

Learning and generalizing to novel concepts with few samples (Few-Shot Learning) is still an essential challenge to real-world applications. A principle way of achieving few-shot learning is to realize a model that can rapidly adapt to the context of a given task. Dynamic networks have been shown capable of learning content-adaptive parameters efficiently, making them suitable for few-shot learning. In this paper, we propose to learn the dynamic kernels of a convolution network as a function of the task at hand, enabling faster generalization. To this end, we obtain our dynamic kernels based on the entire task and each sample and develop a mechanism further conditioning on each individual channel and position independently. This results in dynamic kernels that simultaneously attend to the global information whilst also considering minuscule details available. We empirically show that our model improves performance on few-shot classification and detection tasks, achieving a tangible improvement over several baseline models. This includes state-of-the-art results on 4 few-shot classification benchmarks: mini-ImageNet, tiered-ImageNet, CUB and FC100 and competitive results on a few-shot detection dataset: MS COCO-PASCAL-VOC.
翻訳日:2021-12-09 01:17:34 公開日:2021-12-07
# (参考訳) 正規化潜在最適化によるGANの一般化手法 [全文訳有]

A Generic Approach for Enhancing GANs by Regularized Latent Optimization ( http://arxiv.org/abs/2112.03502v1 )

ライセンス: CC BY 4.0
Yufan Zhou, Chunyuan Li, Changyou Chen, Jinhui Xu(参考訳) モデル複雑性とデータボリュームが急速に増加し、パフォーマンス向上のための深層生成モデル(DGM)のトレーニングがますます重要になっている。 この問題に関するこれまでの研究は主に、新しい目的関数を導入するか、より表現力のあるモデルアーキテクチャを設計することによって、DGMの改善に焦点を当ててきた。 しかし、このようなアプローチは計算量や設計のオーバーヘッドを大幅に増加させることが多い。 このような問題を解決するために,本論文では,様々なアプリケーションシナリオにおいて,事前学習したGANを効果的かつシームレスに拡張できる,ジェネリックフレームワークである「ジェネレーティブ・モデル推論」を紹介する。 我々の基本的な考え方は、トレーニング済みモデルパラメータの再学習や微調整の代わりに、ワッサーシュタイン勾配流法を用いて与えられた要件に対する最適潜時分布を効率的に推定することである。 画像生成,画像翻訳,テキスト対画像生成,画像インパインティング,テキストガイド画像編集などのアプリケーションにおける広範な実験結果から,提案手法の有効性と優位性が示唆された。

With the rapidly growing model complexity and data volume, training deep generative models (DGMs) for better performance has becoming an increasingly more important challenge. Previous research on this problem has mainly focused on improving DGMs by either introducing new objective functions or designing more expressive model architectures. However, such approaches often introduce significantly more computational and/or designing overhead. To resolve such issues, we introduce in this paper a generic framework called {\em generative-model inference} that is capable of enhancing pre-trained GANs effectively and seamlessly in a variety of application scenarios. Our basic idea is to efficiently infer the optimal latent distribution for the given requirements using Wasserstein gradient flow techniques, instead of re-training or fine-tuning pre-trained model parameters. Extensive experimental results on applications like image generation, image translation, text-to-image generation, image inpainting, and text-guided image editing suggest the effectiveness and superiority of our proposed framework.
翻訳日:2021-12-09 00:56:51 公開日:2021-12-07
# (参考訳) 制約分子逆設計のための遺伝的アルゴリズム [全文訳有]

Genetic Algorithm for Constrained Molecular Inverse Design ( http://arxiv.org/abs/2112.03518v1 )

ライセンス: CC BY 4.0
Yurim Lee, Gydam Choi, Minsug Yoon, and Cheongwon Kim(参考訳) 遺伝的アルゴリズムは、近似解を見つけるときに大きな探索空間を探すのに適している。 この利点により、遺伝的アルゴリズムは分子探索空間のような広範囲で未知の空間を探索するのに有効である。 このアルゴリズムは広大な化学空間の探索に適しているが、分子構造を維持しながら薬理学的性質を最適化することは困難である。 本稿では,制約のある分子逆設計を特徴とする遺伝的アルゴリズムを提案する。 提案アルゴリズムはクロスオーバーと突然変異に有効な分子を生成する。 さらに、2相最適化を用いて構造制約に固執しながら、特定の特性を最適化する。 実験により,本アルゴリズムは構造的制約を維持しつつ,特定の性質を満たす分子を効果的に発見できることを示した。

A genetic algorithm is suitable for exploring large search spaces as it finds an approximate solution. Because of this advantage, genetic algorithm is effective in exploring vast and unknown space such as molecular search space. Though the algorithm is suitable for searching vast chemical space, it is difficult to optimize pharmacological properties while maintaining molecular substructure. To solve this issue, we introduce a genetic algorithm featuring a constrained molecular inverse design. The proposed algorithm successfully produces valid molecules for crossover and mutation. Furthermore, it optimizes specific properties while adhering to structural constraints using a two-phase optimization. Experiments prove that our algorithm effectively finds molecules that satisfy specific properties while maintaining structural constraints.
翻訳日:2021-12-09 00:35:47 公開日:2021-12-07
# (参考訳) 3次元点雲完成のための条件付点拡散再定義パラダイム [全文訳有]

A Conditional Point Diffusion-Refinement Paradigm for 3D Point Cloud Completion ( http://arxiv.org/abs/2112.03530v1 )

ライセンス: CC BY 4.0
Zhaoyang Lyu, Zhifeng Kong, Xudong Xu, Liang Pan, Dahua Lin(参考訳) 3Dポイントクラウドは、現実世界の3Dオブジェクトをキャプチャするための重要な3D表現である。 しかし、実スキャンされた3Dポイントクラウドはしばしば不完全であり、下流アプリケーションのために完全なポイントクラウドを復元することが重要である。 ほとんどの既存のポイントクラウド補完方法は、トレーニングにチャンファー距離(CD)損失を使用する。 CD損失は、生成した形状の全体点密度分布を捉えない近傍の近傍を探索することによって、2点雲間の対応を推定し、したがって一様でない点雲の発生につながる可能性がある。 この問題に取り組むため,我々はポイントクラウド完成のための新しいpdr(point diffusion-refinement )パラダイムを提案する。 PDRは、条件生成ネットワーク(CGNet)とReFinement Network(RFNet)で構成されている。 cgnetは、部分的観測に基づく粗い完了条件を生成するために、脱ノイズ拡散確率モデル(ddpm)と呼ばれる条件付き生成モデルを使用する。 DDPMは生成した点雲と一様基底真実の間の一対一の点マッピングを確立し、平均二乗誤差損失を最適化して一様生成を実現する。 RFNetはCGNetの粗い出力を洗練し、さらに完了した点雲の品質を向上させる。 さらに,両ネットワーク用の新しいデュアルパスアーキテクチャを開発した。 アーキテクチャは、(1)部分観測点雲から多レベル特徴を効果的かつ効率的に抽出し、完成を導くことができ、(2)3d点の空間的位置を正確に操作し、滑らかな表面と鋭い細部を得ることができる。 様々なベンチマークデータセットの広範な実験結果から、pdrパラダイムは、ポイントクラウド補完の以前の最先端メソッドよりも優れています。 RFNetの助けを借りて、DDPMの反復生成プロセスを最大50倍加速できるが、性能は低下しない。

3D point cloud is an important 3D representation for capturing real world 3D objects. However, real-scanned 3D point clouds are often incomplete, and it is important to recover complete point clouds for downstream applications. Most existing point cloud completion methods use Chamfer Distance (CD) loss for training. The CD loss estimates correspondences between two point clouds by searching nearest neighbors, which does not capture the overall point density distribution on the generated shape, and therefore likely leads to non-uniform point cloud generation. To tackle this problem, we propose a novel Point Diffusion-Refinement (PDR) paradigm for point cloud completion. PDR consists of a Conditional Generation Network (CGNet) and a ReFinement Network (RFNet). The CGNet uses a conditional generative model called the denoising diffusion probabilistic model (DDPM) to generate a coarse completion conditioned on the partial observation. DDPM establishes a one-to-one pointwise mapping between the generated point cloud and the uniform ground truth, and then optimizes the mean squared error loss to realize uniform generation. The RFNet refines the coarse output of the CGNet and further improves quality of the completed point cloud. Furthermore, we develop a novel dual-path architecture for both networks. The architecture can (1) effectively and efficiently extract multi-level features from partially observed point clouds to guide completion, and (2) accurately manipulate spatial locations of 3D points to obtain smooth surfaces and sharp details. Extensive experimental results on various benchmark datasets show that our PDR paradigm outperforms previous state-of-the-art methods for point cloud completion. Remarkably, with the help of the RFNet, we can accelerate the iterative generation process of the DDPM by up to 50 times without much performance drop.
翻訳日:2021-12-09 00:26:48 公開日:2021-12-07
# (参考訳) 深層ニューラルネットワークを用いた医療アクセス患者の移動距離予測 [全文訳有]

Predicting the Travel Distance of Patients to Access Healthcare using Deep Neural Networks ( http://arxiv.org/abs/2112.03541v1 )

ライセンス: CC BY 4.0
Li-Chin Chen, Ji-Tian Sheu, Yuh-Jue Chuang, Yu Tsao(参考訳) 目的: 健康政策設計における地域医療資源の充実度を決定する上で, 地理的アクセスの改善が重要な課題である。 しかし、患者選択は様々な要因の複雑な相互作用の結果である。 本研究の目的は、資源配分における政策決定の重要な指標である、旅行距離における患者選択の複雑な決定をモデル化するディープニューラルネットワークアプローチを提案することである。 方法: 台湾の4年間の全国保険データを用いて, これまでの文献で議論された特徴を蓄積した。 本研究では,畳み込みニューラルネットワーク(CNN)を用いた予測手法を提案する。 モデル性能は、他の機械学習手法と比較された。 提案するフレームワークは,特徴量の解析にIG(Integrated Gradients)を用いてさらに解釈された。 結果: cnnベースのフレームワークを用いて患者の移動距離を予測し, 精度0.968, auc0.969, 感度0.960, 特異度0.989を得た。 CNNベースのフレームワークは、他のすべてのメソッドよりも優れていた。 本研究では、IG重みは潜在的に説明可能であるが、この関係は公衆衛生における既知の指標と一致しない。 結論: 本研究は深層学習に基づく旅行距離予測モデルの実現可能性を示す。 資源配分において政策立案を導く可能性がある。

Objective: Improving geographical access remains a key issue in determining the sufficiency of regional medical resources during health policy design. However, patient choices can be the result of the complex interactivity of various factors. The aim of this study is to propose a deep neural network approach to model the complex decision of patient choice in travel distance to access care, which is an important indicator for policymaking in allocating resources. Method: We used the 4-year nationwide insurance data of Taiwan and accumulated the possible features discussed in earlier literature. This study proposes the use of a convolutional neural network (CNN)-based framework to make predictions. The model performance was tested against other machine learning methods. The proposed framework was further interpreted using Integrated Gradients (IG) to analyze the feature weights. Results: We successfully demonstrated the effectiveness of using a CNN-based framework to predict the travel distance of patients, achieving an accuracy of 0.968, AUC of 0.969, sensitivity of 0.960, and specificity of 0.989. The CNN-based framework outperformed all other methods. In this research, the IG weights are potentially explainable; however, the relationship does not correspond to known indicators in public health, similar to common consensus. Conclusions: Our results demonstrate the feasibility of the deep learning-based travel distance prediction model. It has the potential to guide policymaking in resource allocation.
翻訳日:2021-12-09 00:02:19 公開日:2021-12-07
# (参考訳) vitsのブートストラップ: 視覚トランスフォーマーをプリトレーニングから解放する [全文訳有]

Bootstrapping ViTs: Towards Liberating Vision Transformers from Pre-training ( http://arxiv.org/abs/2112.03552v1 )

ライセンス: CC BY 4.0
Haofei Zhang, Jiarui Duan, Mengqi Xue, Jie Song, Li Sun, Mingli Song(参考訳) 近年、視覚変換器(ViT)は急速に発展し、コンピュータビジョン(CV)の領域における畳み込みニューラルネットワーク(CNN)の支配に挑戦し始めている。 畳み込みのハードコード化による帰納バイアスを置き換える汎用トランスフォーマーアーキテクチャにより、ViTは特にデータに十分な状況においてCNNを超越した。 しかし、ViTは小さなデータセットに過度に適合する傾向があるため、大規模な事前トレーニングに依存しているため、膨大な時間が費やされる。 本稿では,ネットワークアーキテクチャを高い上限に保ち,より適切な最適化目標を設定しながら,CNNの帰納バイアスをViTに戻すことで,ViTの事前学習を解放する。 まず、エージェントCNNは、誘導バイアスのある与えられたViTに基づいて設計される。 次に,VTがエージェントの中間的特徴から誘導バイアスを学習する際の重み共有を伴うエージェントとViTを協調的に最適化するブートストラップトレーニングアルゴリズムを提案する。 CIFAR-10/100とImageNet-1kの限られたトレーニングデータによる大規模な実験により、インダクティブバイアスがViTsをはるかに高速に収束させ、パラメータの少ない従来のCNNを上回る結果が得られた。

Recently, vision Transformers (ViTs) are developing rapidly and starting to challenge the domination of convolutional neural networks (CNNs) in the realm of computer vision (CV). With the general-purpose Transformer architecture for replacing the hard-coded inductive biases of convolution, ViTs have surpassed CNNs, especially in data-sufficient circumstances. However, ViTs are prone to over-fit on small datasets and thus rely on large-scale pre-training, which expends enormous time. In this paper, we strive to liberate ViTs from pre-training by introducing CNNs' inductive biases back to ViTs while preserving their network architectures for higher upper bound and setting up more suitable optimization objectives. To begin with, an agent CNN is designed based on the given ViT with inductive biases. Then a bootstrapping training algorithm is proposed to jointly optimize the agent and ViT with weight sharing, during which the ViT learns inductive biases from the intermediate features of the agent. Extensive experiments on CIFAR-10/100 and ImageNet-1k with limited training data have shown encouraging results that the inductive biases help ViTs converge significantly faster and outperform conventional CNNs with even fewer parameters.
翻訳日:2021-12-08 23:41:02 公開日:2021-12-07
# (参考訳) もっとレイヤー! ディープラーニングを用いた表データのエンドツーエンド回帰と不確実性 [全文訳有]

More layers! End-to-end regression and uncertainty on tabular data with deep learning ( http://arxiv.org/abs/2112.03566v1 )

ライセンス: CC BY 4.0
Ivan Bondarenko(参考訳) 本稿では,表型データ処理における深層学習の有効性について検討する。 この領域では決定木とそのアンサンブルが主要な手法であり、ディープニューラルネットワークはコンピュータビジョンなどで満足しなければならないと考えられている。 しかし、ディープニューラルネットワークは勾配に基づく階層表現を構築するためのフレームワークであり、この重要な機能は、画像行列やオーディオスペクトログラムだけでなく、汎用的な構造化(タブラル)データの最良の処理を提供することができるべきである。 この問題は、yandex shifts challenge(言い換えれば、yandex shifts weather task)における天気予報トラックのプリズムによって考慮される。 このタスクは、古典的な表型データ回帰問題の変種である。 また、機械学習における一般化と不確実性という別の重要な問題とも関係している。 本稿では,4つのアイデアを組み合わせることで,表型データに対する不確かさを解消するエンドツーエンドアルゴリズムを提案する。 1)自己正規化ニューラルネットワークの深層アンサンブル 2)ガウス目標誤差分布のパラメータ推定としての回帰 3)階層型マルチタスク学習,そして 4) 単純なデータ前処理。 提案アルゴリズムの3つの修正は、それぞれyandex shifts weather challengeのトップ3リーダーボードを形成する。 本稿では,ディープラーニングアルゴリズムの基本的な性質から,この成功がもたらされたと考え,これを証明しようと試みる。

This paper attempts to analyze the effectiveness of deep learning for tabular data processing. It is believed that decision trees and their ensembles is the leading method in this domain, and deep neural networks must be content with computer vision and so on. But the deep neural network is a framework for building gradient-based hierarchical representations, and this key feature should be able to provide the best processing of generic structured (tabular) data, not just image matrices and audio spectrograms. This problem is considered through the prism of the Weather Prediction track in the Yandex Shifts challenge (in other words, the Yandex Shifts Weather task). This task is a variant of the classical tabular data regression problem. It is also connected with another important problem: generalization and uncertainty in machine learning. This paper proposes an end-to-end algorithm for solving the problem of regression with uncertainty on tabular data, which is based on the combination of four ideas: 1) deep ensemble of self-normalizing neural networks, 2) regression as parameter estimation of the Gaussian target error distribution, 3) hierarchical multitask learning, and 4) simple data preprocessing. Three modifications of the proposed algorithm form the top-3 leaderboard of the Yandex Shifts Weather challenge respectively. This paper considers that this success has occurred due to the fundamental properties of the deep learning algorithm, and tries to prove this.
翻訳日:2021-12-08 23:24:25 公開日:2021-12-07
# (参考訳) 感染症検出のためのニューラルネットワークの展望と課題 [全文訳有]

Neural Networks for Infectious Diseases Detection: Prospects and Challenges ( http://arxiv.org/abs/2112.03571v1 )

ライセンス: CC BY 4.0
Muhammad Azeem, Shumaila Javaid, Hamza Fahim and Nasir Saeed(参考訳) 学習し、誤りを修正し、大量の生データを治療と治療のための有用な医療判断に変換する人工ニューラルネットワーク(ann)能力は、患者の安全性とケアの質を高めるために人気を高めている。 そこで本論文は,ANNが患者の医療決定と効率的な疾患診断に有用な洞察を提供する上で,重要な役割について述べる。 我々は、複雑なアプリケーションにANNを適応させる既存の文献で提示された様々な種類のANNを徹底的にレビューする。 さらに, ウイルス, 皮膚, 癌, COVID-19などの各種疾患診断および治療に対するANNの進歩についても検討した。 さらに、新型コロナウイルス感染症の検出精度を向上させるために、ConXNetと呼ばれる新しい深層畳み込みニューラルネットワーク(CNN)モデルを提案する。 ConXNetはさまざまなデータセットを使用してトレーニングとテストが行われ、97%以上の検出精度と精度を実現している。 最後に,アルゴリズムの複雑さ,利用可能なデータ不足,プライバシとセキュリティ,anとバイオセンシングの統合など,今後の研究の方向性と課題を強調する。 これらの研究の方向性は、医学的診断と治療のためのANNの範囲を改善するためにかなりの注意が必要である。

Artificial neural network (ANN) ability to learn, correct errors, and transform a large amount of raw data into useful medical decisions for treatment and care have increased its popularity for enhanced patient safety and quality of care. Therefore, this paper reviews the critical role of ANNs in providing valuable insights for patients' healthcare decisions and efficient disease diagnosis. We thoroughly review different types of ANNs presented in the existing literature that advanced ANNs adaptation for complex applications. Moreover, we also investigate ANN's advances for various disease diagnoses and treatments such as viral, skin, cancer, and COVID-19. Furthermore, we propose a novel deep Convolutional Neural Network (CNN) model called ConXNet for improving the detection accuracy of COVID-19 disease. ConXNet is trained and tested using different datasets, and it achieves more than 97% detection accuracy and precision, which is significantly better than existing models. Finally, we highlight future research directions and challenges such as complexity of the algorithms, insufficient available data, privacy and security, and integration of biosensing with ANNs. These research directions require considerable attention for improving the scope of ANNs for medical diagnostic and treatment applications.
翻訳日:2021-12-08 23:09:36 公開日:2021-12-07
# (参考訳) 質問応答調査: 方向性、課題、データセット、評価行列 [全文訳有]

Question Answering Survey: Directions, Challenges, Datasets, Evaluation Matrices ( http://arxiv.org/abs/2112.03572v1 )

ライセンス: CC BY 4.0
Hariom A. Pandya, Brijesh S. Bhatt(参考訳) インターネット上で利用できる情報の利用と量は、過去10年間で増加している。 このデジタル化は、冗長で過渡的な知識ソースから実りある情報を抽出する自動応答システムの必要性をもたらす。 このようなシステムは、自然言語理解(NLU)を用いたユーザクエリに対して、この巨大な知識源から最も顕著な回答を得られるよう設計されており、質問応答(QA)の分野に依存している。 質問応答は、ユーザの質問を関連するクエリにマッピングする、関連する情報の検索、検索した情報から最適な回答を見つける、といったステップに制限されない。 ディープラーニングモデルの現在の改善は、これらすべてのタスクにおいて魅力的なパフォーマンス改善をもたらす。 本報告では,質問の種類,回答の種類,根拠の源泉,モデリングアプローチに基づいて,QA分野の研究方向性を分析した。 この詳細は、自動質問生成、類似性検出、言語に対する低リソース可用性など、この分野のオープンな課題に続きます。 最後に,利用可能なデータセットと評価尺度に関する調査を行った。

The usage and amount of information available on the internet increase over the past decade. This digitization leads to the need for automated answering system to extract fruitful information from redundant and transitional knowledge sources. Such systems are designed to cater the most prominent answer from this giant knowledge source to the user query using natural language understanding (NLU) and thus eminently depends on the Question-answering(Q A) field. Question answering involves but not limited to the steps like mapping of user question to pertinent query, retrieval of relevant information, finding the best suitable answer from the retrieved information etc. The current improvement of deep learning models evince compelling performance improvement in all these tasks. In this review work, the research directions of QA field are analyzed based on the type of question, answer type, source of evidence-answer, and modeling approach. This detailing followed by open challenges of the field like automatic question generation, similarity detection and, low resource availability for a language. In the end, a survey of available datasets and evaluation measures is presented.
翻訳日:2021-12-08 22:33:59 公開日:2021-12-07
# (参考訳) MESA: 安全適応とフォールトトレランスのためのオフラインメタRL [全文訳有]

MESA: Offline Meta-RL for Safe Adaptation and Fault Tolerance ( http://arxiv.org/abs/2112.03575v1 )

ライセンス: CC BY 4.0
Michael Luo, Ashwin Balakrishna, Brijen Thananjeyan, Suraj Nair, Julian Ibarz, Jie Tan, Chelsea Finn, Ion Stoica, Ken Goldberg(参考訳) 安全探索は、リスクに敏感な環境で強化学習(RL)を使用する上で重要である。 最近の研究は、制約に違反する可能性を測定するリスク測度を学習し、安全のために使用できる。 しかし、そのようなリスク対策を学ぶには環境と大きな相互作用が必要であり、学習中に過度な制約違反を引き起こす。 さらに、これらの措置は、新しい環境に容易に移行できない。 我々は,安全探索をオフラインのメタRL問題とみなし,学習したリスク対策を従来見つからなかった新しい環境に迅速に適応させるため,様々な環境における安全かつ安全でない行動の例を活用することを目的とする。 次に,安全なrlのためのリスク尺度をメタラーニングする手法である,safe adaptation (mesa) のためのメタラーニングを提案する。 5つの連続制御ドメインにわたるシミュレーション実験から、mesaはさまざまな環境からのオフラインデータを利用して、タスクパフォーマンスを維持しながら、見えない環境での制約違反を最大2倍削減できることが示唆された。 コードと補足資料についてはhttps://tinyurl.com/ safe-meta-rlを参照。

Safe exploration is critical for using reinforcement learning (RL) in risk-sensitive environments. Recent work learns risk measures which measure the probability of violating constraints, which can then be used to enable safety. However, learning such risk measures requires significant interaction with the environment, resulting in excessive constraint violations during learning. Furthermore, these measures are not easily transferable to new environments. We cast safe exploration as an offline meta-RL problem, where the objective is to leverage examples of safe and unsafe behavior across a range of environments to quickly adapt learned risk measures to a new environment with previously unseen dynamics. We then propose MEta-learning for Safe Adaptation (MESA), an approach for meta-learning a risk measure for safe RL. Simulation experiments across 5 continuous control domains suggest that MESA can leverage offline data from a range of different environments to reduce constraint violations in unseen environments by up to a factor of 2 while maintaining task performance. See https://tinyurl.com/ safe-meta-rl for code and supplementary material.
翻訳日:2021-12-08 22:09:08 公開日:2021-12-07
# (参考訳) Raspberry Piの経路探索のための強化アルゴリズムの実用的実装 [全文訳有]

Pragmatic Implementation of Reinforcement Algorithms For Path Finding On Raspberry Pi ( http://arxiv.org/abs/2112.03577v1 )

ライセンス: CC BY 4.0
Serena Raju, Sherin Shibu, Riya Mol Raji and Joel Thomas(参考訳) 本稿では,経路計画と衝突回避のために強化学習アルゴリズムを活用する屋内自律配送システムの実用的実装について述べる。 提案システムは,Raspberry Piが制御する4輪駆動非ホロノミックロボットのグリッドマップを容易にするために,コスト効率のよいアプローチである。 このアプローチは、ソースキーポイントから目的地キーポイントまでの最も短いパスを計算し、ナビゲートして、望ましいデリバリを実行する。 Q学習とDeep-Q学習は、静的障害物との衝突を避けながら最適な経路を見つけるために使用される。 この2つのアルゴリズムをロボットにデプロイするアプローチを定義する。 また,ある行動空間における方向の配列を正確な動きにデコードする新しいアルゴリズムを提案する。 続いて,このシステムに要件を課す手順を述べるとともに,室内における自律配送車の概念実証を提示した。

In this paper, pragmatic implementation of an indoor autonomous delivery system that exploits Reinforcement Learning algorithms for path planning and collision avoidance is audited. The proposed system is a cost-efficient approach that is implemented to facilitate a Raspberry Pi controlled four-wheel-drive non-holonomic robot map a grid. This approach computes and navigates the shortest path from a source key point to a destination key point to carry out the desired delivery. Q learning and Deep-Q learning are used to find the optimal path while avoiding collision with static obstacles. This work defines an approach to deploy these two algorithms on a robot. A novel algorithm to decode an array of directions into accurate movements in a certain action space is also proposed. The procedure followed to dispatch this system with the said requirements is described, ergo presenting our proof of concept for indoor autonomous delivery vehicles.
翻訳日:2021-12-08 21:50:45 公開日:2021-12-07
# (参考訳) 双方向相互学習による注意集約による手書き数式認識 [全文訳有]

Handwritten Mathematical Expression Recognition via Attention Aggregation based Bi-directional Mutual Learning ( http://arxiv.org/abs/2112.03603v1 )

ライセンス: CC BY 4.0
Xiaohang Bian, Bo Qin, Xiaozhe Xin, Jianwu Li, Xuefeng Su, Yanfeng Wang(参考訳) 手書き数式認識は、与えられた画像からラテックスシーケンスを自動的に生成することを目的としている。 現在、注意に基づくエンコーダ・デコーダモデルが広く使われている。 通常は左から右(l2r)の方法でターゲットシーケンスを生成し、右から左(r2l)のコンテキストは爆発しない。 本稿では、1つの共有エンコーダと2つの並列逆デコーダ(L2RとR2L)からなるアテンションアグリゲーションに基づく双方向相互学習ネットワーク(ABM)を提案する。 2つのデコーダは、各トレーニングステップで1対1の知識転送を含む相互蒸留によって強化され、2つの逆方向からの補完情報をフル活用する。 さらに,多様なスケールで数学的記号を扱うために,マルチスケールの注意を効果的に統合するアテンションアグリゲーションモジュール (aam) を提案する。 特に、モデルが既に2つの逆方向から知識を学習していることを考えると、推論にはL2Rブランチのみを使用し、元のパラメータサイズと推論速度を維持する。 広範な実験により,提案手法がcrohme 2014では56.85 %,crohme 2016では52.92 %,crohme 2019では53.96 %の認識精度を,データ拡張やモデルセンシングなしで達成できることが実証された。 ソースコードは補足資料で入手できる。

Handwritten mathematical expression recognition aims to automatically generate LaTeX sequences from given images. Currently, attention-based encoder-decoder models are widely used in this task. They typically generate target sequences in a left-to-right (L2R) manner, leaving the right-to-left (R2L) contexts unexploited. In this paper, we propose an Attention aggregation based Bi-directional Mutual learning Network (ABM) which consists of one shared encoder and two parallel inverse decoders (L2R and R2L). The two decoders are enhanced via mutual distillation, which involves one-to-one knowledge transfer at each training step, making full use of the complementary information from two inverse directions. Moreover, in order to deal with mathematical symbols in diverse scales, an Attention Aggregation Module (AAM) is proposed to effectively integrate multi-scale coverage attentions. Notably, in the inference phase, given that the model already learns knowledge from two inverse directions, we only use the L2R branch for inference, keeping the original parameter size and inference speed. Extensive experiments demonstrate that our proposed approach achieves the recognition accuracy of 56.85 % on CROHME 2014, 52.92 % on CROHME 2016, and 53.96 % on CROHME 2019 without data augmentation and model ensembling, substantially outperforming the state-of-the-art methods. The source code is available in the supplementary materials.
翻訳日:2021-12-08 21:46:03 公開日:2021-12-07
# (参考訳) 予測と最適化: ランクへの学習のレンズを通して [全文訳有]

Predict and Optimize: Through the Lens of Learning to Rank ( http://arxiv.org/abs/2112.03609v1 )

ライセンス: CC BY 4.0
Jayanta Mandi, V\'ictor Bucarey, Maxime Mulamba, Tias Guns(参考訳) 過去数年間、予測と最適化のアプローチ(ElmachtoubとGrigas 2021、Willer、Dirkina、Tambe 2019)が注目されている。 これらの問題には、予測機械学習(ML)モデルの予測が、意思決定のための下流最適化問題に供給される設定がある。 予測最適化アプローチは、最適化ソルバによる意思決定の質を直接最適化することで、しばしばニューラルネットワークモデルであるmlモデルをトレーニングすることを提案する。 しかしながら、予測と最適化のアプローチの大きなボトルネックのひとつは、各エポック毎のトレーニングインスタンスの最適化問題を解決することだ。 この課題に対処するため、Mulamba et al. (2021) は、実現可能なソリューションをキャッシュすることで、ノイズコントラスト推定を提案する。 本研究は,ノイズコントラスト推定を,ソリューションキャッシュのランク付けを学習する場合とみなすことができることを示す。 また、最適化問題を解くことなく、閉じた形で区別できるペアワイズとリストワイズランキングの損失関数も開発する。 これらの代理損失関数に関するトレーニングにより、予測の後悔を最小限に抑えることができることを実証的に示す。

In the last years predict-and-optimize approaches (Elmachtoub and Grigas 2021; Wilder, Dilkina, and Tambe 2019) have received increasing attention. These problems have the settings where the predictions of predictive machine learning (ML) models are fed to downstream optimization problems for decision making. Predict-and-optimize approaches propose to train the ML models, often neural network models, by directly optimizing the quality of decisions made by the optimization solvers. However, one major bottleneck of predict-and-optimize approaches is solving the optimization problem for each training instance at every epoch. To address this challenge, Mulamba et al. (2021) propose noise contrastive estimation by caching feasible solutions. In this work, we show the noise contrastive estimation can be considered a case of learning to rank the solution cache. We also develop pairwise and listwise ranking loss functions, which can be differentiated in closed form without the need of solving the optimization problem. By training with respect to these surrogate loss function, we empirically show that we are able to minimize the regret of the predictions.
翻訳日:2021-12-08 21:26:20 公開日:2021-12-07
# (参考訳) DCAN:デュアルコンテキストアグリゲーションによる時間的行動検出の改善 [全文訳有]

DCAN: Improving Temporal Action Detection via Dual Context Aggregation ( http://arxiv.org/abs/2112.03612v1 )

ライセンス: CC BY 4.0
Guo Chen, Yin-Dong Zheng, Limin Wang, Tong Lu(参考訳) 時間的アクション検出は、ビデオ内のアクションの境界を見つけることを目的としている。 境界マッチングに基づく現在の手法は、全ての可能な境界マッチングを列挙し、計算して提案を生成する。 しかし,これらの手法は境界予測における長距離コンテキストアグリゲーションを無視する。 同時に、隣接するマッチングの類似したセマンティックスにより、密に生成されたマッチングの局所的なセマンティックアグリゲーションは、セマンティックリッチ性と識別を改善することができない。 本稿では,高品質な行動提案を生成するために,境界レベルと提案レベルという2つのレベルでコンテキストを集約し,時間的行動検出の性能を向上させるために,dcanと呼ばれるエンド・ツー・エンドの提案生成手法を提案する。 具体的には,Multi-Path Temporal Context Aggregation (MTCA) を設計し,境界レベルのスムーズなコンテキストアグリゲーションと境界の正確な評価を実現する。 マッチング評価のために, 提案レベルでコンテキストを集約し, 粒度から細度までのマッチングマップを洗練するために, 粒度から粒度へのマッチング (cfm) が設計されている。 我々は activitynet v1.3 と thumos-14 に関する広範な実験を行う。 DCANはActivityNet v1.3で平均35.39%のmAPを取得し、THUMOS-14でIoU@0.5でmAP 54.14%に達した。 コードはhttps://github.com/c g1177/dcanでリリースします。

Temporal action detection aims to locate the boundaries of action in the video. The current method based on boundary matching enumerates and calculates all possible boundary matchings to generate proposals. However, these methods neglect the long-range context aggregation in boundary prediction. At the same time, due to the similar semantics of adjacent matchings, local semantic aggregation of densely-generated matchings cannot improve semantic richness and discrimination. In this paper, we propose the end-to-end proposal generation method named Dual Context Aggregation Network (DCAN) to aggregate context on two levels, namely, boundary level and proposal level, for generating high-quality action proposals, thereby improving the performance of temporal action detection. Specifically, we design the Multi-Path Temporal Context Aggregation (MTCA) to achieve smooth context aggregation on boundary level and precise evaluation of boundaries. For matching evaluation, Coarse-to-fine Matching (CFM) is designed to aggregate context on the proposal level and refine the matching map from coarse to fine. We conduct extensive experiments on ActivityNet v1.3 and THUMOS-14. DCAN obtains an average mAP of 35.39% on ActivityNet v1.3 and reaches mAP 54.14% at IoU@0.5 on THUMOS-14, which demonstrates DCAN can generate high-quality proposals and achieve state-of-the-art performance. We release the code at https://github.com/c g1177/DCAN.
翻訳日:2021-12-08 21:15:51 公開日:2021-12-07
# (参考訳) 敵に対するロバスト性のための給与分散深層アンサンブル [全文訳有]

Saliency Diversified Deep Ensemble for Robustness to Adversaries ( http://arxiv.org/abs/2112.03615v1 )

ライセンス: CC BY 4.0
Alex Bogun, Dimche Kostadinov, Damian Borth(参考訳) ディープラーニングモデルは、多くの画像認識、分類、再構築タスクにおいて素晴らしいパフォーマンスを示している。 予測能力のために非常に魅力的で価値が高いが、一つの共通の脅威は解決が困難なままである。 特定の訓練を受けた攻撃者は、悪意のある入力摂動を導入してネットワークを騙し、潜在的に有害な誤予測を引き起こす。 さらに、これらの攻撃は、敵がターゲットモデル(ホワイトボックス)に完全にアクセスでき、そのようなアクセスが制限されている場合(ブラックボックス設定)にも成功する。 モデルのアンサンブルはそのような攻撃から保護できるが、メンバーの共有脆弱性(攻撃転送可能性)によって脆弱になる可能性がある。 そこで本研究では,深層アンサンブルに対する新しい多様性向上学習手法を提案する。 学習目的に新たな用語を導入することにより、アンサンブルメンバーに対するサリエンシマップの多様性を促進し、攻撃者がすべてのアンサンブルメンバーを一度に標的にしないようにする。 トレーニング中、これはモデルの給与の調整を最小化し、メンバーの脆弱性を共有し、敵へのロバスト性を高めるのに役立ちます。 実験では,中間および高強度のホワイトボックス攻撃に対して,アンサンブル部材間の移動性が低下し,最先端のアンサンブル防御よりも性能が向上した。 さらに,本手法と既存の手法を組み合わせることで,ホワイトボックスおよびブラックボックス攻撃による防御のための最先端のアンサンブルアルゴリズムを上回ることを実証する。

Deep learning models have shown incredible performance on numerous image recognition, classification, and reconstruction tasks. Although very appealing and valuable due to their predictive capabilities, one common threat remains challenging to resolve. A specifically trained attacker can introduce malicious input perturbations to fool the network, thus causing potentially harmful mispredictions. Moreover, these attacks can succeed when the adversary has full access to the target model (white-box) and even when such access is limited (black-box setting). The ensemble of models can protect against such attacks but might be brittle under shared vulnerabilities in its members (attack transferability). To that end, this work proposes a novel diversity-promoting learning approach for the deep ensembles. The idea is to promote saliency map diversity (SMD) on ensemble members to prevent the attacker from targeting all ensemble members at once by introducing an additional term in our learning objective. During training, this helps us minimize the alignment between model saliencies to reduce shared member vulnerabilities and, thus, increase ensemble robustness to adversaries. We empirically show a reduced transferability between ensemble members and improved performance compared to the state-of-the-art ensemble defense against medium and high strength white-box attacks. In addition, we demonstrate that our approach combined with existing methods outperforms state-of-the-art ensemble algorithms for defense under white-box and black-box attacks.
翻訳日:2021-12-08 21:01:55 公開日:2021-12-07
# (参考訳) 意味的進化解析によるDiachronic Scholarly Paper Collectionsの変化要約 [全文訳有]

Change Summarization of Diachronic Scholarly Paper Collections by Semantic Evolution Analysis ( http://arxiv.org/abs/2112.03634v1 )

ライセンス: CC BY 4.0
Naman Paharia, Muhammad Syafiq Mohd Pozi, Adam Jatowt(参考訳) 学術データの量はここ数年で劇的に増加している。 特定の科学分野(例えば、IR、物理学、NLP)への新規参入者にとって、より大きなトレンドを見つけ出し、最新の研究を以前の科学的成果やブレークスルーの文脈で位置づけることはしばしば困難である。 同様に、科学史の研究者は、特定の科学領域における変化を分析し視覚化できるツールに興味を持っている。 時間的要約と関連する手法は、時間とともに集約された大量の科学談話データを理解するのに有用である。 我々は,研究論文のコレクションを長期にわたって分析し,時間経過とともに生じる重要な意味的変化を高レベルに概観する新しい手法を提案する。 我々のアプローチは、時間とともに単語の意味表現を比較することに基づいており、学術出版物の大規模なドメイン中心のアーカイブをより深く理解することを目的としている。 例として、1979年から2015年までのACL Anthology Reference Corpusを使用し、22,878の学術論文を含む。

The amount of scholarly data has been increasing dramatically over the last years. For newcomers to a particular science domain (e.g., IR, physics, NLP) it is often difficult to spot larger trends and to position the latest research in the context of prior scientific achievements and breakthroughs. Similarly, researchers in the history of science are interested in tools that allow them to analyze and visualize changes in particular scientific domains. Temporal summarization and related methods should be then useful for making sense of large volumes of scientific discourse data aggregated over time. We demonstrate a novel approach to analyze the collections of research papers published over longer time periods to provide a high-level overview of important semantic changes that occurred over the progress of time. Our approach is based on comparing word semantic representations over time and aims to support users in a better understanding of large domain-focused archives of scholarly publications. As an example dataset we use the ACL Anthology Reference Corpus that spans from 1979 to 2015 and contains 22,878 scholarly articles.
翻訳日:2021-12-08 20:39:11 公開日:2021-12-07
# (参考訳) ゴッド強化学習エージェント [全文訳有]

Godot Reinforcement Learning Agents ( http://arxiv.org/abs/2112.03636v1 )

ライセンス: CC BY 4.0
Edward Beeching, Jilles Debangoye, Olivier Simonin, Christian Wolf(参考訳) 我々は,godotゲームエンジンにおける開発環境とエージェントのためのオープンソースインタフェースであるgodot強化学習(rl)エージェントを提案する。 Godot RL Agentsインターフェースは、さまざまなオンラインおよびオフラインのDeep RLアルゴリズムを使用して、2Dおよび3D環境に挑戦するエージェントの動作の設計、生成、学習を可能にする。 Ray RLlibとStable Baselines RLフレームワークで学習するためのラッパーを備えた標準のGymインターフェースを提供する。 これにより、ユーザは20以上の最先端のオン・ポリシー、オフ・ポリシー、マルチエージェントrlアルゴリズムにアクセスできる。 このフレームワークは、研究者やゲームデザイナーが離散的で連続的で混合したアクションスペースを持つ環境を作成できる汎用的なツールである。 インターフェースは比較的高性能で、ハイエンドラップトップコンピュータでは4つのcpuコア上で1秒間に1kインタラクションを行う。 概要ビデオはこちら。 https://youtu.be/g1M lZSFQIj4

We present Godot Reinforcement Learning (RL) Agents, an open-source interface for developing environments and agents in the Godot Game Engine. The Godot RL Agents interface allows the design, creation and learning of agent behaviors in challenging 2D and 3D environments with various on-policy and off-policy Deep RL algorithms. We provide a standard Gym interface, with wrappers for learning in the Ray RLlib and Stable Baselines RL frameworks. This allows users access to over 20 state of the art on-policy, off-policy and multi-agent RL algorithms. The framework is a versatile tool that allows researchers and game designers the ability to create environments with discrete, continuous and mixed action spaces. The interface is relatively performant, with 12k interactions per second on a high end laptop computer, when parallized on 4 CPU cores. An overview video is available here: https://youtu.be/g1M lZSFqIj4
翻訳日:2021-12-08 20:32:27 公開日:2021-12-07
# (参考訳) ランダム化による構造化推論のスケーリング [全文訳有]

Scaling Structured Inference with Randomization ( http://arxiv.org/abs/2112.03638v1 )

ライセンス: CC BY 4.0
Yao Fu and Mirella Lapata(参考訳) 離散グラフィカルモデルの状態空間のスケールは、ディープラーニングの時代におけるモデルのキャパシティにとって不可欠である。 既存の動的プログラミング(DP)ベースの推論は通常、少数の状態(通常は数百未満)で動作する。 本研究では,構造化モデルを数万の潜在状態に拡張するためのランダム化動的プログラミング(rdp)アルゴリズムのファミリを提案する。 本手法は,従来のdpベース推論 (partition, marginal, reparameterization, entropy, .etc) と異なるグラフ構造 (chains, tree, and more general hypergraphs) に広く適用可能である。 また、自動微分と互換性があるため、ニューラルネットワークとシームレスに統合でき、勾配ベースのオプティマイザで学習することができる。 我々の中心となる手法はランダム化であり、小さな選択されたノードのサブセットでDPを制限・再重み付けすることであり、桁違いの計算の削減につながる。 さらに,Rao-Blackwellizatio nと重要サンプリングによる低バイアス・分散を実現する。 異なるグラフに対する異なる推論の実験は、我々の手法の精度と効率を示す。 さらに、RDPを用いてスケールした構造化されたVAEを訓練すると、試験可能性の観点からベースラインよりも優れ、後方崩壊の防止に成功している。

The scale of the state space of discrete graphical models is crucial for model capacity in the era of deep learning. Existing dynamic programming (DP) based inference typically works with a small number of states (usually less than hundreds). In this work, we propose a family of randomized dynamic programming (RDP) algorithms for scaling structured models to tens of thousands of latent states. Our method is widely applicable to classical DP-based inference (partition, marginal, reparameterization, entropy, .etc) and different graph structures (chains, trees, and more general hypergraphs). It is also compatible with automatic differentiation so can be integrated with neural networks seamlessly and learned with gradient-based optimizers. Our core technique is randomization, which is to restrict and reweight DP on a small selected subset of nodes, leading to computation reduction by orders of magnitudes. We further achieve low bias and variance with Rao-Blackwellization and importance sampling. Experiments on different inferences over different graphs demonstrate the accuracy and efficiency of our methods. Furthermore, when using RDP to train a scaled structured VAE, it outperforms baselines in terms of test likelihood and successfully prevents posterior collapse.
翻訳日:2021-12-08 20:21:36 公開日:2021-12-07
# (参考訳) 冷間開始レコメンデーションのためのクロスドメインユーザ嗜好学習 [全文訳有]

Cross-domain User Preference Learning for Cold-start Recommendation ( http://arxiv.org/abs/2112.03667v1 )

ライセンス: CC BY 4.0
Huiling Zhou, Jie Liu, Zhikang Li, Jin Yu, Hongxia Yang(参考訳) クロスドメインのコールドスタートレコメンデーションは、リコメンデーションシステムにとってますます問題になっている。 既存の作業は主に、クロスドメインユーザレコメンデーションまたはコールドスタートコンテンツレコメンデーションの解決に重点を置いている。 しかし、新しいドメインが初期段階で進化すると、ソースドメインに似た潜在的なユーザを持つが、インタラクションははるかに少ない。 ソースドメインからユーザの好みを学習し、ターゲットドメインに転送することは、特にユーザからのフィードバックを限定して、新しく到着したコンテンツ上で重要である。 このギャップを埋めるため,我々は,アイテムの属性やビデオのジャンルなど,さまざまな意味タグを用いたコールドスタートレコメンデーションを目標とした,自己学習型クロスドメインユーザ選好学習(couple)フレームワークを提案する。 より具体的には、ユーザ履歴、ユーザーコンテンツ、ユーザーグループを含む3段階の嗜好を、信頼できるレコメンデーションを提供するために検討する。 ユーザ履歴をドメイン認識シーケンシャルモデルで表現することで、ユーザのコンテンツ嗜好学習の基盤となるタグに周波数エンコーダを適用する。 次に、直交ノード表現を持つ階層型メモリツリーを提案し、ドメイン間のユーザグループ嗜好をさらに一般化する。 フレームワーク全体がfifo(first-in-first- out)キューと対照的に更新され、より特徴的な表現が得られる。 2つのデータセットに対する大規模な実験は、ユーザーとコンテンツの両方のコールドスタート状況におけるCOUPLEの効率を実証している。 1週間のオンラインa/bテストのデプロイによって、カップルのクリックスルーレート(ctr)が、taobaoアプリで使用される他のベースラインよりも優れていることが分かる。 現在この手法は、クロスドメインのコールドマイクロビデオレコメンデーションのためにオンラインで提供されている。

Cross-domain cold-start recommendation is an increasingly emerging issue for recommender systems. Existing works mainly focus on solving either cross-domain user recommendation or cold-start content recommendation. However, when a new domain evolves at its early stage, it has potential users similar to the source domain but with much fewer interactions. It is critical to learn a user's preference from the source domain and transfer it into the target domain, especially on the newly arriving contents with limited user feedback. To bridge this gap, we propose a self-trained Cross-dOmain User Preference LEarning (COUPLE) framework, targeting cold-start recommendation with various semantic tags, such as attributes of items or genres of videos. More specifically, we consider three levels of preferences, including user history, user content and user group to provide reliable recommendation. With user history represented by a domain-aware sequential model, a frequency encoder is applied to the underlying tags for user content preference learning. Then, a hierarchical memory tree with orthogonal node representation is proposed to further generalize user group preference across domains. The whole framework updates in a contrastive way with a First-In-First-Out (FIFO) queue to obtain more distinctive representations. Extensive experiments on two datasets demonstrate the efficiency of COUPLE in both user and content cold-start situations. By deploying an online A/B test for a week, we show that the Click-Through-Rate (CTR) of COUPLE is superior to other baselines used on Taobao APP. Now the method is serving online for the cross-domain cold micro-video recommendation.
翻訳日:2021-12-08 20:05:49 公開日:2021-12-07
# (参考訳) Hybrid Self-Attention NEAT: NEATアルゴリズムの改良のための新しい進化的アプローチ [全文訳有]

Hybrid Self-Attention NEAT: A novel evolutionary approach to improve the NEAT algorithm ( http://arxiv.org/abs/2112.03670v1 )

ライセンス: CC BY 4.0
Saman Khamesian, Hamed Malek(参考訳) 本稿では,高次元入力における元のNeuroEvolution of Augmenting Topologies (NEAT)アルゴリズムを改善するために,Hybrid Self-Attention NEAT法を提案する。 NEATアルゴリズムは、入力表現が高次元であるため、様々な課題において有意な結果を示したが、十分に調整されたネットワークを作ることはできない。 本研究は,入力の最も重要な部分を選択するための間接符号化手法として自己認識を用いることにより,この制限に対処する。 さらに,最終的なネットワーク重みを進化させるハイブリッド手法の助けを借りて,全体的な性能を向上させる。 主な結論は、ハイブリッド自己注意NEATは元のNEATの制限を取り除くことができるということである。 その結果, 進化的アルゴリズムと比較して, パラメータの少ない原画素入力でAtariゲームと同等のスコアが得られることがわかった。

This article presents a "Hybrid Self-Attention NEAT" method to improve the original NeuroEvolution of Augmenting Topologies (NEAT) algorithm in high-dimensional inputs. Although the NEAT algorithm has shown a significant result in different challenging tasks, as input representations are high dimensional, it cannot create a well-tuned network. Our study addresses this limitation by using self-attention as an indirect encoding method to select the most important parts of the input. In addition, we improve its overall performance with the help of a hybrid method to evolve the final network weights. The main conclusion is that Hybrid Self- Attention NEAT can eliminate the restriction of the original NEAT. The results indicate that in comparison with evolutionary algorithms, our model can get comparable scores in Atari games with raw pixels input with a much lower number of parameters.
翻訳日:2021-12-08 19:48:51 公開日:2021-12-07
# (参考訳) CapsProm:プロモーター予測のためのカプセルネットワーク [全文訳有]

CapsProm: A Capsule Network For Promoter Prediction ( http://arxiv.org/abs/2112.03710v1 )

ライセンス: CC BY 4.0
Lauro Moraes and Pedro Silva and Eduardo Luz and Gladston Moreira(参考訳) DNA配列におけるプロモーター領域の配置は、バイオインフォマティクスの分野において最も重要である。 これは文献で広く研究されている問題であるが、まだ完全には解決されていない。 一部の研究者は、DNA鎖から特徴を自動抽出できる畳み込みネットワークを用いて顕著な結果を示した。 しかし、いくつかの生物に一般化できる普遍的なアーキテクチャはまだ達成されておらず、研究者が新しい生物の評価ごとに新しいアーキテクチャとハイパーパラメータを求める必要がある。 本研究では,7種の異なる生物,真核生物,および原核生物の生DNAデータのプロモーター配列を正確に同定できるカプセルネットワークに基づく多用途アーキテクチャを提案する。 われわれのモデルであるCapsPromは、生物間の学習の伝達を支援し、適用性を高める。 さらに、CapsPromは7つのテストデータセット(F1スコア)のうち5つでベースラインメソッドを克服し、競争結果を示した。 モデルとソースコードはhttps://github.com/l auromoraes/capsnet-p romoterで入手できる。

Locating the promoter region in DNA sequences is of paramount importance in the field of bioinformatics. This is a problem widely studied in the literature, however, not yet fully resolved. Some researchers have presented remarkable results using convolution networks, that allowed the automatic extraction of features from a DNA chain. However, a universal architecture that could generalize to several organisms has not yet been achieved, and thus, requiring researchers to seek new architectures and hyperparameters for each new organism evaluated. In this work, we propose a versatile architecture, based on capsule network, that can accurately identify promoter sequences in raw DNA data from seven different organisms, eukaryotic, and prokaryotic. Our model, the CapsProm, could assist in the transfer of learning between organisms and expand its applicability. Furthermore the CapsProm showed competitive results, overcoming the baseline method in five out of seven of the tested datasets (F1-score). The models and source code are made available at https://github.com/l auromoraes/CapsNet-p romoter.
翻訳日:2021-12-08 19:32:51 公開日:2021-12-07
# (参考訳) 変形物体の物理力学学習のためのフレキシブルネットワーク [全文訳有]

Flexible Networks for Learning Physical Dynamics of Deformable Objects ( http://arxiv.org/abs/2112.03728v1 )

ライセンス: CC BY 4.0
Jinhyung Park, DoHae Lee, In-Kwon Lee(参考訳) 変形可能な物体の物理的ダイナミクスを粒子ベースの表現で学ぶことは、機械学習における多くの計算モデルの目的である。 いくつかの最先端モデルがこの目的をシミュレートされた環境で達成しているが、既存のほとんどのモデルは、入力が順序付けられた点集合の列である、すなわち各点集合内の点の順序が入力列全体にわたって同じでなければならない、という前提条件を課している。 これは、無秩序な点集合の列であると考えられる実世界のデータへの一般化を抑える。 本稿では,不規則な点集合の列を直接消費し,変形可能な物体の将来の状態を粒子ベース表現で推測することにより,その問題を解決するための時間的ポイントネット(TP-Net)モデルを提案する。 提案モデルは,並列に設定された各入力点からグローバルな特徴を抽出する共有特徴抽出器と,これらの特徴を集約して将来の予測を行う予測ネットワークとから構成される。 このアプローチの鍵となる概念は、局所的な特徴よりもグローバルな特徴を用いて、入力の置換の不変性を達成し、モデルの安定性とスケーラビリティを確保することである。 実験により,合成データセットと実世界のデータセットの両方において,実時間予測速度で最先端の性能を実現することを実証した。 既存のアプローチよりも,アプローチが効率的かつ効率的である理由について,定量的かつ定性的な分析を行う。

Learning the physical dynamics of deformable objects with particle-based representation has been the objective of many computational models in machine learning. While several state-of-the-art models have achieved this objective in simulated environments, most existing models impose a precondition, such that the input is a sequence of ordered point sets - i.e., the order of the points in each point set must be the same across the entire input sequence. This restrains the model to generalize to real-world data, which is considered to be a sequence of unordered point sets. In this paper, we propose a model named time-wise PointNet (TP-Net) that solves this problem by directly consuming a sequence of unordered point sets to infer the future state of a deformable object with particle-based representation. Our model consists of a shared feature extractor that extracts global features from each input point set in parallel and a prediction network that aggregates and reasons on these features for future prediction. The key concept of our approach is that we use global features rather than local features to achieve invariance to input permutations and ensure the stability and scalability of our model. Experiments demonstrate that our model achieves state-of-the-art performance in both synthetic dataset and in real-world dataset, with real-time prediction speed. We provide quantitative and qualitative analysis on why our approach is more effective and efficient than existing approaches.
翻訳日:2021-12-08 19:17:18 公開日:2021-12-07
# (参考訳) 3次元表面特徴定位と計数のためのガウス写像予測 [全文訳有]

Gaussian map predictions for 3D surface feature localisation and counting ( http://arxiv.org/abs/2112.03736v1 )

ライセンス: CC BY 4.0
Justin Le Lou\"edec and Grzegorz Cielniak(参考訳) 本稿では,3次元表面特徴の正確な位置と数を推定するためにガウス写像表現を用いることを提案し,局所的外乱の存在下で苦労する密度推定に基づく最先端手法の限界に対処した。 Gaussian マップは、可能なオブジェクトの位置を示し、キーポイントアノテーションから直接生成できる。 本稿では,ニューラルネットワークGNetによる効率的な処理を可能にする2次元形状表現に投影可能な物体の3次元球面クラスに適用する。 本手法を,果実品質指標として用いたイチゴアチェインの表現法として実用的に利用した。 公開されているデータセットから数百個のイチゴを3dスキャンして,提案システムをトレーニングした結果,その精度と精度が,本アプリケーションにおける最先端の密度ベース手法に匹敵することを示した。

In this paper, we propose to employ a Gaussian map representation to estimate precise location and count of 3D surface features, addressing the limitations of state-of-the-art methods based on density estimation which struggle in presence of local disturbances. Gaussian maps indicate probable object location and can be generated directly from keypoint annotations avoiding laborious and costly per-pixel annotations. We apply this method to the 3D spheroidal class of objects which can be projected into 2D shape representation enabling efficient processing by a neural network GNet, an improved UNet architecture, which generates the likely locations of surface features and their precise count. We demonstrate a practical use of this technique for counting strawberry achenes which is used as a fruit quality measure in phenotyping applications. The results of training the proposed system on several hundreds of 3D scans of strawberries from a publicly available dataset demonstrate the accuracy and precision of the system which outperforms the state-of-the-art density-based methods for this application.
翻訳日:2021-12-08 19:03:22 公開日:2021-12-07
# (参考訳) UCD-CS TREC 2021 インシデントストリームトラック [全文訳有]

UCD-CS at TREC 2021 Incident Streams Track ( http://arxiv.org/abs/2112.03737v1 )

ライセンス: CC BY 4.0
Congcong Wang and David Lillis(参考訳) 近年,危機時のソーシャルメディア投稿から重要な情報をマイニングする作業が,緊急対応支援(es)を目的とした研究の焦点となっている。 TRECインシデントストリーム(IS)トラックは、この目的で編成された研究課題である。 このトラックは、危機関連ツイートのストリームを人道支援関連情報タイプに分類し、臨界に関する重要性を見積もる。 前者はマルチラベル情報型分類タスク、後者は優先度推定タスクを参照。 本稿では,大学ダブリンコンピュータ科学大学院(UCD-CS)のTREC-IS 2021への参加について報告する。 単純な機械学習アルゴリズム,マルチタスク学習手法,テキスト拡張,アンサンブルアプローチなど,さまざまなアプローチを検討した。 公式評価結果は,多くの指標において,我々の成績が最も高いことを示唆している。 再現性を高めるため、コードはhttps://github.com/w angcongcong123/crisi s-mtlで公開されている。

In recent years, the task of mining important information from social media posts during crises has become a focus of research for the purposes of assisting emergency response (ES). The TREC Incident Streams (IS) track is a research challenge organised for this purpose. The track asks participating systems to both classify a stream of crisis-related tweets into humanitarian aid related information types and estimate their importance regarding criticality. The former refers to a multi-label information type classification task and the latter refers to a priority estimation task. In this paper, we report on the participation of the University College Dublin School of Computer Science (UCD-CS) in TREC-IS 2021. We explored a variety of approaches, including simple machine learning algorithms, multi-task learning techniques, text augmentation, and ensemble approaches. The official evaluation results indicate that our runs achieve the highest scores in many metrics. To aid reproducibility, our code is publicly available at https://github.com/w angcongcong123/crisi s-mtl.
翻訳日:2021-12-08 18:50:02 公開日:2021-12-07
# (参考訳) 学習可能な間隔による拡張畳み込み [全文訳有]

Dilated convolution with learnable spacings ( http://arxiv.org/abs/2112.03740v1 )

ライセンス: CC BY 4.0
Ismail Khalfaoui Hassani, Thomas Pellegrini and Timoth\'ee Masquelier(参考訳) 拡張畳み込み(Dilated convolution)は、カーネル要素間の空間を定期的に挿入することによって作られるより広いカーネルとの畳み込みである。 本稿では,拡張畳み込みの新たなバージョンについて,補間手法によるバックプロパゲーションによりスペーシングを学習可能にした。 我々はこの手法を"Dilated Convolution with Learnable Spacings" (DCLS)と呼び、そのアプローチをn次元畳み込みケースに一般化する。 しかし、ここでの主な焦点は、2つの実装を開発した2dケースである:小さな拡張レートに適した拡張カーネルを構築するナイーブなケースと、"im2col"アルゴリズムの修正バージョンを使用するより時間/メモリ効率のよい実装です。 次に,従来の拡張畳み込み層をDCLSで簡易に置き換えることで,Pascal Voc 2012データセットのセマンティックセグメンテーションタスクにおける既存アーキテクチャの精度を向上させる方法について述べる。 さらに,最近のconvmixerアーキテクチャで使用される奥行き方向畳み込みの学習可能なパラメータ数を,精度の無あるいは極めて低い因子3で削減できることを示すとともに,大規模高密度カーネルをスパースdclsに置き換えることで,学習可能なパラメータ数を削減できることを示した。 メソッドのコードはPytorchに基づいており、https://github.com/K -H-Ismail/Dilated-Co nvolution-with-Learn able-Spacings-PyTorc hで利用できる。

Dilated convolution is basically a convolution with a wider kernel created by regularly inserting spaces between the kernel elements. In this article, we present a new version of the dilated convolution in which the spacings are made learnable via backpropagation through an interpolation technique. We call this method "Dilated Convolution with Learnable Spacings" (DCLS) and we generalize its approach to the n-dimensional convolution case. However, our main focus here will be the 2D case for which we developed two implementations: a naive one that constructs the dilated kernel, suitable for small dilation rates, and a more time/memory efficient one that uses a modified version of the "im2col" algorithm. We then illustrate how this technique improves the accuracy of existing architectures on semantic segmentation task on Pascal Voc 2012 dataset via a simple drop-in replacement of the classical dilated convolutional layers by DCLS ones. Furthermore, we show that DCLS allows to reduce the number of learnable parameters of the depthwise convolutions used in the recent ConvMixer architecture by a factor 3 with no or very low reduction in accuracy and that by replacing large dense kernels with sparse DCLS ones. The code of the method is based on Pytorch and available at: https://github.com/K -H-Ismail/Dilated-Co nvolution-with-Learn able-Spacings-PyTorc h.
翻訳日:2021-12-08 18:40:29 公開日:2021-12-07
# (参考訳) 連続データに対する連続時間確率勾配降下法

A Continuous-time Stochastic Gradient Descent Method for Continuous Data ( http://arxiv.org/abs/2112.03754v1 )

ライセンス: CC BY 4.0
Kexin Jin, Jonas Latz, Chenguang Liu, Carola-Bibiane Sch\"onlieb(参考訳) 連続データによる最適化問題は、ロバストな機械学習、機能的データ分析、変分推論などに見られる。 ここで、対象関数は(連続的に)指数付けられた対象関数の族に対する積分として与えられ、確率測度に関して積分される。 このような問題は、確率的最適化法によってしばしば解決される:ランダムにスイッチされたインデックスを持つインデックス付きターゲット関数に対して最適化ステップを実行する。 本研究では,連続データを用いた最適化問題に対する確率勾配降下アルゴリズムの連続時間変種について検討する。 このいわゆる確率的勾配過程は、インデックスを決定する連続時間インデックスプロセスと結合されるインデックス付きターゲット関数を最小化する勾配フローからなる。 指数過程は、例えば、反射拡散、純粋なジャンプ過程、あるいはコンパクト空間上の他のl\'evy過程である。 そこで本研究では,連続的なデータ空間に対して複数のサンプリングパターンを探索し,アルゴリズムの実行時にシミュレーションやストリームを行えるようにする。 本研究では,確率的勾配過程の近似特性を解析し,その長期的挙動とエルゴーディシティを,定値および減少学習率で検討した。 最後に, 多項式回帰問題における確率的勾配過程の適用性や, 物理的に変形したニューラルネットワークの適用性について考察する。

Optimization problems with continuous data appear in, e.g., robust machine learning, functional data analysis, and variational inference. Here, the target function is given as an integral over a family of (continuously) indexed target functions - integrated with respect to a probability measure. Such problems can often be solved by stochastic optimization methods: performing optimization steps with respect to the indexed target function with randomly switched indices. In this work, we study a continuous-time variant of the stochastic gradient descent algorithm for optimization problems with continuous data. This so-called stochastic gradient process consists in a gradient flow minimizing an indexed target function that is coupled with a continuous-time index process determining the index. Index processes are, e.g., reflected diffusions, pure jump processes, or other L\'evy processes on compact spaces. Thus, we study multiple sampling patterns for the continuous data space and allow for data simulated or streamed at runtime of the algorithm. We analyze the approximation properties of the stochastic gradient process and study its longtime behavior and ergodicity under constant and decreasing learning rates. We end with illustrating the applicability of the stochastic gradient process in a polynomial regression problem with noisy functional data, as well as in a physics-informed neural network.
翻訳日:2021-12-08 17:59:10 公開日:2021-12-07
# (参考訳) 模倣と自己教師付き学習によるマルチモーダル対話エージェントの作成 [全文訳有]

Creating Multimodal Interactive Agents with Imitation and Self-Supervised Learning ( http://arxiv.org/abs/2112.03763v1 )

ライセンス: CC BY 4.0
DeepMind Interactive Agents Team: Josh Abramson, Arun Ahuja, Arthur Brussee, Federico Carnevale, Mary Cassin, Felix Fischer, Petko Georgiev, Alex Goldin, Tim Harley, Felix Hill, Peter C Humphreys, Alden Hung, Jessica Landon, Timothy Lillicrap, Hamza Merzic, Alistair Muldal, Adam Santoro, Guy Scully, Tamara von Glehn, Greg Wayne, Nathaniel Wong, Chen Yan, Rui Zhu(参考訳) SFからの一般的なビジョンは、ロボットはいつか私たちの物理的空間に住み、世界は私たちのように感じ、肉体労働を補助し、自然言語を通して私たちとコミュニケーションする、ということだ。 本稿では,仮想環境の単純化により人間と自然に対話できる人工エージェントを設計する方法を検討する。 シミュレーションされた世界における人間と人間の相互作用の模倣学習は、自己教師付き学習と合わせて、ミアと呼ばれるマルチモーダルな対話型エージェントを作るのに十分である。 さらに,階層的行動選択のような性能向上のためのアーキテクチャおよびアルゴリズムの手法を同定する。 その結果,マルチモーダルでリアルタイムな人間の行動の模倣は,エージェントが特定の目的のために微調整され,対話型ロボットやデジタルアシスタントのための有能なエージェントを訓練するための基礎となるような,より豊かな行動を持つエージェントを付与する,単純かつ驚くほど効果的な手段となる可能性が示唆された。 MIAの振る舞いのビデオはhttps://youtu.be/ZFg RhviF7mYで見ることができる。

A common vision from science fiction is that robots will one day inhabit our physical spaces, sense the world as we do, assist our physical labours, and communicate with us through natural language. Here we study how to design artificial agents that can interact naturally with humans using the simplification of a virtual environment. We show that imitation learning of human-human interactions in a simulated world, in conjunction with self-supervised learning, is sufficient to produce a multimodal interactive agent, which we call MIA, that successfully interacts with non-adversarial humans 75% of the time. We further identify architectural and algorithmic techniques that improve performance, such as hierarchical action selection. Altogether, our results demonstrate that imitation of multi-modal, real-time human behaviour may provide a straightforward and surprisingly effective means of imbuing agents with a rich behavioural prior from which agents might then be fine-tuned for specific purposes, thus laying a foundation for training capable agents for interactive robots or digital assistants. A video of MIA's behaviour may be found at https://youtu.be/ZFg RhviF7mY
翻訳日:2021-12-08 17:57:53 公開日:2021-12-07
# (参考訳) 新しい基礎物理学の探求における機械学習 [全文訳有]

Machine Learning in the Search for New Fundamental Physics ( http://arxiv.org/abs/2112.03769v1 )

ライセンス: CC BY 4.0
Georgia Karagiorgi, Gregor Kasieczka, Scott Kravitz, Benjamin Nachman, and David Shih(参考訳) 機械学習は、新しい基礎物理学の探求の促進と加速に重要な役割を果たしている。 本稿では,大型ハドロン衝突型加速器,レアイベントサーチ,ニュートリノ実験など,地上高エネルギー物理実験の文脈における機械学習手法と新しい物理探索への応用について概説する。 これらの分野では機械学習は長い歴史があるが、深層学習革命(2010年代初頭)は研究の範囲と野心の観点から質的な変化をもたらした。 これらの現代の機械学習の発展は、現在のレビューの焦点である。

Machine learning plays a crucial role in enhancing and accelerating the search for new fundamental physics. We review the state of machine learning methods and applications for new physics searches in the context of terrestrial high energy physics experiments, including the Large Hadron Collider, rare event searches, and neutrino experiments. While machine learning has a long history in these fields, the deep learning revolution (early 2010s) has yielded a qualitative shift in terms of the scope and ambition of research. These modern machine learning developments are the focus of the present review.
翻訳日:2021-12-08 17:38:32 公開日:2021-12-07
# (参考訳) raceBERT -- 名前からレースを予測するトランスフォーマーベースのモデル [全文訳有]

raceBERT -- A Transformer-based Model for Predicting Race from Names ( http://arxiv.org/abs/2112.03807v1 )

ライセンス: CC BY 4.0
Prasanna Parasurama(参考訳) 本稿では、名前の文字列から競合を予測するトランスフォーマーベースモデル raceBERT と、それに付随するpythonパッケージを提案する。 フロリダ州の有権者登録データセットでトレーニングされたトランスフォーマーベースのモデルを使用して、このモデルは5つの米国国勢調査カテゴリー(白人、黒人、ヒスパニック、アジアと太平洋の島民、アメリカインディアンとアラスカ先住民)に属する名前の可能性を予測する。 私は Sood と Laohaprapanon (2018) を使って、LSTM モデルをトランスフォーマーベースモデル(事前トレーニングされたBERTモデルと、スクラッチからトレーニングされたRoBERTaモデル)に置き換えて、結果を比較します。 私の知る限りでは、 raceBERTは名前を使ったレース予測における最先端の結果を達成しており、平均的なf1スコアは0.86であり、以前の最先端よりも4.\1%改善され、非白人名では15-17\%改善されている。

This paper presents raceBERT -- a transformer-based model for predicting race from character sequences in names, and an accompanying python package. Using a transformer-based model trained on a U.S. Florida voter registration dataset, the model predicts the likelihood of a name belonging to 5 U.S. census race categories (White, Black, Hispanic, Asian & Pacific Islander, American Indian & Alaskan Native). I build on Sood and Laohaprapanon (2018) by replacing their LSTM model with transformer-based models (pre-trained BERT model, and a roBERTa model trained from scratch), and compare the results. To the best of my knowledge, raceBERT achieves state-of-the-art results in race prediction using names, with an average f1-score of 0.86 -- a 4.\1% improvement over the previous state-of-the-art, and improvements between 15-17\% for non-white names.
翻訳日:2021-12-08 16:40:57 公開日:2021-12-07
# (参考訳) イベント処理タスクの分散のための注意モデルと深層強化学習 [全文訳有]

Attention-Based Model and Deep Reinforcement Learning for Distribution of Event Processing Tasks ( http://arxiv.org/abs/2112.03835v1 )

ライセンス: CC BY 4.0
A. Mazayev, F. Al-Tam, N. Correia(参考訳) イベント処理は、動的で応答性の高いモノのインターネット(IoT)の基盤となる。 この領域における最近のアプローチは、同じ原則に従う任意のデバイスにイベント処理タスクを配置できる表現的状態転送(REST)の原則に基づいている。 しかし、タスクはエッジデバイス間で適切に分散し、適切なリソース利用とシームレスな実行を保証する必要がある。 本稿では,タスクを公平に分配するためのディープラーニングの利用について検討する。 異なるシナリオで効率的な負荷分散ソリューションを生成するために,注意に基づくニューラルネットワークモデルを提案する。 提案手法はTransformer と Pointer Network アーキテクチャに基づいており,アクター・クリティカルな強化学習アルゴリズムによって訓練されている。 このモデルは、イベント処理タスクの数とエッジデバイス数にスケールするように設計されており、ハイパーパラメータの再チューニングや再トレーニングも不要である。 実験結果から,提案手法は従来のヒューリスティックよりも優れた性能を示すことが示された。 汎用設計と得られた結果から,提案モデルが他のロードバランシング問題にも適用可能である可能性が示唆された。

Event processing is the cornerstone of the dynamic and responsive Internet of Things (IoT). Recent approaches in this area are based on representational state transfer (REST) principles, which allow event processing tasks to be placed at any device that follows the same principles. However, the tasks should be properly distributed among edge devices to ensure fair resources utilization and guarantee seamless execution. This article investigates the use of deep learning to fairly distribute the tasks. An attention-based neural network model is proposed to generate efficient load balancing solutions under different scenarios. The proposed model is based on the Transformer and Pointer Network architectures, and is trained by an advantage actor-critic reinforcement learning algorithm. The model is designed to scale to the number of event processing tasks and the number of edge devices, with no need for hyperparameters re-tuning or even retraining. Extensive experimental results show that the proposed model outperforms conventional heuristics in many key performance indicators. The generic design and the obtained results show that the proposed model can potentially be applied to several other load balancing problem variations, which makes the proposal an attractive option to be used in real-world scenarios due to its scalability and efficiency.
翻訳日:2021-12-08 16:36:44 公開日:2021-12-07
# 勾配・投影自由分散オンラインmin-maxリソース最適化

Gradient and Projection Free Distributed Online Min-Max Resource Optimization ( http://arxiv.org/abs/2112.03896v1 )

ライセンス: Link先を確認
Jingrong Wang and Ben Liang(参考訳) 分散オンラインmin-maxリソース割り当てを並列エージェントとパラメータサーバのセットで検討する。 我々のゴールは、これらの関数に関する事前情報なしで、時間変動凸の集合に対するポイントワイドな最大値とコスト関数の減少を最小化することである。 本研究では,非ストラグラーが資源を放棄し,資源をストラグラーと共有することを学ぶ,分散オンラインリソース再配置(dora)と呼ばれる新しいオンラインアルゴリズムを提案する。 DORAの注目すべき特徴は、既存のオンライン最適化戦略とは異なり、勾配計算や投射操作を必要としないことである。 これにより、大規模および分散ネットワークにおける計算オーバーヘッドを大幅に削減できる。 提案アルゴリズムの動的後悔は、$O\left(T^{\frac{3}{4}}(1+P_T)^{\frac{1}{4}}\right)$で上界し、$T$はラウンドの総数、$P_T$は即時最小化器のパス長であることを示す。 さらに,分散オンライン機械学習における帯域幅割り当て問題への応用を検討する。 本研究は,提案手法の有効性と,壁面時間短縮のための勾配および/または投影に基づく資源配分アルゴリズムに対する性能上の優位性を示す。

We consider distributed online min-max resource allocation with a set of parallel agents and a parameter server. Our goal is to minimize the pointwise maximum over a set of time-varying convex and decreasing cost functions, without a priori information about these functions. We propose a novel online algorithm, termed Distributed Online resource Re-Allocation (DORA), where non-stragglers learn to relinquish resource and share resource with stragglers. A notable feature of DORA is that it does not require gradient calculation or projection operation, unlike most existing online optimization strategies. This allows it to substantially reduce the computation overhead in large-scale and distributed networks. We show that the dynamic regret of the proposed algorithm is upper bounded by $O\left(T^{\frac{3}{4}}(1+P_T)^{\frac{1}{4}}\right)$, where $T$ is the total number of rounds and $P_T$ is the path-length of the instantaneous minimizers. We further consider an application to the bandwidth allocation problem in distributed online machine learning. Our numerical study demonstrates the efficacy of the proposed solution and its performance advantage over gradient- and/or projection-based resource allocation algorithms in reducing wall-clock time.
翻訳日:2021-12-08 16:07:44 公開日:2021-12-07
# 非パラメトリックペナル化回帰のためのメッシュに基づく解法

Mesh-Based Solutions for Nonparametric Penalized Regression ( http://arxiv.org/abs/2112.03428v1 )

ライセンス: Link先を確認
Brayan Ortiz and Noah Simon(参考訳) 回帰関数を非パラメトリックに見積もることはしばしば興味深い。 罰則回帰(PR)は、この問題の統計的に有効でよく研究された解である。 残念なことに、多くの場合、pr問題の厳密な解を見つけることは計算上は難解である。 本稿では,これらのシナリオに対するメッシュベースの近似解(MBS)を提案する。 mbs は npr の複雑な関数的最小化を有限パラメータの離散凸最小化に変換し、現代的な凸最適化のツールを活用することができる。 単変量回帰と多変量回帰の両方を含むいくつかの明示的な例でMBSの適用例を示し、MBSがNPRのレート最適性を維持するためには、我々のサンプルサイズでパラメータの数がどのように増加するかを検討する。 また,MBS固有の空間を効果的に活用しながら,MBSの目的を最小化するアルゴリズムを提案する。

It is often of interest to estimate regression functions non-parametrically. Penalized regression (PR) is one statistically-effect ive, well-studied solution to this problem. Unfortunately, in many cases, finding exact solutions to PR problems is computationally intractable. In this manuscript, we propose a mesh-based approximate solution (MBS) for those scenarios. MBS transforms the complicated functional minimization of NPR, to a finite parameter, discrete convex minimization; and allows us to leverage the tools of modern convex optimization. We show applications of MBS in a number of explicit examples (including both uni- and multi-variate regression), and explore how the number of parameters must increase with our sample-size in order for MBS to maintain the rate-optimality of NPR. We also give an efficient algorithm to minimize the MBS objective while effectively leveraging the sparsity inherent in MBS.
翻訳日:2021-12-08 16:07:22 公開日:2021-12-07
# ガウス過程によるベイズ的オプション価格の検討

A Bayesian take on option pricing with Gaussian processes ( http://arxiv.org/abs/2112.03718v1 )

ライセンス: Link先を確認
Martin Tegner and Stephen Roberts(参考訳) 局所的ボラティリティは、その状態依存拡散係数による多目的オプション価格モデルである。 しかし、キャリブレーションは、潜在関数の仮説モデルとそれをデータに適合させる方法の両方を提案するため、非自明である。 本稿では,ガウス過程以前のベイズ的推論について述べる。 キャリブレートにアタッチメントされた不確実性という確率論的概念を持つ局所ボラティリティ関数のリッチな表現を得る。 我々は,S&P500市場データに推論アルゴリズムを提案し,そのアプローチを適用した。

Local volatility is a versatile option pricing model due to its state dependent diffusion coefficient. Calibration is, however, non-trivial as it involves both proposing a hypothesis model of the latent function and a method for fitting it to data. In this paper we present novel Bayesian inference with Gaussian process priors. We obtain a rich representation of the local volatility function with a probabilistic notion of uncertainty attached to the calibrate. We propose an inference algorithm and apply our approach to S&P 500 market data.
翻訳日:2021-12-08 16:07:07 公開日:2021-12-07
# BSDEとPINNの補間 --楕円型および放物型境界値問題のディープラーニング

Interpolating between BSDEs and PINNs -- deep learning for elliptic and parabolic boundary value problems ( http://arxiv.org/abs/2112.03749v1 )

ライセンス: Link先を確認
Nikolas N\"usken, Lorenz Richter(参考訳) 高次元偏微分方程式を解くことは、経済学、科学、工学における繰り返しの挑戦である。 近年,モンテカルロサンプリングと深層学習に基づく近似を組み合わせた計算手法が多数開発されている。 楕円型および放物型問題では、既存の手法は、$\textit{backward stochastic differential equation}$ (bsdes) という項で再構成に休むものと、回帰型$l^2$-error (\textit{physics-informed neural networks}$, pinns) を最小化することに分けられる。 本稿では,論文をレビューし,BSDEとPINNを補間する新しい$\textit{diffusion loss}$に基づく方法論を提案する。 我々の貢献は、BSDEとPINNの強みを組み合わせた実装と同様に、高次元PDEに対する数値的アプローチの統一的な理解への扉を開く。 また、固有値問題に対する一般化を提供し、非線形schr\"odinger演算子の基底状態の計算や分子動力学に関連するコミッタ関数を含む広範な数値研究を行う。

Solving high-dimensional partial differential equations is a recurrent challenge in economics, science and engineering. In recent years, a great number of computational approaches have been developed, most of them relying on a combination of Monte Carlo sampling and deep learning based approximation. For elliptic and parabolic problems, existing methods can broadly be classified into those resting on reformulations in terms of $\textit{backward stochastic differential equations}$ (BSDEs) and those aiming to minimize a regression-type $L^2$-error ($\textit{physics-informed neural networks}$, PINNs). In this paper, we review the literature and suggest a methodology based on the novel $\textit{diffusion loss}$ that interpolates between BSDEs and PINNs. Our contribution opens the door towards a unified understanding of numerical approaches for high-dimensional PDEs, as well as for implementations that combine the strengths of BSDEs and PINNs. We also provide generalizations to eigenvalue problems and perform extensive numerical studies, including calculations of the ground state for nonlinear Schr\"odinger operators and committor functions relevant in molecular dynamics.
翻訳日:2021-12-08 16:06:59 公開日:2021-12-07
# フェデレーション信号マップにおける位置漏洩

Location Leakage in Federated Signal Maps ( http://arxiv.org/abs/2112.03452v1 )

ライセンス: Link先を確認
Evita Bakopoulou, Jiang Zhang, Justin Ley, Konstantinos Psounis, Athina Markopoulou(参考訳) 複数のモバイルデバイスで収集した測定値からセルラーネットワーク性能(信号マップ)を予測する問題を考える。 私たちは、オンラインフェデレーション学習フレームワーク内で問題を定式化します。 (i)フェデレーションラーニング(FL)により、ユーザーは、デバイスにトレーニングデータを保持しながら、協調的にモデルを訓練することができる。 (ii)ユーザが時間とともに動き回ると測定値が収集され、オンライン形式で地元のトレーニングに使用される。 我々は,flに参加しているターゲットユーザからの更新を監視し,dnn画像分類器のトレーニングデータを再構築するために開発された,勾配(dlg)タイプの攻撃からの深い漏洩を用いて位置を推測する,正直なサーバを考える。 我々は, DLG 攻撃が我々の設定に適用され, ローカルデータのバッチの平均位置を推定し, 粗い粒度でターゲットユーザの軌道を再構築することができることを重要視する。 プライバシー保護の適度なレベルはすでに、Federated Averagingに固有のグラデーションの平均化によって提供されています。 さらに、ローカル更新に使用するバッチをローカルに適用して、有効性を損なうことなく、位置情報のプライバシーを効果的に保護するアルゴリズムを提案する。 最後に、FLに参加する複数のユーザの影響は、その軌道の類似性に依存することを示す。 我々の知る限り、これはクラウドソーシングされた時空間データからFLの設定におけるDLG攻撃の最初の研究である。

We consider the problem of predicting cellular network performance (signal maps) from measurements collected by several mobile devices. We formulate the problem within the online federated learning framework: (i) federated learning (FL) enables users to collaboratively train a model, while keeping their training data on their devices; (ii) measurements are collected as users move around over time and are used for local training in an online fashion. We consider an honest-but-curious server, who observes the updates from target users participating in FL and infers their location using a deep leakage from gradients (DLG) type of attack, originally developed to reconstruct training data of DNN image classifiers. We make the key observation that a DLG attack, applied to our setting, infers the average location of a batch of local data, and can thus be used to reconstruct the target users' trajectory at a coarse granularity. We show that a moderate level of privacy protection is already offered by the averaging of gradients, which is inherent to Federated Averaging. Furthermore, we propose an algorithm that devices can apply locally to curate the batches used for local updates, so as to effectively protect their location privacy without hurting utility. Finally, we show that the effect of multiple users participating in FL depends on the similarity of their trajectories. To the best of our knowledge, this is the first study of DLG attacks in the setting of FL from crowdsourced spatio-temporal data.
翻訳日:2021-12-08 16:04:16 公開日:2021-12-07
# 深列学習モデルによる3次元等方性乱流の時空間的実現

Emulating Spatio-Temporal Realizations of Three-Dimensional Isotropic Turbulence via Deep Sequence Learning Models ( http://arxiv.org/abs/2112.03469v1 )

ライセンス: Link先を確認
Mohammadreza Momenifar, Enmao Diao, Vahid Tarokh, Andrew D. Bragg(参考訳) 最先端のディープラーニング手法を用いて, 3次元乱流のモデル化にデータ駆動手法を用いる。 ディープラーニングフレームワークは、速度勾配テンソルの非圧縮性や大域統計不変量を保存するなど、流れの物理的制約を取り入れている。 モデルの精度は、統計および物理に基づくメトリクスを用いて評価される。 データセットは、立方体箱内の非圧縮性、統計的に定常な等方性乱流の直接数値シミュレーションから得られる。 データセットのサイズはメモリ集約型であるため、まず速度データの低次元表現を生成し、次に、基礎となるデータの空間的および時間的相関を学習するシーケンス予測ネットワークに渡す。 VQ-AE(Vector-Quantiz ed Autoencoder)を用いて,離散潜在変数を学習し,次元削減を行う。 シーケンス予測では、自然言語処理からのトランスフォーマーアーキテクチャの考え方が使われ、その性能はより標準的なリカレントネットワーク(畳み込みLSTMなど)と比較される。 これらのアーキテクチャは、一定の長さ (k) の入力シーケンスを受信し、一定の長さ (p) のシーケンスを予測し、フローの将来の時刻を表すような、シーケンス・マルチクラス分類タスクを実行するように設計および訓練されている。 短期予測の結果,両モデルの精度は,予測の自己回帰的性質により,予測スナップショット間で低下することが示された。 診断試験に基づいて,訓練したConv-Transformerモデルは,Conv-LSTMモデルよりも優れており,定量的かつ定性的に,大規模に保持し,慣性流速を良好に捕捉するが,小さく断続的な流体運動の回復には失敗する。

We use a data-driven approach to model a three-dimensional turbulent flow using cutting-edge Deep Learning techniques. The deep learning framework incorporates physical constraints on the flow, such as preserving incompressibility and global statistical invariants of velocity gradient tensor. The accuracy of the model is assessed using statistical and physics-based metrics. The data set comes from Direct Numerical Simulation of an incompressible, statistically stationary, isotropic turbulent flow in a cubic box. Since the size of the dataset is memory intensive, we first generate a low-dimensional representation of the velocity data, and then pass it to a sequence prediction network that learns the spatial and temporal correlations of the underlying data. The dimensionality reduction is performed via extraction using Vector-Quantized Autoencoder (VQ-AE), which learns the discrete latent variables. For the sequence forecasting, the idea of Transformer architecture from natural language processing is used, and its performance compared against more standard Recurrent Networks (such as Convolutional LSTM). These architectures are designed and trained to perform a sequence to sequence multi-class classification task in which they take an input sequence with a fixed length (k) and predict a sequence with a fixed length (p), representing the future time instants of the flow. Our results for the short-term predictions show that the accuracy of results for both models deteriorates across predicted snapshots due to autoregressive nature of the predictions. Based on our diagnostics tests, the trained Conv-Transformer model outperforms the Conv-LSTM one and can accurately, both quantitatively and qualitatively, retain the large scales and capture well the inertial scales of flow but fails at recovering the small and intermittent fluid motions.
翻訳日:2021-12-08 16:03:53 公開日:2021-12-07
# 結晶材料発見のための物理誘導深層学習生成モデル

Physics guided deep learning generative models for crystal materials discovery ( http://arxiv.org/abs/2112.03528v1 )

ライセンス: Link先を確認
Yong Zhao, Edirisuriya MD Siriwardane, Jianjun Hu(参考訳) deepfakeのようなディープラーニングベースの生成モデルでは、素晴らしい画像やビデオを生成できます。 しかし、これらのモデルは、建築ブロック、物理原子がピクセルと非常に異なる結晶構造を生成するために、大きな変換を必要とするかもしれない。 ナトリウム転移生成モデルは、安定あるいは合成不可能な物理的に実現不可能な結晶構造の大部分を生成する傾向にある。 本稿では, 物理指向型データ拡張, 損失関数項, ポストプロセッシングを活用することで, 我々の深層対角ネットワーク(GAN)に基づく生成モデルは, より高い物理実現性を持つ結晶構造を生成でき, 従来のモデルを拡張して立方体構造を生成できることを示す。

Deep learning based generative models such as deepfake have been able to generate amazing images and videos. However, these models may need significant transformation when applied to generate crystal materials structures in which the building blocks, the physical atoms are very different from the pixels. Naively transferred generative models tend to generate a large portion of physically infeasible crystal structures that are not stable or synthesizable. Herein we show that by exploiting and adding physically oriented data augmentation, loss function terms, and post processing, our deep adversarial network (GAN) based generative models can now generate crystal structures with higher physical feasibility and expand our previous models which can only create cubic structures.
翻訳日:2021-12-08 16:03:21 公開日:2021-12-07
# 第一原理による会員推測攻撃

Membership Inference Attacks From First Principles ( http://arxiv.org/abs/2112.03570v1 )

ライセンス: Link先を確認
Nicholas Carlini, Steve Chien, Milad Nasr, Shuang Song, Andreas Terzis, Florian Tramer(参考訳) メンバーシップ推論攻撃により、敵はトレーニングされた機械学習モデルをクエリし、モデルのトレーニングデータセットに特定の例が含まれているかどうかを予測することができる。 これらの攻撃は現在、平均ケースの"精度"メトリクスを使用して評価されており、攻撃がトレーニングセットのメンバーを確実に特定できるかどうかを特徴付けることができない。 我々は、攻撃の真正率を低い(例えば、0.1%)偽陽性率で計算することで評価し、この方法で評価された場合、ほとんどの先行攻撃が良くないことを見出すべきであると主張している。 これに対処するため、私たちは、文献から複数のアイデアを慎重に結合する可能性比攻撃(lira)を開発します。 我々の攻撃は低い偽陽性率で10倍強力であり、また既存のメトリクスに対する事前攻撃を厳密に支配している。

A membership inference attack allows an adversary to query a trained machine learning model to predict whether or not a particular example was contained in the model's training dataset. These attacks are currently evaluated using average-case "accuracy" metrics that fail to characterize whether the attack can confidently identify any members of the training set. We argue that attacks should instead be evaluated by computing their true-positive rate at low (e.g., <0.1%) false-positive rates, and find most prior attacks perform poorly when evaluated in this way. To address this we develop a Likelihood Ratio Attack (LiRA) that carefully combines multiple ideas from the literature. Our attack is 10x more powerful at low false-positive rates, and also strictly dominates prior attacks on existing metrics.
翻訳日:2021-12-08 16:03:06 公開日:2021-12-07
# CCasGNN:グラフニューラルネットワークに基づく協調カスケード予測

CCasGNN: Collaborative Cascade Prediction Based on Graph Neural Networks ( http://arxiv.org/abs/2112.03644v1 )

ライセンス: Link先を確認
Yansong Wang, Xiaomeng Wang, Tao Jia(参考訳) カスケード予測は、ネットワークにおける情報拡散のモデル化を目標とする。 以前の手法のほとんどは、ネットワークと伝播経路から構造的または逐次的な特徴をマイニングすることに集中していた。 グラフニューラルネットワークとリカレントニューラルネットワークによるネットワーク構造とシーケンス特徴の組み合わせに関する研究 それでもスペクトル法や空間法の制限は予測性能の向上を制限する。 さらに、リカレントニューラルネットワークは時間と計算負荷がかかり、予測の不効率を引き起こす。 本稿では,個々のプロファイル,構造特徴,シーケンス情報を考慮した新しいCCasGNNを提案する。 この方法は、gatとgcnのコラボレーティブなフレームワークを使用することと、グラフニューラルネットワークの層に位置符号化を積み重ねることによるメリットがある。 2つの実世界のデータセットで行った実験により,本手法は最先端の手法に比べて予測精度が著しく向上することを確認した。 さらに, アブレーション研究は各成分の寄与について検討した。

Cascade prediction aims at modeling information diffusion in the network. Most previous methods concentrate on mining either structural or sequential features from the network and the propagation path. Recent efforts devoted to combining network structure and sequence features by graph neural networks and recurrent neural networks. Nevertheless, the limitation of spectral or spatial methods restricts the improvement of prediction performance. Moreover, recurrent neural networks are time-consuming and computation-expensiv e, which causes the inefficiency of prediction. Here, we propose a novel method CCasGNN considering the individual profile, structural features, and sequence information. The method benefits from using a collaborative framework of GAT and GCN and stacking positional encoding into the layers of graph neural networks, which is different from all existing ones and demonstrates good performance. The experiments conducted on two real-world datasets confirm that our method significantly improves the prediction accuracy compared to state-of-the-art approaches. What's more, the ablation study investigates the contribution of each component in our method.
翻訳日:2021-12-08 16:02:52 公開日:2021-12-07
# 画像の適応粒子表現における並列離散畳み込み

Parallel Discrete Convolutions on Adaptive Particle Representations of Images ( http://arxiv.org/abs/2112.03592v1 )

ライセンス: Link先を確認
Joel Jonsson, Bevan L. Cheeseman, Suryanarayana Maddu, Krzysztof Gonciarz, Ivo F. Sbalzarini(参考訳) 本稿では,並列計算機アーキテクチャ上の画像の適応粒子表現(apr)上の離散畳み込み演算子のネイティブ実装のためのデータ構造とアルゴリズムを提案する。 APRは、サンプリング解像度を画像信号に局所的に適応するコンテンツ適応型画像表現である。 蛍光顕微鏡で通常発生するように、大きくスパースな画像に対するピクセル表現の代替として開発された。 このような画像の保存、視覚化、処理のメモリと実行コストを削減することが示されている。 しかし、これは、画像処理がAPR上でネイティブに動作し、ピクセルに中間反転しない必要がある。 しかし、APRの不規則なメモリ構造によって、効率的でスケーラブルなAPRネイティブ画像処理プリミティブを設計することは複雑である。 本稿では, 離散畳み込みを用いて定式化可能な幅広いアルゴリズムを用いて, apr画像の効率的かつネイティブな処理に必要なアルゴリズム構築ブロックを提案する。 apr畳み込みは,マルチコアcpuとgpuアーキテクチャを効率的に並列化するスケール適応アルゴリズムを自然に生み出す。 画素ベースのアルゴリズムと等しくサンプリングされたデータの畳み込みと比較して,スピードアップの定量化を行う。 我々は1台のNvidia GeForce RTX 2080ゲームGPU上で最大1TB/sのピクセル等価スループットを実現し、ピクセルベースの実装よりも最大2桁少ないメモリを必要とする。

We present data structures and algorithms for native implementations of discrete convolution operators over Adaptive Particle Representations (APR) of images on parallel computer architectures. The APR is a content-adaptive image representation that locally adapts the sampling resolution to the image signal. It has been developed as an alternative to pixel representations for large, sparse images as they typically occur in fluorescence microscopy. It has been shown to reduce the memory and runtime costs of storing, visualizing, and processing such images. This, however, requires that image processing natively operates on APRs, without intermediately reverting to pixels. Designing efficient and scalable APR-native image processing primitives, however, is complicated by the APR's irregular memory structure. Here, we provide the algorithmic building blocks required to efficiently and natively process APR images using a wide range of algorithms that can be formulated in terms of discrete convolutions. We show that APR convolution naturally leads to scale-adaptive algorithms that efficiently parallelize on multi-core CPU and GPU architectures. We quantify the speedups in comparison to pixel-based algorithms and convolutions on evenly sampled data. We achieve pixel-equivalent throughputs of up to 1 TB/s on a single Nvidia GeForce RTX 2080 gaming GPU, requiring up to two orders of magnitude less memory than a pixel-based implementation.
翻訳日:2021-12-08 16:00:57 公開日:2021-12-07
# モンテカルロ変動シミュレーションのための明示的反対称性ニューラルネットワーク層

Explicitly antisymmetrized neural network layers for variational Monte Carlo simulation ( http://arxiv.org/abs/2112.03491v1 )

ライセンス: Link先を確認
Jeffmin Lin, Gil Goldshlager, Lin Lin(参考訳) ニューラルネットワークと量子モンテカルロ法の組み合わせは、高精度な電子構造計算のための経路として登場した。 これまでの提案では、等価ニューラルネットワーク層と反対称層を組み合わせることで、電子波動関数の反対称性要件を満たす。 しかし、今のところ、物理的関心の反対称関数を表現できるかどうかは不明であり、反対称層の表現性を測ることは困難である。 この研究は、診断ツールとして明らかに非対称性のユニバーサルニューラルネットワーク層を導入することで、この問題に対処しようとしている。 まず, ファーミントとして知られる高精度なアンサッツの反対称層全体を置換する汎用的反対称 (ga) 層を導入する。 得られたFermiNet-GAアーキテクチャは,小型システムの正確な基底状態エネルギーを効果的に得ることを示す。 次に、行列式の積を反対称性ニューラルネットワークの積に置き換えることで、より直接的にフェルミネットを一般化する因子化反対称(FA)層を考える。 興味深いことに、FermiNet-FAアーキテクチャはFermiNetより優れているわけではない。 これは、反対称性の積の和がフェルミネットアーキテクチャの重要な制限面であることを示している。 そこで本研究では, 決定式の積を1つの結合行列式に置き換える, フル行列式モードと呼ばれるフェルミントの微調整について検討する。 完全な単一決定式 FermiNet は、標準の単一決定式 FermiNet と FermiNet-GA のギャップの大部分を埋める。 驚いたことに、4.0ボーアの解離結合長の窒素分子では、フル単一決定性フェルミネットは標準64決定性フェルミネットよりも大幅に優れ、最良の計算ベンチマークの0.4 kcal/mol以内のエネルギーが得られる。

The combination of neural networks and quantum Monte Carlo methods has arisen as a path forward for highly accurate electronic structure calculations. Previous proposals have combined equivariant neural network layers with an antisymmetric layer to satisfy the antisymmetry requirements of the electronic wavefunction. However, to date it is unclear if one can represent antisymmetric functions of physical interest, and it is difficult to measure the expressiveness of the antisymmetric layer. This work attempts to address this problem by introducing explicitly antisymmetrized universal neural network layers as a diagnostic tool. We first introduce a generic antisymmetric (GA) layer, which we use to replace the entire antisymmetric layer of the highly accurate ansatz known as the FermiNet. We demonstrate that the resulting FermiNet-GA architecture can yield effectively the exact ground state energy for small systems. We then consider a factorized antisymmetric (FA) layer which more directly generalizes the FermiNet by replacing products of determinants with products of antisymmetrized neural networks. Interestingly, the resulting FermiNet-FA architecture does not outperform the FermiNet. This suggests that the sum of products of antisymmetries is a key limiting aspect of the FermiNet architecture. To explore this further, we investigate a slight modification of the FermiNet called the full determinant mode, which replaces each product of determinants with a single combined determinant. The full single-determinant FermiNet closes a large part of the gap between the standard single-determinant FermiNet and FermiNet-GA. Surprisingly, on the nitrogen molecule at a dissociating bond length of 4.0 Bohr, the full single-determinant FermiNet can significantly outperform the standard 64-determinant FermiNet, yielding an energy within 0.4 kcal/mol of the best available computational benchmark.
翻訳日:2021-12-08 15:59:42 公開日:2021-12-07
# 走査型非教師型深層学習を用いたリラクソメトリーとMRフィンガープリントの高精度パラメータ推定

Accurate parameter estimation using scan-specific unsupervised deep learning for relaxometry and MR fingerprinting ( http://arxiv.org/abs/2112.03815v1 )

ライセンス: Link先を確認
Mengze Gao, Huihui Ye, Tae Hyung Kim, Zijing Zhang, Seohee So, Berkin Bilgic(参考訳) 緩和パラメータ推定のための教師なし畳み込みニューラルネットワーク(CNN)を提案する。 このネットワークは、隣接するボクセル間の残留学習と空間関係を生かしながら、信号緩和とブロッホシミュレーションを組み込んでいる。 数値シミュレーションにおける標準パラメータ推定法やマルチエコーt2, t2*マッピングのin vivoデータと比較して, 量子化精度と雑音に対するロバスト性は有意に向上した。 提案手法とサブスペースモデリングとMRフィンガープリント(MRF)を組み合わせることで,高品質なT1とT2マッピングを実現する。

We propose an unsupervised convolutional neural network (CNN) for relaxation parameter estimation. This network incorporates signal relaxation and Bloch simulations while taking advantage of residual learning and spatial relations across neighboring voxels. Quantification accuracy and robustness to noise is shown to be significantly improved compared to standard parameter estimation methods in numerical simulations and in vivo data for multi-echo T2 and T2* mapping. The combination of the proposed network with subspace modeling and MR fingerprinting (MRF) from highly undersampled data permits high quality T1 and T2 mapping.
翻訳日:2021-12-08 15:57:31 公開日:2021-12-07
# 非パラメトリック回帰における滑らかさと相転移の祝福と呪い:非漸近的視点

Bless and curse of smoothness and phase transitions in nonparametric regressions: a nonasymptotic perspective ( http://arxiv.org/abs/2112.03626v1 )

ライセンス: Link先を確認
Ying Zhu(参考訳) 回帰関数が、至る所で共通定数で有界な$(\gamma+1)$thの微分を持つ単変数函数からなる標準滑らか類に属するとき、平均二乗誤差(MSE)における収束の最小値が$\left(\frac{\sigma^{2}}{n}\right)^{\frac{2\gamma+2}{2\gamma+3}}$で、$\gamma$が有限でサンプルサイズが$n\rightarrow\infty$ であることが知られている。 標準 h\"older と sobolev のクラスについて、minimax の最適レートは $\frac{\sigma^{2}\left(\gamma\vee1\ri ght)}{n}$ when $\frac{n}{\sigma^{2}}\precsim\left(\gamma \vee1\right)^{2\gamma+3}$ and $\left(\frac{\sigma^{2}}{n}\right)^{\frac{2\gamma+2}{2\gamma+3}}$ when $\frac{n}{\sigma^{2}}\succsim\left(\gamma \vee1\right)^{2\gamma+3}$である。 これらの結果を確立するために、一般化されたH\"古いクラスに対する被覆と梱包数の上と下の境界を導出する:$k$th$k=0, ...,\gamma$) 微分は上から$R_{k}$で有界であり、$\gamma$th 微分は$R_{\gamma+1}-$Lipschitzである(また、滑らかな函数の一般化楕円型クラスについても)。 我々の境界は、標準クラスに対する古典的計量エントロピー結果を鋭くし、$\gamma$ および $R_{k}$ への一般依存を与える。 R_{k}=1$, $R_{k}\leq\left(k-1\right) ! と$R_{k}=k! 新しいエントロピー境界(entropy bounds)の助けを借りて、$(後者の2つのケースは導入時に動機付けられたものです)は、既存のエントロピー境界(entropy bounds)で表示できない興味深い結果をいくつか示しています。 より古い$d-$variate函数のクラスについては、古典的漸近率 $\left(\frac{\sigma^{2}}{n}\right)^{\frac{2\gamma+2}{2\gamma+2+d}}$ が有限標本における MSE の過小評価である可能性が示唆されている。

When the regression function belongs to the standard smooth classes consisting of univariate functions with derivatives up to the $(\gamma+1)$th order bounded by a common constant everywhere or a.e., it is well known that the minimax optimal rate of convergence in mean squared error (MSE) is $\left(\frac{\sigma^{2}}{n}\right)^{\frac{2\gamma+2}{2\gamma+3}}$ when $\gamma$ is finite and the sample size $n\rightarrow\infty$ . From a nonasymptotic viewpoint that considers finite $n$, this paper shows that: for the standard H\"older and Sobolev classes, the minimax optimal rate is $\frac{\sigma^{2}\left(\gamma\vee1\ri ght)}{n}$ when $\frac{n}{\sigma^{2}}\precsim\left(\gamma \vee1\right)^{2\gamma+3}$ and $\left(\frac{\sigma^{2}}{n}\right)^{\frac{2\gamma+2}{2\gamma+3}}$ when $\frac{n}{\sigma^{2}}\succsim\left(\gamma \vee1\right)^{2\gamma+3}$. To establish these results, we derive upper and lower bounds on the covering and packing numbers for the generalized H\"older class where the $k$th ($k=0,...,\gamma$) derivative is bounded from above by a parameter $R_{k}$ and the $\gamma$th derivative is $R_{\gamma+1}-$Lipschitz (and also for the generalized ellipsoid class of smooth functions). Our bounds sharpen the classical metric entropy results for the standard classes, and give the general dependence on $\gamma$ and $R_{k}$. By deriving the minimax optimal MSE rates under $R_{k}=1$, $R_{k}\leq\left(k-1\right) !$ and $R_{k}=k!$ (with the latter two cases motivated in our introduction) with the help of our new entropy bounds, we show a couple of interesting results that cannot be shown with the existing entropy bounds in the literature. For the H\"older class of $d-$variate functions, our result suggests that the classical asymptotic rate $\left(\frac{\sigma^{2}}{n}\right)^{\frac{2\gamma+2}{2\gamma+2+d}}$ could be an underestimate of the MSE in finite samples.
翻訳日:2021-12-08 15:57:04 公開日:2021-12-07
# (参考訳) 経時的治療効果推定のための異所性反事実再帰ネットワーク [全文訳有]

Disentangled Counterfactual Recurrent Networks for Treatment Effect Inference over Time ( http://arxiv.org/abs/2112.03811v1 )

ライセンス: CC BY 4.0
Jeroen Berrevoets, Alicia Curth, Ioana Bica, Eoin McKinney, Mihaela van der Schaar(参考訳) 各患者に対して最善の治療計画を選択するには、時間とともに治療の関数として結果の軌跡を正確に予測する必要がある。 大きな観測データセットは、学習すべき豊富な情報ソースを構成するが、実際には処理がランダムに割り当てられることはほとんどないため、バイアスも含んでいる。 患者履歴を3つの要因(治療要因、治療選択に影響を及ぼす要因、結果要因、結果のみに影響を及ぼす要因、双方に影響を及ぼす要因)に分解した患者履歴の表現を学習することで、時間とともに治療結果を推定する新しいシーケンス・ツー・シーケンスアーキテクチャであるDisentangled Counterfactual Recurrent Network (DCRN)を導入する。 治療の影響の因果構造に完全にインスパイアされたアーキテクチャにより,我々は予測精度と疾患理解を前進させる。このアーキテクチャは,患者が患者の軌跡にどのような影響を与えるのかを推測し,この領域の他のアプローチと対比できる。 実データとシミュレーションデータの両方において,DCRNが処理応答予測の最先端手法より優れていることを示す。

Choosing the best treatment-plan for each individual patient requires accurate forecasts of their outcome trajectories as a function of the treatment, over time. While large observational data sets constitute rich sources of information to learn from, they also contain biases as treatments are rarely assigned randomly in practice. To provide accurate and unbiased forecasts, we introduce the Disentangled Counterfactual Recurrent Network (DCRN), a novel sequence-to-sequence architecture that estimates treatment outcomes over time by learning representations of patient histories that are disentangled into three separate latent factors: a treatment factor, influencing only treatment selection; an outcome factor, influencing only the outcome; and a confounding factor, influencing both. With an architecture that is completely inspired by the causal structure of treatment influence over time, we advance forecast accuracy and disease understanding, as our architecture allows for practitioners to infer which patient features influence which part in a patient's trajectory, contrasting other approaches in this domain. We demonstrate that DCRN outperforms current state-of-the-art methods in forecasting treatment responses, on both real and simulated data.
翻訳日:2021-12-08 15:55:00 公開日:2021-12-07
# PTR-PPO:優先順位付き軌道リプレイによる近似的ポリシー最適化

PTR-PPO: Proximal Policy Optimization with Prioritized Trajectory Replay ( http://arxiv.org/abs/2112.03798v1 )

ライセンス: Link先を確認
Xingxing Liang and Yang Ma and Yanghe Feng and Zhong Liu(参考訳) on-policy 深層強化学習アルゴリズムは、データ利用量が少なく、政策改善にかなりの経験を必要とする。 本稿では,オン・ポリシー法とオフ・ポリシー法を組み合わせた優先順位付き軌道再生(ptr-ppo)を用いた近距離政策最適化アルゴリズムを提案する。 まず,1段階の総合的優位推定(GAE)値に基づく1段階の最大軌道と平均軌道の優先度と,正規化されていない累積報酬に基づく報酬軌道の優先度という3つの軌道の優先順位を設計する。 そこで我々は,PPOアルゴリズムに優先トラジェクトリ・リプレイを導入し,多段階経験下での重み付き重み付けによる高分散を克服する重み付け手法を提案し,非政治条件下でのPPOの政策改善損失関数を設計する。 我々は,Atari離散制御タスクの集合におけるPTR-PPOの性能を評価し,最先端の性能を実現する。 さらに,訓練中の優先メモリの様々な場所での優先度変化のヒートマップを解析することにより,メモリサイズとロールアウト長がトラジェクトリ優先度の分布に大きく影響し,従ってアルゴリズムの性能に影響を及ぼすことがわかった。

On-policy deep reinforcement learning algorithms have low data utilization and require significant experience for policy improvement. This paper proposes a proximal policy optimization algorithm with prioritized trajectory replay (PTR-PPO) that combines on-policy and off-policy methods to improve sampling efficiency by prioritizing the replay of trajectories generated by old policies. We first design three trajectory priorities based on the characteristics of trajectories: the first two being max and mean trajectory priorities based on one-step empirical generalized advantage estimation (GAE) values and the last being reward trajectory priorities based on normalized undiscounted cumulative reward. Then, we incorporate the prioritized trajectory replay into the PPO algorithm, propose a truncated importance weight method to overcome the high variance caused by large importance weights under multistep experience, and design a policy improvement loss function for PPO under off-policy conditions. We evaluate the performance of PTR-PPO in a set of Atari discrete control tasks, achieving state-of-the-art performance. In addition, by analyzing the heatmap of priority changes at various locations in the priority memory during training, we find that memory size and rollout length can have a significant impact on the distribution of trajectory priorities and, hence, on the performance of the algorithm.
翻訳日:2021-12-08 15:28:29 公開日:2021-12-07
# ood-gnn: 分散型一般化グラフニューラルネットワーク

OOD-GNN: Out-of-Distribution Generalized Graph Neural Network ( http://arxiv.org/abs/2112.03806v1 )

ライセンス: Link先を確認
Haoyang Li, Xin Wang, Ziwei Zhang, Wenwu Zhu(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータのテストとトレーニングを同一の分布から行うことで、優れたパフォーマンスを実現している。 しかし、既存のGNNでは、テストとトレーニンググラフデータの間に分散シフトが存在する場合、その性能が著しく低下する、分散の一般化能力が欠如している。 この問題を解決するため,本研究では,トレーニンググラフと分布が異なる未認識テストグラフにおいて,満足度の高い性能を実現するために,分散一般化グラフニューラルネットワーク(ood-gnn)を提案する。 提案するood-gnnは,ランダムフーリエ特徴を用いた新しい非線形グラフ表現相関法を用いて,サンプルグラフ重みとグラフエンコーダを反復最適化することにより,関連するグラフ表現と無関係グラフ表現の統計的依存性を解消する。 さらに,グラフ表現の変数が独立であるように,学習グラフの重み付けを学ぶための大域的重み推定器も設計する。 学習した重みは、グラフエンコーダが急激な相関関係を排除し、学習した識別グラフ表現とそれらの基底構造ラベルとの真の関連性に集中するのに役立つ。 分散シフトのある2つの実世界データセットと12個の実世界データセットの分散汎化能力を検証するために,広範囲にわたる実験を行った。 その結果,OOD-GNNは最先端のベースラインよりも優れていた。

Graph neural networks (GNNs) have achieved impressive performance when testing and training graph data come from identical distribution. However, existing GNNs lack out-of-distribution generalization abilities so that their performance substantially degrades when there exist distribution shifts between testing and training graph data. To solve this problem, in this work, we propose an out-of-distribution generalized graph neural network (OOD-GNN) for achieving satisfactory performance on unseen testing graphs that have different distributions with training graphs. Our proposed OOD-GNN employs a novel nonlinear graph representation decorrelation method utilizing random Fourier features, which encourages the model to eliminate the statistical dependence between relevant and irrelevant graph representations through iteratively optimizing the sample graph weights and graph encoder. We further design a global weight estimator to learn weights for training graphs such that variables in graph representations are forced to be independent. The learned weights help the graph encoder to get rid of spurious correlations and, in turn, concentrate more on the true connection between learned discriminative graph representations and their ground-truth labels. We conduct extensive experiments to validate the out-of-distribution generalization abilities on two synthetic and 12 real-world datasets with distribution shifts. The results demonstrate that our proposed OOD-GNN significantly outperforms state-of-the-art baselines.
翻訳日:2021-12-08 15:28:03 公開日:2021-12-07
# Augment & Valuate : データ中心AIのためのデータ拡張パイプライン

Augment & Valuate : A Data Enhancement Pipeline for Data-Centric AI ( http://arxiv.org/abs/2112.03837v1 )

ライセンス: Link先を確認
Youngjune Lee, Oh Joon Kwon, Haeju Lee, Joonyoung Kim, Kangwook Lee, Kee-Eung Kim(参考訳) データ不足とノイズは、機械学習の産業応用において重要な問題である。 しかし、ブラックボックスモデルによるデータセットの基本的な分布特性と意味特性に対処するために、スケーラブルで一般化されたアプローチを考案することはしばしば困難である。 このため、データ中心のアプローチは、機械学習操作パイプラインの自動化に不可欠である。 この自動化の基盤となるために、画像分類問題におけるデータ品質を改善するためのドメインに依存しないパイプラインを提案する。 このパイプラインには、データバリュエーション、クリーニング、拡張が含まれている。 これらの手法を適切に組み合わせることで、提供されたデータセットのみとのData-Centric AIコンペティションにおいて、84.711%のテスト精度(6位、最もイノベーティブなメンション)を達成することができる。

Data scarcity and noise are important issues in industrial applications of machine learning. However, it is often challenging to devise a scalable and generalized approach to address the fundamental distributional and semantic properties of dataset with black box models. For this reason, data-centric approaches are crucial for the automation of machine learning operation pipeline. In order to serve as the basis for this automation, we suggest a domain-agnostic pipeline for refining the quality of data in image classification problems. This pipeline contains data valuation, cleansing, and augmentation. With an appropriate combination of these methods, we could achieve 84.711% test accuracy (ranked #6, Honorable Mention in the Most Innovative) in the Data-Centric AI competition only with the provided dataset.
翻訳日:2021-12-08 15:27:34 公開日:2021-12-07
# データセットアノテーションのための共有rubricに向けて

Towards a Shared Rubric for Dataset Annotation ( http://arxiv.org/abs/2112.03867v1 )

ライセンス: Link先を確認
Andrew Marc Greene(参考訳) サードパーティのデータアノテーションをアレンジする場合、競合プロバイダが高品質なデータセットを作成するためにベストプラクティスを適用するかを比較するのは難しいでしょう。 これは、価格のみに基づく競争によって、ベンダーが高品質なアノテーションを課金することが難しくなる"下位へのレース"につながります。 使用可能な自発的ルーリックを提案する。 (a)売り手の品物を比較するためのスコアカード (b)今日よりもベンダーへの期待を明確かつ一貫して伝達すること。 (c)最低入札者以外の者を選ぶ費用を正当化すること、及び (d) アノテーションプロバイダのプラクティス改善を奨励する。

When arranging for third-party data annotation, it can be hard to compare how well the competing providers apply best practices to create high-quality datasets. This leads to a "race to the bottom," where competition based solely on price makes it hard for vendors to charge for high-quality annotation. We propose a voluntary rubric which can be used (a) as a scorecard to compare vendors' offerings, (b) to communicate our expectations of the vendors more clearly and consistently than today, (c) to justify the expense of choosing someone other than the lowest bidder, and (d) to encourage annotation providers to improve their practices.
翻訳日:2021-12-08 15:27:21 公開日:2021-12-07
# RFGAN:RFに基づくヒト合成

RFGAN: RF-Based Human Synthesis ( http://arxiv.org/abs/2112.03727v1 )

ライセンス: Link先を確認
Cong Yu, Zhi Wu, Dongheng Zhang, Zhi Lu, Yang Hu, Yan Chen(参考訳) 本稿では、RF信号が人体からの信号反射で人体の動きを記録できるという事実を活用し、RF信号に基づく人体合成について述べる。 本論文は,人間のみを大まかに知覚できる既存のRFセンシング技術と異なり,新しいクロスモーダルRFGANモデルを導入して,微細な光学人間の画像を生成することを目的としている。 具体的には、RF信号を送受信する水平及び垂直アンテナアレイを備えた無線システムを構築する。 RF信号は水平および垂直の面上で不明瞭な信号射影熱マップとして処理されるため,RF熱マップ符号化のためのRFGANにおいてRF-Extractorを設計し,人的活動情報を得る。 RF-Extractor と RNN が抽出した情報を条件として,提案した RF-based Adaptive normalization を用いて GAN に注入する。 最後に、モデル全体をエンドツーエンドでトレーニングします。 提案モデルを評価するために,何千もの光活動フレームと対応するRF信号を含む2つのクロスモーダルデータセット(RF-Walk and RF-Activity)を作成する。 実験の結果,RFGANはRF信号を用いて標的の人間の活動フレームを生成可能であることがわかった。 我々の知る限りでは、RF信号に基づいて光学画像を生成するのはこれが初めてである。

This paper demonstrates human synthesis based on the Radio Frequency (RF) signals, which leverages the fact that RF signals can record human movements with the signal reflections off the human body. Different from existing RF sensing works that can only perceive humans roughly, this paper aims to generate fine-grained optical human images by introducing a novel cross-modal RFGAN model. Specifically, we first build a radio system equipped with horizontal and vertical antenna arrays to transceive RF signals. Since the reflected RF signals are processed as obscure signal projection heatmaps on the horizontal and vertical planes, we design a RF-Extractor with RNN in RFGAN for RF heatmap encoding and combining to obtain the human activity information. Then we inject the information extracted by the RF-Extractor and RNN as the condition into GAN using the proposed RF-based adaptive normalizations. Finally, we train the whole model in an end-to-end manner. To evaluate our proposed model, we create two cross-modal datasets (RF-Walk & RF-Activity) that contain thousands of optical human activity frames and corresponding RF signals. Experimental results show that the RFGAN can generate target human activity frames using RF signals. To the best of our knowledge, this is the first work to generate optical images based on RF signals.
翻訳日:2021-12-08 15:27:13 公開日:2021-12-07
# 列型作物の自律ナビゲーションのためのディープラーニング駆動アルゴリズムパイプライン

A Deep Learning Driven Algorithmic Pipeline for Autonomous Navigation in Row-Based Crops ( http://arxiv.org/abs/2112.03816v1 )

ライセンス: Link先を確認
Simone Cerrato, Vittorio Mazzia, Francesco Salvetti, Marcello Chiaberge(参考訳) 高価なセンサーと非効率なアルゴリズムパイプラインは、自律機械全体のコストに大きな影響を及ぼす。 しかし、安価なロボットソリューションは実用上必須であり、その経済的影響は、ほとんどの応用分野においてサービスロボティクスを採用することの基本的な要件となっている。 中でも、精密農業分野の研究者は、真に大規模な競合ソリューションを提供するために、堅牢でコスト効率の高い自律プラットフォームを開発しようとしている。 本稿では,ローレンジセンサと季節変動に特化して設計された,行ベースの自律ナビゲーションのための完全なアルゴリズムパイプラインを提案する。 まず、我々は、自律機械の実行可能な経路を生成するための堅牢なデータ駆動手法を構築し、フィールドの占有グリッドマップ情報のみを含む作物の完全な拡張をカバーします。 さらに,本手法は,近年のディープラーニング最適化技術とデータ合成の進歩を活用し,よく知られたグローバルナビゲーション衛星システムの信頼性の低下と,内部の植生の増大による劣化に効果的に取り組む,安価なソリューションを提供する。 計算機環境や実世界の作物に対する広範囲な実験とシミュレーションは、高度に安価で完全な自律的な機械の可能性を開く手法の堅牢性と本質的な一般化性を実証した。

Expensive sensors and inefficient algorithmic pipelines significantly affect the overall cost of autonomous machines. However, affordable robotic solutions are essential to practical usage, and their financial impact constitutes a fundamental requirement to employ service robotics in most fields of application. Among all, researchers in the precision agriculture domain strive to devise robust and cost-effective autonomous platforms in order to provide genuinely large-scale competitive solutions. In this article, we present a complete algorithmic pipeline for row-based crops autonomous navigation, specifically designed to cope with low-range sensors and seasonal variations. Firstly, we build on a robust data-driven methodology to generate a viable path for the autonomous machine, covering the full extension of the crop with only the occupancy grid map information of the field. Moreover, our solution leverages on latest advancement of deep learning optimization techniques and synthetic generation of data to provide an affordable solution that efficiently tackles the well-known Global Navigation Satellite System unreliability and degradation due to vegetation growing inside rows. Extensive experimentation and simulations against computer-generated environments and real-world crops demonstrated the robustness and intrinsic generalizability of our methodology that opens the possibility of highly affordable and fully autonomous machines.
翻訳日:2021-12-08 15:24:43 公開日:2021-12-07
# アジャイルドローン飛行への適用によるモデル予測制御のポリシー探索

Policy Search for Model Predictive Control with Application to Agile Drone Flight ( http://arxiv.org/abs/2112.03850v1 )

ライセンス: Link先を確認
Yunlong Song, Davide Scaramuzza(参考訳) ポリシーサーチとモデル予測制御(mpc)はロボット制御の2つの異なるパラダイムである: ポリシーサーチは経験豊富なデータを使って複雑なポリシーを自動的に学習する強みを持ち、mpcはモデルと軌道最適化を使って最適な制御性能を提供する。 オープンな研究課題は、両方のアプローチの利点をどのように活用し、組み合わせるかである。 本研究では,MPC の高次決定変数を自動的に選択するポリシー探索を用いて,新しいポリシー探索・モデル予測制御フレームワークを提案する。 具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。 このような定式化は、自己監督的な方法でポリシーを最適化することを可能にする。 このフレームワークを検証するために,アジャイルなドローン飛行における課題である,速動ゲートを通過するクワッドローターの飛行に注目する。 実験の結果,シミュレーションと実世界の両方において,ロバストかつリアルタイムな制御性能が得られた。 提案するフレームワークは、学習と制御を統合するための新しい視点を提供する。

Policy Search and Model Predictive Control~(MPC) are two different paradigms for robot control: policy search has the strength of automatically learning complex policies using experienced data, while MPC can offer optimal control performance using models and trajectory optimization. An open research question is how to leverage and combine the advantages of both approaches. In this work, we provide an answer by using policy search for automatically choosing high-level decision variables for MPC, which leads to a novel policy-search-for-mo del-predictive-contr ol framework. Specifically, we formulate the MPC as a parameterized controller, where the hard-to-optimize decision variables are represented as high-level policies. Such a formulation allows optimizing policies in a self-supervised fashion. We validate this framework by focusing on a challenging problem in agile drone flight: flying a quadrotor through fast-moving gates. Experiments show that our controller achieves robust and real-time control performance in both simulation and the real world. The proposed framework offers a new perspective for merging learning and control.
翻訳日:2021-12-08 15:24:21 公開日:2021-12-07
# パッチワイズ逆境除去による視覚トランスフォーマーに対する意思決定に基づくブラックボックス攻撃

Decision-based Black-box Attack Against Vision Transformers via Patch-wise Adversarial Removal ( http://arxiv.org/abs/2112.03492v1 )

ライセンス: Link先を確認
Yucheng Shi, Yahong Han(参考訳) 視覚変換器(ViTs)は、Deep Convolutional Neural Networks(CNNs)と比較して、優れた性能と強力な対向性を示している。 一方、個々のパッチ間のグローバルな相互作用に焦点を当てたViTsは、画像の局所的なノイズ感度を低下させる。 一方、既存のCNNに対する決定に基づく攻撃は、ノイズ圧縮の効率に影響を与える画像の異なる領域間のノイズ感度の差を無視している。 したがって、ターゲットモデルのみをクエリできる場合、ViTのブラックボックス対逆ロバスト性を検証することは依然として難しい問題である。 本稿では, Patch-wise Adversarialectomy (PAR) と呼ばれる, ViT に対する新たな決定ベースのブラックボックス攻撃を提案する。 PARは粗い検索プロセスを通じて画像をパッチに分割し、各パッチのノイズを別々に圧縮する。 PARは、各パッチのノイズサイズとノイズ感度を記録し、ノイズ圧縮の最も高いクエリ値でパッチを選択する。 さらに、parは、追加の計算を導入することなく、vitsとcnnの両方のノイズ圧縮効率を向上させるために、他の決定に基づく攻撃のノイズ初期化方法として使用できる。 ImageNet-21k、ILSVRC-2012、Tiny-Imagenetデータセットの大規模な実験により、PARはクエリ数と同じ平均で、摂動の非常に低い大きさを達成することが示された。

Vision transformers (ViTs) have demonstrated impressive performance and stronger adversarial robustness compared to Deep Convolutional Neural Networks (CNNs). On the one hand, ViTs' focus on global interaction between individual patches reduces the local noise sensitivity of images. On the other hand, the existing decision-based attacks for CNNs ignore the difference in noise sensitivity between different regions of the image, which affects the efficiency of noise compression. Therefore, validating the black-box adversarial robustness of ViTs when the target model can only be queried still remains a challenging problem. In this paper, we propose a new decision-based black-box attack against ViTs termed Patch-wise Adversarial Removal (PAR). PAR divides images into patches through a coarse-to-fine search process and compresses the noise on each patch separately. PAR records the noise magnitude and noise sensitivity of each patch and selects the patch with the highest query value for noise compression. In addition, PAR can be used as a noise initialization method for other decision-based attacks to improve the noise compression efficiency on both ViTs and CNNs without introducing additional calculations. Extensive experiments on ImageNet-21k, ILSVRC-2012, and Tiny-Imagenet datasets demonstrate that PAR achieves a much lower magnitude of perturbation on average with the same number of queries.
翻訳日:2021-12-08 15:23:43 公開日:2021-12-07
# CG-NeRF:条件付き生成ニューラルラジアンス場

CG-NeRF: Conditional Generative Neural Radiance Fields ( http://arxiv.org/abs/2112.03517v1 )

ライセンス: Link先を確認
Kyungmin Jo, Gyumin Shim, Sanghun Jung, Soyoung Yang, Jaegul Choo(参考訳) 最近のnerfベースの生成モデルは多様な3d認識画像を生成するが、これらのアプローチはユーザー特定特性を含む画像を生成する際に制限がある。 本稿では,画像やテキストなどの余分な入力条件を反映した多視点画像を生成することのできる,条件生成型ニューラルレイディアンスフィールド(CG-NeRF)と呼ばれる新しいモデルを提案する。 与えられた入力条件の共通特性を保存しながら、提案モデルでは様々な画像を詳細に生成する。 提案します 1) 様々な形態の条件から形状と外観を区別する新しい統一建築 2)視点の一貫性を維持しつつマルチモーダル出力を生成するためのポーズ一貫性のある多様性損失。 実験結果から,提案手法は様々な条件に対して一貫した画質を保ち,既存のNeRF生成モデルと比較して忠実度や多様性に優れていた。

While recent NeRF-based generative models achieve the generation of diverse 3D-aware images, these approaches have limitations when generating images that contain user-specified characteristics. In this paper, we propose a novel model, referred to as the conditional generative neural radiance fields (CG-NeRF), which can generate multi-view images reflecting extra input conditions such as images or texts. While preserving the common characteristics of a given input condition, the proposed model generates diverse images in fine detail. We propose: 1) a novel unified architecture which disentangles the shape and appearance from a condition given in various forms and 2) the pose-consistent diversity loss for generating multimodal outputs while maintaining consistency of the view. Experimental results show that the proposed method maintains consistent image quality on various condition types and achieves superior fidelity and diversity compared to existing NeRF-based generative models.
翻訳日:2021-12-08 15:23:20 公開日:2021-12-07
# ピクセル適応重み学習によるポートレート写真リタッチ

Learning Pixel-Adaptive Weights for Portrait Photo Retouching ( http://arxiv.org/abs/2112.03536v1 )

ライセンス: Link先を確認
Binglu Wang, Chengzhe Lu, Dawei Yan, Yongqiang Zhao(参考訳) ポートレート写真リタッチは、人間の領域の優先度とグループレベルの一貫性を強調する写真リタッチ作業である。 画像適応重みを学習し、3次元のルックアップテーブル(3D LUT)を組み合わせて画素間色変換を行うことにより、良好なリタッチ性能を実現する。 しかし、このパラダイムは局所的な文脈を無視し、同じRGB値を示すとき、ポートレートピクセルと背景ピクセルに同じ変換を適用する。 対照的に、専門家は通常、ポートレート領域と背景領域の色温度とトーンを調整するために異なる操作を行う。 これにより、ローカルコンテキストのキューをモデル化し、リタッチの品質を明示的に向上させます。 まず、画像パッチを考慮し、中心画素を正確に修正するために画素適応型ルックアップテーブル重みを予測する。 次に、隣接画素が中心画素と異なる親和性を示すため、近傍画素の影響を変調する局所注意マスクを推定する。 第3に、地頭ポートレートマスクが算出した親和性マップに基づいて、監督を施すことにより、ローカルアテンションマスクの品質をさらに向上させることができる。 グループレベルの一貫性については,実験室空間における平均色成分のばらつきを直接制約することを提案する。 ppr10kデータセットに関する広範囲な実験により、例えば高解像度写真では、psnrメトリックは0.5以上のゲインを受け取り、グループレベルの一貫性メトリックは少なくとも2.1の低下が得られる。

Portrait photo retouching is a photo retouching task that emphasizes human-region priority and group-level consistency. The lookup table-based method achieves promising retouching performance by learning image-adaptive weights to combine 3-dimensional lookup tables (3D LUTs) and conducting pixel-to-pixel color transformation. However, this paradigm ignores the local context cues and applies the same transformation to portrait pixels and background pixels when they exhibit the same raw RGB values. In contrast, an expert usually conducts different operations to adjust the color temperatures and tones of portrait regions and background regions. This inspires us to model local context cues to improve the retouching quality explicitly. Firstly, we consider an image patch and predict pixel-adaptive lookup table weights to precisely retouch the center pixel. Secondly, as neighboring pixels exhibit different affinities to the center pixel, we estimate a local attention mask to modulate the influence of neighboring pixels. Thirdly, the quality of the local attention mask can be further improved by applying supervision, which is based on the affinity map calculated by the groundtruth portrait mask. As for group-level consistency, we propose to directly constrain the variance of mean color components in the Lab space. Extensive experiments on PPR10K dataset verify the effectiveness of our method, e.g. on high-resolution photos, the PSNR metric receives over 0.5 gains while the group-level consistency metric obtains at least 2.1 decreases.
翻訳日:2021-12-08 15:23:05 公開日:2021-12-07
# 計算病理のためのジェネリックオートMLツールの評価

Evaluating Generic Auto-ML Tools for Computational Pathology ( http://arxiv.org/abs/2112.03622v1 )

ライセンス: Link先を確認
Lars Ole Schwen, Daniela Schacherer, Christian Gei{\ss}ler and Andr\'e Homeyer(参考訳) 計算病理学における画像解析タスクは畳み込みニューラルネットワーク(cnns)を用いて一般に解決される。 適切なCNNアーキテクチャとハイパーパラメータの選択は通常、探索的反復最適化によって行われる。 本稿の目的は,ニューラルネットワークアーキテクチャ探索とハイパーパラメータ最適化のための汎用ツールが,計算病理学の一般的なユースケースにおいてどのように機能するかを評価することである。 この目的のために,組織画像の分類,変異予測,分類の3つの異なる分類タスクに対して,オンプレミスとクラウドベースのツールを1つ評価した。 評価済みのAutoMLツールのデフォルトのCNNアーキテクチャとパラメータ化は、オリジナルの出版物と同等の分類性能を持つことがわかった。 これらのタスクに対するハイパーパラメータ最適化は、さらなる計算努力にもかかわらず、性能を大幅に改善することはなかった。 しかし,非決定論的効果により,個々のAutoML実行から得られる分類器間で性能は著しく変化した。 したがって、ジェネリックCNNアーキテクチャとAutoMLツールは、手動でCNNアーキテクチャとパラメトリゼーションを最適化する代替となるかもしれない。 これにより、計算病理学のためのソフトウェアソリューションの開発者は、データキュレーションのような自動化の難しいタスクに集中することができる。

Image analysis tasks in computational pathology are commonly solved using convolutional neural networks (CNNs). The selection of a suitable CNN architecture and hyperparameters is usually done through exploratory iterative optimization, which is computationally expensive and requires substantial manual work. The goal of this article is to evaluate how generic tools for neural network architecture search and hyperparameter optimization perform for common use cases in computational pathology. For this purpose, we evaluated one on-premises and one cloud-based tool for three different classification tasks for histological images: tissue classification, mutation prediction, and grading. We found that the default CNN architectures and parameterizations of the evaluated AutoML tools already yielded classification performance on par with the original publications. Hyperparameter optimization for these tasks did not substantially improve performance, despite the additional computational effort. However, performance varied substantially between classifiers obtained from individual AutoML runs due to non-deterministic effects. Generic CNN architectures and AutoML tools could thus be a viable alternative to manually optimizing CNN architectures and parametrizations. This would allow developers of software solutions for computational pathology to focus efforts on harder-to-automate tasks such as data curation.
翻訳日:2021-12-08 15:21:32 公開日:2021-12-07
# 非局所ニューラルネットワークを用いた画像圧縮センシング

Image Compressed Sensing Using Non-local Neural Network ( http://arxiv.org/abs/2112.03712v1 )

ライセンス: Link先を確認
Wenxue Cui, Shaohui Liu, Feng Jiang and Debin Zhao(参考訳) 近年,深層ネットワークに基づく画像圧縮センシング (CS) が注目されている。 しかし、既存のディープネットワークベースのcsスキームでは、ターゲットイメージをブロック単位で再構築することで深刻なブロックアーティファクトを発生させるか、イメージ事前知識の限られた洞察をもたらすブラックボックスとしてディープネットワークをトレーニングする。 本稿では,非局所ニューラルネットワーク(NL-CSNet)を用いた新しい画像CSフレームワークを提案する。 提案するNL-CSNetでは,測定領域とマルチスケール特徴領域の非局所的な自己相似性をそれぞれ利用するために,2つの非局所サブネットワークを構築している。 具体的には、測定領域のサブネットワークにおいて、異なる画像ブロックの測定間の長距離依存性を確立し、より優れた初期再構成を行う。 同様に、マルチスケール特徴領域のサブネットワークでは、密度の高い特徴表現間の親和性が、ディープリコンストラクションのためにマルチスケール空間で探索される。 さらに,NL-CSNetのエンドツーエンドトレーニングを可能にする非局所表現間の結合性を高めるために,新たな損失関数を開発した。 大規模な実験により、NL-CSNetは高速な計算速度を維持しながら、既存の最先端のCS手法より優れていることが示された。

Deep network-based image Compressed Sensing (CS) has attracted much attention in recent years. However, the existing deep network-based CS schemes either reconstruct the target image in a block-by-block manner that leads to serious block artifacts or train the deep network as a black box that brings about limited insights of image prior knowledge. In this paper, a novel image CS framework using non-local neural network (NL-CSNet) is proposed, which utilizes the non-local self-similarity priors with deep network to improve the reconstruction quality. In the proposed NL-CSNet, two non-local subnetworks are constructed for utilizing the non-local self-similarity priors in the measurement domain and the multi-scale feature domain respectively. Specifically, in the subnetwork of measurement domain, the long-distance dependencies between the measurements of different image blocks are established for better initial reconstruction. Analogically, in the subnetwork of multi-scale feature domain, the affinities between the dense feature representations are explored in the multi-scale space for deep reconstruction. Furthermore, a novel loss function is developed to enhance the coupling between the non-local representations, which also enables an end-to-end training of NL-CSNet. Extensive experiments manifest that NL-CSNet outperforms existing state-of-the-art CS methods, while maintaining fast computational speed.
翻訳日:2021-12-08 15:21:18 公開日:2021-12-07
# 航空画像におけるインクリメンタルセマンティックセグメンテーションに対するコントラスト蒸留法

A Contrastive Distillation Approach for Incremental Semantic Segmentation in Aerial Images ( http://arxiv.org/abs/2112.03814v1 )

ライセンス: Link先を確認
Edoardo Arnaudo, Fabio Cermelli, Antonio Tavera, Claudio Rossi, Barbara Caputo(参考訳) 増分学習は、特に大規模な注釈付きデータセットの可用性が限られているため、空中画像処理において重要な課題である。 現在のディープ・ニューラル・アーキテクチャに関する大きな問題は、破滅的な忘れこと、すなわち、新しいデータセットが再トレーニングのために提供されると、過去の知識を忠実に維持できないこととして知られている。 長年にわたり、画像分類と物体検出の問題を緩和するためのいくつかの技術が提案されてきた。 しかし最近になって、インスタンスやセマンティクスセグメンテーションのようなより複雑な下流タスクに焦点が移った。 セマンティックセグメンテーションタスクの漸進的なクラス学習から始まり、この戦略を航空領域に適応させることを目標とし、自然画像、すなわち向きを区別する特異な特徴を活用する。 標準知識蒸留法に加えて,任意の入力を拡張バージョン(すなわちフリップングと回転)と比較し,両入力が生成するセグメンテーション特性の違いを最小限に抑えるためのコントラスト正規化を提案する。 ポツダムデータセット上でのソリューションの有効性を示し,各テストにおけるインクリメンタルベースラインを上回った。 コードは、https://github.com/e dornd/contrastive-di stillation.comで公開されている。

Incremental learning represents a crucial task in aerial image processing, especially given the limited availability of large-scale annotated datasets. A major issue concerning current deep neural architectures is known as catastrophic forgetting, namely the inability to faithfully maintain past knowledge once a new set of data is provided for retraining. Over the years, several techniques have been proposed to mitigate this problem for image classification and object detection. However, only recently the focus has shifted towards more complex downstream tasks such as instance or semantic segmentation. Starting from incremental-class learning for semantic segmentation tasks, our goal is to adapt this strategy to the aerial domain, exploiting a peculiar feature that differentiates it from natural images, namely the orientation. In addition to the standard knowledge distillation approach, we propose a contrastive regularization, where any given input is compared with its augmented version (i.e. flipping and rotations) in order to minimize the difference between the segmentation features produced by both inputs. We show the effectiveness of our solution on the Potsdam dataset, outperforming the incremental baseline in every test. Code available at: https://github.com/e dornd/contrastive-di stillation.
翻訳日:2021-12-08 15:20:54 公開日:2021-12-07
# Ref-NeRF:ニューラルラジアンス場における構造的ビュー依存性の出現

Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields ( http://arxiv.org/abs/2112.03907v1 )

ライセンス: Link先を確認
Dor Verbin, Peter Hedman, Ben Mildenhall, Todd Zickler, Jonathan T. Barron, Pratul P. Srinivasan(参考訳) neural radiance fields (nerf) はシーンを連続的なボリューム関数として表現する一般的なビュー合成技術であり、各場所でボリューム密度とビュー依存性の放射輝度を提供する多層パーセプトロンによってパラメータ化される。 NeRFベースの技術は、スムーズな視界依存の外観を持つ微細な幾何学構造を表現するのに優れているが、しばしば光沢のある表面の外観を正確に捉え再生することができない。 本研究では,NeRFの視界依存放射のパラメータ化を反射放射の表現に置き換えるRef-NeRFを導入し,空間的に変化するシーン特性のコレクションを用いてこの関数を構造化する。 正規ベクトルの正規化子と共に, モデルが鏡面反射のリアリズムと精度を大幅に向上させることを示す。 さらに,本モデルの内部的放射率表現は解釈可能であり,シーン編集に有用であることを示す。

Neural Radiance Fields (NeRF) is a popular view synthesis technique that represents a scene as a continuous volumetric function, parameterized by multilayer perceptrons that provide the volume density and view-dependent emitted radiance at each location. While NeRF-based techniques excel at representing fine geometric structures with smoothly varying view-dependent appearance, they often fail to accurately capture and reproduce the appearance of glossy surfaces. We address this limitation by introducing Ref-NeRF, which replaces NeRF's parameterization of view-dependent outgoing radiance with a representation of reflected radiance and structures this function using a collection of spatially-varying scene properties. We show that together with a regularizer on normal vectors, our model significantly improves the realism and accuracy of specular reflections. Furthermore, we show that our model's internal representation of outgoing radiance is interpretable and useful for scene editing.
翻訳日:2021-12-08 15:20:34 公開日:2021-12-07
# 自律運転における因果Immitative Model

Causal Imitative Model for Autonomous Driving ( http://arxiv.org/abs/2112.03908v1 )

ライセンス: Link先を確認
Mohammad Reza Samsami, Mohammadhossein Bahari, Saber Salehkaleybar, Alexandre Alahi(参考訳) シミュレーション学習は、専門家のドライバーによるデモンストレーションのデータを活用することで、自動運転ポリシーを学ぶための強力なアプローチである。 しかし、専門家によるデモンストレーションの因果構造を無視した模倣学習を通じて訓練された運転方針は、2つの望ましくない行動(慣性と衝突)をもたらす。 本稿では,慣性および衝突問題に対処する因果Imitative Model (CIM)を提案する。 CIMは因果モデルを明確に発見し、ポリシーのトレーニングに利用します。 具体的には、cimは入力を潜在変数のセットに切り離し、因果変数を選択し、選択した変数を利用して次の位置を決定する。 実験の結果, 本手法は慣性および衝突率の点で従来の研究よりも優れていた。 さらに、因果構造を利用することにより、CIMは入力次元を2つに縮小するので、数ショット設定で新しい環境に適応することができる。 コードはhttps://github.com/v ita-epfl/CIMで入手できる。

Imitation learning is a powerful approach for learning autonomous driving policy by leveraging data from expert driver demonstrations. However, driving policies trained via imitation learning that neglect the causal structure of expert demonstrations yield two undesirable behaviors: inertia and collision. In this paper, we propose Causal Imitative Model (CIM) to address inertia and collision problems. CIM explicitly discovers the causal model and utilizes it to train the policy. Specifically, CIM disentangles the input to a set of latent variables, selects the causal variables, and determines the next position by leveraging the selected variables. Our experiments show that our method outperforms previous work in terms of inertia and collision rates. Moreover, thanks to exploiting the causal structure, CIM shrinks the input dimension to only two, hence, can adapt to new environments in a few-shot setting. Code is available at https://github.com/v ita-epfl/CIM.
翻訳日:2021-12-08 15:20:16 公開日:2021-12-07
# 多チャンネル音声分離のための時間領域一般化ウィナーフィルタ

A Time-domain Generalized Wiener Filter for Multi-channel Speech Separation ( http://arxiv.org/abs/2112.03533v1 )

ライセンス: Link先を確認
Yi Luo(参考訳) 周波数領域ニューラルビームフォーマは、近年のマルチチャネル音声分離モデルの主流手法である。 これらの周波数領域ビームフォーマは、よく定義された振舞いと有効性にもかかわらず、有界オラクル性能の限界と複雑な演算のために適切なネットワークを設計することが困難である。 本稿では,時間領域一般化Wienerフィルタ(TD-GWF)を提案する。 また、従来の周波数領域ビームフォーマにTD-GWFを接続する方法についても論じる。 実験の結果,最近提案された逐次ニューラルネットワークビームフォーミングパイプラインにおいて,周波数領域ビームフォーマをtd-gwfに置き換えることで,大幅な性能向上を実現することができた。

Frequency-domain neural beamformers are the mainstream methods for recent multi-channel speech separation models. Despite their well-defined behaviors and the effectiveness, such frequency-domain beamformers still have the limitations of a bounded oracle performance and the difficulties of designing proper networks for the complex-valued operations. In this paper, we propose a time-domain generalized Wiener filter (TD-GWF), an extension to the conventional frequency-domain beamformers that has higher oracle performance and only involves real-valued operations. We also provide discussions on how TD-GWF can be connected to conventional frequency-domain beamformers. Experiment results show that a significant performance improvement can be achieved by replacing frequency-domain beamformers by the TD-GWF in the recently proposed sequential neural beamforming pipelines.
翻訳日:2021-12-08 15:19:32 公開日:2021-12-07
# QKSA:Quantum Knowledge Seeking Agent -- 量子プロセストモグラフィーを用いたリソース最適化強化学習

QKSA: Quantum Knowledge Seeking Agent -- resource-optimized reinforcement learning using quantum process tomography ( http://arxiv.org/abs/2112.03643v1 )

ライセンス: Link先を確認
Aritra Sarkar, Zaid Al-Ars, Harshitta Gandhi, Koen Bertels(参考訳) 本研究では,汎用人工知能の汎用強化学習(URL)エージェントモデルを量子環境に拡張する。 古典的確率的知識探索エージェントKL-KSAの効用関数は、密度行列に関する量子情報理論から距離測度に一般化される。 量子プロセストモグラフィー(QPT)アルゴリズムは、環境力学をモデル化するためのプログラムの抽出可能なサブセットを形成する。 最適なQPTポリシは、アルゴリズムの複雑さと計算資源の複雑さに基づく可変コスト関数に基づいて選択される。 チューリングマシンの代わりに、現実的な実験を可能にするために、高レベルの言語でコストメトリクスを見積もる。 エージェント設計全体は、最適なポリシー選択スキームの予測値に基づいてコスト関数を変化させる自己複製クワインにカプセル化される。 したがって、pareto-optimal qptポリシーを持つ複数のエージェントは遺伝的プログラミングを用いて進化し、異なるリソーストレードオフを持つ物理理論の発展を模倣する。 この正式なフレームワークはQuantum Knowledge Seeking Agent (QKSA)と呼ばれる。 その重要性にもかかわらず、量子機械学習の現在の推力とは対照的に、量子強化学習モデルはほとんど存在しない。 QKSAは、古典的なURLモデルに似たフレームワークの最初の提案である。 aixi-tlがsolomonoff universal inductionのリソースバウンドアクティブバージョンであるのと同様に、qksaは、最近提案された量子力学のアルゴリズム情報に基づく再構成のためのリソースバウンド参加オブザーバフレームワークである。 QKSAは量子情報理論の側面をシミュレートし研究するために用いられる。 具体的には、トモグラフィ再構成を積分サブルーチンとして含む量子変分アルゴリズムの高速化に使用できることを示す。

In this research, we extend the universal reinforcement learning (URL) agent models of artificial general intelligence to quantum environments. The utility function of a classical exploratory stochastic Knowledge Seeking Agent, KL-KSA, is generalized to distance measures from quantum information theory on density matrices. Quantum process tomography (QPT) algorithms form the tractable subset of programs for modeling environmental dynamics. The optimal QPT policy is selected based on a mutable cost function based on algorithmic complexity as well as computational resource complexity. Instead of Turing machines, we estimate the cost metrics on a high-level language to allow realistic experimentation. The entire agent design is encapsulated in a self-replicating quine which mutates the cost function based on the predictive value of the optimal policy choosing scheme. Thus, multiple agents with pareto-optimal QPT policies evolve using genetic programming, mimicking the development of physical theories each with different resource trade-offs. This formal framework is termed Quantum Knowledge Seeking Agent (QKSA). Despite its importance, few quantum reinforcement learning models exist in contrast to the current thrust in quantum machine learning. QKSA is the first proposal for a framework that resembles the classical URL models. Similar to how AIXI-tl is a resource-bounded active version of Solomonoff universal induction, QKSA is a resource-bounded participatory observer framework to the recently proposed algorithmic information-based reconstruction of quantum mechanics. QKSA can be applied for simulating and studying aspects of quantum information theory. Specifically, we demonstrate that it can be used to accelerate quantum variational algorithms which include tomographic reconstruction as its integral subroutine.
翻訳日:2021-12-08 15:19:19 公開日:2021-12-07
# リプシッツネットワーク適応によるモデル-現実ギャップのブリッジ

Bridging the Model-Reality Gap with Lipschitz Network Adaptation ( http://arxiv.org/abs/2112.03756v1 )

ライセンス: Link先を確認
Siqi Zhou, Karime Pereida, Wenda Zhao and Angela P. Schoellig(参考訳) ロボットが現実の世界に参入するにつれ、それらは非モデル化のダイナミクスと外乱にさらされる。 従来のモデルベースの制御アプローチは、比較的静的で既知の運用環境で成功している。 しかし、ロボットの正確なモデルが利用できない場合、モデルベースの設計は、最適でない行動や安全でない行動につながる可能性がある。 本研究では,モデル-現実ギャップを橋渡しし,動的不確実性が存在する場合でもモデルベースアプローチの適用を可能にする手法を提案する。 特に,未知のダイナミクスを持つロボットシステムが,事前定義された参照モデルとして振る舞うような,学習に基づくモデル参照適応手法を提案する。 逆に、参照モデルはモデルベースのコントローラ設計に使用することができる。 リプシッツネットワークと呼ばれる特殊なタイプのニューラルネットワークのアーキテクチャ設計において、一般的なモデル参照適応制御アプローチとは対照的に、高非線形ダイナミクスの不確かさを捕捉し、証明可能なリプシッツ条件を符号化することで安定性を保証するためにニューラルネットワークの代表的なパワーを利用する。 本手法は, 真のロボットシステムに関する事前知識が限られている場合でも, 一般的な非線形制御適応システムに適用できる。 本研究は, 逆振子実験において, 逆振子をホバリングしたり円軌道を追尾したりしながら, 逆振子をバランスさせることが課題であることを示す。

As robots venture into the real world, they are subject to unmodeled dynamics and disturbances. Traditional model-based control approaches have been proven successful in relatively static and known operating environments. However, when an accurate model of the robot is not available, model-based design can lead to suboptimal and even unsafe behaviour. In this work, we propose a method that bridges the model-reality gap and enables the application of model-based approaches even if dynamic uncertainties are present. In particular, we present a learning-based model reference adaptation approach that makes a robot system, with possibly uncertain dynamics, behave as a predefined reference model. In turn, the reference model can be used for model-based controller design. In contrast to typical model reference adaptation control approaches, we leverage the representative power of neural networks to capture highly nonlinear dynamics uncertainties and guarantee stability by encoding a certifying Lipschitz condition in the architectural design of a special type of neural network called the Lipschitz network. Our approach applies to a general class of nonlinear control-affine systems even when our prior knowledge about the true robot system is limited. We demonstrate our approach in flying inverted pendulum experiments, where an off-the-shelf quadrotor is challenged to balance an inverted pendulum while hovering or tracking circular trajectories.
翻訳日:2021-12-08 15:18:53 公開日:2021-12-07
# (参考訳) 質問応答としてのストーリーの自動生成 [全文訳有]

Automated Story Generation as Question-Answering ( http://arxiv.org/abs/2112.03808v1 )

ライセンス: CC BY 4.0
Louis Castricato, Spencer Frazier, Jonathan Balloch, Nitya Tarakad, Mark Riedl(参考訳) 自動ストーリー生成に対するニューラルネットワークモデルベースのアプローチには、2つの重要な制限がある。 まず、言語モデルに基づくストーリージェネレータは、一般的に特定のゴールや終了に向けて動作しません。 第二に、ストーリーが長くなるとコヒーレンスを失うことが多い。 本稿では,問題を生成的質問応答の1つとして扱う,自動ストーリ生成のための新しいアプローチを提案する。 提案するストーリー生成システムは、ストーリーの最終イベントをカプセル化した文章から始まる。 このシステムは、(1)最新の出来事を記述したテキストを反復的に解析し、(2)その出来事でキャラクターがやっていることをしている「なぜ」という質問を生成し、(3)この疑問に答える別の先行イベントを生成しようとする。

Neural language model-based approaches to automated story generation suffer from two important limitations. First, language model-based story generators generally do not work toward a given goal or ending. Second, they often lose coherence as the story gets longer. We propose a novel approach to automated story generation that treats the problem as one of generative question-answering. Our proposed story generation system starts with sentences encapsulating the final event of the story. The system then iteratively (1) analyzes the text describing the most recent event, (2) generates a question about "why" a character is doing the thing they are doing in the event, and then (3) attempts to generate another, preceding event that answers this question.
翻訳日:2021-12-08 15:17:50 公開日:2021-12-07
# STC-mix: 自己監督型ビデオ表現のための空間, 時間, チャネルミキシング

STC-mix: Space, Time, Channel mixing for Self-supervised Video Representation ( http://arxiv.org/abs/2112.03906v1 )

ライセンス: Link先を確認
Srijan Das and Michael S. Ryoo(参考訳) ビデオのコントラスト表現学習は、数百万のビデオが利用できることに依存している。 これはWeb上のビデオには実用的だが、現実世界のアプリケーションのための大規模なビデオの入手は非常に高価で手間がかかる。 そこで,本稿では,自己教師型学習のためのビデオ強化の設計に焦点をあて,まず,ビデオの混合による新しいビデオサンプル作成のための最善の戦略を分析する。 では、ビデオの他のモダリティをデータミキシングに利用できるのか、という疑問が残る。 そこで本研究では,ビデオテッセラクトを他のビデオテッセラクトに挿入するCross-Modal Manifold Cutmix (CMMC)を提案する。 ビデオミキシング戦略stc-mix,すなわちビデオの予備ミキシングとcmmcをビデオ内の異なるモダリティにまたがって行うことにより,学習した映像表現の品質が向上することがわかった。 小型ビデオデータセットUCF101とHMDB51の2つのダウンストリームタスクに対して、アクション認識とビデオ検索の徹底的な実験を行った。 また,ドメイン知識が限られているNTUデータセットに対して,STC-mixの有効性を示す。 両ダウンストリームタスクにおけるSTC-mixの性能は、トレーニングデータが少ない一方で、他の自己教師型アプローチと同等であることを示す。

Contrastive representation learning of videos highly relies on the availability of millions of unlabelled videos. This is practical for videos available on web but acquiring such large scale of videos for real-world applications is very expensive and laborious. Therefore, in this paper we focus on designing video augmentation for self-supervised learning, we first analyze the best strategy to mix videos to create a new augmented video sample. Then, the question remains, can we make use of the other modalities in videos for data mixing? To this end, we propose Cross-Modal Manifold Cutmix (CMMC) that inserts a video tesseract into another video tesseract in the feature space across two different modalities. We find that our video mixing strategy STC-mix, i.e. preliminary mixing of videos followed by CMMC across different modalities in a video, improves the quality of learned video representations. We conduct thorough experiments for two downstream tasks: action recognition and video retrieval on two small scale video datasets UCF101, and HMDB51. We also demonstrate the effectiveness of our STC-mix on NTU dataset where domain knowledge is limited. We show that the performance of our STC-mix on both the downstream tasks is on par with the other self-supervised approaches while requiring less training data.
翻訳日:2021-12-08 15:02:25 公開日:2021-12-07
# 車の軌道予測は機能するが、至る所にはない

Vehicle trajectory prediction works, but not everywhere ( http://arxiv.org/abs/2112.03909v1 )

ライセンス: Link先を確認
Mohammadhossein Bahari, Saeed Saadatnejad, Ahmad Rahimi, Mohammad Shaverdikondori, Mohammad Shahidzadeh, Seyed-Mohsen Moosavi-Dezfooli, Alexandre Alahi(参考訳) 車両軌道予測は現在、自動運転車の基本的な柱となっている。 業界と研究コミュニティは、公開ベンチマークによってこのような柱の必要性を認識している。 最先端の手法は印象的であり、オフロード予測はないが、ベンチマーク以外の都市への一般化は分かっていない。 本研究では,これらの手法が新たな場面に一般化しないことを示す。 最先端モデルがオフロードになるような現実的なシーンを自動的に生成する新しい手法を提案する。 我々は、敵シーン生成のレンズを通して問題をフレーム化する。 物理制約とともに,原子シーン生成関数に基づく簡易かつ効果的な生成モデルを提案する。 我々の実験によると、現在のベンチマークの既存のシーンの60セント以上は、予測メソッドをフェールさせる(オフロード予測)方法で修正可能である。 さらにそれを示します (i)生成された場面は現実の世界に存在するため現実的であり、 (ii)既存のモデルを30~40%堅牢にすることができる。 コードはhttps://s-attack.git hub.io/で入手できる。

Vehicle trajectory prediction is nowadays a fundamental pillar of self-driving cars. Both the industry and research communities have acknowledged the need for such a pillar by running public benchmarks. While state-of-the-art methods are impressive, i.e., they have no off-road prediction, their generalization to cities outside of the benchmark is unknown. In this work, we show that those methods do not generalize to new scenes. We present a novel method that automatically generates realistic scenes that cause state-of-the-art models go off-road. We frame the problem through the lens of adversarial scene generation. We promote a simple yet effective generative model based on atomic scene generation functions along with physical constraints. Our experiments show that more than $60\%$ of the existing scenes from the current benchmarks can be modified in a way to make prediction methods fail (predicting off-road). We further show that (i) the generated scenes are realistic since they do exist in the real world, and (ii) can be used to make existing models robust by 30-40%. Code is available at https://s-attack.git hub.io/.
翻訳日:2021-12-08 15:02:02 公開日:2021-12-07
# EmTract: 投資家の感情と市場行動

EmTract: Investor Emotions and Market Behavior ( http://arxiv.org/abs/2112.03868v1 )

ライセンス: Link先を確認
Domonkos Vamossy and Rolf Skog(参考訳) ソーシャルメディアのテキストデータから感情を抽出するツールを開発した。 私たちの方法論には3つの大きな利点があります。 第2に、非標準のフレーズ、絵文字、エモティコンといったソーシャルメディアデータの重要な側面を取り入れ、第3に、単語の順序、単語の使用、ローカルコンテキストなどの機能を含む潜在表現を逐次学習することで運用する。 このツールとユーザガイドは、https://github.com/d vamossy/emtract.com/ で入手できる。 EmTractを用いて、ソーシャルメディア上で表現される投資家の感情と資産価格の関係を検討する。 私たちは多くの興味深い洞察を文書化しています。 まず、投資家の感情と資産価格の動きに関連する実験室の制御実験の結果を確認した。 第二に、投資家の感情が日々の価格変動を予測していることを示す。 これらの影響は、ボラティリティや短期利息が高く、機関所有や流動性が低い場合に大きい。 第3に、IPO前の投資家の熱意の高まりは、IPO株の大規模な初日のリターンと長期の低パフォーマンスに寄与する。 結果の相関をとるために、代替感情モデルの使用を含む、多数の堅牢性チェックを提供する。 我々の研究は、感情と市場のダイナミクスが密接に関連しているという直感を強化し、株式の短期価値を評価する際に投資家の感情を考えることの重要性を強調した。

We develop a tool that extracts emotions from social media text data. Our methodology has three main advantages. First, it is tailored for financial context; second, it incorporates key aspects of social media data, such as non-standard phrases, emojis and emoticons; and third, it operates by sequentially learning a latent representation that includes features such as word order, word usage, and local context. This tool, along with a user guide is available at: https://github.com/d vamossy/EmTract. Using EmTract, we explore the relationship between investor emotions expressed on social media and asset prices. We document a number of interesting insights. First, we confirm some of the findings of controlled laboratory experiments relating investor emotions to asset price movements. Second, we show that investor emotions are predictive of daily price movements. These impacts are larger when volatility or short interest are higher, and when institutional ownership or liquidity are lower. Third, increased investor enthusiasm prior to the IPO contributes to the large first-day return and long-run underperformance of IPO stocks. To corroborate our results, we provide a number of robustness checks, including using an alternative emotion model. Our findings reinforce the intuition that emotions and market dynamics are closely related, and highlight the importance of considering investor emotions when assessing a stock's short-term value.
翻訳日:2021-12-08 15:01:48 公開日:2021-12-07
# GraphPAS: グラフニューラルネットワークのための並列アーキテクチャ検索

GraphPAS: Parallel Architecture Search for Graph Neural Networks ( http://arxiv.org/abs/2112.03461v1 )

ライセンス: Link先を確認
Jiamin Chen, Jianliang Gao, Yibo Chen, Oloulade Babatounde Moctard, Tengfei Lyu, Zhao Li(参考訳) グラフニューラルネットワーク(GNN)が最近、非ユークリッドデータに適用されたことにより、グラフニューラルネットワークの検索に大きな注目を集めている。 しかし、巨大な検索空間におけるすべてのgnnアーキテクチャの探索には時間がかかりすぎるか、大きなグラフデータでは不可能である。 本稿では,グラフニューラルネットワークのための並列グラフアーキテクチャ探索(GraphPAS)フレームワークを提案する。 graphpasでは,共有型進化学習をデザインし,精度を損なうことなく検索効率を向上させることにより,検索空間を並列に探索する。 さらに、アーキテクチャ情報エントロピーは突然変異選択確率に動的に採用され、宇宙探査を減らすことができる。 実験結果から,GraphPASは最先端モデルの効率と精度を同時に向上することが示された。

Graph neural architecture search has received a lot of attention as Graph Neural Networks (GNNs) has been successfully applied on the non-Euclidean data recently. However, exploring all possible GNNs architectures in the huge search space is too time-consuming or impossible for big graph data. In this paper, we propose a parallel graph architecture search (GraphPAS) framework for graph neural networks. In GraphPAS, we explore the search space in parallel by designing a sharing-based evolution learning, which can improve the search efficiency without losing the accuracy. Additionally, architecture information entropy is adopted dynamically for mutation selection probability, which can reduce space exploration. The experimental result shows that GraphPAS outperforms state-of-art models with efficiency and accuracy simultaneously.
翻訳日:2021-12-08 15:00:56 公開日:2021-12-07
# nextg無線ネットワークの分散制御のための連合型深層強化学習

Federated Deep Reinforcement Learning for the Distributed Control of NextG Wireless Networks ( http://arxiv.org/abs/2112.03465v1 )

ライセンス: Link先を確認
Peyman Tehrani, Francesco Restuccia and Marco Levorato(参考訳) 次世代(nextg)ネットワークは、拡張現実やコネクテッド自動運転車のような触覚インターネットアプリケーションをサポートすることが期待されている。 近年のイノベーションはリンク容量の増大を約束する一方で、その環境への敏感さと不規則なパフォーマンスは従来のモデルベースの制御の根拠を損なう。 ゼロタッチデータ駆動アプローチは、現在の運用条件に適応するネットワークの能力を向上させることができる。 強化学習(RL)アルゴリズムのようなツールは、観測履歴のみに基づいて最適な制御ポリシーを構築することができる。 具体的には、ディープニューラルネットワーク(DNN)を予測器として使用するディープRL(DRL)は、複雑な環境や高次元入力においても優れた性能を発揮することが示されている。 しかし、DRLモデルのトレーニングには大量のデータが必要であるため、基礎となる環境の絶え間なく進化する統計に適応性が制限される可能性がある。 さらに、無線ネットワークは本質的に分散システムであり、中央集権DRLアプローチは過剰なデータ交換を必要とするが、完全な分散アプローチは収束率の低下と性能劣化をもたらす可能性がある。 本稿では,これらの課題に対処するために,ベースステーション(BS)が学習データよりもモデルの重みを共有することで,組込みDNNを協調的に訓練する,DRL(F-DRL)に対するフェデレーションラーニング(FL)アプローチを提案する。 我々は,F-DRLの2つの異なるバージョン,値とポリシーに基づく評価を行い,分散型と集中型DRLと比較して優れた性能を示す。

Next Generation (NextG) networks are expected to support demanding tactile internet applications such as augmented reality and connected autonomous vehicles. Whereas recent innovations bring the promise of larger link capacity, their sensitivity to the environment and erratic performance defy traditional model-based control rationales. Zero-touch data-driven approaches can improve the ability of the network to adapt to the current operating conditions. Tools such as reinforcement learning (RL) algorithms can build optimal control policy solely based on a history of observations. Specifically, deep RL (DRL), which uses a deep neural network (DNN) as a predictor, has been shown to achieve good performance even in complex environments and with high dimensional inputs. However, the training of DRL models require a large amount of data, which may limit its adaptability to ever-evolving statistics of the underlying environment. Moreover, wireless networks are inherently distributed systems, where centralized DRL approaches would require excessive data exchange, while fully distributed approaches may result in slower convergence rates and performance degradation. In this paper, to address these challenges, we propose a federated learning (FL) approach to DRL, which we refer to federated DRL (F-DRL), where base stations (BS) collaboratively train the embedded DNN by only sharing models' weights rather than training data. We evaluate two distinct versions of F-DRL, value and policy based, and show the superior performance they achieve compared to distributed and centralized DRL.
翻訳日:2021-12-08 15:00:45 公開日:2021-12-07
# ゲーティング層のアンサンブルによるディープクリックスルー率予測モデルのための神経特徴選択の強化

Enhanced Exploration in Neural Feature Selection for Deep Click-Through Rate Prediction Models via Ensemble of Gating Layers ( http://arxiv.org/abs/2112.03487v1 )

ライセンス: Link先を確認
Lin Guan, Xia Xiao, Ming Chen, Youlong Cheng(参考訳) CTR(Deep Click-Through Rate)予測システムの開発において,特徴選択は重要なステップである。 ニューラル特徴選択(NFS)の目標は、冗長な特徴を取り除き、計算コストを削減する手段として、最も説明力のよい機能の比較的小さなサブセットを選択することである。 勾配に基づくニューラルアーキテクチャサーチ(NAS)とネットワークプルーニング手法に触発されて、人々はゲーティングアプローチでNFS問題に取り組みました。 バイナリゲートは、効率的なエンドツーエンド方式でネットワークパラメータと共に最適化される。 本稿では,探索-探索の観点から勾配に基づく解を解析し,実験結果を用いてゲーティングアプローチが不十分な探査に苦しむことを示す。 勾配に基づく解の探索能力を向上させるために,アンサンブルゲーティングという,単純かつ効果的なアンサンブル学習手法を提案する。 このアプローチを評価するために、AvazuとCriteoという2つのパブリックデータセットを選択します。 実験により,計算オーバーヘッドやハイパーパラメータ(アンサンブルのサイズを除く)を導入することなく,Gatingアプローチを一貫して改善し,3つの異なる深部CTR予測モデルを持つ2つのデータセット上の機能のより優れたサブセットを見つけることができることがわかった。

Feature selection has been an essential step in developing industry-scale deep Click-Through Rate (CTR) prediction systems. The goal of neural feature selection (NFS) is to choose a relatively small subset of features with the best explanatory power as a means to remove redundant features and reduce computational cost. Inspired by gradient-based neural architecture search (NAS) and network pruning methods, people have tackled the NFS problem with Gating approach that inserts a set of differentiable binary gates to drop less informative features. The binary gates are optimized along with the network parameters in an efficient end-to-end manner. In this paper, we analyze the gradient-based solution from an exploration-exploita tion perspective and use empirical results to show that Gating approach might suffer from insufficient exploration. To improve the exploration capacity of gradient-based solutions, we propose a simple but effective ensemble learning approach, named Ensemble Gating. We choose two public datasets, namely Avazu and Criteo, to evaluate this approach. Our experiments show that, without adding any computational overhead or introducing any hyper-parameter (except the size of the ensemble), our method is able to consistently improve Gating approach and find a better subset of features on the two datasets with three different underlying deep CTR prediction models.
翻訳日:2021-12-08 15:00:18 公開日:2021-12-07
# グラフニューラルネットワークに対するPiece-wise Polynomial Filteringアプローチ

A Piece-wise Polynomial Filtering Approach for Graph Neural Networks ( http://arxiv.org/abs/2112.03499v1 )

ライセンス: Link先を確認
Vijay Lingam, Chanakya Ekbote, Manan Sharma, Rahul Ragesh, Arun Iyer, Sundararajan Sellamanickam(参考訳) グラフニューラルネットワーク(GNN)はノードの特徴と入力グラフトポロジからの信号を利用してノード分類タスクのパフォーマンスを向上させる。 しかし、これらのモデルは、連結ノードが異なるラベルを持つヘテロ親和性グラフ上では性能が良くない傾向にある。 最近提案されたGNNは、ホモフィリーのレベルが異なるグラフにまたがって機能する。 これらのうち、多項式グラフフィルタに依存するモデルは有望である。 これらの多項式グラフフィルタモデルの解もまた、過剰決定方程式系の解である。 これは、ある例ではモデルが合理的に高階多項式を学ぶ必要があることを示唆する。 その結果,提案手法は設計上,多項式の学習に役立たないことがわかった。 この問題を軽減するため、グラフの固有分解を行い、スペクトルの異なる部分集合に作用する複数の適応多項式フィルタを探索する。 理論的および実験的に、提案モデルがより良いフィルタを学習し、分類精度が向上することを示す。 本研究では, 固有成分数依存性, 潜伏多項式フィルタ, ノード分類タスクにおける個々の多項式の性能など, 提案モデルの様々な側面について検討した。 さらに,大規模グラフを用いた評価により,モデルの拡張性を示す。 本モデルは,最先端モデルよりも最大5%の性能向上を達成し,従来の多項式フィルタに基づくアプローチよりも優れる。

Graph Neural Networks (GNNs) exploit signals from node features and the input graph topology to improve node classification task performance. However, these models tend to perform poorly on heterophilic graphs, where connected nodes have different labels. Recently proposed GNNs work across graphs having varying levels of homophily. Among these, models relying on polynomial graph filters have shown promise. We observe that solutions to these polynomial graph filter models are also solutions to an overdetermined system of equations. It suggests that in some instances, the model needs to learn a reasonably high order polynomial. On investigation, we find the proposed models ineffective at learning such polynomials due to their designs. To mitigate this issue, we perform an eigendecomposition of the graph and propose to learn multiple adaptive polynomial filters acting on different subsets of the spectrum. We theoretically and empirically show that our proposed model learns a better filter, thereby improving classification accuracy. We study various aspects of our proposed model including, dependency on the number of eigencomponents utilized, latent polynomial filters learned, and performance of the individual polynomials on the node classification task. We further show that our model is scalable by evaluating over large graphs. Our model achieves performance gains of up to 5% over the state-of-the-art models and outperforms existing polynomial filter-based approaches in general.
翻訳日:2021-12-08 14:59:54 公開日:2021-12-07
# IEEE CISの最先端予測と規範分析 第3回技術課題

State-of-the-art predictive and prescriptive analytics for IEEE CIS 3rd Technical Challenge ( http://arxiv.org/abs/2112.03595v1 )

ライセンス: Link先を確認
Mahdi Abolghasemi, Rasul Esmaeilbeigi(参考訳) 本稿では,IEEE CIS 3rd Technical Challengeで導入された予測最適化問題にアプローチするための提案手法について述べる。 予測モデルはLightGBMモデルのアンサンブルを使用し、規範解析は数学的最適化を用いて、複数のシナリオの平均コストを最小化するソリューションを効率的に処方する。 私たちのソリューションは最適化で1位、コンペティションの予測チャレンジで2位にランクインしました。

In this paper, we describe our proposed methodology to approach the predict+optimise challenge introduced in the IEEE CIS 3rd Technical Challenge. The predictive model employs an ensemble of LightGBM models and the prescriptive analysis employs mathematical optimisation to efficiently prescribe solutions that minimise the average cost over multiple scenarios. Our solutions ranked 1st in the optimisation and 2nd in the prediction challenge of the competition.
翻訳日:2021-12-08 14:59:16 公開日:2021-12-07
# グラフに対する置換同変生成逆数ネットワーク

Permutation Equivariant Generative Adversarial Networks for Graphs ( http://arxiv.org/abs/2112.03621v1 )

ライセンス: Link先を確認
Yoann Boget, Magda Gregorova, Alexandros Kalousis(参考訳) グラフ生成モデリングにおける最も議論された問題の1つは表現の順序付けである。 一つの解は同変生成関数を使い、順序不変性を保証する。 そのような関数の性質について議論した後、GANと同変関数に依存する3段階モデルである3G-GANを提案する。 モデルはまだ開発中である。 しかし,我々は探索実験を奨励し,まだ解決すべき課題について議論する。

One of the most discussed issues in graph generative modeling is the ordering of the representation. One solution consists of using equivariant generative functions, which ensure the ordering invariance. After having discussed some properties of such functions, we propose 3G-GAN, a 3-stages model relying on GANs and equivariant functions. The model is still under development. However, we present some encouraging exploratory experiments and discuss the issues still to be addressed.
翻訳日:2021-12-08 14:59:08 公開日:2021-12-07
# 格子を用いた特異パラメータ空間のモデル化と解法

Towards Modeling and Resolving Singular Parameter Spaces using Stratifolds ( http://arxiv.org/abs/2112.03734v1 )

ライセンス: Link先を確認
Pascal Mattia Esser, Frank Nielsen(参考訳) パラメトリック統計モデルを分析する際、有用なアプローチはパラメータ空間を幾何学的にモデル化することである。 しかし、統計混合や確率的ディープニューラルネットワークのような非常に単純で一般的な階層モデルであっても、多様体の滑らかさの仮定はパラメータ空間の非滑らかな近傍を示す特異点において破られる。 これらの特異モデルは学習ダイナミクスの文脈で解析され、特異点が学習軌道の引き付け役となり、従ってモデルの収束速度に負の影響を及ぼす。 代数的トポロジーの概念である層フォールドを用いて特異性から生じる問題を回避し、特異パラメータ空間を形式的にモデル化する一般手法を提案する。 我々は、特異空間の滑らかな多様体近似を構築するための分解法が具備されているという性質を用いる。 経験的に、特異空間の代わりに滑らかな多様体近似に(自然な)勾配勾配を用いることで、魅力の振舞いを回避でき、学習における収束速度を向上できることを示す。

When analyzing parametric statistical models, a useful approach consists in modeling geometrically the parameter space. However, even for very simple and commonly used hierarchical models like statistical mixtures or stochastic deep neural networks, the smoothness assumption of manifolds is violated at singular points which exhibit non-smooth neighborhoods in the parameter space. These singular models have been analyzed in the context of learning dynamics, where singularities can act as attractors on the learning trajectory and, therefore, negatively influence the convergence speed of models. We propose a general approach to circumvent the problem arising from singularities by using stratifolds, a concept from algebraic topology, to formally model singular parameter spaces. We use the property that specific stratifolds are equipped with a resolution method to construct a smooth manifold approximation of the singular space. We empirically show that using (natural) gradient descent on the smooth manifold approximation instead of the singular space allows us to avoid the attractor behavior and therefore improve the convergence speed in learning.
翻訳日:2021-12-08 14:59:03 公開日:2021-12-07
# 畳み込みニューラルネットワークによる飛行中のノベルティ検出

In-flight Novelty Detection with Convolutional Neural Networks ( http://arxiv.org/abs/2112.03765v1 )

ライセンス: Link先を確認
Adam Hartwell, Felipe Montana, Will Jacobs, Visakan Kadirkamanathan, Andrew R Mills, Tom Clark(参考訳) ガスタービンエンジンは、通常、膨大なデータを生成する複雑な機械であり、コスト効率のよい予防保守を可能にするために注意深く監視する必要がある。 航空宇宙分野では、すべての計測データを地上に戻すのは非常に高価であり、しばしば有用で高価値なデータが廃棄される。 したがって、リアルタイムに有用なデータを検出、優先順位付け、そして返却する能力は不可欠である。 本稿では,正常性の畳み込みニューラルネットワークモデルによって記述されたシステム出力の測定を,予防的保守意思決定者の注意のためにリアルタイムに優先することを提案する。 ガスタービンエンジンの時間変動挙動が複雑であるため、正確な物理モデルの導出は困難であり、しばしば予測精度が低く、リアルタイム実行と相容れないモデルにつながる。 データ駆動モデリングは、第一原理からの導出を必要とせずに、高精度で資産固有のモデルを生成する望ましい代替手段である。 本稿では,異常データのオンライン検出と優先順位付けのためのデータ駆動システムを提案する。 深部神経予測モデルに統合された不確実性管理により、新しい動作条件から導出されるバイアスデータアセスメントを回避する。 テストは実データと合成データで行われ、実データと合成データの両方に対する感度を示す。 このシステムは低消費電力の組み込みハードウェアでリアルタイムに動作可能で、現在ロールス・ロイス・パール15のエンジン飛行試験に配備中である。

Gas turbine engines are complex machines that typically generate a vast amount of data, and require careful monitoring to allow for cost-effective preventative maintenance. In aerospace applications, returning all measured data to ground is prohibitively expensive, often causing useful, high value, data to be discarded. The ability to detect, prioritise, and return useful data in real-time is therefore vital. This paper proposes that system output measurements, described by a convolutional neural network model of normality, are prioritised in real-time for the attention of preventative maintenance decision makers. Due to the complexity of gas turbine engine time-varying behaviours, deriving accurate physical models is difficult, and often leads to models with low prediction accuracy and incompatibility with real-time execution. Data-driven modelling is a desirable alternative producing high accuracy, asset specific models without the need for derivation from first principles. We present a data-driven system for online detection and prioritisation of anomalous data. Biased data assessment deriving from novel operating conditions is avoided by uncertainty management integrated into the deep neural predictive model. Testing is performed on real and synthetic data, showing sensitivity to both real and synthetic faults. The system is capable of running in real-time on low-power embedded hardware and is currently in deployment on the Rolls-Royce Pearl 15 engine flight trials.
翻訳日:2021-12-08 14:58:45 公開日:2021-12-07
# (参考訳) ヘイトスピーチ検出器におけるターゲットグループバイアスの低減 [全文訳有]

Reducing Target Group Bias in Hate Speech Detectors ( http://arxiv.org/abs/2112.03858v1 )

ライセンス: CC BY 4.0
Darsh J Shah, Sinong Wang, Han Fang, Hao Ma and Luke Zettlemoyer(参考訳) オンライン上の攻撃的かつ憎悪的なコンテンツの普遍性は、ターゲットグループ間で有能なコンテンツを検出する自動的なソリューションの必要性を招いている。 本稿では,大規模公開データセット上でトレーニングされたテキスト分類モデルについて,全体的な性能は高いが,保護された複数のグループでは非常に過小評価される可能性があることを示す。 \citet{vidgen2020learning}データセットでは、アノテートされた黒人女性ターゲットグループでは37\%、移民では12\%、ヘイトスピーチには異なるスタイルが伴う。 そこで本稿では,トークンレベルのヘイトセンスの曖昧さを解消し,トークンのヘイトセンス表現を用いて検出,より一般的な信号のモデリングを行う。 2つの公開データセットにおいて,対象群間のモデルの精度のばらつきが少なくとも30\%減少し,平均的な対象群性能が4\%,最悪の場合のパフォーマンスが13\%向上した。

The ubiquity of offensive and hateful content on online fora necessitates the need for automatic solutions that detect such content competently across target groups. In this paper we show that text classification models trained on large publicly available datasets despite having a high overall performance, may significantly under-perform on several protected groups. On the \citet{vidgen2020learning} dataset, we find the accuracy to be 37\% lower on an under annotated Black Women target group and 12\% lower on Immigrants, where hate speech involves a distinct style. To address this, we propose to perform token-level hate sense disambiguation, and utilize tokens' hate sense representations for detection, modeling more general signals. On two publicly available datasets, we observe that the variance in model accuracy across target groups drops by at least 30\%, improving the average target group performance by 4\% and worst case performance by 13\%.
翻訳日:2021-12-08 14:56:12 公開日:2021-12-07
# VizExtract:データビジュアライゼーションからの自動関係抽出

VizExtract: Automatic Relation Extraction from Data Visualizations ( http://arxiv.org/abs/2112.03485v1 )

ライセンス: Link先を確認
Dale Decatur, Sanjay Krishnan(参考訳) プロット、チャート、フィギュアなどのビジュアルグラフィックは、統計的な結論を伝えるために広く使われている。 このような視覚化から直接情報を抽出することは、科学的コーパス、ファクトチェック、データ抽出による効果的な検索の鍵となる部分問題である。 本稿では,統計チャートから比較変数を自動的に抽出する枠組みを提案する。 チャート形式やライブラリ,ツールの多様性やバリエーションのために,コンピュータビジョンベースのフレームワークを活用して,線グラフや散布プロット,バーグラフなどの視覚化ファセットを自動的に識別し,ローカライズする。 本フレームワークは,マットプロトリップチャートの大規模合成コーパスに基づいて学習し,他のグラフデータセット上でトレーニングされたモデルを評価する。 制御された実験では、87.5%の精度で、1グラフあたり1-3列の変数、色、ソリッドラインスタイルの間の相関関係を分類することができる。 インターネットからスクレイプされた実世界のグラフにデプロイすると、72.8%の精度(ハードグラフを除くと81.2%の精度)が得られる。 FigureQAデータセットにデプロイすると、84.7%の精度が達成される。

Visual graphics, such as plots, charts, and figures, are widely used to communicate statistical conclusions. Extracting information directly from such visualizations is a key sub-problem for effective search through scientific corpora, fact-checking, and data extraction. This paper presents a framework for automatically extracting compared variables from statistical charts. Due to the diversity and variation of charting styles, libraries, and tools, we leverage a computer vision based framework to automatically identify and localize visualization facets in line graphs, scatter plots, or bar graphs and can include multiple series per graph. The framework is trained on a large synthetically generated corpus of matplotlib charts and we evaluate the trained model on other chart datasets. In controlled experiments, our framework is able to classify, with 87.5% accuracy, the correlation between variables for graphs with 1-3 series per graph, varying colors, and solid line styles. When deployed on real-world graphs scraped from the internet, it achieves 72.8% accuracy (81.2% accuracy when excluding "hard" graphs). When deployed on the FigureQA dataset, it achieves 84.7% accuracy.
翻訳日:2021-12-08 14:48:43 公開日:2021-12-07
# GaTector: Gazeオブジェクト予測のための統一フレームワーク

GaTector: A Unified Framework for Gaze Object Prediction ( http://arxiv.org/abs/2112.03549v1 )

ライセンス: Link先を確認
Binglu Wang, Tao Hu, Baoshan Li, Xiaojuan Chen, Zhijie Zhang(参考訳) 迷路オブジェクト予測(GOP)は、人間が見つめている物体を発見することを目的とした新しいタスクである。 これは非常に重要なアプリケーションだが、統一されたソリューションフレームワークが欠けている。 直感的な解決策は、既存の視線予測手法にオブジェクト検出分岐を組み込むことである。 しかし、従来の視線予測手法では、通常、シーンイメージとヘッドイメージから特徴を抽出するために2つの異なるネットワークを使用する。 本稿では,視線オブジェクト予測問題に統一的に取り組むために,GaTectorという新しいフレームワークを構築した。 特に、シーン画像とヘッド画像の両方の一般的な特徴を抽出するために共有バックボーンを利用するために、特定汎用特徴抽出器(SGS)が最初に提案されている。 入力とタスクの特異性を検討するため、sgsは共有バックボーンの前に2つの入力固有のブロック、共有バックボーンの後に3つのタスク固有のブロックを導入する。 特に、新しいデフォーカス層は、情報や余分な計算を必要とすることなく、オブジェクト検出タスクのオブジェクト特有の特徴を生成するように設計されている。 さらに、アイズヒートマップをスターボックスに集中させるために、エネルギー集約損失を導入する。 最後に,重なり合う領域を共有できない場合でも,箱間の違いを明らかにする新しいmDAP尺度を提案する。 GOOデータセットの大規模実験により, 対象検出, 視線推定, 視線予測の3トラックすべてにおいて, 提案手法の優位性が検証された。

Gaze object prediction (GOP) is a newly proposed task that aims to discover the objects being stared at by humans. It is of great application significance but still lacks a unified solution framework. An intuitive solution is to incorporate an object detection branch into an existing gaze prediction method. However, previous gaze prediction methods usually use two different networks to extract features from scene image and head image, which would lead to heavy network architecture and prevent each branch from joint optimization. In this paper, we build a novel framework named GaTector to tackle the gaze object prediction problem in a unified way. Particularly, a specific-general-spe cific (SGS) feature extractor is firstly proposed to utilize a shared backbone to extract general features for both scene and head images. To better consider the specificity of inputs and tasks, SGS introduces two input-specific blocks before the shared backbone and three task-specific blocks after the shared backbone. Specifically, a novel defocus layer is designed to generate object-specific features for object detection task without losing information or requiring extra computations. Moreover, the energy aggregation loss is introduced to guide the gaze heatmap to concentrate on the stared box. In the end, we propose a novel mDAP metric that can reveal the difference between boxes even when they share no overlapping area. Extensive experiments on the GOO dataset verify the superiority of our method in all three tracks, i.e. object detection, gaze estimation, and gaze object prediction.
翻訳日:2021-12-08 14:48:23 公開日:2021-12-07
# ADD:低品質圧縮深度画像検出のための周波数注意と多視点知識蒸留

ADD: Frequency Attention and Multi-View based Knowledge Distillation to Detect Low-Quality Compressed Deepfake Images ( http://arxiv.org/abs/2112.03553v1 )

ライセンス: Link先を確認
Binh M. Le and Simon S. Woo(参考訳) ディープフェイク画像の識別のためのディープラーニングベースの偽造検出装置の大幅な進歩にもかかわらず、ほとんどの検出手法は低品質のディープフェイク画像による中等度から顕著な性能劣化に悩まされている。 低画質画像の情報が限られているため、低品質のディープフェイクの検出は依然として重要な課題である。 本研究では,低品質の圧縮深度画像の検出を改善するために,周波数領域学習と最適輸送理論を知識蒸留(KD)に適用する。 学生ネットワークが低品質画像から識別的特徴を効果的に学習できるようにするため,kdにおける転送学習能力を検討する。 特に,2つの新しい蒸留法からなる注意型ディープフェイク検出ディファイラ(ADD)を提案する。 1)学生ネットワークで除去された高周波成分を効果的に回収する周波数注意蒸留、 2)教師と生徒のテンソルを異なる視点でスライスし,教師のテンソル分布をより効率的に学生に伝達することにより,複数の注意ベクトルを生成する多視点注意蒸留。 提案手法は,低品質圧縮ディープフェイク画像の検出において最先端のベースラインよりも優れることを示す。

Despite significant advancements of deep learning-based forgery detectors for distinguishing manipulated deepfake images, most detection approaches suffer from moderate to significant performance degradation with low-quality compressed deepfake images. Because of the limited information in low-quality images, detecting low-quality deepfake remains an important challenge. In this work, we apply frequency domain learning and optimal transport theory in knowledge distillation (KD) to specifically improve the detection of low-quality compressed deepfake images. We explore transfer learning capability in KD to enable a student network to learn discriminative features from low-quality images effectively. In particular, we propose the Attention-based Deepfake detection Distiller (ADD), which consists of two novel distillations: 1) frequency attention distillation that effectively retrieves the removed high-frequency components in the student network, and 2) multi-view attention distillation that creates multiple attention vectors by slicing the teacher's and student's tensors under different views to transfer the teacher tensor's distribution to the student more efficiently. Our extensive experimental results demonstrate that our approach outperforms state-of-the-art baselines in detecting low-quality compressed deepfake images.
翻訳日:2021-12-08 14:47:56 公開日:2021-12-07
# TCGL:自己教師型ビデオ表現学習のための時間的コントラストグラフ

TCGL: Temporal Contrastive Graph for Self-supervised Video Representation Learning ( http://arxiv.org/abs/2112.03587v1 )

ライセンス: Link先を確認
Yang Liu, Keze Wang, Lingbo Liu, Haoyuan Lan, Liang Lin(参考訳) 豊富な空間的時間的知識を活用し、大量のラベルのないビデオから効果的な監督信号を生成するためには、モデルから多大な表現力を必要とする。 しかし、既存の手法ではラベルのないビデオの時間的多様性が増すことができず、明示的な方法で複数のスケールの時間的依存性を精巧にモデル化することを無視している。 これらの制約を克服するために,ビデオ内の複数スケールの時間依存性を活用し,ハイブリッドグラフコントラスト学習戦略を用いた時間表現学習において,時間的コントラストグラフ学習(tcgl)と呼ばれる新しいビデオ自己教師付き学習フレームワークを提案する。 具体的には、離散コサイン変換の周波数領域解析に基づいて、動画から運動強調時空間表現を抽出するために、時空間知識探索(STKD)モジュールを導入する。 ラベル付きビデオのマルチスケール時間依存性を明示的にモデル化するために,我々のTCGLは,フレームとスニペットの順序に関する事前知識をグラフ構造,すなわち,インター/インタースニペットの時間トラストグラフ(TCG)に統合する。 次に、異なるグラフビューにおけるノード間の合意を最大化するために、特定のコントラスト学習モジュールを設計する。 本研究では,ビデオスニペット間の関係知識を活用して,グローバルなコンテキスト表現を学習し,チャネルワイズ機能を適応的に再検討する適応スニペット順序予測(ASOP)モジュールを提案する。 大規模行動認識およびビデオ検索ベンチマークにおける最先端手法よりも,TCGLの方が優れていることを示す実験結果が得られた。

Video self-supervised learning is a challenging task, which requires significant expressive power from the model to leverage rich spatial-temporal knowledge and generate effective supervisory signals from large amounts of unlabeled videos. However, existing methods fail to increase the temporal diversity of unlabeled videos and ignore elaborately modeling multi-scale temporal dependencies in an explicit way. To overcome these limitations, we take advantage of the multi-scale temporal dependencies within videos and proposes a novel video self-supervised learning framework named Temporal Contrastive Graph Learning (TCGL), which jointly models the inter-snippet and intra-snippet temporal dependencies for temporal representation learning with a hybrid graph contrastive learning strategy. Specifically, a Spatial-Temporal Knowledge Discovering (STKD) module is first introduced to extract motion-enhanced spatial-temporal representations from videos based on the frequency domain analysis of discrete cosine transform. To explicitly model multi-scale temporal dependencies of unlabeled videos, our TCGL integrates the prior knowledge about the frame and snippet orders into graph structures, i.e., the intra-/inter- snippet Temporal Contrastive Graphs (TCG). Then, specific contrastive learning modules are designed to maximize the agreement between nodes in different graph views. To generate supervisory signals for unlabeled videos, we introduce an Adaptive Snippet Order Prediction (ASOP) module which leverages the relational knowledge among video snippets to learn the global context representation and recalibrate the channel-wise features adaptively. Experimental results demonstrate the superiority of our TCGL over the state-of-the-art methods on large-scale action recognition and video retrieval benchmarks.
翻訳日:2021-12-08 14:47:32 公開日:2021-12-07
# 自己教師付き行動認識のための超拡張骨格配列からのコントラスト学習

Contrastive Learning from Extremely Augmented Skeleton Sequences for Self-supervised Action Recognition ( http://arxiv.org/abs/2112.03590v1 )

ライセンス: Link先を確認
Tianyu Guo, Hong Liu, Zhan Chen, Mengyuan Liu, Tao Wang, Runwei Ding(参考訳) 近年, 骨格に基づく行動認識のための自己指導型表現学習が, コントラスト学習法の進歩とともに開発されている。 既存のコントラスト学習手法では、通常の拡張を用いて同様の正のサンプルを構築し、新しい動きパターンを探索する能力を制限する。 本稿では,過激な拡張によってもたらされる動きパターンをよりよく活用するために,自己教師型行動表現(AimCLR)にアウンダント情報マイニングを活用するコントラスト学習フレームワークを提案する。 まず,Energy-based Attention-Guided Drop Module (EADM) を用いて,学習表現の普遍性向上に新たな動きパターンをもたらす多彩な正のサンプルを求める。 第二に, 極端に拡張することにより, オリジナルアイデンティティの劇的な変化による性能向上が図れるため, より穏やかな分散発散を最小化するために, 二重分布発散最小化損失 (d$^3$m 損失) が提案されている。 第三に、近隣鉱業(NNM)は、豊富な情報マイニングプロセスをより合理的なものにするため、ポジティブサンプルをさらに拡大するために提案されている。 NTU RGB+D 60, PKU-MMD, NTU RGB+D 120 データセットの探索実験により, AimCLR は高画質な動作表現を観測した様々な評価プロトコルの下で, 最先端の手法に対して有意に良好に動作できることが確認された。 私たちのコードはhttps://github.com/L evigty/AimCLRで利用可能です。

In recent years, self-supervised representation learning for skeleton-based action recognition has been developed with the advance of contrastive learning methods. The existing contrastive learning methods use normal augmentations to construct similar positive samples, which limits the ability to explore novel movement patterns. In this paper, to make better use of the movement patterns introduced by extreme augmentations, a Contrastive Learning framework utilizing Abundant Information Mining for self-supervised action Representation (AimCLR) is proposed. First, the extreme augmentations and the Energy-based Attention-guided Drop Module (EADM) are proposed to obtain diverse positive samples, which bring novel movement patterns to improve the universality of the learned representations. Second, since directly using extreme augmentations may not be able to boost the performance due to the drastic changes in original identity, the Dual Distributional Divergence Minimization Loss (D$^3$M Loss) is proposed to minimize the distribution divergence in a more gentle way. Third, the Nearest Neighbors Mining (NNM) is proposed to further expand positive samples to make the abundant information mining process more reasonable. Exhaustive experiments on NTU RGB+D 60, PKU-MMD, NTU RGB+D 120 datasets have verified that our AimCLR can significantly perform favorably against state-of-the-art methods under a variety of evaluation protocols with observed higher quality action representations. Our code is available at https://github.com/L evigty/AimCLR.
翻訳日:2021-12-08 14:47:00 公開日:2021-12-07
# E$^2$(GO)MOTION: Egocentric Action Recognitionのためのモーション強化イベントストリーム

E$^2$(GO)MOTION: Motion Augmented Event Stream for Egocentric Action Recognition ( http://arxiv.org/abs/2112.03596v1 )

ライセンス: Link先を確認
Chiara Plizzari, Mirco Planamente, Gabriele Goletto, Marco Cannici, Emanuele Gusso, Matteo Matteucci, Barbara Caputo(参考訳) イベントカメラは、バイオインスパイアされた新しいセンサーであり、"イベント"の形でピクセルレベルの強度変化を非同期に捉える。 センサー機構のため、イベントカメラは動きのぼやけがほとんどなく、時間分解能が非常に高く、従来のフレームベースのカメラよりもパワーとメモリがかなり少ない。 これらの特徴は、高速カメラの動きと限られたパワーが従来の視覚センサーに挑戦するウェアラブルデバイスにおけるエゴセントリックなアクション認識など、現実のいくつかの応用にぴったりである。 しかし、イベントベースのビジョンの分野は、これまではそのようなアプリケーションにおけるイベントカメラの可能性を見落としてきた。 本稿では,イベントデータは自己中心的行動認識にとって非常に有用なモダリティであることを示す。 そこで我々は,大規模なEPIC-Kitchensデータセットの最初のイベントベースカメラ拡張であるN-EPIC-Kitchensを紹介した。 この文脈では、2つの戦略を提案します (i)従来のビデオ処理アーキテクチャ(E$^2$(GO))およびイベントカメラデータを直接処理する (ii) イベントデータを用いて光フロー情報を蒸留する(E$^2$(GO)MO)。 提案したベンチマークでは、イベントデータは、RGBと光フローに匹敵する性能を提供するが、デプロイ時に追加のフロー計算を行わず、RGBのみの情報に関して最大4%の性能向上が示されている。

Event cameras are novel bio-inspired sensors, which asynchronously capture pixel-level intensity changes in the form of "events". Due to their sensing mechanism, event cameras have little to no motion blur, a very high temporal resolution and require significantly less power and memory than traditional frame-based cameras. These characteristics make them a perfect fit to several real-world applications such as egocentric action recognition on wearable devices, where fast camera motion and limited power challenge traditional vision sensors. However, the ever-growing field of event-based vision has, to date, overlooked the potential of event cameras in such applications. In this paper, we show that event data is a very valuable modality for egocentric action recognition. To do so, we introduce N-EPIC-Kitchens, the first event-based camera extension of the large-scale EPIC-Kitchens dataset. In this context, we propose two strategies: (i) directly processing event-camera data with traditional video-processing architectures (E$^2$(GO)) and (ii) using event-data to distill optical flow information (E$^2$(GO)MO). On our proposed benchmark, we show that event data provides a comparable performance to RGB and optical flow, yet without any additional flow computation at deploy time, and an improved performance of up to 4% with respect to RGB only information.
翻訳日:2021-12-08 14:46:32 公開日:2021-12-07
# 時間不変コントラスト映像表現学習

Time-Equivariant Contrastive Video Representation Learning ( http://arxiv.org/abs/2112.03624v1 )

ライセンス: Link先を確認
Simon Jenni and Hailin Jin(参考訳) ビデオから表現を学習するための,自己指導型コントラスト学習手法を提案する。 既存のアプローチは、例えば時間変換への不変性を学ぶことで入力歪みの特異性を無視する。 代わりに、ビデオ表現はビデオのダイナミクスを保ち、入力の時間的操作を反映すべきであると主張する。 そこで我々は,時間変換と等価な表現を構築し,映像のダイナミックスをよりよく捉えるために,新しい制約を利用する。 本手法では,映像の拡張クリップ間の相対時間変換をベクトルに符号化し,他の変換ベクトルと対比する。 時間的等分散学習を支援するために,ビデオの2つのクリップの自己教師型分類を提案する。 1.重複 2.注文、または 3. 注文なし 実験により,UCF101,HMDB51,Divin g48の映像検索および行動認識ベンチマークにおいて,時間的等式表現が最先端の結果が得られることが示された。

We introduce a novel self-supervised contrastive learning method to learn representations from unlabelled videos. Existing approaches ignore the specifics of input distortions, e.g., by learning invariance to temporal transformations. Instead, we argue that video representation should preserve video dynamics and reflect temporal manipulations of the input. Therefore, we exploit novel constraints to build representations that are equivariant to temporal transformations and better capture video dynamics. In our method, relative temporal transformations between augmented clips of a video are encoded in a vector and contrasted with other transformation vectors. To support temporal equivariance learning, we additionally propose the self-supervised classification of two clips of a video into 1. overlapping 2. ordered, or 3. unordered. Our experiments show that time-equivariant representations achieve state-of-the-art results in video retrieval and action recognition benchmarks on UCF101, HMDB51, and Diving48.
翻訳日:2021-12-08 14:46:08 公開日:2021-12-07
# ssat: メイクアップ転送と削除のための対称的意味認識トランスフォーマーネットワーク

SSAT: A Symmetric Semantic-Aware Transformer Network for Makeup Transfer and Removal ( http://arxiv.org/abs/2112.03631v1 )

ライセンス: Link先を確認
Zhaoyang Sun and Yaxiong Chen and Shengwu Xiong(参考訳) メイクアップ転送は、参照画像のメイクスタイルを抽出するだけでなく、そのメイクスタイルをターゲット画像の意味的対応する位置にレンダリングする。 しかし、既存のほとんどのメソッドは前者に集中し、後者を無視しているため、望ましい結果が得られなかった。 上記の問題を解決するために,意味対応学習を取り入れたSSAT(Symmetric Semantic-Aware Transformer)ネットワークを提案する。 ssatでは,新しい対称的意味対応特徴伝達(sscft)モジュールと弱い教師付き意味損失をモデル化し,正確な意味対応の確立を容易にする。 生成工程において、抽出した化粧特徴をSCFTにより空間的に歪ませて対象画像と意味的整合を達成し、歪んだ化粧特徴と無関係な化粧特徴とを組み合わせて最終結果を生成する。 実験の結果,提案手法はより視覚的に正確なメイク転送結果を得ることができ,また,他の最先端メイク転送手法と比較してユーザによる研究は,本手法の優位性を反映していることがわかった。 また,提案手法の表現とポーズの違い,オブジェクトのオクルージョン場面におけるロバスト性を検証し,映像メイクアップトランスファーに拡張した。 コードはhttps://gitee.com/su nzhaoyang0304/ssat-m spで入手できる。

Makeup transfer is not only to extract the makeup style of the reference image, but also to render the makeup style to the semantic corresponding position of the target image. However, most existing methods focus on the former and ignore the latter, resulting in a failure to achieve desired results. To solve the above problems, we propose a unified Symmetric Semantic-Aware Transformer (SSAT) network, which incorporates semantic correspondence learning to realize makeup transfer and removal simultaneously. In SSAT, a novel Symmetric Semantic Corresponding Feature Transfer (SSCFT) module and a weakly supervised semantic loss are proposed to model and facilitate the establishment of accurate semantic correspondence. In the generation process, the extracted makeup features are spatially distorted by SSCFT to achieve semantic alignment with the target image, then the distorted makeup features are combined with unmodified makeup irrelevant features to produce the final result. Experiments show that our method obtains more visually accurate makeup transfer results, and user study in comparison with other state-of-the-art makeup transfer methods reflects the superiority of our method. Besides, we verify the robustness of the proposed method in the difference of expression and pose, object occlusion scenes, and extend it to video makeup transfer. Code will be available at https://gitee.com/su nzhaoyang0304/ssat-m sp.
翻訳日:2021-12-08 14:44:40 公開日:2021-12-07
# Gram-SLD: インスタンスオブジェクトの自動自己ラベルと検出

Gram-SLD: Automatic Self-labeling and Detection for Instance Objects ( http://arxiv.org/abs/2112.03641v1 )

ライセンス: Link先を確認
Rui Wang, Chengtun Wu, Jiawen Xin, and Liang Zhang(参考訳) インスタンスオブジェクト検出は、インテリジェントな監視、ビジュアルナビゲーション、人間とコンピュータのインタラクション、インテリジェントなサービス、その他の分野において重要な役割を果たす。 ディープ畳み込みニューラルネットワーク(DCNN)の成功に触発されたDCNNベースのインスタンスオブジェクト検出は、有望な研究トピックとなっている。 本報告では,手動のアノテーションが枯渇し,時間を要する間にトレーニングを監督するために,DCNNが常に大規模なアノテートデータセットを必要とする問題に対処するため,Gram-SLD(Gram Self-Labeling and Detection)と呼ばれる協調学習に基づく新しいフレームワークを提案する。 提案したGram-SLDは、手動でラベル付けされたキーデータで大量のデータを自動アノテートし、競合性能を実現する。 本フレームワークでは,2つの完全冗長かつ独立なビューとキーサンプル選択戦略を構築するためにグラム損失を定義し,精度とリコールを包括的に考慮した自動アノテート戦略を提案し,高品質な擬似ラベルを生成する。 公開gmukitchen dataset , active vision dataset, and self-made bhid-item datasetdemonstrateにおける実験では, 5%のラベル付きトレーニングデータしか持たず, 完全な教師付き手法と比較して,gram-sldはオブジェクト検出における競合性能(2%のマップロス未満)を達成している。 複雑で変化する環境を持つ実用的なアプリケーションでは、提案手法はインスタンスオブジェクト検出のリアルタイムおよび精度要件を満たすことができる。

Instance object detection plays an important role in intelligent monitoring, visual navigation, human-computer interaction, intelligent services and other fields. Inspired by the great success of Deep Convolutional Neural Network (DCNN), DCNN-based instance object detection has become a promising research topic. To address the problem that DCNN always requires a large-scale annotated dataset to supervise its training while manual annotation is exhausting and time-consuming, we propose a new framework based on co-training called Gram Self-Labeling and Detection (Gram-SLD). The proposed Gram-SLD can automatically annotate a large amount of data with very limited manually labeled key data and achieve competitive performance. In our framework, gram loss is defined and used to construct two fully redundant and independent views and a key sample selection strategy along with an automatic annotating strategy that comprehensively consider precision and recall are proposed to generate high quality pseudo-labels. Experiments on the public GMU Kitchen Dataset , Active Vision Dataset and the self-made BHID-ITEM Datasetdemonstrate that, with only 5% labeled training data, our Gram-SLD achieves competitive performance in object detection (less than 2% mAP loss), compared with the fully supervised methods. In practical applications with complex and changing environments, the proposed method can satisfy the real-time and accuracy requirements on instance object detection.
翻訳日:2021-12-08 14:44:10 公開日:2021-12-07
# 骨格ビデオ異常検出のための明示的分布モデルによる正規性学習

Regularity Learning via Explicit Distribution Modeling for Skeletal Video Anomaly Detection ( http://arxiv.org/abs/2112.03649v1 )

ライセンス: Link先を確認
Shoubin Yu, Zhongyin Zhao, Haoshu Fang, Andong Deng, Haisheng Su, Dongliang Wang, Weihao Gan, Cewu Lu, Wei Wu(参考訳) 監視ビデオにおける異常検出は、公共の安全を確保する上で困難かつ重要である。 画素ベースの異常検出方法と異なり、ポーズベースの手法は高度に構造化された骨格データを使用し、計算負担を低減し、背景雑音の負の影響を回避する。 しかし、光学フローなどの明示的な運動特徴を直接活用できる画素ベースの手法とは異なり、ポーズベースの手法は代替の動的表現が欠如している。 本稿では, 確率的視点からのポーズ動作表現を実現するために, 新たな動き埋め込み器 (me) を提案する。 さらに、タスク固有の空間時間変換器(STT)を自己教師型ポーズシーケンス再構築のために配置する。 これら2つのモジュールは、MoPRL(Motion Prior Regularity Learner)と呼ばれる、規則性学習のための統一されたフレームワークに統合される。 MoPRLは、いくつかの挑戦的なデータセットに対して平均4.7%のAUCの改善によって最先端のパフォーマンスを達成する。 広範な実験により、各モジュールの汎用性が検証された。

Anomaly detection in surveillance videos is challenging and important for ensuring public security. Different from pixel-based anomaly detection methods, pose-based methods utilize highly-structured skeleton data, which decreases the computational burden and also avoids the negative impact of background noise. However, unlike pixel-based methods, which could directly exploit explicit motion features such as optical flow, pose-based methods suffer from the lack of alternative dynamic representation. In this paper, a novel Motion Embedder (ME) is proposed to provide a pose motion representation from the probability perspective. Furthermore, a novel task-specific Spatial-Temporal Transformer (STT) is deployed for self-supervised pose sequence reconstruction. These two modules are then integrated into a unified framework for pose regularity learning, which is referred to as Motion Prior Regularity Learner (MoPRL). MoPRL achieves the state-of-the-art performance by an average improvement of 4.7% AUC on several challenging datasets. Extensive experiments validate the versatility of each proposed module.
翻訳日:2021-12-08 14:43:42 公開日:2021-12-07
# 正当性への活性化:教師なし正当性物体検出のための高品質ラベル形成

Activation to Saliency: Forming High-Quality Labels for Unsupervised Salient Object Detection ( http://arxiv.org/abs/2112.03650v1 )

ライセンス: Link先を確認
Huajun Zhou and Peijia Chen and Lingxiao Yang and Jianhuang Lai and Xiaohua Xie(参考訳) 非教師対象物検出(USOD)は産業アプリケーションと下流タスクの両方において最重要課題である。 既存のディープラーニング(DL)に基づくUDD法では、従来のSOD法によって抽出されたいくつかの低品質な唾液率予測を、主に画像の顕著な領域を捉えている。 さらに,他の視覚タスクで教師付き学習によって訓練されたモデルから得られた意味情報のアシスタントを用いて,これらのサリエンシー手がかりを洗練する。 本研究では,高品質な塩分濃度検出手段を効果的に生成する2段階活性化塩分濃度(A2S)フレームワークを提案する。 さらに重要なのは、トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。 第1段階では、事前学習されたネットワーク(moco v2)を、変換されたネットワークのトレーニングを支援するために適応決定境界(adb)が提案される単一のアクティベーションマップに集約する。 高品質な擬似ラベルの生成を容易にするために,画素とその手段間の特徴距離を拡大する損失関数を提案する。 第2段階では、オンラインラベル修正(OLR)戦略がトレーニングプロセス中に擬似ラベルを更新し、邪魔者のネガティブな影響を減らす。 さらに,2つのRAM(Residual Attention Modules)を用いて,エッジやカラーなどの低レベルの特徴を補完する情報を用いて,高レベルの特徴を洗練する軽量なサリエンシ検出器を構築した。 いくつかのSODベンチマークの大規模な実験により、既存のUSOD法と比較して、我々のフレームワークは大きな性能を報告している。 さらに,3000枚の画像上でのフレームワークのトレーニングには1時間程度かかり,従来の最先端の手法よりも30倍以上高速である。

Unsupervised Salient Object Detection (USOD) is of paramount significance for both industrial applications and downstream tasks. Existing deep-learning (DL) based USOD methods utilize some low-quality saliency predictions extracted by several traditional SOD methods as saliency cues, which mainly capture some conspicuous regions in images. Furthermore, they refine these saliency cues with the assistant of semantic information, which is obtained from some models trained by supervised learning in other related vision tasks. In this work, we propose a two-stage Activation-to-Salien cy (A2S) framework that effectively generates high-quality saliency cues and uses these cues to train a robust saliency detector. More importantly, no human annotations are involved in our framework during the whole training process. In the first stage, we transform a pretrained network (MoCo v2) to aggregate multi-level features to a single activation map, where an Adaptive Decision Boundary (ADB) is proposed to assist the training of the transformed network. To facilitate the generation of high-quality pseudo labels, we propose a loss function to enlarges the feature distances between pixels and their means. In the second stage, an Online Label Rectifying (OLR) strategy updates the pseudo labels during the training process to reduce the negative impact of distractors. In addition, we construct a lightweight saliency detector using two Residual Attention Modules (RAMs), which refine the high-level features using the complementary information in low-level features, such as edges and colors. Extensive experiments on several SOD benchmarks prove that our framework reports significant performance compared with existing USOD methods. Moreover, training our framework on 3000 images consumes about 1 hour, which is over 30x faster than previous state-of-the-art methods.
翻訳日:2021-12-08 14:43:27 公開日:2021-12-07
# SalFBNet:フィードバック畳み込みネットワークによる擬似分布の学習

SalFBNet: Learning Pseudo-Saliency Distribution via Feedback Convolutional Networks ( http://arxiv.org/abs/2112.03731v1 )

ライセンス: Link先を確認
Guanqun Ding, Nevrez Imamouglu, Ali Caglayan, Masahiro Murakawa, Ryosuke Nakamura(参考訳) フィードフォワードのみ畳み込みニューラルネットワーク(cnns)は、重要な表現能力にもかかわらず、視覚検出などの視覚タスクにおける内在的関係やフィードバック接続の潜在的な利点を無視することができる。 本研究では,サリエンシ検出のためのフィードバック再帰的畳み込みフレームワーク(SalFBNet)を提案する。 提案するフィードバックモデルは,高レベル特徴ブロックから低レベル層への再帰的経路を橋渡しすることで,豊富な文脈表現を学習することができる。 さらに,サリエンシー検出におけるデータ不足の問題を軽減するために,大規模擬似サリエンシーデータセットを作成する。 まず,提案するフィードバックモデルを用いて疑似接地-真実から塩分分布を学習する。 その後、既存のアイフィックスデータセットでフィードバックモデルを微調整する。 さらに,新しい選択的修正・非修正誤り(sFNE)を生じさせ,提案したフィードバックモデルにより目視に基づく特徴を識別しやすくする。 その結果,提案するフィードバックモデルと疑似サリエンシーデータの有効性を示す公開サリエンシー検出ベンチマークにおいて,パラメータの少ないsalfbnetが競合結果を得ることが示された。 ソースコードと疑似saliencyデータセットはhttps://github.com/g qding/salfbnetにある。

Feed-forward only convolutional neural networks (CNNs) may ignore intrinsic relationships and potential benefits of feedback connections in vision tasks such as saliency detection, despite their significant representation capabilities. In this work, we propose a feedback-recursive convolutional framework (SalFBNet) for saliency detection. The proposed feedback model can learn abundant contextual representations by bridging a recursive pathway from higher-level feature blocks to low-level layer. Moreover, we create a large-scale Pseudo-Saliency dataset to alleviate the problem of data deficiency in saliency detection. We first use the proposed feedback model to learn saliency distribution from pseudo-ground-truth. Afterwards, we fine-tune the feedback model on existing eye-fixation datasets. Furthermore, we present a novel Selective Fixation and Non-Fixation Error (sFNE) loss to make proposed feedback model better learn distinguishable eye-fixation-based features. Extensive experimental results show that our SalFBNet with fewer parameters achieves competitive results on the public saliency detection benchmarks, which demonstrate the effectiveness of proposed feedback model and Pseudo-Saliency data. Source codes and Pseudo-Saliency dataset can be found at https://github.com/g qding/SalFBNet
翻訳日:2021-12-08 14:42:55 公開日:2021-12-07
# 自己監督型映像表現学習のための正規化フローによる静的視覚キューの抑制

Suppressing Static Visual Cues via Normalizing Flows for Self-Supervised Video Representation Learning ( http://arxiv.org/abs/2112.03803v1 )

ライセンス: Link先を確認
Manlin Zhang, Jinpeng Wang, Andy J. Ma(参考訳) 深層畳み込みニューラルネットワークによる映像理解の進歩にもかかわらず、既存の方法で学習された特徴表現は静的な視覚的手がかりに偏っている可能性がある。 そこで本稿では,自己教師付きビデオ表現学習における確率論的解析に基づく静的視覚的手がかり(SSVC)の抑制手法を提案する。 本手法では,まずビデオフレームを符号化し,正規化フローによる標準正規分布下での潜在変数を得る。 ビデオ中の静的因子をランダム変数としてモデル化することにより、各潜伏変数の条件分布がシフトして正規化される。 そして、時間とともに変化の少ない潜伏変数を静的なキューとして選択し、動画の保存を抑える。 最後に、正のペアは、コントラスト学習のための運動保存ビデオによって構成され、表現バイアスの問題を静的な手がかりに緩和する。 バイアスの少ないビデオ表現は、様々な下流タスクにもっと一般化できる。 公開されているベンチマーク実験により,提案手法は,1つのRGBモダリティのみを事前学習に使用した場合に,技術状況よりも優れることが示された。

Despite the great progress in video understanding made by deep convolutional neural networks, feature representation learned by existing methods may be biased to static visual cues. To address this issue, we propose a novel method to suppress static visual cues (SSVC) based on probabilistic analysis for self-supervised video representation learning. In our method, video frames are first encoded to obtain latent variables under standard normal distribution via normalizing flows. By modelling static factors in a video as a random variable, the conditional distribution of each latent variable becomes shifted and scaled normal. Then, the less-varying latent variables along time are selected as static cues and suppressed to generate motion-preserved videos. Finally, positive pairs are constructed by motion-preserved videos for contrastive learning to alleviate the problem of representation bias to static cues. The less-biased video representation can be better generalized to various downstream tasks. Extensive experiments on publicly available benchmarks demonstrate that the proposed method outperforms the state of the art when only single RGB modality is used for pre-training.
翻訳日:2021-12-08 14:42:33 公開日:2021-12-07
# ポラリメトリックポーズ予測

Polarimetric Pose Prediction ( http://arxiv.org/abs/2112.03810v1 )

ライセンス: Link先を確認
Daoyi Gao, Yitong Li, Patrick Ruhkamp, Iuliia Skobleva, Magdalena Wysock, HyunJun Jung, Pengyuan Wang, Arturo Guridi, Nassir Navab, Benjamin Busam(参考訳) 光は多くの特性を持ち、視覚センサーによって受動的に測定できる。 カラーバンド分離波長と強度は、単色6Dオブジェクトのポーズ推定に最もよく用いられる。 本稿では,光波振動の方向といった相補的偏光情報がポーズ予測の精度に与える影響について検討する。 データ駆動学習戦略と協調して物理プライオリティを利用するハイブリッドモデルは、異なるフォトメトリックの複雑さを持つオブジェクトに対して設計され、慎重にテストされる。 我々の設計は, 感光性や透明度の高い物体に対するポーズ推定を可能にするだけでなく, 感光性や感光性の向上にも寄与する。

Light has many properties that can be passively measured by vision sensors. Colour-band separated wavelength and intensity are arguably the most commonly used ones for monocular 6D object pose estimation. This paper explores how complementary polarisation information, i.e. the orientation of light wave oscillations, can influence the accuracy of pose predictions. A hybrid model that leverages physical priors jointly with a data-driven learning strategy is designed and carefully tested on objects with different amount of photometric complexity. Our design not only significantly improves the pose accuracy in relation to photometric state-of-the-art approaches, but also enables object pose estimation for highly reflective and transparent objects.
翻訳日:2021-12-08 14:42:15 公開日:2021-12-07
# 内在的イメージに関する調査:ランバートとその先を掘り下げて

A Survey on Intrinsic Images: Delving Deep Into Lambert and Beyond ( http://arxiv.org/abs/2112.03842v1 )

ライセンス: Link先を確認
Elena Garces, Carlos Rodriguez-Pardo, Dan Casas, Jorge Lopez-Moreno(参考訳) 内在画像や内在画像の分解は、伝統的に、イメージを反射率、材料のアルベド不変色、光と幾何学の相互作用によって生じる陰影という2つの層に分解する問題として説明されてきた。 近年,これらの分離の精度を高めるため,ディープラーニング技術が広く応用されている。 本稿では,これらの結果について,文献でよく知られた固有画像データセットと関連する指標の文脈で概説し,望まれる固有画像分解を予測するための適合性について論じる。 ランバーティアン仮定は現在でも多くの手法の基礎となっているが、画像形成過程、すなわち光学的精度の高い物質モデルと幾何学、およびより完全な逆光輸送推定におけるより高度な物理成分の可能性に対する認識が高まっている。 我々は,これらの手法を分解過程を駆動する学習アーキテクチャや方法論と同様に,使用される前処理とモデルを考慮した分解のタイプの観点から分類する。 ニューラル、逆、微分可能なレンダリング技術の最近の進歩を考えると、研究の今後の方向性についての洞察も提供する。

Intrinsic imaging or intrinsic image decomposition has traditionally been described as the problem of decomposing an image into two layers: a reflectance, the albedo invariant color of the material; and a shading, produced by the interaction between light and geometry. Deep learning techniques have been broadly applied in recent years to increase the accuracy of those separations. In this survey, we overview those results in context of well-known intrinsic image data sets and relevant metrics used in the literature, discussing their suitability to predict a desirable intrinsic image decomposition. Although the Lambertian assumption is still a foundational basis for many methods, we show that there is increasing awareness on the potential of more sophisticated physically-principle d components of the image formation process, that is, optically accurate material models and geometry, and more complete inverse light transport estimations. We classify these methods in terms of the type of decomposition, considering the priors and models used, as well as the learning architecture and methodology driving the decomposition process. We also provide insights about future directions for research, given the recent advances in neural, inverse and differentiable rendering techniques.
翻訳日:2021-12-08 14:42:04 公開日:2021-12-07
# MS-TCT:動作検出のためのマルチスケールテンポラルコンバータ

MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection ( http://arxiv.org/abs/2112.03902v1 )

ライセンス: Link先を確認
Rui Dai, Srijan Das, Kumara Kahatapitiya, Michael S. Ryoo, Francois Bremond(参考訳) アクション検出は、特に未トリミングビデオの密にラベル付けされたデータセットにおいて、必須かつ困難なタスクである。 これらのデータセットには、複合アクションや共起アクションといった課題を含む時間的関係が複雑である。 複雑な映像中の動作を検出するためには,映像中の短期的情報と長期的情報の両方を効率的に捉えることが重要である。 そこで本稿では,行動検出のためのconvtransformerネットワークを提案する。 1) 時間エンコーダモジュールは、複数の時間分解能で大域的および局所的な時間的関係を広範囲に探索する。 2) 時間スケールミキサモジュールは,マルチスケール機能を効果的に融合して,機能表現を統一する。 (3)分類モジュールは、インスタンス中心関係位置を学習し、フレームレベルの分類スコアを予測するために使用される。 Charades, TSU, MultiTHUMOSを含む複数のデータセットに対する広範な実験により, 提案手法の有効性が確認された。 我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。

Action detection is an essential and challenging task, especially for densely labelled datasets of untrimmed videos. The temporal relation is complex in those datasets, including challenges like composite action, and co-occurring action. For detecting actions in those complex videos, efficiently capturing both short-term and long-term temporal information in the video is critical. To this end, we propose a novel ConvTransformer network for action detection. This network comprises three main components: (1) Temporal Encoder module extensively explores global and local temporal relations at multiple temporal resolutions. (2) Temporal Scale Mixer module effectively fuses the multi-scale features to have a unified feature representation. (3) Classification module is used to learn the instance center-relative position and predict the frame-level classification scores. The extensive experiments on multiple datasets, including Charades, TSU and MultiTHUMOS, confirm the effectiveness of our proposed method. Our network outperforms the state-of-the-art methods on all three datasets.
翻訳日:2021-12-08 14:41:43 公開日:2021-12-07
# ViewCLR: 見えない視点のための自己監督型ビデオ表現学習

ViewCLR: Learning Self-supervised Video Representation for Unseen Viewpoints ( http://arxiv.org/abs/2112.03905v1 )

ライセンス: Link先を確認
Srijan Das and Michael S. Ryoo(参考訳) 自己教師付きビデオ表現の学習は主に、単純なデータ拡張スキームから生成されたインスタンスの識別に焦点を当てている。 しかし、学習された表現は、しばしば目に見えないカメラの視点を一般化することができない。 この目的のために、カメラ視点の変化に不変な自己教師付きビデオ表現を学習するViewCLRを提案する。 我々は,ビデオの潜在視点表現を生成するために,自己教師付きプリテキストタスクの学習可能な拡張と見なすことのできるビュー生成子を提案する。 ViewCLRは、潜在視点表現と元の視点との類似性を最大化し、学習ビデオエンコーダが見えないカメラ視点を一般化できるようにする。 NTU RGB+Dデータセットを含むクロスビューベンチマークデータセットの実験は、ViewCLRが最先端の視点不変な自己管理手法であることを示している。

Learning self-supervised video representation predominantly focuses on discriminating instances generated from simple data augmentation schemes. However, the learned representation often fails to generalize over unseen camera viewpoints. To this end, we propose ViewCLR, that learns self-supervised video representation invariant to camera viewpoint changes. We introduce a view-generator that can be considered as a learnable augmentation for any self-supervised pre-text tasks, to generate latent viewpoint representation of a video. ViewCLR maximizes the similarities between the latent viewpoint representation with its representation from the original viewpoint, enabling the learned video encoder to generalize over unseen camera viewpoints. Experiments on cross-view benchmark datasets including NTU RGB+D dataset show that ViewCLR stands as a state-of-the-art viewpoint invariant self-supervised method.
翻訳日:2021-12-08 14:41:27 公開日:2021-12-07
# (参考訳) バイラテラル学習による画像強調 [全文訳有]

Image Enhancement via Bilateral Learning ( http://arxiv.org/abs/2112.03888v1 )

ライセンス: CC BY 4.0
Saeedeh Rezaee and Nezam Mahdavi-Amiri(参考訳) 近年,先進的なデジタル画像技術とインターネットアクセス性により,生成したデジタル画像の数は劇的に増加している。 したがって、自動画像強調技術の必要性は極めて明白である。 近年,ディープラーニングが効果的に利用されている。 本稿では,最近開発された画像強調技術を紹介した後,畳み込みニューラルネットワークを用いた画像強調システムを提案する。 我々の目標は,畳み込みニューラルネットワークとバイラテラルグリッドという,利用可能な2つのアプローチを効果的に活用することである。 本手法では,トレーニングデータとモデル次元を増加させ,トレーニングプロセス中の可変レートを提案する。 提案手法は, 5つの異なる専門家を取り入れながら, 他の方法と比較して, 定量的および質的改善の両立を図っている。

Nowadays, due to advanced digital imaging technologies and internet accessibility to the public, the number of generated digital images has increased dramatically. Thus, the need for automatic image enhancement techniques is quite apparent. In recent years, deep learning has been used effectively. Here, after introducing some recently developed works on image enhancement, an image enhancement system based on convolutional neural networks is presented. Our goal is to make an effective use of two available approaches, convolutional neural network and bilateral grid. In our approach, we increase the training data and the model dimensions and propose a variable rate during the training process. The enhancement results produced by our proposed method, while incorporating 5 different experts, show both quantitative and qualitative improvements as compared to other available methods.
翻訳日:2021-12-08 14:40:44 公開日:2021-12-07
# 複数の不特定視点からの構成情景表現の教師なし学習

Unsupervised Learning of Compositional Scene Representations from Multiple Unspecified Viewpoints ( http://arxiv.org/abs/2112.03568v1 )

ライセンス: Link先を確認
Jinyang Yuan, Bin Li, Xiangyang Xue(参考訳) 視覚的なシーンは、オブジェクトと背景の無限の組み合わせがあるだけでなく、同じシーンの観察が視点の変化と大きく異なる可能性があるため、非常に多様性に富んでいる。 複数の視点から複数の物体を含む視覚シーンを観察する場合、人間は個々の視点から構成的にシーンを知覚することができるが、正確な視点は未定であるにもかかわらず、異なる視点でいわゆる「オブジェクト・コンステンシー」を達成することができる。 この能力は、人間が移動しながら同じ物体を識別し、視覚から効率的に学ぶために不可欠である。 同様の能力を持つモデルを設計するのは興味深いことです。 本稿では,複数の不特定視点からの合成シーン表現を,監督を使わずに学習する新たな問題を考察し,潜在表現を視点非依存部分と視点依存部分に分離し,この問題を解決するための深層生成モデルを提案する。 潜在表現を推定するために、異なる視点に含まれる情報はニューラルネットワークによって反復的に統合される。 いくつかの特別に設計された合成データセットの実験により、提案手法は複数の特定されていない視点から効果的に学習できることが示されている。

Visual scenes are extremely rich in diversity, not only because there are infinite combinations of objects and background, but also because the observations of the same scene may vary greatly with the change of viewpoints. When observing a visual scene that contains multiple objects from multiple viewpoints, humans are able to perceive the scene in a compositional way from each viewpoint, while achieving the so-called "object constancy" across different viewpoints, even though the exact viewpoints are untold. This ability is essential for humans to identify the same object while moving and to learn from vision efficiently. It is intriguing to design models that have the similar ability. In this paper, we consider a novel problem of learning compositional scene representations from multiple unspecified viewpoints without using any supervision, and propose a deep generative model which separates latent representations into a viewpoint-independen t part and a viewpoint-dependent part to solve this problem. To infer latent representations, the information contained in different viewpoints is iteratively integrated by neural networks. Experiments on several specifically designed synthetic datasets have shown that the proposed method is able to effectively learn from multiple unspecified viewpoints.
翻訳日:2021-12-08 14:34:07 公開日:2021-12-07
# アイデンティティ優先による非決定論的合成顔データセットの生成

Generation of Non-Deterministic Synthetic Face Datasets Guided by Identity Priors ( http://arxiv.org/abs/2112.03632v1 )

ライセンス: Link先を確認
Marcel Grimmer, Haoyu Zhang, Raghavendra Ramachandra, Kiran Raja, Christoph Busch(参考訳) 顔認識による高度にセキュアなアプリケーション(境界交差など)の実現には、大規模なデータによる広範なバイオメトリックパフォーマンステストが必要である。 しかし、実際の顔画像を使うことは、プライバシーに関する懸念を生じさせる。 顔データの代表とサブセットを使用することで、望ましくない人口バイアスやデータセットの不均衡も引き起こされる可能性がある。 これらの問題を克服する可能な解決策の1つは、実際の顔画像を合成されたサンプルに置き換えることである。 合成画像の生成はコンピュータビジョンの最近の進歩の恩恵を受けているが、実世界の変動に類似した同じ合成アイデンティティの複数のサンプルを生成することは、いまだに未適応である。 本研究は,スタイルガンのよく構造化された潜在空間を利用して顔画像を生成する非決定論的手法を提案する。 潜伏ベクトルの操作によりマッドサンプルを生成し,より正確には主成分分析(PCA)を用いて潜伏空間における意味論的な方向を定義し,事前学習した顔認識システムを用いて,原点と交点の類似性を制御する。 25,919個の合成IDを含む77,034個のサンプルからなる合成顔画像(SymFace)のデータセットを作成する。 確立された顔画像品質指標を用いて分析を行い,実生体データの特徴を模倣した合成試料の生体品質の違いを示す。 これらの分析と結果から,実バイオメトリックデータを置き換える代替手段として,提案手法を用いた合成試料の利用が示唆された。

Enabling highly secure applications (such as border crossing) with face recognition requires extensive biometric performance tests through large scale data. However, using real face images raises concerns about privacy as the laws do not allow the images to be used for other purposes than originally intended. Using representative and subsets of face data can also lead to unwanted demographic biases and cause an imbalance in datasets. One possible solution to overcome these issues is to replace real face images with synthetically generated samples. While generating synthetic images has benefited from recent advancements in computer vision, generating multiple samples of the same synthetic identity resembling real-world variations is still unaddressed, i.e., mated samples. This work proposes a non-deterministic method for generating mated face images by exploiting the well-structured latent space of StyleGAN. Mated samples are generated by manipulating latent vectors, and more precisely, we exploit Principal Component Analysis (PCA) to define semantically meaningful directions in the latent space and control the similarity between the original and the mated samples using a pre-trained face recognition system. We create a new dataset of synthetic face images (SymFace) consisting of 77,034 samples including 25,919 synthetic IDs. Through our analysis using well-established face image quality metrics, we demonstrate the differences in the biometric quality of synthetic samples mimicking characteristics of real biometric data. The analysis and results thereof indicate the use of synthetic samples created using the proposed approach as a viable alternative to replacing real biometric data.
翻訳日:2021-12-08 14:33:48 公開日:2021-12-07
# プログレッシブ層間およびチャネル間ドロップアウトによるドメイン一般化

Domain Generalization via Progressive Layer-wise and Channel-wise Dropout ( http://arxiv.org/abs/2112.03676v1 )

ライセンス: Link先を確認
Jintao Guo, Lei Qi, Yinghuan Shi, Yang Gao(参考訳) 複数の観測されたソースドメインでモデルをトレーニングすることで、ドメインの一般化は、さらなるトレーニングなしで任意の未発見のターゲットドメインにうまく一般化することを目的としている。 既存の研究は主に一般化能力を改善するためにドメイン不変機能を学ぶことに焦点を当てている。 しかし、トレーニング中にターゲットドメインが利用できないため、以前のメソッドはソースドメインのオーバーフィットに必然的に悩まされる。 この問題に対処するために,モデルの注意領域を拡大する効果的なドロップアウトベースのフレームワークを開発し,オーバーフィッティング問題を効果的に軽減する。 特に、通常固定層上でドロップアウトを行う典型的なドロップアウト方式とは異なり、まずランダムに1つの層を選択し、次にランダムにそのチャネルを選択してドロップアウトを行う。 さらに,学習中のドロップアウトの比率を漸進的に引き上げることで,トレーニングモデルの難易度を徐々に高め,モデルの堅牢性を高めることができる。 さらに,オーバーフィッティング問題の影響をさらに緩和するため,画像レベルと特徴レベルに対する拡張スキームを活用し,強いベースラインモデルを得る。 複数のベンチマークデータセットに対して広範な実験を行い、この手法が最先端の手法より優れていることを示す。

By training a model on multiple observed source domains, domain generalization aims to generalize well to arbitrary unseen target domains without further training. Existing works mainly focus on learning domain-invariant features to improve the generalization ability. However, since target domain is not available during training, previous methods inevitably suffer from overfitting in source domains. To tackle this issue, we develop an effective dropout-based framework to enlarge the region of the model's attention, which can effectively mitigate the overfitting problem. Particularly, different from the typical dropout scheme, which normally conducts the dropout on the fixed layer, first, we randomly select one layer, and then we randomly select its channels to conduct dropout. Besides, we leverage the progressive scheme to add the ratio of the dropout during training, which can gradually boost the difficulty of training model to enhance the robustness of the model. Moreover, to further alleviate the impact of the overfitting issue, we leverage the augmentation schemes on image-level and feature-level to yield a strong baseline model. We conduct extensive experiments on multiple benchmark datasets, which show our method can outperform the state-of-the-art methods.
翻訳日:2021-12-08 14:33:21 公開日:2021-12-07
# 点畳み込みニューラルネットワークの可変重み初期化

Variance-Aware Weight Initialization for Point Convolutional Neural Networks ( http://arxiv.org/abs/2112.03777v1 )

ライセンス: Link先を確認
Pedro Hermosilla and Michael Schelling and Tobias Ritschel and Timo Ropinski(参考訳) ニューラルネットワークのトレーニングに成功するためには,適切な重み初期化が重要になっている。 近年,バッチ統計に基づく各レイヤの正規化によって,バッチ正規化は重み初期化の役割を減らしている。 残念ながら、バッチの正規化は、小さなバッチサイズに適用する場合、ポイントクラウドで学習する際のメモリ制限に対処する必要があるため、いくつかの欠点がある。 確立された重み初期化戦略はバッチ正規化を不要にすることができるため、これらの欠点を避けることができるが、ポイント畳み込みネットワークにはそのようなアプローチは提案されていない。 このギャップを埋めるために,連続的な畳み込みを多元化する枠組みを提案する。 これにより、主なコントリビューション、分散対応重量初期化が可能になります。 この初期化はバッチの正規化を回避できるが、類似し、場合によっては性能が向上する。

Appropriate weight initialization has been of key importance to successfully train neural networks. Recently, batch normalization has diminished the role of weight initialization by simply normalizing each layer based on batch statistics. Unfortunately, batch normalization has several drawbacks when applied to small batch sizes, as they are required to cope with memory limitations when learning on point clouds. While well-founded weight initialization strategies can render batch normalization unnecessary and thus avoid these drawbacks, no such approaches have been proposed for point convolutional networks. To fill this gap, we propose a framework to unify the multitude of continuous convolutions. This enables our main contribution, variance-aware weight initialization. We show that this initialization can avoid batch normalization while achieving similar and, in some cases, better performance.
翻訳日:2021-12-08 14:33:02 公開日:2021-12-07
# ガウス標準集合内のトラバース:正規化フローによる逆問題に対する微分可能なガウス化層

Traversing within the Gaussian Typical Set: Differentiable Gaussianization Layers for Inverse Problems Augmented by Normalizing Flows ( http://arxiv.org/abs/2112.03860v1 )

ライセンス: Link先を確認
Dongzhuo Li and Huseyin Denli(参考訳) フローの正規化のような生成ネットワークは、逆問題を増やす前に学習ベースとして機能し、高品質な結果が得られる。 しかし、潜在空間ベクトルは、反転中に潜在空間を横断するときに所望の高次元標準ガウス分布から典型的なサンプルを残さないかもしれない。 その結果、特にノイズや不正確な物理モデルが存在する場合、忠実度の高い解を得るのが難しくなる。 この問題に対処するために,最適化問題を解いてカスタム演算子を定義する新しい微分可能データ依存層を用いて,潜在ベクトルの再パラメータ化とガウス化を提案する。 これらの提案された層は、潜在空間のガウス的典型的集合の中で実現可能な解を見つけるために反転を強制する。 我々は,PDE制約の逆問題である画像劣化タスクとエイコナールトモグラフィーを用いて,この手法を検証し,高忠実度結果を得た。

Generative networks such as normalizing flows can serve as a learning-based prior to augment inverse problems to achieve high-quality results. However, the latent space vector may not remain a typical sample from the desired high-dimensional standard Gaussian distribution when traversing the latent space during an inversion. As a result, it can be challenging to attain a high-fidelity solution, particularly in the presence of noise and inaccurate physics-based models. To address this issue, we propose to re-parameterize and Gaussianize the latent vector using novel differentiable data-dependent layers wherein custom operators are defined by solving optimization problems. These proposed layers enforce an inversion to find a feasible solution within a Gaussian typical set of the latent space. We tested and validated our technique on an image deblurring task and eikonal tomography -- a PDE-constrained inverse problem and achieved high-fidelity results.
翻訳日:2021-12-08 14:32:49 公開日:2021-12-07
# RSBNet:リモートセンシング画像認識におけるバックボーンネットワークのためのワンショットニューラルネットワーク探索

RSBNet: One-Shot Neural Architecture Search for A Backbone Network in Remote Sensing Image Recognition ( http://arxiv.org/abs/2112.03456v1 )

ライセンス: Link先を確認
Cheng Peng, Yangyang Li, Ronghua Shang, Licheng Jiao(参考訳) 近年,様々なリモートセンシング画像(rsi)認識タスクに対して,膨大な数のディープラーニング手法が適用されている。 しかし、RSI分野におけるディープラーニング手法の進歩のほとんどは、手動で設計したバックボーンネットワークによって抽出された特徴に大きく依存しており、RSIの複雑さと事前知識の制限により、ディープラーニングモデルの可能性を著しく妨げている。 本稿では,シーン分類,土地被覆分類,オブジェクト検出など,rsi認識タスクにおけるバックボーンアーキテクチャの新しい設計パラダイムについて検討する。 ウェイトシェアリング戦略と進化的アルゴリズムに基づく新しいワンショットアーキテクチャ検索フレームワークRSBNetが提案されている。まず,レイヤワイド検索空間に構築されたスーパーネットを,アンサンブル単一パストレーニング戦略に基づく大規模RSIデータセット上で事前学習する。 次に、予め訓練されたスーパーネットは、切り換え可能な認識モジュールを介して異なる認識ヘッドを備え、それぞれターゲットデータセットに微調整してタスク固有のスーパーネットを得る。 最後に,ネットワーク学習を伴わない進化的アルゴリズムに基づいて,異なる認識タスクに対して最適なバックボーンアーキテクチャを探索する。 異なる認識タスクのための5つのベンチマークデータセットについて広範な実験が行われ、提案手法の有効性を示し、検索されたバックボーンが異なるrsi認識タスクを柔軟に適応し、印象的なパフォーマンスを達成できることを実証した。

Recently, a massive number of deep learning based approaches have been successfully applied to various remote sensing image (RSI) recognition tasks. However, most existing advances of deep learning methods in the RSI field heavily rely on the features extracted by the manually designed backbone network, which severely hinders the potential of deep learning models due the complexity of RSI and the limitation of prior knowledge. In this paper, we research a new design paradigm for the backbone architecture in RSI recognition tasks, including scene classification, land-cover classification and object detection. A novel one-shot architecture search framework based on weight-sharing strategy and evolutionary algorithm is proposed, called RSBNet, which consists of three stages: Firstly, a supernet constructed in a layer-wise search space is pretrained on a self-assembled large-scale RSI dataset based on an ensemble single-path training strategy. Next, the pre-trained supernet is equipped with different recognition heads through the switchable recognition module and respectively fine-tuned on the target dataset to obtain task-specific supernet. Finally, we search the optimal backbone architecture for different recognition tasks based on the evolutionary algorithm without any network training. Extensive experiments have been conducted on five benchmark datasets for different recognition tasks, the results show the effectiveness of the proposed search paradigm and demonstrate that the searched backbone is able to flexibly adapt different RSI recognition tasks and achieve impressive performance.
翻訳日:2021-12-08 14:32:33 公開日:2021-12-07
# ヒューマンフィードバックと知識工学の融合によるMinecraftの階層的課題の解決

Combining Learning from Human Feedback and Knowledge Engineering to Solve Hierarchical Tasks in Minecraft ( http://arxiv.org/abs/2112.03482v1 )

ライセンス: Link先を確認
Vinicius G. Goecks, Nicholas Waytowich, David Watkins, Bharat Prakash(参考訳) 実世界の課題は一般に人間の読みやすい記述によって定義され、人間のデザイナーによって定義されない限り、事前に定義された報酬信号を持たない。 逆に、データ駆動アルゴリズムは、エージェントの学習を駆動するパフォーマンスメトリクスで特定の狭義に定義されたタスクを解決するために設計されることが多い。 本研究では,2021年のNeurIPS Competition MineRL BASALT Challenge: Learning from Human Feedback in Minecraftにおいて,自然言語記述と報酬関数のみで定義された4つのタスクを解決するために,参加者に人間のデータを使用することを課題とした。 本手法は,利用可能な人間デモデータを用いてナビゲーションのための模倣学習ポリシーを学習し,画像分類器を訓練するための人間フィードバックを付加する。 これらのモジュールは、推定されたオドメトリマップとともに、自然の階層でそれらを分解するタスクの人間の知識に基づいて設計された状態マシンに結合され、学習エージェントがいつでも従うべきマクロな振る舞いを制御する。 このハイブリッドインテリジェンスアプローチを、エンドツーエンドの機械学習と純粋にエンジニアリングされたソリューションの両方と比較します。 Codebaseはhttps://github.com/v iniciusguigo/kairos_ minerl_basalt.comで入手できる。

Real-world tasks of interest are generally poorly defined by human-readable descriptions and have no pre-defined reward signals unless it is defined by a human designer. Conversely, data-driven algorithms are often designed to solve a specific, narrowly defined, task with performance metrics that drives the agent's learning. In this work, we present the solution that won first place and was awarded the most human-like agent in the 2021 NeurIPS Competition MineRL BASALT Challenge: Learning from Human Feedback in Minecraft, which challenged participants to use human data to solve four tasks defined only by a natural language description and no reward function. Our approach uses the available human demonstration data to train an imitation learning policy for navigation and additional human feedback to train an image classifier. These modules, together with an estimated odometry map, are then combined into a state-machine designed based on human knowledge of the tasks that breaks them down in a natural hierarchy and controls which macro behavior the learning agent should follow at any instant. We compare this hybrid intelligence approach to both end-to-end machine learning and pure engineered solutions, which are then judged by human evaluators. Codebase is available at https://github.com/v iniciusguigo/kairos_ minerl_basalt.
翻訳日:2021-12-08 14:30:44 公開日:2021-12-07
# 自己組織化多項式時間座標グラフ

Self-Organized Polynomial-Time Coordination Graphs ( http://arxiv.org/abs/2112.03547v1 )

ライセンス: Link先を確認
Qianlan Yang, Weijun Dong, Zhizhou Ren, Jianhao Wang, Tonghan Wang, Chongjie Zhang(参考訳) コーディネーショングラフはマルチエージェント強化学習におけるモデルエージェント協調への有望なアプローチである。 大規模なマルチエージェントシステムを、下位の協調依存関係を表す重なり合う一連のグループに分解する。 このパラダイムにおける重要な課題の1つは、グラフベースの値分解に対する最大値アクションの計算の複雑さである。 これは分散制約最適化問題(DCOP)を指し、その定数比近似はNPハード問題である。 この基本的な難しさを回避するために,構造化グラフクラスを用いて,十分な関数表現性を持つDCOPの最適性を保証する,自己組織化多項式時間座標グラフ(SOP-CG)という新しい手法を提案する。 グラフトポロジーを状態依存に拡張し、グラフ選択を仮想エージェントとして定式化し、最終的には統一ベルマン最適方程式からエンドツーエンド学習パラダイムを導出する。 実験では, 解釈可能なグラフトポロジを学習し, 効果的なコーディネーションを誘導し, 各種協調型マルチエージェントタスクの性能向上を図る。

Coordination graph is a promising approach to model agent collaboration in multi-agent reinforcement learning. It factorizes a large multi-agent system into a suite of overlapping groups that represent the underlying coordination dependencies. One critical challenge in this paradigm is the complexity of computing maximum-value actions for a graph-based value factorization. It refers to the decentralized constraint optimization problem (DCOP), which and whose constant-ratio approximation are NP-hard problems. To bypass this fundamental hardness, this paper proposes a novel method, named Self-Organized Polynomial-time Coordination Graphs (SOP-CG), which uses structured graph classes to guarantee the optimality of the induced DCOPs with sufficient function expressiveness. We extend the graph topology to be state-dependent, formulate the graph selection as an imaginary agent, and finally derive an end-to-end learning paradigm from the unified Bellman optimality equation. In experiments, we show that our approach learns interpretable graph topologies, induces effective coordination, and improves performance across a variety of cooperative multi-agent tasks.
翻訳日:2021-12-08 14:30:19 公開日:2021-12-07
# オンライン分類のための低木アンサンブル

Shrub Ensembles for Online Classification ( http://arxiv.org/abs/2112.03723v1 )

ライセンス: Link先を確認
Sebastian Buschj\"ager, Sibylle Hess, Katharina Morik(参考訳) オンライン学習アルゴリズムは、機械学習ツールボックスにおいてユビキタスなツールとなり、小さなリソース制約環境で頻繁に使用されている。 最も成功したオンライン学習方法は意思決定木(dt)アンサンブルである。 DTアンサンブルは、データの変更に適応しながら優れたパフォーマンスを提供するが、リソース効率は良くない。 増分木学習者は、新しいノードをツリーに追加し続けるが、時間とともにメモリ消費が増える古いノードを削除することは決してない。 一方、勾配ベースの木を学習するには、木全体にわたる勾配の計算が必要である。 本稿では,資源制約システムのための新しいメモリ効率のよいオンライン分類アンサンブルであるshrubアンサンブルを提案する。 提案アルゴリズムは,小型から中規模の決定木を小さなウィンドウで学習し,確率的近位勾配勾配を用いてこれらの「低木」のアンサンブル重みを学習する。 提案アルゴリズムを理論的に分析し,オンライン環境でのアプローチの振る舞いについて広範な議論を行う。 12の異なるデータセットで2~959の実験を行い、この手法を8つの最先端の方法と比較した。 私たちのShrub Ensemblesは、少ないメモリでも優れたパフォーマンスを維持しています。 以上の結果から,SEは12例中7例で精度・メモリトレードオフが良好であり,他の方法よりも統計的に有意な性能を示した。 実装はhttps://github.com/s buschjaeger/se-onlin eで利用可能です。

Online learning algorithms have become a ubiquitous tool in the machine learning toolbox and are frequently used in small, resource-constraint environments. Among the most successful online learning methods are Decision Tree (DT) ensembles. DT ensembles provide excellent performance while adapting to changes in the data, but they are not resource efficient. Incremental tree learners keep adding new nodes to the tree but never remove old ones increasing the memory consumption over time. Gradient-based tree learning, on the other hand, requires the computation of gradients over the entire tree which is costly for even moderately sized trees. In this paper, we propose a novel memory-efficient online classification ensemble called shrub ensembles for resource-constraint systems. Our algorithm trains small to medium-sized decision trees on small windows and uses stochastic proximal gradient descent to learn the ensemble weights of these `shrubs'. We provide a theoretical analysis of our algorithm and include an extensive discussion on the behavior of our approach in the online setting. In a series of 2~959 experiments on 12 different datasets, we compare our method against 8 state-of-the-art methods. Our Shrub Ensembles retain an excellent performance even when only little memory is available. We show that SE offers a better accuracy-memory trade-off in 7 of 12 cases, while having a statistically significant better performance than most other methods. Our implementation is available under https://github.com/s buschjaeger/se-onlin e .
翻訳日:2021-12-08 14:29:44 公開日:2021-12-07
# ランジュバン関数分散による過パラメータモデルの一般化ギャップ推定

A generalization gap estimation for overparameterized models via Langevin functional variance ( http://arxiv.org/abs/2112.03660v1 )

ライセンス: Link先を確認
Akifumi Okuno, Keisuke Yano(参考訳) 本稿では,過パラメータモデル(ニューラルネットワークなど)に対する一般化ギャップの推定,一般化ギャップと経験的誤差の差について述べる。 まず,広範に適用可能な情報基準を定義する上で重要な概念である関数分散が,従来の理論を適用できない過度なパラメータ設定においても,一般化ギャップを特徴付けることを示す。 次に,関数分散の計算効率の高い近似,関数分散のランジュバン近似(ランジュバンfv)を提案する。 この方法は、二乗損失関数の2階勾配ではなく1階勾配を利用するので、効率よく計算でき、勾配に基づく最適化アルゴリズムと一貫して実装できる。 過パラメータ線形回帰モデルと非線形ニューラルネットワークモデルの一般化ギャップを推定するために、Langevin FVを数値的に示す。

This paper discusses estimating the generalization gap, a difference between a generalization gap and an empirical error, for overparameterized models (e.g., neural networks). We first show that a functional variance, a key concept in defining a widely-applicable information criterion, characterizes the generalization gap even in overparameterized settings, where a conventional theory cannot be applied. We next propose a computationally efficient approximation of the function variance, a Langevin approximation of the functional variance~(Langevin FV). This method leverages the 1st-order but not the 2nd-order gradient of the squared loss function; so, it can be computed efficiently and implemented consistently with gradient-based optimization algorithms. We demonstrate the Langevin FV numerically in estimating generalization gaps of overparameterized linear regression and non-linear neural network models.
翻訳日:2021-12-08 14:29:13 公開日:2021-12-07
# 安定化凸緩和によるプライベートロバスト推定

Private Robust Estimation by Stabilizing Convex Relaxations ( http://arxiv.org/abs/2112.03548v1 )

ライセンス: Link先を確認
Pravesh K. Kothari, Pasin Manurangsi, Ameya Velingker(参考訳) 最初の多項式時間とサンプル$(\epsilon, \delta)$-differentia lly private (DP) アルゴリズムを与え、正反対の外れ値の一定割合の存在下での平均、共分散および高次モーメントを推定する。 本アルゴリズムは, 配向モーメントの証明可能な部分ガウス性, 次数2多項式の証明可能な超収縮率という, 先行研究でよく研究された2つの特性を満たす分布の族に成功している。 平均、乗法スペクトルおよび相対フロベニウス距離に対するマハラノビス距離は、共分散および高モーメントの単射ノルムに対して保証される。 先行研究は、有界共分散を持つ部分ガウス分布の平均推定のためのプライベートロバストアルゴリズムを得た。 共分散推定では、条件数仮定なしで成功する最初の効率的なアルゴリズム(外乱のない場合でも)である。 我々のアルゴリズムは、アルゴリズムが実行中に正当性の証人を生成するたびに、適切なパラメータノルムにおいて、強い最悪の安定性を保証するために、堅牢な推定のために凸緩和を修正するための一般的な青写真を提供する新しいフレームワークから生じる。 このような保証は、ロバストな推定のための半定値プログラミング緩和の標準和和(SoS)の修正に対して検証される。 我々のプライバシー保証は、安定性保証と、推定共分散の固有値にノイズがスケールする新しい「見積依存」ノイズ注入機構を組み合わせることで得られる。 我々は、このフレームワークが、より一般的に、堅牢な推定器のDP版を得るのに役立つと信じている。 我々の研究とは独立に、Ashtiani と Liaw [AL21] も多項式時間とガウス分布のサンプル頑健性推定アルゴリズムを得た。

We give the first polynomial time and sample $(\epsilon, \delta)$-differentia lly private (DP) algorithm to estimate the mean, covariance and higher moments in the presence of a constant fraction of adversarial outliers. Our algorithm succeeds for families of distributions that satisfy two well-studied properties in prior works on robust estimation: certifiable subgaussianity of directional moments and certifiable hypercontractivity of degree 2 polynomials. Our recovery guarantees hold in the "right affine-invariant norms": Mahalanobis distance for mean, multiplicative spectral and relative Frobenius distance guarantees for covariance and injective norms for higher moments. Prior works obtained private robust algorithms for mean estimation of subgaussian distributions with bounded covariance. For covariance estimation, ours is the first efficient algorithm (even in the absence of outliers) that succeeds without any condition-number assumptions. Our algorithms arise from a new framework that provides a general blueprint for modifying convex relaxations for robust estimation to satisfy strong worst-case stability guarantees in the appropriate parameter norms whenever the algorithms produce witnesses of correctness in their run. We verify such guarantees for a modification of standard sum-of-squares (SoS) semidefinite programming relaxations for robust estimation. Our privacy guarantees are obtained by combining stability guarantees with a new "estimate dependent" noise injection mechanism in which noise scales with the eigenvalues of the estimated covariance. We believe this framework will be useful more generally in obtaining DP counterparts of robust estimators. Independently of our work, Ashtiani and Liaw [AL21] also obtained a polynomial time and sample private robust estimation algorithm for Gaussian distributions.
翻訳日:2021-12-08 14:27:15 公開日:2021-12-07
# 格子に基づくクラスタリングにおける二乗和を超越する手法

Lattice-Based Methods Surpass Sum-of-Squares in Clustering ( http://arxiv.org/abs/2112.03898v1 )

ライセンス: Link先を確認
Ilias Zadik, Min Jae Song, Alexander S. Wein, Joan Bruna(参考訳) クラスタリングは教師なし学習において基本的なプリミティブであり、計算量の多い推論タスクのクラスを生み出します。 本研究では、未知の(そしておそらく退化)共分散を持つ$d$次元ガウス混合をクラスタリングする標準的なタスクに焦点を当てる。 最近の作品(Ghosh et al)。 \ '20; Mao, Wein '21; Davis, Diaz, Wang '21) は、ガウスのクラスタリングインスタンスに植えられた隠された構造を復元するための低次多項式法と総和二乗(SoS)階層に対する下界を確立した。 このような下位境界がクラスタリングに固有の統計的-計算的ギャップの存在を強く示唆する多くの類似した推論タスクに関する先行研究、すなわち、クラスタリングタスクが \textit{statistically} 可能であるが、 \textit{polynomial-time} アルゴリズムが成功するパラメータレシエーションが成功しない。 私たちが考えるクラスタリングタスクの特別なケースの1つは、無作為な部分空間に植えられた超キューブベクトルを見つける問題と等価である。 この場合、この特定のクラスタリングモデル \textit{does not exhibit} は、上述の低次およびsos下限が適用され続けているにもかかわらず、統計的-計算間ギャップであることを示している。 これを実現するために,Lenstra-Lenstra-Lov asz格子基底法に基づく多項式時間アルゴリズムを提案する。 この結果は、統計的-計算間ギャップが「脆い」多項式時間アルゴリズムによって「閉じる」ことができる問題のクラスを拡張し、統計-計算間ギャップの開始におけるノイズの重要かつ微妙な役割を強調する。

Clustering is a fundamental primitive in unsupervised learning which gives rise to a rich class of computationally-chal lenging inference tasks. In this work, we focus on the canonical task of clustering $d$-dimensional Gaussian mixtures with unknown (and possibly degenerate) covariance. Recent works (Ghosh et al.\ '20; Mao, Wein '21; Davis, Diaz, Wang '21) have established lower bounds against the class of low-degree polynomial methods and the sum-of-squares (SoS) hierarchy for recovering certain hidden structures planted in Gaussian clustering instances. Prior work on many similar inference tasks portends that such lower bounds strongly suggest the presence of an inherent statistical-to-compu tational gap for clustering, that is, a parameter regime where the clustering task is \textit{statistically} possible but no \textit{polynomial-time} algorithm succeeds. One special case of the clustering task we consider is equivalent to the problem of finding a planted hypercube vector in an otherwise random subspace. We show that, perhaps surprisingly, this particular clustering model \textit{does not exhibit} a statistical-to-compu tational gap, even though the aforementioned low-degree and SoS lower bounds continue to apply in this case. To achieve this, we give a polynomial-time algorithm based on the Lenstra--Lenstra--Lo vasz lattice basis reduction method which achieves the statistically-optima l sample complexity of $d+1$ samples. This result extends the class of problems whose conjectured statistical-to-compu tational gaps can be "closed" by "brittle" polynomial-time algorithms, highlighting the crucial but subtle role of noise in the onset of statistical-to-compu tational gaps.
翻訳日:2021-12-08 14:26:46 公開日:2021-12-07
# Dataset Geography: 言語データを言語ユーザにマッピングする

Dataset Geography: Mapping Language Data to Language Users ( http://arxiv.org/abs/2112.03497v1 )

ライセンス: Link先を確認
Fahim Faisal, Yinkai Wang, Antonios Anastasopoulos(参考訳) 言語技術がユビキタス化するにつれて、自然言語処理(NLP)システムの言語多様性とカバー範囲の拡大への取り組みが高まっている。 おそらく、現代のNLPシステムの品質に影響を与える最も重要な要因は、データ可用性である。 本研究では,NLPデータセットの地理的代表性について検討し,NLPデータセットが言語話者の期待するニーズにどの程度一致しているかを定量化する。 その際、エンティティ認識とリンクシステムを使用し、言語間の一貫性について重要な観察を行い、より堅牢な評価を提案する。 最後に,観測されたデータセット分布を説明する地理的・経済的要因を考察する。 コードとデータはここで入手できる。 https://github.com/f faisal93/dataset_geo graphy。 さらなる視覚化は、https://nlp.cs.gmu.e du/project/datasetma ps/.comで入手できる。

As language technologies become more ubiquitous, there are increasing efforts towards expanding the language diversity and coverage of natural language processing (NLP) systems. Arguably, the most important factor influencing the quality of modern NLP systems is data availability. In this work, we study the geographical representativeness of NLP datasets, aiming to quantify if and by how much do NLP datasets match the expected needs of the language speakers. In doing so, we use entity recognition and linking systems, also making important observations about their cross-lingual consistency and giving suggestions for more robust evaluation. Last, we explore some geographical and economic factors that may explain the observed dataset distributions. Code and data are available here: https://github.com/f faisal93/dataset_geo graphy. Additional visualizations are available here: https://nlp.cs.gmu.e du/project/datasetma ps/.
翻訳日:2021-12-08 14:26:08 公開日:2021-12-07
# 真実、誰の真実? --トックステキストデータセットの注釈付けによる課題の検討

Ground-Truth, Whose Truth? -- Examining the Challenges with Annotating Toxic Text Datasets ( http://arxiv.org/abs/2112.03529v1 )

ライセンス: Link先を確認
Kofi Arhin, Ioana Baldini, Dennis Wei, Karthikeyan Natesan Ramamurthy, Moninder Singh(参考訳) オンラインでコンテンツを監視するための機械学習(ML)ベースの言語モデル(LM)の利用が増えている。 有害なテキスト識別のために、これらのモデルのタスク固有の微調整は、アノテータによってラベル付けされたデータセットを用いて行われる。 これらのプロジェクトは、時間をかけて大規模なデータセットの開発、改善、拡張につながり、自然言語の研究に大きく貢献した。 これらの成果にもかかわらず、既存の証拠は、これらのデータセット上に構築されたMLモデルが必ずしも望ましい結果をもたらすとは限らないことを示唆している。 そこで本研究では, 設計科学研究(dsr) の手法を用いて, 有毒なテキストデータセットを探索し, 問題点を解明し, 既存の課題と今後の課題の解決に寄与する。 本研究の目的を達成するために, 3つの有毒テキストデータセットからサンプルを再注釈し, 有毒テキストを注釈するマルチラベルアプローチがデータセットの品質向上に寄与することを示す。 このアプローチはアノテータ間の合意の伝統的な基準を改善するものではないかもしれないが、アノテータの文脈や多様性への依存をよりよく捉えることができる。 本稿では,これらの結果が理論と実践の両方に与える影響について論じる。

The use of machine learning (ML)-based language models (LMs) to monitor content online is on the rise. For toxic text identification, task-specific fine-tuning of these models are performed using datasets labeled by annotators who provide ground-truth labels in an effort to distinguish between offensive and normal content. These projects have led to the development, improvement, and expansion of large datasets over time, and have contributed immensely to research on natural language. Despite the achievements, existing evidence suggests that ML models built on these datasets do not always result in desirable outcomes. Therefore, using a design science research (DSR) approach, this study examines selected toxic text datasets with the goal of shedding light on some of the inherent issues and contributing to discussions on navigating these challenges for existing and future projects. To achieve the goal of the study, we re-annotate samples from three toxic text datasets and find that a multi-label approach to annotating toxic text samples can help to improve dataset quality. While this approach may not improve the traditional metric of inter-annotator agreement, it may better capture dependence on context and diversity in annotators. We discuss the implications of these results for both theory and practice.
翻訳日:2021-12-08 14:25:56 公開日:2021-12-07
# 事前学習された言語モデル、複数のデータセット、データセット埋め込みによるパース

Parsing with Pretrained Language Models, Multiple Datasets, and Dataset Embeddings ( http://arxiv.org/abs/2112.03625v1 )

ライセンス: Link先を確認
Rob van der Goot and Miryam de Lhoneux(参考訳) データセットの可用性の向上に伴い、さまざまなデータソースから学習する可能性も高まっている。 複数のデータソースからの学習を改善する方法のひとつに、トレーニング中にデータソースを埋め込む方法がある。 これにより、モデルは一般化可能な機能とデータセット間の特徴の区別を学ぶことができる。 しかし、これらのデータセット組込みは、自然言語処理の分野でコンテキスト化トランスフォーマーベースの組込みが導入される以前は、ほとんどが使用されていた。 本研究では,変換器を用いた多言語依存パーサにデータセットを埋め込む2つの手法を比較し,広範囲な評価を行う。 ご覧の通りです 1)データセットの埋め込みは、これらのモデルにはまだ有益である 2) エンコーダレベルでデータセットを埋め込む場合, 性能向上が最も大きい。 3) 当然のことながら, 性能向上は, ベースラインスコアが低い小さなデータセットやデータセットに対して高いことが確認できた。 4)全てのデータセットの組み合わせによるトレーニングは,言語関連性に基づいて,より小さなクラスタを設計するのと同じように動作することを示す。

With an increase of dataset availability, the potential for learning from a variety of data sources has increased. One particular method to improve learning from multiple data sources is to embed the data source during training. This allows the model to learn generalizable features as well as distinguishing features between datasets. However, these dataset embeddings have mostly been used before contextualized transformer-based embeddings were introduced in the field of Natural Language Processing. In this work, we compare two methods to embed datasets in a transformer-based multilingual dependency parser, and perform an extensive evaluation. We show that: 1) embedding the dataset is still beneficial with these models 2) performance increases are highest when embedding the dataset at the encoder level 3) unsurprisingly, we confirm that performance increases are highest for small datasets and datasets with a low baseline score. 4) we show that training on the combination of all datasets performs similarly to designing smaller clusters based on language-relatedness .
翻訳日:2021-12-08 14:25:35 公開日:2021-12-07
# GKS:タスク指向対話システムのためのグラフベース知識セレクタ

GKS: Graph-based Knowledge Selector for Task-oriented Dialog System ( http://arxiv.org/abs/2112.03719v1 )

ライセンス: Link先を確認
Jen-Chieh Yang, Jia-Yan Wu, Sung-Ping Chang, Ya-Chieh Huang(参考訳) これまでの研究では、知識選択タスクは主に言語モデルに基づく方法や知識ランキングに依存している。 しかし、アプローチは単に言語モデルに依存するだけで、知識がほとんどの状況において逐次情報を含まないような逐次的な入力として全ての知識を取り込む。 一方,知識ランク付け手法では,対話履歴と与えられた知識をそれぞれ活用するが,知識間の関係は認めない。 第10回対話システム技術チャレンジ(DSTC 10)では,音声対話における知識ベースタスク指向対話モデリングの第2トラックに参加した。 上記の問題に対処するため,我々は,第1サブタスクと第3サブタスクのSOTAモデルに基づく学習方法を修正し,知識選択サブタスク2に言語モデルに組み込んだグラフアテンションベースモデルを用いたグラフ知識セレクタ(GKS)を提案する。 GKSは、逐次的特徴を伴わずに、言語モデルから生成された各知識の埋め込みを同時に考慮して、ダイアログにおける知識選択決定を行う。 GKSはまた、意思決定においてかなりの知識を活用し、選択プロセスの一部として知識間の関係を取る。 GKSは、9th Dialog System Technology Challenges (DSTC9) の知識選択に基づくデータセットで提案されたいくつかのSOTAモデルより優れている。

In previous research, knowledge selection tasks mostly rely on language model-based methods or knowledge ranking. However, approaches simply rely on the language model take all knowledge as sequential input that knowledge does not contain sequential information in most circumstances. On the other hand, the knowledge ranking method leverage dialog history and each given knowledge but not between pieces of knowledge. In the 10th Dialog System Technology Challenges (DSTC 10), we participated the second track of Knowledge-grounded Task-oriented Dialogue Modeling on Spoken Conversations. To deal with the problems mentioned above, we modified training methods based on SOTA models for the first and third sub-tasks and proposed Graph-Knowledge Selector (GKS), utilizing a graph-attention base model incorporated with language model for knowledge selection sub-task two. GKS makes knowledge selection decisions in the dialog by simultaneously considering each knowledge embedding generated from the language model, without sequential features. GKS also leverages considerable knowledge in the decision-making, takes relations across knowledge as a part of the selection process. GKS outperforms several SOTA models proposed in the data-set on knowledge selection from the 9th Dialog System Technology Challenges (DSTC9).
翻訳日:2021-12-08 14:24:16 公開日:2021-12-07
# 弱い証拠効果の実践的考察

A pragmatic account of the weak evidence effect ( http://arxiv.org/abs/2112.03799v1 )

ライセンス: Link先を確認
Samuel A. Barnett, Robert D. Hawkins, and Thomas L. Griffiths(参考訳) 言語は情報伝達にのみ使用される。 私たちはしばしば特定の見解を支持して説得しようとする。 説得は、情報が対面価値で取得できないため、古典的な信条の更新に関する多くの課題を提起する。 新しい情報を取り込む場合、リスナーはどのように話者の「隠れた議題」を説明するべきか? ここでは、近年の帰納的社会的推論の確率的モデルを拡張して、説得的目標を許容し、我々のモデルがなぜ弱々しい議論がバックファイアを起こすのかを、新しい実践的な説明を提供することを示す。 私たちのモデルは、信念の更新と話者の期待の関係を予測します。弱い証拠は、説得力のある目標の下で話者が行動することが期待されるときにのみ、バックファイアとなるべきです。 我々は,弱証拠が話者の期待にどの程度依存するかを測定するための,簡易な実験的パラダイムであるスティックコンテストを導入し,実用的リスナモデルが代替モデルよりも経験的データに寄与することを示す。 以上の結果から,社会的推論の合理的なモデルが意思決定現象をさらに照らす道筋が示唆された。

Language is not only used to inform. We often seek to persuade by arguing in favor of a particular view. Persuasion raises a number of challenges for classical accounts of belief updating, as information cannot be taken at face value. How should listeners account for a speaker's "hidden agenda" when incorporating new information? Here, we extend recent probabilistic models of recursive social reasoning to allow for persuasive goals and show that our model provides a new pragmatic explanation for why weakly favorable arguments may backfire, a phenomenon known as the weak evidence effect. Critically, our model predicts a relationship between belief updating and speaker expectations: weak evidence should only backfire when speakers are expected to act under persuasive goals, implying the absence of stronger evidence. We introduce a simple experimental paradigm called the Stick Contest to measure the extent to which the weak evidence effect depends on speaker expectations, and show that a pragmatic listener model accounts for the empirical data better than alternative models. Our findings suggest potential avenues for rational models of social reasoning to further illuminate decision-making phenomena.
翻訳日:2021-12-08 14:23:53 公開日:2021-12-07
# コンピュータビジョンにおける最小問題に対するGPUベースのホモトピー継続

GPU-Based Homotopy Continuation for Minimal Problems in Computer Vision ( http://arxiv.org/abs/2112.03444v1 )

ライセンス: Link先を確認
Chiang-Heng Chien, Hongyi Fan, Ahmad Abdelfattah, Elias Tsigaridas, Stanimire Tomov, Benjamin Kimia(参考訳) 多項式方程式のシステムはコンピュータビジョン、特に多視点幾何学問題において頻繁に現れる。 従来の解法は、例えば、5点ポーズ推定のための10階多項式、巧妙な操作、より一般的にはグロブナー基底、結果試薬、消去テンプレートを用いて、一変数多項式に到達するための変数を排除し、マルチビュー幾何や他の問題に対するアルゴリズムを成功させる。 しかし、これらの手法は問題が複雑で、問題が発生した場合、効率や安定性の問題に直面することはない。 Homotopy Continuation (HC)は、安定性の問題やグローバルソリューションの保証なしに、より複雑な問題を解決することができるが、それらは遅いことが知られている。 本稿では,gpu上でhcを並列化できることを示し,多項式ベンチマークにおいて最大26倍の高速化を示す。 また,gpu-hcは4次元三角測量や未知焦点長三焦点ポーズ推定など,様々なコンピュータビジョン問題に対して汎用的に適用可能であり,除去テンプレートでは解決できないが,hcで効率的に解くことができることを示した。 GPU-HCは、様々なコンピュータビジョン問題の定式化と解決を容易にする。

Systems of polynomial equations arise frequently in computer vision, especially in multiview geometry problems. Traditional methods for solving these systems typically aim to eliminate variables to reach a univariate polynomial, e.g., a tenth-order polynomial for 5-point pose estimation, using clever manipulations, or more generally using Grobner basis, resultants, and elimination templates, leading to successful algorithms for multiview geometry and other problems. However, these methods do not work when the problem is complex and when they do, they face efficiency and stability issues. Homotopy Continuation (HC) can solve more complex problems without the stability issues, and with guarantees of a global solution, but they are known to be slow. In this paper we show that HC can be parallelized on a GPU, showing significant speedups up to 26 times on polynomial benchmarks. We also show that GPU-HC can be generically applied to a range of computer vision problems, including 4-view triangulation and trifocal pose estimation with unknown focal length, which cannot be solved with elimination template but they can be efficiently solved with HC. GPU-HC opens the door to easy formulation and solution of a range of computer vision problems.
翻訳日:2021-12-08 14:23:05 公開日:2021-12-07
# (参考訳) 情報とパワー:情報キャプチャによる内在制御 [全文訳有]

Information is Power: Intrinsic Control via Information Capture ( http://arxiv.org/abs/2112.03899v1 )

ライセンス: CC BY 4.0
Nicholas Rhinehart, Jenny Wang, Glen Berseth, John D. Co-Reyes, Danijar Hafner, Chelsea Finn, Sergey Levine(参考訳) 人間や動物は環境を探索し、明確な目標がなくても有用なスキルを獲得し、本質的な動機を示す。 人工エージェントにおける本質的動機づけの研究は、次の質問に関係している: エージェントにとって優れた汎用目的とは何か? 本研究では,この問題を動的部分観測環境において研究し,潜在状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化することを目的としている。 この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。 我々は,このアプローチを深い変動ベイズフィルタを備えた深層強化学習エージェントとしてインスタンス化する。 我々のエージェントは、外因性報酬を伴わずに視覚的観察によって知覚された様々な部分観測環境において、動的物体の発見、表現、運動制御を学習する。

Humans and animals explore their environment and acquire useful skills even in the absence of clear goals, exhibiting intrinsic motivation. The study of intrinsic motivation in artificial agents is concerned with the following question: what is a good general-purpose objective for an agent? We study this question in dynamic partially-observed environments, and argue that a compact and general learning objective is to minimize the entropy of the agent's state visitation estimated using a latent state-space model. This objective induces an agent to both gather information about its environment, corresponding to reducing uncertainty, and to gain control over its environment, corresponding to reducing the unpredictability of future world states. We instantiate this approach as a deep reinforcement learning agent equipped with a deep variational Bayes filter. We find that our agent learns to discover, represent, and exercise control of dynamic objects in a variety of partially-observed environments sensed with visual observations without extrinsic reward.
翻訳日:2021-12-08 14:20:56 公開日:2021-12-07
# 交通予測のためのグラフニューラル制御微分方程式

Graph Neural Controlled Differential Equations for Traffic Forecasting ( http://arxiv.org/abs/2112.03558v1 )

ライセンス: Link先を確認
Jeongwhan Choi, Hwangyong Choi, Jeehyun Hwang, Noseong Park(参考訳) トラフィック予測は、機械学習の分野で最も一般的な時空間的タスクの1つである。 この分野で一般的なアプローチは、時空間処理のためにグラフ畳み込みネットワークと繰り返しニューラルネットワークを組み合わせることである。 激しい競争があり、多くの新しい方法が提案されている。 本稿では,時空間グラフニューラル制御微分方程式(stg-ncde)の方法を提案する。 neural controlled differential equation (ncdes) はシーケンシャルデータを処理するための画期的な概念である。 本研究では,時間処理用と空間処理用という2つのNCDEの概念を拡張し,設計する。 その後、それらをひとつのフレームワークにまとめます。 6つのベンチマークデータセットと20のベースラインで実験を行います。 STG-NCDEはすべてのケースで最高の精度を示し、これら20のベースラインを非自明なマージンで上回っている。

Traffic forecasting is one of the most popular spatio-temporal tasks in the field of machine learning. A prevalent approach in the field is to combine graph convolutional networks and recurrent neural networks for the spatio-temporal processing. There has been fierce competition and many novel methods have been proposed. In this paper, we present the method of spatio-temporal graph neural controlled differential equation (STG-NCDE). Neural controlled differential equations (NCDEs) are a breakthrough concept for processing sequential data. We extend the concept and design two NCDEs: one for the temporal processing and the other for the spatial processing. After that, we combine them into a single framework. We conduct experiments with 6 benchmark datasets and 20 baselines. STG-NCDE shows the best accuracy in all cases, outperforming all those 20 baselines by non-trivial margins.
翻訳日:2021-12-08 13:54:35 公開日:2021-12-07
# 深部ddmの粗い空間加速度

A coarse space acceleration of deep-DDM ( http://arxiv.org/abs/2112.03732v1 )

ライセンス: Link先を確認
Valentin Mercier, Serge Gratton, Pierre Boudier(参考訳) PDEを解くためのディープラーニング手法の使用は、完全な拡張の分野である。 特に、物理的領域のサンプリングを実装し、偏微分方程式の違反をペナライズする損失関数を使用する物理的インフォームドニューラルネットワークは、その大きなポテンシャルを示している。 しかし、実際のアプリケーションで発生する大規模問題に対処し、PDEの既存の数値手法と競合するためには、優れたスケーラビリティ特性を持つ並列アルゴリズムを設計することが重要である。 従来のドメイン分解法(ddm)では,最近提案されている深層ddm法を考察する。 本稿では,従来のDDM解法と同様,粗い空間補正を利用する手法の拡張について述べる。 本研究は,各繰り返しにおけるサブドメイン間の瞬時情報交換により,サブドメイン数の増加に伴う解法の収束の悪化を軽減することができることを示す。 実験の結果,本手法は計算コストを削減し,オリジナルのdeep-ddm法を著しく高速化することを示した。

The use of deep learning methods for solving PDEs is a field in full expansion. In particular, Physical Informed Neural Networks, that implement a sampling of the physical domain and use a loss function that penalizes the violation of the partial differential equation, have shown their great potential. Yet, to address large scale problems encountered in real applications and compete with existing numerical methods for PDEs, it is important to design parallel algorithms with good scalability properties. In the vein of traditional domain decomposition methods (DDM), we consider the recently proposed deep-ddm approach. We present an extension of this method that relies on the use of a coarse space correction, similarly to what is done in traditional DDM solvers. Our investigations shows that the coarse correction is able to alleviate the deterioration of the convergence of the solver when the number of subdomains is increased thanks to an instantaneous information exchange between subdomains at each iteration. Experimental results demonstrate that our approach induces a remarkable acceleration of the original deep-ddm method, at a reduced additional computational cost.
翻訳日:2021-12-08 13:54:24 公開日:2021-12-07
# 弱視の普遍化

Universalizing Weak Supervision ( http://arxiv.org/abs/2112.03865v1 )

ライセンス: Link先を確認
Changho Shin, Winfred Li, Harit Vishwakarma, Nicholas Roberts, Frederic Sala(参考訳) 弱い監督(ws)フレームワークは、データ格納モデルのトレーニングのために大規模なデータセットを手ラベルでバイパスする一般的な方法である。 これらのアプローチは、複数のノイズの多いが安価なラベルの推定値を下流トレーニング用の高品質な擬似ラベルに合成する。 しかし、合成技術はバイナリラベルやシーケンスのような特定の種類のラベルに特化しており、それぞれの新しいラベルタイプは手動で新しい合成アルゴリズムを設計する必要がある。 代わりに, 実用的柔軟性, 計算効率, 理論的保証など, 望ましい特性を提供しつつ, 任意のラベルタイプに対して弱い監督を可能にする普遍的手法を提案する。 我々は、この手法を、双曲多様体におけるランク付け、回帰、学習を含むWSフレームワークがこれまで取り組まなかった重要な問題に適用する。 理論的には、我々の合成アプローチは指数族モデルの難しいが重要な一般化を学ぶための一貫した推定器を生成する。 実験では,双曲多様体上の学習とともに,実世界の学習と回帰問題を含む多様な設定において,ベースラインよりも精度が向上することを示す。

Weak supervision (WS) frameworks are a popular way to bypass hand-labeling large datasets for training data-hungry models. These approaches synthesize multiple noisy but cheaply-acquired estimates of labels into a set of high-quality pseudolabels for downstream training. However, the synthesis technique is specific to a particular kind of label, such as binary labels or sequences, and each new label type requires manually designing a new synthesis algorithm. Instead, we propose a universal technique that enables weak supervision over any label type while still offering desirable properties, including practical flexibility, computational efficiency, and theoretical guarantees. We apply this technique to important problems previously not tackled by WS frameworks including learning to rank, regression, and learning in hyperbolic manifolds. Theoretically, our synthesis approach produces a consistent estimator for learning a challenging but important generalization of the exponential family model. Experimentally, we validate our framework and show improvement over baselines in diverse settings including real-world learning-to-rank and regression problems along with learning on hyperbolic manifolds.
翻訳日:2021-12-08 13:54:06 公開日:2021-12-07
# 線形関数近似を用いた強化学習における一次回帰:ロバスト推定手法

First-Order Regret in Reinforcement Learning with Linear Function Approximation: A Robust Estimation Approach ( http://arxiv.org/abs/2112.03432v1 )

ライセンス: Link先を確認
Andrew Wagenmaker, Yifang Chen, Max Simchowitz, Simon S. Du, Kevin Jamieson(参考訳) 最短ケースではなく、あるインスタンス上での最適なポリシーのパフォーマンスを測った、後悔の限界である一階の後悔の限界を達成することは、シーケンシャルな意思決定における中核的な問題である。 このような境界は、多くの設定に存在しているが、それらは大きな状態空間を持つ強化学習において解明されている。 本研究では, このギャップに対処し, 線形 MDP 設定による強化学習において, $\mathcal{O}(\sqrt{V_1^\star K})$ として後悔のスケーリングが得られることを示す。 ここで$v_1^\star$は最適ポリシーの値、$k$はエピソード数である。 この結果を得るためには, 最小二乗推定に基づく既存手法が不十分であることを示すとともに, 独立興味を持つロバストなカトーニ平均推定値に基づく新しいロバストな自己正規化濃度を求める。

Obtaining first-order regret bounds -- regret bounds scaling not as the worst-case but with some measure of the performance of the optimal policy on a given instance -- is a core question in sequential decision-making. While such bounds exist in many settings, they have proven elusive in reinforcement learning with large state spaces. In this work we address this gap, and show that it is possible to obtain regret scaling as $\mathcal{O}(\sqrt{V_1^\star K})$ in reinforcement learning with large state spaces, namely the linear MDP setting. Here $V_1^\star$ is the value of the optimal policy and $K$ is the number of episodes. We demonstrate that existing techniques based on least squares estimation are insufficient to obtain this result, and instead develop a novel robust self-normalized concentration bound based on the robust Catoni mean estimator, which may be of independent interest.
翻訳日:2021-12-08 13:53:49 公開日:2021-12-07
# 多分布密度比推定のための統一フレームワーク

A Unified Framework for Multi-distribution Density Ratio Estimation ( http://arxiv.org/abs/2112.03440v1 )

ライセンス: Link先を確認
Lantao Yu, Yujia Jin, Stefano Ermon(参考訳) 2進密度比推定(dre)は、経験的なサンプルを与えられた比$p_1/p_2$を推定する問題であり、コントラスト表現学習や共変量シフト適応といった最先端機械学習アルゴリズムの基礎を提供する。 本研究では、複数の分布から与えられたサンプルを$p_1, \ldots, p_k$ ($k > 2$) とし、全ての分布間の密度比を効率的に推定する一般化された設定を考える。 このような一般化は、マルチディストリビューション$f$-divergenceのような複数の確率変数間の統計的差分を推定したり、複数の重要サンプリングによるバイアス補正といった重要な新しい応用をもたらす。 次に,Bregmanの発散最小化の観点から,各厳密凸多変量関数が多重分布DREの適切な損失を誘導する一般フレームワークを開発する。 さらに,多分布密度比推定とクラス確率推定との理論的関係を補正し,多分布DREのためのリンク関数付き厳密なスコアリングルール合成の利用を正当化する。 我々のフレームワークは、バイナリDREでそれらを厳格に一般化するメソッドと、様々な下流タスクにおいて同等または優れたパフォーマンスを示す新しいメソッドに導かれることを示す。

Binary density ratio estimation (DRE), the problem of estimating the ratio $p_1/p_2$ given their empirical samples, provides the foundation for many state-of-the-art machine learning algorithms such as contrastive representation learning and covariate shift adaptation. In this work, we consider a generalized setting where given samples from multiple distributions $p_1, \ldots, p_k$ (for $k > 2$), we aim to efficiently estimate the density ratios between all pairs of distributions. Such a generalization leads to important new applications such as estimating statistical discrepancy among multiple random variables like multi-distribution $f$-divergence, and bias correction via multiple importance sampling. We then develop a general framework from the perspective of Bregman divergence minimization, where each strictly convex multivariate function induces a proper loss for multi-distribution DRE. Moreover, we rederive the theoretical connection between multi-distribution density ratio estimation and class probability estimation, justifying the use of any strictly proper scoring rule composite with a link function for multi-distribution DRE. We show that our framework leads to methods that strictly generalize their counterparts in binary DRE, as well as new methods that show comparable or superior performance on various downstream tasks.
翻訳日:2021-12-08 13:53:31 公開日:2021-12-07
# 構造損傷検出のためのラベル付きデータ作成のための生成逆ネットワーク

Generative Adversarial Networks for Labeled Data Creation for Structural Damage Detection ( http://arxiv.org/abs/2112.03478v1 )

ライセンス: Link先を確認
Furkan Luleci, F. Necati Catbas, Onur Avci(参考訳) 過去数十年間、データサイエンスの分野では飛躍的な進歩があり、他の分野もその恩恵を受け続けている。 構造的健康モニタリング(SHM)は、機械学習(ML)やディープラーニング(DL)アルゴリズムなどの人工知能(AI)を用いて、収集されたデータに基づく土木構造物の状態評価を行う分野の一つである。 MLとDLの手法はトレーニング手順に多くのデータを必要とするが、SHMでは、土木構造物からのデータ収集は非常に徹底的であり、特に有用なデータ(関連するデータにダメージを与える)を取得することは非常に困難である。 本稿では1次元WDCGAN-GP(Gradient Penalty)を用いた1次元Wasserstein Deep Convolutional Generative Adversarial Networksを合成ラベル付き振動データ生成に用いる。 次に,1-D Deep Convolutional Neural Network (1-D DCNN)を用いて,異なるレベルの合成強化振動データセットに対して構造的損傷検出を行う。 損傷検出の結果, 1次元WDCGAN-GPは, 土木構造物の振動による損傷診断におけるデータ不足に対処するために有効であることがわかった。 キーワード:構造的健康モニタリング(SHM)、構造的損傷診断、構造的損傷検出、一次元深部畳み込みニューラルネットワーク(1-D DCNN)、一次元生成的敵ネットワーク(1-D GAN)、深部畳み込み生成的敵ネットワーク(DCGAN)、ワッサーシュタイン生成的敵ネットワーク(WGAN-GP)

There has been a drastic progression in the field of Data Science in the last few decades and other disciplines have been continuously benefitting from it. Structural Health Monitoring (SHM) is one of those fields that use Artificial Intelligence (AI) such as Machine Learning (ML) and Deep Learning (DL) algorithms for condition assessment of civil structures based on the collected data. The ML and DL methods require plenty of data for training procedures; however, in SHM, data collection from civil structures is very exhaustive; particularly getting useful data (damage associated data) can be very challenging. This paper uses 1-D Wasserstein Deep Convolutional Generative Adversarial Networks using Gradient Penalty (1-D WDCGAN-GP) for synthetic labeled vibration data generation. Then, implements structural damage detection on different levels of synthetically enhanced vibration datasets by using 1-D Deep Convolutional Neural Network (1-D DCNN). The damage detection results show that the 1-D WDCGAN-GP can be successfully utilized to tackle data scarcity in vibration-based damage diagnostics of civil structures. Keywords: Structural Health Monitoring (SHM), Structural Damage Diagnostics, Structural Damage Detection, 1-D Deep Convolutional Neural Networks (1-D DCNN), 1-D Generative Adversarial Networks (1-D GAN), Deep Convolutional Generative Adversarial Networks (DCGAN), Wasserstein Generative Adversarial Networks with Gradient Penalty (WGAN-GP)
翻訳日:2021-12-08 13:51:43 公開日:2021-12-07
# フェデレート因果発見

Federated Causal Discovery ( http://arxiv.org/abs/2112.03555v1 )

ライセンス: Link先を確認
Erdun Gao and Junjia Chen and Li Shen and Tongliang Liu and Mingming Gong and Howard Bondell(参考訳) 因果発見は観測データから因果グラフを学ぶことを目的としている。 今日まで、ほとんどの因果発見方法は中央サーバに格納するデータを必要とする。 しかしデータ所有者は、プライバシーの漏洩を避けるためにパーソナライズされたデータの共有を徐々に拒否する。 $\textit{どのように分散データから因果関係を推測するか? そこで本研究では,DAG-Shared Federated Causal Discovery (DS-FCD) と呼ばれる勾配に基づく学習フレームワークの開発において,局所データに直接触れることなく因果グラフを学習し,データ不均一性を自然に処理できる第一歩を踏み出した。 DS-FCDは各局所モデルの2レベル構造から恩恵を受ける。 第1のレベルは因果グラフを学習し、他のクライアントからモデル情報を取得するためにサーバと通信する。 さらにDS-FCDは、勾配勾配勾配法により自然に解ける等性非巡回性制約を利用して、全体的な学習タスクを連続最適化問題として定式化する。 合成データと実世界のデータセットの両方に関する広範な実験により,提案手法の有効性が検証された。

Causal discovery aims to learn a causal graph from observational data. To date, most causal discovery methods require data to be stored in a central server. However, data owners gradually refuse to share their personalized data to avoid privacy leakage, making this task more troublesome by cutting off the first step. A puzzle arises: $\textit{how do we infer causal relations from decentralized data?}$ In this paper, with the additive noise model assumption of data, we take the first step in developing a gradient-based learning framework named DAG-Shared Federated Causal Discovery (DS-FCD), which can learn the causal graph without directly touching local data and naturally handle the data heterogeneity. DS-FCD benefits from a two-level structure of each local model. The first level learns the causal graph and communicates with the server to get model information from other clients, while the second level approximates causal mechanisms and personally updates from its own data to accommodate the data heterogeneity. Moreover, DS-FCD formulates the overall learning task as a continuous optimization problem by taking advantage of an equality acyclicity constraint, which can be naturally solved by gradient descent methods. Extensive experiments on both synthetic and real-world datasets verify the efficacy of the proposed method.
翻訳日:2021-12-08 13:51:11 公開日:2021-12-07
# 過パラメータニューラルネットワーク分類器の学習における正方形損失の理解

Understanding Square Loss in Training Overparametrized Neural Network Classifiers ( http://arxiv.org/abs/2112.03657v1 )

ライセンス: Link先を確認
Tianyang Hu, Jun Wang, Wenjia Wang, Zhenguo Li(参考訳) ディープラーニングは現代の分類タスクで多くのブレークスルーを達成した。 異なるデータ構造に対して多数のアーキテクチャが提案されているが、損失関数に関しては、クロスエントロピー損失が主な選択肢である。 近年では、深層分類器に対する関心が復活している。 特に、経験的証拠は正方形損失を助長しているように見えるが、理論的正当性はまだ欠けている。 本研究では,神経接核(ntk)領域における過パラメータニューラルネットワークの性能を体系的に検討することにより,分類における正方形損失の理論的理解に寄与する。 一般化誤差、ロバスト性、キャリブレーション誤差に関する興味深い特性を明らかにする。 クラスが分離可能かどうかに応じて2つのケースを考慮する。 一般的な非分離性の場合、誤分類率と校正誤差の両方に対して高速収束速度が確立される。 クラスが分離可能である場合、誤分類率は指数関数的に速くなる。 さらに、結果のマージンはゼロから下界であることが証明され、ロバスト性の理論的な保証を提供する。 NTK体制を超えて,実践的な設定に転換することが期待されている。 そこで本研究では,実画像データと合成低次元データの両方における正方形損失の有効性を実証し,実用ニューラルネットワークの広範な実証実験を行った。 クロスエントロピーと比較すると、正方形損失は一般化誤差に匹敵するが、ロバスト性やモデルのキャリブレーションにおいて顕著な利点がある。

Deep learning has achieved many breakthroughs in modern classification tasks. Numerous architectures have been proposed for different data structures but when it comes to the loss function, the cross-entropy loss is the predominant choice. Recently, several alternative losses have seen revived interests for deep classifiers. In particular, empirical evidence seems to promote square loss but a theoretical justification is still lacking. In this work, we contribute to the theoretical understanding of square loss in classification by systematically investigating how it performs for overparametrized neural networks in the neural tangent kernel (NTK) regime. Interesting properties regarding the generalization error, robustness, and calibration error are revealed. We consider two cases, according to whether classes are separable or not. In the general non-separable case, fast convergence rate is established for both misclassification rate and calibration error. When classes are separable, the misclassification rate improves to be exponentially fast. Further, the resulting margin is proven to be lower bounded away from zero, providing theoretical guarantees for robustness. We expect our findings to hold beyond the NTK regime and translate to practical settings. To this end, we conduct extensive empirical studies on practical neural networks, demonstrating the effectiveness of square loss in both synthetic low-dimensional data and real image data. Comparing to cross-entropy, square loss has comparable generalization error but noticeable advantages in robustness and model calibration.
翻訳日:2021-12-08 13:50:48 公開日:2021-12-07
# ニューラルネットワークのベイズモデル平均化におけるモード探索の有効性について

On the Effectiveness of Mode Exploration in Bayesian Model Averaging for Neural Networks ( http://arxiv.org/abs/2112.03773v1 )

ライセンス: Link先を確認
John T. Holodnak and Allan B. Wollaber(参考訳) サイクリックトレーニングや複数のランダムスタートポイント(ディープアンサンブル)から検出されたさまざまなソリューションをアンサンブルするためのアプローチを活用する、教師付き学習環境におけるディープニューラルネットワークを用いた校正予測確率の生成のための複数のテクニックが出現している。 しかし, 多様な溶液(後続モード)の周囲の局所領域を探索する有用性について, 限定的な研究しか行われていない。 CIFAR-10データセット上の3つのよく知られたディープアーキテクチャを用いて、ブライアスコア、精度、予測キャリブレーション誤差に関して重量空間の局所領域を探索するいくつかの簡単な手法を評価する。 我々はベイズ的推論手法(変分推論とハミルトニアン・モンテカルロをソフトマックス出力層に適用)とオプティマ近傍の確率勾配勾配軌道を利用する。 アンサンブルに別々のモードを追加することで性能が一様に向上する一方、ここで検討した単純なモード探索手法は、モード探索なしでアンサンブルよりもほとんど改善しないことを示す。

Multiple techniques for producing calibrated predictive probabilities using deep neural networks in supervised learning settings have emerged that leverage approaches to ensemble diverse solutions discovered during cyclic training or training from multiple random starting points (deep ensembles). However, only a limited amount of work has investigated the utility of exploring the local region around each diverse solution (posterior mode). Using three well-known deep architectures on the CIFAR-10 dataset, we evaluate several simple methods for exploring local regions of the weight space with respect to Brier score, accuracy, and expected calibration error. We consider both Bayesian inference techniques (variational inference and Hamiltonian Monte Carlo applied to the softmax output layer) as well as utilizing the stochastic gradient descent trajectory near optima. While adding separate modes to the ensemble uniformly improves performance, we show that the simple mode exploration methods considered here produce little to no improvement over ensembles without mode exploration.
翻訳日:2021-12-08 13:50:25 公開日:2021-12-07
# (参考訳) 自然回答生成:文法修正を用いたファクトイド回答から完全回答へ [全文訳有]

Natural Answer Generation: From Factoid Answer to Full-length Answer using Grammar Correction ( http://arxiv.org/abs/2112.03849v1 )

ライセンス: CC BY-SA 4.0
Manas Jain, Sriparna Saha, Pushpak Bhattacharyya, Gladvin Chinnadurai, Manish Kumar Vatsa(参考訳) 質問回答システムは一般的にテンプレートベースの言語生成を使用する。 ドメイン固有のタスクには適していますが、これらのシステムは制限的で、ドメインに依存しないシステムには事前定義されます。 本稿では,与えられた質問に対する全長回答と抽出されたファクトイド回答(名前付きエンティティなど)を入力として出力するシステムを提案する。 我々のシステムは、質問の選挙区と依存関係を解析する。 変圧器ベースの文法誤り訂正モデルgector(2020年)は、流束性を改善するための後処理ステップとして使用される。 私たちは我々のシステムと比べる (i)改良ポインタージェネレータ(sota)及び (ii)事実的質問に対する微調整された対話 既存の(イエスノー)質問に対するアプローチもテストしています。 我々のモデルは最先端(SOTA)アプローチよりも正確で流動的な回答を生成する。 評価はNewsQAとSqUADのデータセットで行われ、ROUGE-1スコアの0.4と0.9のポイントが加算される。 また、SOTAと比較して推測時間を85\%削減する。 評価に用いた改良データセットは、研究貢献の一環として公開します。

Question Answering systems these days typically use template-based language generation. Though adequate for a domain-specific task, these systems are too restrictive and predefined for domain-independent systems. This paper proposes a system that outputs a full-length answer given a question and the extracted factoid answer (short spans such as named entities) as the input. Our system uses constituency and dependency parse trees of questions. A transformer-based Grammar Error Correction model GECToR (2020), is used as a post-processing step for better fluency. We compare our system with (i) Modified Pointer Generator (SOTA) and (ii) Fine-tuned DialoGPT for factoid questions. We also test our approach on existential (yes-no) questions with better results. Our model generates accurate and fluent answers than the state-of-the-art (SOTA) approaches. The evaluation is done on NewsQA and SqUAD datasets with an increment of 0.4 and 0.9 percentage points in ROUGE-1 score respectively. Also the inference time is reduced by 85\% as compared to the SOTA. The improved datasets used for our evaluation will be released as part of the research contribution.
翻訳日:2021-12-08 13:47:29 公開日:2021-12-07
# Wild ToFu: 密集環境におけるRGB融合による間接飛行時間深度の範囲と品質の向上

Wild ToFu: Improving Range and Quality of Indirect Time-of-Flight Depth with RGB Fusion in Challenging Environments ( http://arxiv.org/abs/2112.03750v1 )

ライセンス: Link先を確認
HyunJun Jung, Nikolas Brasch, Ales Leonardis, Nassir Navab, Benjamin Busam(参考訳) 間接飛行時間(I-ToF)イメージングは、小型で安価なため、モバイルデバイスの奥行き推定方法として広く使われている。 従来はI-ToF画像の品質向上,特にMPI(Multiple Path Interference)の効果の検証に重点を置いてきた。 これらの調査は通常、近距離、屋内、ほとんど環境光の下で、特に制約されたシナリオで行われる。 驚くべきことに、強い環境光と遠距離が、限られたセンサパワーと光散乱による減衰による誘導ショットノイズと信号間隔の極端な量による困難を引き起こす実生活シナリオにおいて、I-ToFの品質改善を調査する研究はほとんどない。 そこで本研究では,RGB画像と同様にノイズの多い生のI-ToF信号を取り込み,暗黙的および明示的なアライメントを含む多段階的アプローチにより,RGB視点に整合した高品質な長距離深度マップを推定する,学習に基づくエンドツーエンドの深度予測ネットワークを提案する。 我々は,現実のシーンに挑戦するアプローチを試行し,ベースラインアプローチと比較して最終深度マップ上で40%以上のRMSE改善を示す。

Indirect Time-of-Flight (I-ToF) imaging is a widespread way of depth estimation for mobile devices due to its small size and affordable price. Previous works have mainly focused on quality improvement for I-ToF imaging especially curing the effect of Multi Path Interference (MPI). These investigations are typically done in specifically constrained scenarios at close distance, indoors and under little ambient light. Surprisingly little work has investigated I-ToF quality improvement in real-life scenarios where strong ambient light and far distances pose difficulties due to an extreme amount of induced shot noise and signal sparsity, caused by the attenuation with limited sensor power and light scattering. In this work, we propose a new learning based end-to-end depth prediction network which takes noisy raw I-ToF signals as well as an RGB image and fuses their latent representation based on a multi step approach involving both implicit and explicit alignment to predict a high quality long range depth map aligned to the RGB viewpoint. We test our approach on challenging real-world scenes and show more than 40% RMSE improvement on the final depth map compared to the baseline approach.
翻訳日:2021-12-08 13:35:25 公開日:2021-12-07
# リッチマルチモーダル入力を用いたUNITER-based Situated Coreference Resolution

UNITER-Based Situated Coreference Resolution with Rich Multimodal Input ( http://arxiv.org/abs/2112.03521v1 )

ライセンス: Link先を確認
Yichen Huang, Yuchen Wang, Yik-Cheung Tam(参考訳) 本稿では,第10回Dialog System Technology Challenge(DSTC10)の一環として,Situated and Interactive Multimodal Conversation 2.0 (SIMMC 2.0)データセットのマルチモーダルコア参照解決タスクについて述べる。 テキストダイアログ履歴やオブジェクト知識ベース,ビジュアルダイアログシーンなどのリッチなマルチモーダルコンテキストを利用して,現在のダイアログターンで各オブジェクトが言及されているかどうかを判定する。 その結果,提案手法はDSTC10ベースラインを著しく上回り,オブジェクトF1スコアは36.6%から77.3%に向上し,リッチマルチモーダル入力によるオブジェクト表現の有効性が示された。 提案手法は,モデル・センスリング後のf1得点73.3%で,オブジェクト・コリファレンス解決タスクの公式評価で第2位にランクする。

We present our work on the multimodal coreference resolution task of the Situated and Interactive Multimodal Conversation 2.0 (SIMMC 2.0) dataset as a part of the tenth Dialog System Technology Challenge (DSTC10). We propose a UNITER-based model utilizing rich multimodal context such as textual dialog history, object knowledge base and visual dialog scenes to determine whether each object in the current scene is mentioned in the current dialog turn. Results show that the proposed approach outperforms the official DSTC10 baseline substantially, with the object F1 score boosted from 36.6% to 77.3% on the development set, demonstrating the effectiveness of the proposed object representations from rich multimodal input. Our model ranks second in the official evaluation on the object coreference resolution task with an F1 score of 73.3% after model ensembling.
翻訳日:2021-12-08 13:34:15 公開日:2021-12-07
# メタボリックネットワーク平衡予測のための深層言語モデル

A deep language model to predict metabolic network equilibria ( http://arxiv.org/abs/2112.03588v1 )

ライセンス: Link先を確認
Fran\c{c}ois Charton, Amaury Hayat, Sean T. McQuade, Nathaniel J. Merrill, Benedetto Piccoli(参考訳) 自然言語を意図したディープラーニングモデル,特にトランスフォーマーのようなアーキテクチャをランダムに生成されたデータセット上でトレーニングすることで,メタボリックネットワークの質的および定量的特徴の両方を非常に高精度に予測できることを示す。 標準的な数学的手法を用いて、モデルをトレーニングするために使用できるランダムネットワークの大きなセット(4000万要素)を作成します。 これらの訓練されたモデルは、99%以上のケースでランダムグラフ上のネットワーク平衡を予測することができる。 また、訓練中に遭遇したグラフと異なる構造を持つグラフに一般化することもできる。 最後に、既知の生物ネットワークの小さな集合の平衡をほぼ完全に予測することができる。 私たちのアプローチは、実験データにおいて非常に経済的であり、機械翻訳で一般的に使われる大規模アーキテクチャとは程遠い、小さくて浅いディープラーニングモデルのみを使用します。 このような結果は、定量的システム薬理学、システム生物学、合成生物学といった重要な分野における、生物ネットワークに関連する問題に対するディープラーニングモデルをより多く利用するための道を開いた。

We show that deep learning models, and especially architectures like the Transformer, originally intended for natural language, can be trained on randomly generated datasets to predict to very high accuracy both the qualitative and quantitative features of metabolic networks. Using standard mathematical techniques, we create large sets (40 million elements) of random networks that can be used to train our models. These trained models can predict network equilibrium on random graphs in more than 99% of cases. They can also generalize to graphs with different structure than those encountered at training. Finally, they can predict almost perfectly the equilibria of a small set of known biological networks. Our approach is both very economical in experimental data and uses only small and shallow deep-learning model, far from the large architectures commonly used in machine translation. Such results pave the way for larger use of deep learning models for problems related to biological networks in key areas such as quantitative systems pharmacology, systems biology, and synthetic biology.
翻訳日:2021-12-08 13:32:12 公開日:2021-12-07
# マルチスピーカー感情音声合成装置

Multi-speaker Emotional Text-to-speech Synthesizer ( http://arxiv.org/abs/2112.03557v1 )

ライセンス: Link先を確認
Sungjae Cho, Soo-Young Lee(参考訳) 10人の話者の7つの異なる感情の音声を表現できる多話者感情テキスト合成装置を訓練する手法を提案する。 オーディオサンプルからのすべての沈黙は、学習前に取り除かれる。 これは私たちのモデルによる高速な学習をもたらす。 モデルを効率的に訓練するためにカリキュラム学習を適用する。 我々のモデルは最初、大きな単一話者中立データセットで訓練され、その後、すべての話者から中立なスピーチで訓練される。 最後に,すべての話者からの感情的発話のデータセットを用いて学習する。 各段階において、各話者・感情対のトレーニングサンプルは、ミニバッチに現れる確率が等しい。 この方法では,すべての対象話者と感情に対して音声を合成できる。 私たちの合成オーディオセットは、私たちのWebページで利用可能です。

We present a methodology to train our multi-speaker emotional text-to-speech synthesizer that can express speech for 10 speakers' 7 different emotions. All silences from audio samples are removed prior to learning. This results in fast learning by our model. Curriculum learning is applied to train our model efficiently. Our model is first trained with a large single-speaker neutral dataset, and then trained with neutral speech from all speakers. Finally, our model is trained using datasets of emotional speech from all speakers. In each stage, training samples of each speaker-emotion pair have equal probability to appear in mini-batches. Through this procedure, our model can synthesize speech for all targeted speakers and emotions. Our synthesized audio sets are available on our web page.
翻訳日:2021-12-08 13:31:56 公開日:2021-12-07
# (参考訳) ファンネル規則化を用いた畳み込みニューラルネットワーク圧縮のための低ランクテンソル分解 [全文訳有]

Low-rank Tensor Decomposition for Compression of Convolutional Neural Networks Using Funnel Regularization ( http://arxiv.org/abs/2112.03690v1 )

ライセンス: CC BY 4.0
Bo-Shiuan Chu, Che-Rung Lee(参考訳) テンソル分解は、複雑な構造間の潜伏関係を明らかにする能力により、深部畳み込みニューラルネットワークのモデル圧縮の基本的な手法の1つである。 しかし、既存の方法の多くはネットワーク層をレイヤ単位で圧縮するので、グローバル最適化を実現するための十分なソリューションを提供しられない。 本稿では,畳み込み層の低ランクテンソル分解を用いて事前学習したネットワークを圧縮するモデル低減法を提案する。 本手法は,分解したネットワーク層を適切にランク付けする最適化手法に基づく。 圧縮中の重要でない因子を抑制するため, ファンネル関数と呼ばれる新しい正規化法が提案されている。 実験の結果,他のテンソル圧縮法よりもモデルパラメータを低減できることがわかった。 ImageNet2012のResNet18では、GMACでは0.7%のTop-1精度低下が達成され、両方のメトリクスで既存のメソッドよりも優れています。

Tensor decomposition is one of the fundamental technique for model compression of deep convolution neural networks owing to its ability to reveal the latent relations among complex structures. However, most existing methods compress the networks layer by layer, which cannot provide a satisfactory solution to achieve global optimization. In this paper, we proposed a model reduction method to compress the pre-trained networks using low-rank tensor decomposition of the convolution layers. Our method is based on the optimization techniques to select the proper ranks of decomposed network layers. A new regularization method, called funnel function, is proposed to suppress the unimportant factors during the compression, so the proper ranks can be revealed much easier. The experimental results show that our algorithm can reduce more model parameters than other tensor compression methods. For ResNet18 with ImageNet2012, our reduced model can reach more than twi times speed up in terms of GMAC with merely 0.7% Top-1 accuracy drop, which outperforms most existing methods in both metrics.
翻訳日:2021-12-08 13:28:25 公開日:2021-12-07
# 接地言語画像事前学習

Grounded Language-Image Pre-training ( http://arxiv.org/abs/2112.03857v1 )

ライセンス: Link先を確認
Liunian Harold Li, Pengchuan Zhang, Haotian Zhang, Jianwei Yang, Chunyuan Li, Yiwu Zhong, Lijuan Wang, Lu Yuan, Lei Zhang, Jenq-Neng Hwang, Kai-Wei Chang, Jianfeng Gao(参考訳) 本稿では,オブジェクトレベル,言語認識,意味豊かな視覚表現を学習するための言語画像事前学習(GLIP)モデルを提案する。 glipは事前トレーニングのためのオブジェクト検出とフレーズグラウンドを統一する。 統一は2つの利点をもたらす。 1) GLIPは、検出データとグラウンドデータの両方から学習し、両方のタスクを改善し、良いグラウンドモデルをブートストラップすることができる。 2)GLIPは,自己学習方式でグラウンドボックスを生成することで,大量の画像テキストペアを活用できる。 実験では、3mの人間と24mの画像テキストペアを含む27mの接地データに対してglipを事前学習した。 学習された表現は、様々なオブジェクトレベルの認識タスクに対して強いゼロショットと少数ショットの転送可能性を示す。 1)COCOとLVISを直接評価した場合(事前トレーニング中にCOCOで画像を見ることなく)、GLIPは49.8 APと26.9 APをそれぞれ達成し、多くの教師付きベースラインを超えた。 2) COCOの微調整後, GLIPはvalで60.8 AP, test-devで61.5 APを達成し, SoTAより先行した。 3) 下流オブジェクト検出タスク13件に移行した場合, GLIPはフル教師付きダイナミックヘッドと競合する。 コードはhttps://github.com/m icrosoft/GLIPでリリースされる。

This paper presents a grounded language-image pre-training (GLIP) model for learning object-level, language-aware, and semantic-rich visual representations. GLIP unifies object detection and phrase grounding for pre-training. The unification brings two benefits: 1) it allows GLIP to learn from both detection and grounding data to improve both tasks and bootstrap a good grounding model; 2) GLIP can leverage massive image-text pairs by generating grounding boxes in a self-training fashion, making the learned representation semantic-rich. In our experiments, we pre-train GLIP on 27M grounding data, including 3M human-annotated and 24M web-crawled image-text pairs. The learned representations demonstrate strong zero-shot and few-shot transferability to various object-level recognition tasks. 1) When directly evaluated on COCO and LVIS (without seeing any images in COCO during pre-training), GLIP achieves 49.8 AP and 26.9 AP, respectively, surpassing many supervised baselines. 2) After fine-tuned on COCO, GLIP achieves 60.8 AP on val and 61.5 AP on test-dev, surpassing prior SoTA. 3) When transferred to 13 downstream object detection tasks, a 1-shot GLIP rivals with a fully-supervised Dynamic Head. Code will be released at https://github.com/m icrosoft/GLIP.
翻訳日:2021-12-08 13:15:28 公開日:2021-12-07
# CMA-CLIP:画像テキスト分類のためのクロスモーダルアテンションCLIP

CMA-CLIP: Cross-Modality Attention CLIP for Image-Text Classification ( http://arxiv.org/abs/2112.03562v1 )

ライセンス: Link先を確認
Huidong Liu (1), Shaoyuan Xu (2), Jinmiao Fu (2), Yang Liu (2), Ning Xie (2), Chien-chih Wang (2), Bryan Wang (2), Yi Sun (2) ((1) Stony Brook University, (2) Amazon Inc.)(参考訳) ソーシャルメディアやeコマースのような現代のウェブシステムは、画像やテキストで表現された豊富なコンテンツを含んでいる。 マルチモダリティの情報を活用することで、分類やレコメンデーションといった機械学習タスクのパフォーマンスが向上する。 本稿では,相互モダリティの注意とモダリティの注意という2つのタイプの注意を統一し,画像とテキストのペアから情報を効果的に融合する新しい枠組みである,相互モダリティの注意比較言語-イメージ事前学習(cma-clip)を提案する。 シーケンシャルな注意によって、フレームはイメージパッチとテキストトークンの間のきめ細かい関係を捉えることができ、モダリティ的な注意は下流タスクとの関連性によって各モダリティを重くします。 さらに,多層型パーセプトロンとタスク固有モダリティアテンションを追加することで,マルチモダリティを用いたマルチタスク分類が可能となる。 我々は,Major Retail Website Product Attribute(MRWPA)データセットと2つのパブリックデータセットであるFood101とFashion-Genで実験を行った。 CMA-CLIPは、マルチタスク分類のためのMRWPAデータセットと同レベルの精度で、平均11.9%のリコールでトレーニング済みおよび微調整済みのCLIPよりも優れていた。 また、Fashion-Gen Datasetの最先端の手法を5.5%の精度で上回り、Food101 Dataset上での競合性能を達成する。 より詳細なアブレーション研究を通じて,画像およびテキスト入力におけるモーダリティ・アテンション・モジュールの有効性と,本手法の雑音に対する頑健性の両立を実証する。

Modern Web systems such as social media and e-commerce contain rich contents expressed in images and text. Leveraging information from multi-modalities can improve the performance of machine learning tasks such as classification and recommendation. In this paper, we propose the Cross-Modality Attention Contrastive Language-Image Pre-training (CMA-CLIP), a new framework which unifies two types of cross-modality attentions, sequence-wise attention and modality-wise attention, to effectively fuse information from image and text pairs. The sequence-wise attention enables the framework to capture the fine-grained relationship between image patches and text tokens, while the modality-wise attention weighs each modality by its relevance to the downstream tasks. In addition, by adding task specific modality-wise attentions and multilayer perceptrons, our proposed framework is capable of performing multi-task classification with multi-modalities. We conduct experiments on a Major Retail Website Product Attribute (MRWPA) dataset and two public datasets, Food101 and Fashion-Gen. The results show that CMA-CLIP outperforms the pre-trained and fine-tuned CLIP by an average of 11.9% in recall at the same level of precision on the MRWPA dataset for multi-task classification. It also surpasses the state-of-the-art method on Fashion-Gen Dataset by 5.5% in accuracy and achieves competitive performance on Food101 Dataset. Through detailed ablation studies, we further demonstrate the effectiveness of both cross-modality attention modules and our method's robustness against noise in image and text inputs, which is a common challenge in practice.
翻訳日:2021-12-08 13:14:45 公開日:2021-12-07
# 複素数値ニューラルネットワークのスペクトル複雑度スケール一般化境界

Spectral Complexity-scaled Generalization Bound of Complex-valued Neural Networks ( http://arxiv.org/abs/2112.03467v1 )

ライセンス: Link先を確認
Haowen Chen, Fengxiang He, Shiye Lei and Dacheng Tao(参考訳) 複雑評価ニューラルネットワーク(CVNN)は様々な分野、特に信号処理や画像認識に広く応用されている。 しかし,CVNNの一般化に注目する研究はほとんどないが,未確認データ上でのCVNNの性能確保は不可欠である。 本稿では,複素数値ニューラルネットワークの一般化を証明した最初の論文である。 境界スケールはスペクトル複雑性を伴うが、その支配的な要素は重み行列のスペクトルノルム積である。 さらに,トレーニングデータが逐次的である場合のcvnnに対する一般化も提供し,スペクトル複雑性の影響も受けている。 理論的には、これらの境界は Maurey Sparsification Lemma と Dudley Entropy Integral によって導かれる。 実験では、MNIST、FashionMNIST、CIFAR-10、CIFAR-100、Tiny ImageNet、IMDBなど、さまざまなデータセット上で複雑な値の畳み込みニューラルネットワークをトレーニングして実験を行う。 スピアマンの階階相関係数とこれらのデータセット上の対応するp値は、重み行列スペクトルノルム積によって測定されたネットワークのスペクトル複雑性が一般化能力と統計的に有意な相関を持つという強い証明を与える。

Complex-valued neural networks (CVNNs) have been widely applied to various fields, especially signal processing and image recognition. However, few works focus on the generalization of CVNNs, albeit it is vital to ensure the performance of CVNNs on unseen data. This paper is the first work that proves a generalization bound for the complex-valued neural network. The bound scales with the spectral complexity, the dominant factor of which is the spectral norm product of weight matrices. Further, our work provides a generalization bound for CVNNs when training data is sequential, which is also affected by the spectral complexity. Theoretically, these bounds are derived via Maurey Sparsification Lemma and Dudley Entropy Integral. Empirically, we conduct experiments by training complex-valued convolutional neural networks on different datasets: MNIST, FashionMNIST, CIFAR-10, CIFAR-100, Tiny ImageNet, and IMDB. Spearman's rank-order correlation coefficients and the corresponding p values on these datasets give strong proof that the spectral complexity of the network, measured by the weight matrices spectral norm product, has a statistically significant correlation with the generalization ability.
翻訳日:2021-12-08 13:13:42 公開日:2021-12-07
# 少ない例で説明する深層モデルのトレーニング

Training Deep Models to be Explained with Fewer Examples ( http://arxiv.org/abs/2112.03508v1 )

ライセンス: Link先を確認
Tomoharu Iwata and Yuya Yoshikawa(参考訳) 深いモデルは高い予測性能を達成するが、人間がその予測を理解することは困難である。 現実のアプリケーションが信頼性を正当化するためには、説明責任が重要です。 多くの例に基づく説明手法が提案されている。例えば、表現点選択では、トレーニング例のセットで定義された説明モデルを予測モデルの説明に用いる。 解釈可能性を向上させるためには,説明モデルの例数を減らすことが重要である。 しかし、そのような例に基づく説明モデルでは予測モデルをうまく近似することは困難であるため、例が少ない説明は不信である。 不誠実な説明は、説明可能なモデルによる予測が予測モデルによって異なることを意味する。 そこで本研究では,いくつかの例で説明モデルによって予測が忠実に説明されるような深層モデルの訓練手法を提案する。 予測モデルと説明モデルをスパース正規化器と共に訓練し,サンプル数を減らす。 提案手法は任意のニューラルネットワークに基づく予測モデルに組み込むことができる。 複数のデータセットを用いた実験により,提案手法が予測性能を維持しつつ忠実性を向上させることを実証した。

Although deep models achieve high predictive performance, it is difficult for humans to understand the predictions they made. Explainability is important for real-world applications to justify their reliability. Many example-based explanation methods have been proposed, such as representer point selection, where an explanation model defined by a set of training examples is used for explaining a prediction model. For improving the interpretability, reducing the number of examples in the explanation model is important. However, the explanations with fewer examples can be unfaithful since it is difficult to approximate prediction models well by such example-based explanation models. The unfaithful explanations mean that the predictions by the explainable model are different from those by the prediction model. We propose a method for training deep models such that their predictions are faithfully explained by explanation models with a small number of examples. We train the prediction and explanation models simultaneously with a sparse regularizer for reducing the number of examples. The proposed method can be incorporated into any neural network-based prediction models. Experiments using several datasets demonstrate that the proposed method improves faithfulness while keeping the predictive performance.
翻訳日:2021-12-08 13:13:22 公開日:2021-12-07
# なぜだ! --関係・因果構造の学習を支援する説明

Tell me why! -- Explanations support learning of relational and causal structure ( http://arxiv.org/abs/2112.03753v1 )

ライセンス: Link先を確認
Andrew K. Lampinen, Nicholas A. Roy, Ishita Dasgupta, Stephanie C. Y. Chan, Allison C. Tam, James L. McClelland, Chen Yan, Adam Santoro, Neil C. Rabinowitz, Jane X. Wang, Felix Hill(参考訳) 説明は人間の学習、特にAIの主要な課題である領域において、抽象を形成し、世界の再帰的・因果的構造について学ぶ上で重要な役割を担っている。 ここでは,強化学習エージェントが説明の恩恵を受けるかどうかを検討する。 我々は、集合内の奇数な対象(すなわち、多くの可能な特徴次元の1つに一意)を選択するための関係性タスクのファミリーを概説する。 オッドワンアウトタスクでは、エージェントは一連のオブジェクト間の多次元関係を推論する必要がある。 エージェントは報酬だけではこれらのタスクをうまく学習しないが、オブジェクトの特性や選択が正しくない理由を説明する言語を生成する訓練を受けた場合、90%以上のパフォーマンスを達成する。 さらなる実験では、予測説明がエージェントを曖昧で因果的結合のトレーニングから適切に一般化し、メタリーンは因果構造を識別するために実験的な介入を行うことができることを示す。 説明は,単純な特徴に固執するエージェントの傾向を克服し,説明のどの側面が最も有益かを探究する上で有効であることを示す。 我々の結果は、説明からの学習が強力な原則であり、より堅牢で一般的な機械学習システムのトレーニングに有望な道をもたらすことを示唆している。

Explanations play a considerable role in human learning, especially in areas thatremain major challenges for AI -- forming abstractions, and learning about the re-lational and causal structure of the world. Here, we explore whether reinforcement learning agents might likewise benefit from explanations. We outline a family of relational tasks that involve selecting an object that is the odd one out in a set (i.e., unique along one of many possible feature dimensions). Odd-one-out tasks require agents to reason over multi-dimensional relationships among a set of objects. We show that agents do not learn these tasks well from reward alone, but achieve >90% performance when they are also trained to generate language explaining object properties or why a choice is correct or incorrect. In further experiments, we show how predicting explanations enables agents to generalize appropriately from ambiguous, causally-confounded training, and even to meta-learn to perform experimental interventions to identify causal structure. We show that explanations help overcome the tendency of agents to fixate on simple features, and explore which aspects of explanations make them most beneficial. Our results suggest that learning from explanations is a powerful principle that could offer a promising path towards training more robust and general machine learning systems.
翻訳日:2021-12-08 13:13:07 公開日:2021-12-07
# (参考訳) 不確実性評価のための多変量・グローバル・アモータイズド対策 [全文訳有]

Diverse, Global and Amortised Counterfactual Explanations for Uncertainty Estimates ( http://arxiv.org/abs/2112.02646v2 )

ライセンス: CC BY 4.0
Dan Ley, Umang Bhatt, Adrian Weller(参考訳) 微分確率モデルからの不確実性推定を解釈するために、最近の研究は、モデルが不確実である与えられたデータポイントに対して、モデルが予測においてより確実になるように、入力に対する1つのオンマンフォールドな変化を識別する単一の非確実性説明(CLUE)を生成することを提案した。 我々は、潜在空間における元の入力の$\delta$ボール内の潜在的な手がかりのセットである$\delta$-clueを調べるために探索を広げる。 このような集合の多様性を研究し,多くの手掛かりが冗長であることを見いだす。そのために我々は,入力に関する不確実性をいかに減少させるか,それぞれが個別に説明できる手掛かりである多様手掛かり(\nabla$-clue)を提案する。 さらに,GLobal AMortized CLUE (GLAM-CLUE) を提案する。これは,不確実な入力の特定のグループに対する償却写像を学習し,それらを単一の関数呼び出しで効率的に変換し,モデルが確実な入力に変換する方法である。 実験の結果, CLUE の欠点は $\delta$-CLUE, $\nabla$-CLUE および GLAM-CLUE がすべて解決し, 実践者に不確実性推定の有益な説明を提供することがわかった。

To interpret uncertainty estimates from differentiable probabilistic models, recent work has proposed generating a single Counterfactual Latent Uncertainty Explanation (CLUE) for a given data point where the model is uncertain, identifying a single, on-manifold change to the input such that the model becomes more certain in its prediction. We broaden the exploration to examine $\delta$-CLUE, the set of potential CLUEs within a $\delta$ ball of the original input in latent space. We study the diversity of such sets and find that many CLUEs are redundant; as such, we propose DIVerse CLUE ($\nabla$-CLUE), a set of CLUEs which each propose a distinct explanation as to how one can decrease the uncertainty associated with an input. We then further propose GLobal AMortised CLUE (GLAM-CLUE), a distinct and novel method which learns amortised mappings on specific groups of uncertain inputs, taking them and efficiently transforming them in a single function call into inputs for which a model will be certain. Our experiments show that $\delta$-CLUE, $\nabla$-CLUE, and GLAM-CLUE all address shortcomings of CLUE and provide beneficial explanations of uncertainty estimates to practitioners.
翻訳日:2021-12-08 12:25:33 公開日:2021-12-07
# (参考訳) ニューラルネットワーク予測のためのペアワイズ学習 [全文訳有]

Pairwise Learning for Neural Link Prediction ( http://arxiv.org/abs/2112.02936v2 )

ライセンス: CC BY 4.0
Zhitao Wang, Yong Zhou, Litao Hong, Yuanhang Zou and Hanjing Su(参考訳) 本稿では,効果的なペアワイズ学習ニューラルネットワーク予測(plnlp)フレームワークを提供することを目的としている。 このフレームワークは、リンク予測を問題をランク付けするためのペアワイズ学習として扱い、近隣エンコーダ、リンク予測器、負のサンプリング器、客観的関数の4つの主要コンポーネントから構成される。 このフレームワークは、任意の汎用グラフニューラル畳み込みやリンク予測固有のニューラルアーキテクチャを近隣エンコーダとして使用することができる。 リンク予測のために、異なる種類のグラフに基づいて選択できる異なるスコアリング関数を設計した。 負のサンプラーでは、問題固有のいくつかのサンプリング戦略を提供する。 目的関数については,標準ランキング基準AUCをほぼ最大化する効果的なランキング損失を用いることを提案する。 提案するPLNLPフレームワークは, ogbl-ddi, ogbl-collab, ogbl-ppa, ogbl-ciation2を含むOpen Graph Benchmarkの4つのリンク特性予測データセット上で評価する。 PLNLPはogbl-ddiでトップ1、ogbl-collabとogbl-ciation2でトップ2のパフォーマンスは基本的なニューラルネットワークアーキテクチャでのみ達成している。 この性能はplnlpの有効性を示す。

In this paper, we aim at providing an effective Pairwise Learning Neural Link Prediction (PLNLP) framework. The framework treats link prediction as a pairwise learning to rank problem and consists of four main components, i.e., neighborhood encoder, link predictor, negative sampler and objective function. The framework is flexible that any generic graph neural convolution or link prediction specific neural architecture could be employed as neighborhood encoder. For link predictor, we design different scoring functions, which could be selected based on different types of graphs. In negative sampler, we provide several sampling strategies, which are problem specific. As for objective function, we propose to use an effective ranking loss, which approximately maximizes the standard ranking metric AUC. We evaluate the proposed PLNLP framework on 4 link property prediction datasets of Open Graph Benchmark, including ogbl-ddi, ogbl-collab, ogbl-ppa and ogbl-ciation2. PLNLP achieves Top 1 performance on ogbl-ddi, and Top 2 performance on ogbl-collab and ogbl-ciation2 only with basic neural architecture. The performance demonstrates the effectiveness of PLNLP.
翻訳日:2021-12-08 12:00:23 公開日:2021-12-07
# ベクトルステレオグラフィーによるテキスト表現の解釈可能なプライバシー保護

Interpretable Privacy Preservation of Text Representations Using Vector Steganography ( http://arxiv.org/abs/2112.02557v2 )

ライセンス: Link先を確認
Geetanjali Bihani(参考訳) 言語モデル(LM)が生成する文脈表現は、トレーニングコーパスに存在する刺激的な関連を学習する。 最近の知見では、敵はこれらの関連を利用してコーパス内で言及されているエンティティのプライベート属性をリバースエンジニアリングすることができる。 これらの知見は言語モデルのプライバシーリスクを最小化するための努力につながった。 しかし、既存のアプローチには解釈性がなく、データユーティリティーに妥協があり、プライバシの保証を提供していない。 そこで、私の博士研究の目的は、プライバシーを保証しながらデータの有用性を維持するテキスト表現のプライバシー保護に対する解釈可能なアプローチを開発することである。 そこで,本稿では,学習中に学習される分布的意味的性質を損なうために,ベクトル幾何学にステガノグラフィー的修正を組み込む手法を研究・開発することを目的としている。

Contextual word representations generated by language models (LMs) learn spurious associations present in the training corpora. Recent findings reveal that adversaries can exploit these associations to reverse-engineer the private attributes of entities mentioned within the corpora. These findings have led to efforts towards minimizing the privacy risks of language models. However, existing approaches lack interpretability, compromise on data utility and fail to provide privacy guarantees. Thus, the goal of my doctoral research is to develop interpretable approaches towards privacy preservation of text representations that retain data utility while guaranteeing privacy. To this end, I aim to study and develop methods to incorporate steganographic modifications within the vector geometry to obfuscate underlying spurious associations and preserve the distributional semantic properties learnt during training.
翻訳日:2021-12-08 11:50:14 公開日:2021-12-07
# グラフ上の拡張フリー自己教師付き学習

Augmentation-Free Self-Supervised Learning on Graphs ( http://arxiv.org/abs/2112.02472v2 )

ライセンス: Link先を確認
Namkyeong Lee, Junseok Lee, Chanyoung Park(参考訳) 近年,画像に対する自己教師あり手法の成功に触発されて,グラフ構造化データを用いた自己教師あり学習は,特に強調型コントラスト法を中心に急速に成長している。 しかし、注意深い拡張技法がなければ、グラフの基盤となるセマンティクスが劇的に変化する可能性があるため、グラフの強化は任意に振る舞うことができる。 その結果,既存の拡張手法の性能は,拡張方式,すなわち拡張に伴うハイパーパラメータの選択に大きく依存することがわかった。 本稿では,グラフのための拡張フリーな自己教師付き学習フレームワーク afgrl を提案する。 具体的には,局所構造情報とグローバルセマンティクスをグラフと共有するノードを発見することによって,グラフの代替ビューを生成する。 様々なノードレベルのタスク、すなわちノード分類、クラスタリング、および様々な実世界のデータセットにおける類似性探索に対する広範な実験は、AFGRLの優位性を示している。 AFGRLのソースコードはhttps://github.com/N amkyeong/AFGRLで公開されている。

Inspired by the recent success of self-supervised methods applied on images, self-supervised learning on graph structured data has seen rapid growth especially centered on augmentation-based contrastive methods. However, we argue that without carefully designed augmentation techniques, augmentations on graphs may behave arbitrarily in that the underlying semantics of graphs can drastically change. As a consequence, the performance of existing augmentation-based methods is highly dependent on the choice of augmentation scheme, i.e., hyperparameters associated with augmentations. In this paper, we propose a novel augmentation-free self-supervised learning framework for graphs, named AFGRL. Specifically, we generate an alternative view of a graph by discovering nodes that share the local structural information and the global semantics with the graph. Extensive experiments towards various node-level tasks, i.e., node classification, clustering, and similarity search on various real-world datasets demonstrate the superiority of AFGRL. The source code for AFGRL is available at https://github.com/N amkyeong/AFGRL.
翻訳日:2021-12-08 11:50:01 公開日:2021-12-07
# PTTR:Transformerを用いたリレーショナル3Dポイントクラウドオブジェクト追跡

PTTR: Relational 3D Point Cloud Object Tracking with Transformer ( http://arxiv.org/abs/2112.02857v2 )

ライセンス: Link先を確認
Changqing Zhou, Zhipeng Luo, Yueru Luo, Tianrui Liu, Liang Pan, Zhongang Cai, Haiyu Zhao, Shijian Lu(参考訳) ポイントクラウドシーケンスでは、3dオブジェクト追跡はテンプレートポイントクラウドによって現在の検索ポイントクラウド内のオブジェクトの位置と方向を予測することを目的としている。 変圧器の成功に動機づけられた点追尾変圧器(pttr)は,変圧器操作の助けを借りて,高品質な3d追尾結果を高精度に予測する。 PTTRは3つの新しいデザインで構成されている。 1) ランダムサンプリングの代わりに, サブサンプリング中のテンプレートに関連点を保持するリレーアウェアサンプリングを設計する。 2) 自己着脱加群と交差着脱加群からなる点関係変換器(prt)を提案する。 global self-attention operationは、検索エリアとテンプレートのエンコードされたポイント特徴を強化するために、長距離依存関係をキャプチャする。 次に,2組の点特徴をクロスアテンションによってマッチングすることにより,粗い追跡結果を生成する。 3) 粗い追跡結果に基づいて, 最終改良予測を得るために, 新規な予測リファインメントモジュールを用いる。 さらに、waymo open datasetをベースに、大規模なポイントクラウドシングルオブジェクトトラッキングベンチマークを作成します。 広範囲にわたる実験により、PTTRは精度と効率の両方で優れた点雲追跡を実現することが示された。

In a point cloud sequence, 3D object tracking aims to predict the location and orientation of an object in the current search point cloud given a template point cloud. Motivated by the success of transformers, we propose Point Tracking TRansformer (PTTR), which efficiently predicts high-quality 3D tracking results in a coarse-to-fine manner with the help of transformer operations. PTTR consists of three novel designs. 1) Instead of random sampling, we design Relation-Aware Sampling to preserve relevant points to given templates during subsampling. 2) Furthermore, we propose a Point Relation Transformer (PRT) consisting of a self-attention and a cross-attention module. The global self-attention operation captures long-range dependencies to enhance encoded point features for the search area and the template, respectively. Subsequently, we generate the coarse tracking results by matching the two sets of point features via cross-attention. 3) Based on the coarse tracking results, we employ a novel Prediction Refinement Module to obtain the final refined prediction. In addition, we create a large-scale point cloud single object tracking benchmark based on the Waymo Open Dataset. Extensive experiments show that PTTR achieves superior point cloud tracking in both accuracy and efficiency.
翻訳日:2021-12-08 11:49:43 公開日:2021-12-07
# 表現型音声駆動3次元顔アニメーションのための音声テキスト統合モデル

Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation ( http://arxiv.org/abs/2112.02214v2 )

ライセンス: Link先を確認
Yingruo Fan, Zhaojiang Lin, Jun Saito, Wenping Wang, Taku Komura(参考訳) 正確な唇同期による音声駆動型3次元顔アニメーションが広く研究されている。 しかし、発話中の顔全体のリアルな動きの合成は、ほとんど研究されていない。 本稿では,表現力のある3次元顔アニメーションの文脈情報を取り込むための音声テキスト統合モデルを提案する。 既存のデータセットは、文の代わりにできるだけ多くの異なる音素をカバーするために収集されるため、より多様な文脈を学習するオーディオベースモデルの能力は制限される。 そこで本研究では,大規模テキストデータから豊富な文脈表現を学習した強力な事前学習言語モデルから抽出した文脈テキスト埋め込みの活用を提案する。 私たちの仮説は、テキスト機能は、音声と強く相関しない上面表現のバリエーションを曖昧にすることができるというものです。 テキストから音素レベル特徴を学習する先行手法とは対照的に,音声駆動3次元顔アニメーションにおける高レベル文脈テキスト特徴について検討する。 音声と音声の同期を保ちながら現実的な表情を合成できることを示す。 我々は,定量的,質的な評価と知覚的ユーザスタディを実施している。 その結果,既存の最先端手法と比較して,モデルの性能が優れていることが示された。

Speech-driven 3D facial animation with accurate lip synchronization has been widely studied. However, synthesizing realistic motions for the entire face during speech has rarely been explored. In this work, we present a joint audio-text model to capture the contextual information for expressive speech-driven 3D facial animation. The existing datasets are collected to cover as many different phonemes as possible instead of sentences, thus limiting the capability of the audio-based model to learn more diverse contexts. To address this, we propose to leverage the contextual text embeddings extracted from the powerful pre-trained language model that has learned rich contextual representations from large-scale text data. Our hypothesis is that the text features can disambiguate the variations in upper face expressions, which are not strongly correlated with the audio. In contrast to prior approaches which learn phoneme-level features from the text, we investigate the high-level contextual text features for speech-driven 3D facial animation. We show that the combined acoustic and textual modalities can synthesize realistic facial expressions while maintaining audio-lip synchronization. We conduct the quantitative and qualitative evaluations as well as the perceptual user study. The results demonstrate the superior performance of our model against existing state-of-the-art approaches.
翻訳日:2021-12-08 11:49:23 公開日:2021-12-07