このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220426となっている論文です。

PDF登録状況(公開日: 20220426)

TitleAuthorsAbstract論文公表日・翻訳日
# 対物推論によるコミュニケーションの学習

Learning to Communicate Using Counterfactual Reasoning ( http://arxiv.org/abs/2006.07200v4 )

ライセンス: Link先を確認
Simon Vanneste, Astrid Vanneste, Kevin Mets, Tom De Schepper, Ali Anwar, Siegfried Mercelis, Steven Latr\'e, Peter Hellinckx(参考訳) 状態情報を共有するためのコミュニケーションの学習は、マルチエージェント強化学習(marl)の分野では活発な問題である。 信用割当問題、通信環境の非定常性、影響力のあるエージェントの作成は、有効な通信プロトコルを学ぶために克服する必要があるこの研究分野における大きな課題である。 本稿では,コミュニケーションエージェントのクレジット代入問題を克服するために,対実的推論に適応する新しいマルチエージェント対実的コミュニケーション学習(MACC)手法を提案する。 第2に、他のエージェントのアクションポリシーとアクション環境のQ関数を用いて通信Q関数を作成することにより、通信Q関数を学習しながら通信環境の非定常性を克服する。 さらに、有効な通信プロトコルを学ぶために必要な影響力のあるエージェントを作成するために、社会的損失関数を導入する。 実験の結果, 粒子環境において, maccは4つの異なるシナリオにおいて最先端のベースラインを上回ることができることがわかった。

Learning to communicate in order to share state information is an active problem in the area of multi-agent reinforcement learning (MARL). The credit assignment problem, the non-stationarity of the communication environment and the creation of influenceable agents are major challenges within this research field which need to be overcome in order to learn a valid communication protocol. This paper introduces the novel multi-agent counterfactual communication learning (MACC) method which adapts counterfactual reasoning in order to overcome the credit assignment problem for communicating agents. Secondly, the non-stationarity of the communication environment while learning the communication Q-function is overcome by creating the communication Q-function using the action policy of the other agents and the Q-function of the action environment. Additionally, a social loss function is introduced in order to create influenceable agents which is required to learn a valid communication protocol. Our experiments show that MACC is able to outperform the state-of-the-art baselines in four different scenarios in the Particle environment.
翻訳日:2022-11-22 03:43:42 公開日:2022-04-26
# 大規模中国語短文会話データセット

A Large-Scale Chinese Short-Text Conversation Dataset ( http://arxiv.org/abs/2008.03946v2 )

ライセンス: Link先を確認
Yida Wang, Pei Ke, Yinhe Zheng, Kaili Huang, Yong Jiang, Xiaoyan Zhu, and Minlie Huang(参考訳) ニューラルダイアログ生成モデルの進歩は、短文会話のモデル化において有望な結果を示す。 しかし、そのようなモデルのトレーニングは通常、アクセスが難しい大規模な高品質な対話コーパスを必要とする。 本稿では,大規模な中国語会話データセットLCCCについて,ベースバージョン(6.8万対話),大バージョン(12.0万対話)について述べる。 データセットの品質は、厳密なデータクリーニングパイプラインによって保証されます。これはルールセットと、手動で注釈付き110Kの対話ペアに基づいてトレーニングされた分類器に基づいて構築されます。 また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。 クリーンなデータセットと事前トレーニングモデルにより、短いテキスト会話モデリングの研究が容易になる。 すべてのモデルとデータセットはhttps://github.com/thu-coai/CDial-GPTで公開されている。

The advancements of neural dialogue generation models show promising results on modeling short-text conversations. However, training such models usually needs a large-scale high-quality dialogue corpus, which is hard to access. In this paper, we present a large-scale cleaned Chinese conversation dataset, LCCC, which contains a base version (6.8million dialogues) and a large version (12.0 million dialogues). The quality of our dataset is ensured by a rigorous data cleaning pipeline, which is built based on a set of rules and a classifier that is trained on manually annotated 110K dialogue pairs. We also release pre-training dialogue models which are trained on LCCC-base and LCCC-large respectively. The cleaned dataset and the pre-training models will facilitate the research of short-text conversation modeling. All the models and datasets are available at https://github.com/thu-coai/CDial-GPT.
翻訳日:2022-10-31 22:45:54 公開日:2022-04-26
# セマンティックビデオ予測におけるモジュラーアクション概念のグラウンディング

Modular Action Concept Grounding in Semantic Video Prediction ( http://arxiv.org/abs/2011.11201v4 )

ライセンス: Link先を確認
Wei Yu, Wenxin Chen, Songhenh Yin, Steve Easterbrook, Animesh Garg(参考訳) ビデオ予測における最近の研究は主に受動的予測と低レベル行動条件予測に焦点を当てており、エージェントとオブジェクトの相互作用の学習を補助している。 本稿では,これらのインタラクションを記述するためにセマンティックアクションラベルを使用するセマンティックアクション条件ビデオ予測のタスクを紹介し,アクション認識の逆問題とみなすことができる。 この新しいタスクの課題は主に、セマンティックアクション情報のモデルに効果的に情報を伝達する方法にある。 様々な視覚的概念学習者の構成された組み合わせによって,各抽象ラベルを具現化し,新しいビデオ予測モデルであるModular Action Concept Network (MAC)を提案する。 提案手法は,CLEVR-Building-Blocks と Sapien-Kitchen という2つの新しい合成データセットと,T Tower-Creation と呼ばれる実世界のデータセットを用いて評価した。 広範な実験により、macは与えられた命令を正しく条件付けし、バウンディングボックスを必要とせずに、対応する将来のフレームを生成することができる。 さらに,訓練されたモデルが分散の一般化を可能にし,新しい対象カテゴリに迅速に適応し,その学習的特徴をオブジェクト検出に活用し,高レベルの認知能力への進歩を示すことを示した。 詳細はhttp://www.pair.toronto.edu/mac/で確認できる。

Recent works in video prediction have mainly focused on passive forecasting and low-level action-conditional prediction, which sidesteps the learning of interaction between agents and objects. We introduce the task of semantic action-conditional video prediction, which uses semantic action labels to describe those interactions and can be regarded as an inverse problem of action recognition. The challenge of this new task primarily lies in how to effectively inform the model of semantic action information. Inspired by the idea of Mixture of Experts, we embody each abstract label by a structured combination of various visual concept learners and propose a novel video prediction model, Modular Action Concept Network (MAC). Our method is evaluated on two newly designed synthetic datasets, CLEVR-Building-Blocks and Sapien-Kitchen, and one real-world dataset called Tower-Creation. Extensive experiments demonstrate that MAC can correctly condition on given instructions and generate corresponding future frames without need of bounding boxes. We further show that the trained model can make out-of-distribution generalization, be quickly adapted to new object categories and exploit its learnt features for object detection, showing the progression towards higher-level cognitive abilities. More visualizations can be found at http://www.pair.toronto.edu/mac/.
翻訳日:2022-09-22 01:10:01 公開日:2022-04-26
# 制約に基づく微粒化手法による流体運動推定の枠組み

A Framework for Fluid Motion Estimation using a Constraint-Based Refinement Approach ( http://arxiv.org/abs/2011.12267v2 )

ライセンス: Link先を確認
Hirak Doshi, N. Uday Kiran(参考訳) 本論文の目的は, 拘束型リファインメント手法を用いて, 流体運動推定の一般的な枠組みを定式化することである。 制約の特定の選択に対して, 連続性方程式に基づく流体の流れを近似することを示した。 この近接性は修正拡張ラグランジアン法によって理論的に正当化され、数値的に検証される。 さらに、連続性制約とともに、我々のモデルは示されるような他の幾何学的制約を含むことができる。 数学的適切性はヒルベルト空間の設定で研究される。 さらに, このシステムの特長は, コーシー・リーマン作用素による対角化を可能とし, カール上の拡散過程と流れのばらつきに変換することである。 分離系上の半群の理論を用いて, この手法は分岐と渦の空間的特性を保っていることを示す。 いくつかの数値実験を行い、異なるデータセットで結果を示す。

The goal of this paper is to formulate a general framework for fluid motion estimation using a constraint-based refinement approach. We demonstrate that for a particular choice of the constraint, our results closely approximate the continuity equation based fluid flow. This closeness is theoretically justified through a modified augmented Lagrangian method and validated numerically. Further, along with the continuity constraint, our model can include other geometric constraints as demonstrated. The mathematical well-posedness is studied in the Hilbert space setting. Moreover, a special feature of our system is the possibility of a diagonalization by the Cauchy-Riemann operator and transforming it to a diffusion process on the curl and the divergence of the flow. Using the theory of semigroups on the decoupled system, we show that our approach preserves the spatial characteristics of the divergence and the vorticities. We perform several numerical experiments and show the results on different datasets.
翻訳日:2022-09-21 14:03:34 公開日:2022-04-26
# 遺伝的トンプソンサンプリングを用いた進化的多腕バンディット

Evolutionary Multi-Armed Bandits with Genetic Thompson Sampling ( http://arxiv.org/abs/2205.10113v1 )

ライセンス: Link先を確認
Baihan Lin(参考訳) 2つの一般的な機械学習の流派として、オンライン学習と進化的計算が、バイオメディシン、経済学、工学分野の応用のための実世界の意思決定エンジンの原動力となっている。 進化的アルゴリズムの最適化プロセスを改善するためにバンディットを利用する先行研究があるが、マルチアームのバンディットのようなオンライン学習エージェントのシーケンシャルな意思決定タスクを改善するのに進化的アプローチがいかに役立つかについては、まだ空白の分野である。 本研究は,エリート選択,クロスオーバー,突然変異などの遺伝的原理を用いて,エージェント群を保持して更新するバンディットアルゴリズムであるgenetic thompson samplingを提案する。 マルチアームバンディットシミュレーション環境における実験結果と,遺伝的アルゴリズムをバンディットアルゴリズムに組み込むことにより,非定常環境でのベースラインを著しく上回ることを示す。 最後に、学習プロセス全体を通して読者をガイドし、短時間で軽量な評価を行うwebベースのインタラクティブな可視化であるevobanditを紹介する。 この調査で研究者をこの成長分野に巻き込みたいと思っています。

As two popular schools of machine learning, online learning and evolutionary computations have become two important driving forces behind real-world decision making engines for applications in biomedicine, economics, and engineering fields. Although there are prior work that utilizes bandits to improve evolutionary algorithms' optimization process, it remains a field of blank on how evolutionary approach can help improve the sequential decision making tasks of online learning agents such as the multi-armed bandits. In this work, we propose the Genetic Thompson Sampling, a bandit algorithm that keeps a population of agents and update them with genetic principles such as elite selection, crossover and mutations. Empirical results in multi-armed bandit simulation environments and a practical epidemic control problem suggest that by incorporating the genetic algorithm into the bandit algorithm, our method significantly outperforms the baselines in nonstationary settings. Lastly, we introduce EvoBandit, a web-based interactive visualization to guide the readers through the entire learning process and perform lightweight evaluations on the fly. We hope to engage researchers into this growing field of research with this investigation.
翻訳日:2022-05-29 21:22:14 公開日:2022-04-26
# 私の好きな色を知らない人:話者のプライベートペルソナの対話表現の防止

You Don't Know My Favorite Color: Preventing Dialogue Representations from Revealing Speakers' Private Personas ( http://arxiv.org/abs/2205.10228v1 )

ライセンス: Link先を確認
Haoran Li, Yangqiu Song and Lixin Fan(参考訳) チャットボット(チャットボット、chat-chat chatbots)は、大きな事前訓練された言語モデルで急速に進化する。 大規模な言語モデルのトレーニングデータを、モデル反転攻撃を通じて抽出することができる。 一方、チャットボットのトレーニングに使用されるデータセットには、2人の個人間のプライベートな会話が数多く含まれている。 本研究では、まだ十分に研究されていない言語モデリングによって訓練されたチャットボットの隠れ状態のプライバシー漏洩をさらに調査する。 話者のペルソナは,単純なニューラルネットワークを用いて高精度に推定できることを示す。 そこで本研究では,隠れた状態からペルソナ漏洩を保護する効果的な防御目標を提案する。 提案する防衛目標が攻撃精度を37.6%から0.5%に大幅に低減できることを示すため,広範囲な実験を行った。 一方、提案する目的は、言語モデルの強力な生成能力を維持することである。

Social chatbots, also known as chit-chat chatbots, evolve rapidly with large pretrained language models. Despite the huge progress, privacy concerns have arisen recently: training data of large language models can be extracted via model inversion attacks. On the other hand, the datasets used for training chatbots contain many private conversations between two individuals. In this work, we further investigate the privacy leakage of the hidden states of chatbots trained by language modeling which has not been well studied yet. We show that speakers' personas can be inferred through a simple neural network with high accuracy. To this end, we propose effective defense objectives to protect persona leakage from hidden states. We conduct extensive experiments to demonstrate that our proposed defense objectives can greatly reduce the attack accuracy from 37.6% to 0.5%. Meanwhile, the proposed objectives preserve language models' powerful generation ability.
翻訳日:2022-05-29 21:21:24 公開日:2022-04-26
# 言語理解のためのラベルアンカー型コントラスト学習

Label Anchored Contrastive Learning for Language Understanding ( http://arxiv.org/abs/2205.10227v1 )

ライセンス: Link先を確認
Zhenyu Zhang, Yuming Zhao, Meng Chen, Xiaodong He(参考訳) コントラスト学習(CL)は近年,コンピュータビジョン,音声,自然言語処理分野において,自己指導型学習によって驚くべき進歩を遂げている。 しかし、特に自然言語理解分類タスクにおいて、教師付き設定へのclアプローチは十分に検討されていない。 直感的には、クラスラベル自体が強正・負のマイニングを行う本質的な能力を持っている。 そこで本研究では,言語理解のための新しいラベルアンカー型コントラスト学習手法(lacon)を提案する。 具体的には、マルチヘッドインスタンス中心コントラスト損失(ICL)、ラベル中心コントラスト損失(LCL)、ラベル埋め込み正規化器(LER)の3つのコントラスト目標を考案した。 我々のアプローチでは、特別なネットワークアーキテクチャや追加のデータ拡張は必要とせず、既存の強力な事前学習言語モデルに簡単にプラグインできる。 最先端のベースラインと比較して、LaConはGLUEとCLUEベンチマークの一般的なデータセットで最大4.1%改善されている。 さらに、LaConは、FewGLUEとFewCLUEベンチマークタスクで最大9.4%改善された、数ショットとデータ不均衡設定の下で、大きな利点を示している。

Contrastive learning (CL) has achieved astonishing progress in computer vision, speech, and natural language processing fields recently with self-supervised learning. However, CL approach to the supervised setting is not fully explored, especially for the natural language understanding classification task. Intuitively, the class label itself has the intrinsic ability to perform hard positive/negative mining, which is crucial for CL. Motivated by this, we propose a novel label anchored contrastive learning approach (denoted as LaCon) for language understanding. Specifically, three contrastive objectives are devised, including a multi-head instance-centered contrastive loss (ICL), a label-centered contrastive loss (LCL), and a label embedding regularizer (LER). Our approach does not require any specialized network architecture or any extra data augmentation, thus it can be easily plugged into existing powerful pre-trained language models. Compared to the state-of-the-art baselines, LaCon obtains up to 4.1% improvement on the popular datasets of GLUE and CLUE benchmarks. Besides, LaCon also demonstrates significant advantages under the few-shot and data imbalance settings, which obtains up to 9.4% improvement on the FewGLUE and FewCLUE benchmarking tasks.
翻訳日:2022-05-29 21:20:35 公開日:2022-04-26
# (参考訳) ファジィクラスタリングにおける単語埋め込みと妥当性指標

Word Embeddings and Validity Indexes in Fuzzy Clustering ( http://arxiv.org/abs/2205.06802v1 )

ライセンス: CC0 1.0
Danial Toufani-Movaghar, Mohammad-Reza Feizi-Derakhshi(参考訳) インターネットシステムやアプリケーションの新時代において、大量のテキストから優れたトピックを検出するという概念が注目されている。 これらの手法は、単語間の人間に基づく意味的類似性を模倣するために、埋め込みと呼ばれる数値形式でテキストの表現を使用する。 本研究では,単語の様々なベクトル表現,すなわち単語埋め込みのファジィベース解析を行う。 また,フォレスト最適化と呼ばれる進化アルゴリズムを用いたファジィクラスタリング手法のハイブリッド実装に基づくファジィクラスタリングの新しい手法を提案する。 我々は2つのファジィクラスタリングアルゴリズムをカウントベースの単語埋め込みに使用し、異なる手法と次元を持つ。 Kaggleデータセットのコビッドに関する単語は、ベクターに収集され、クラスタ化される。 その結果,ファジィクラスタリングアルゴリズムは高次元データに非常に敏感であり,パラメータチューニングは性能を劇的に変化させる可能性がある。 本研究では,様々なクラスタリング妥当性指標を用いた実験結果を評価し,異なるアルゴリズム変動と異なる埋め込み精度を比較した。

In the new era of internet systems and applications, a concept of detecting distinguished topics from huge amounts of text has gained a lot of attention. These methods use representation of text in a numerical format -- called embeddings -- to imitate human-based semantic similarity between words. In this study, we perform a fuzzy-based analysis of various vector representations of words, i.e., word embeddings. Also we introduce new methods of fuzzy clustering based on hybrid implementation of fuzzy clustering methods with an evolutionary algorithm named Forest Optimization. We use two popular fuzzy clustering algorithms on count-based word embeddings, with different methods and dimensionality. Words about covid from Kaggle dataset gathered and calculated into vectors and clustered. The results indicate that fuzzy clustering algorithms are very sensitive to high-dimensional data, and parameter tuning can dramatically change their performance. We evaluate results of experiments with various clustering validity indexes to compare different algorithm variation with different embeddings accuracy.
翻訳日:2022-05-22 19:13:21 公開日:2022-04-26
# ネットワークへのaiの着陸:自律運転ネットワークにおける機器ベンダー視点

Landing AI on Networks: An equipment vendor viewpoint on Autonomous Driving Networks ( http://arxiv.org/abs/2205.08347v1 )

ライセンス: Link先を確認
Dario Rossi and Liang Zhang(参考訳) コンピュータビジョン、自然言語処理、ゲーム、ロボット工学における人工知能(AI)の素晴らしい成果は、AIの誇大宣伝を他の分野にも広げてきた。 本稿では,AI技術によって駆動される自律運転ネットワーク(ADN)の課題と可能性について論じる。 aiが現在のネットワークと将来のネットワークにどのように着陸できるかを理解するために、まずはネットワークドメイン特有の課題を概説し、aiが他の分野で達成した進歩を視野に入れます。 次に、システムビューを示し、AIがネットワークアーキテクチャにどのように適合できるかを明確にする。 最終的に我々は、ネットワークにおけるAIの現在の成果と将来の約束について議論し、ネットワークにおけるAIテクノロジの真の大規模展開につながる道路の膨張を避けるためのロードマップについて言及した。

The tremendous achievements of Artificial Intelligence (AI) in computer vision, natural language processing, games and robotics, has extended the reach of the AI hype to other fields: in telecommunication networks, the long term vision is to let AI fully manage, and autonomously drive, all aspects of network operation. In this industry vision paper, we discuss challenges and opportunities of Autonomous Driving Network (ADN) driven by AI technologies. To understand how AI can be successfully landed in current and future networks, we start by outlining challenges that are specific to the networking domain, putting them in perspective with advances that AI has achieved in other fields. We then present a system view, clarifying how AI can be fitted in the network architecture. We finally discuss current achievements as well as future promises of AI in networks, mentioning a roadmap to avoid bumps in the road that leads to true large-scale deployment of AI technologies in networks.
翻訳日:2022-05-22 12:15:35 公開日:2022-04-26
# (参考訳) テキストに基づく感情検出のレビュー --技術,アプリケーション,データセット,今後の方向性-

A Review on Text-Based Emotion Detection -- Techniques, Applications, Datasets, and Future Directions ( http://arxiv.org/abs/2205.03235v1 )

ライセンス: CC BY 4.0
Sheetal Kusal, Shruti Patil, Jyoti Choudrie, Ketan Kotecha, Deepali Vora, Ilias Pappas(参考訳) 人工知能(AI)は、データを処理して意思決定し、人間と対話し、感情や感情を理解するために使われてきた。 インターネットが出現すると、人々は日々の活動や、テキストメッセージングアプリケーションによるグローバルおよびローカルイベントについての考えを共有し、表現する。 したがって、機械が意見、フィードバック、テキスト対話の感情を理解することは、今日のオンライン世界のユーザに対して感情に敏感な応答を提供するために不可欠である。 テキストベースの感情検出(TBED)の分野は、ビジネスや財務など、さまざまなアプリケーションに自動化されたソリューションを提供しようとしている。 TBEDは近年多くの注目を集めている。 本稿では,2005年から2021年までのTBEDにおける既存の文献の体系的な文献レビューについて述べる。 このレビューでは、ieee、science direct、scopus、web of science databaseの63の研究論文を精査し、4つの主要な研究課題に対処した。 また、TBEDの様々な研究領域における様々な応用をレビューし、その利用を強調している。 様々な感情モデル、技法、特徴抽出方法、データセット、今後の方向性に関する研究課題の概観も提示されている。

Artificial Intelligence (AI) has been used for processing data to make decisions, interact with humans, and understand their feelings and emotions. With the advent of the internet, people share and express their thoughts on day-to-day activities and global and local events through text messaging applications. Hence, it is essential for machines to understand emotions in opinions, feedback, and textual dialogues to provide emotionally aware responses to users in today's online world. The field of text-based emotion detection (TBED) is advancing to provide automated solutions to various applications, such as businesses, and finances, to name a few. TBED has gained a lot of attention in recent times. The paper presents a systematic literature review of the existing literature published between 2005 to 2021 in TBED. This review has meticulously examined 63 research papers from IEEE, Science Direct, Scopus, and Web of Science databases to address four primary research questions. It also reviews the different applications of TBED across various research domains and highlights its use. An overview of various emotion models, techniques, feature extraction methods, datasets, and research challenges with future directions has also been represented.
翻訳日:2022-05-16 01:46:23 公開日:2022-04-26
# (参考訳) 因果関係をもつ機能分解木-材料インフォマティクスにおける問題の一考察と体系的記述

Function Decomposition Tree with Causality-First Perspective and Systematic Description of Problems in Materials Informatics ( http://arxiv.org/abs/2205.00829v1 )

ライセンス: CC BY 4.0
Hiori Kino, Hieu-Chi Dam, Takashi Miyake, Riichiro Mizoguchi(参考訳) 学際科学は材料情報学と追加の要因により栄えており、様々な分野の科学者間の知識の表現やコミュニケーションの促進に体系的な方法が求められている。 関数分解木はそのような表現であるが、ドメイン科学者はそれを構築するのが困難である。 そこで本研究では,関数分解木の生成において初心者が直面する一般的な問題を引用し,因果性第一視点に基づく関数分解表現法を提案する。 処理シーケンスに応じて表現されたワークフローから因果分解木を得る。 さらに,因果性優先分解木の特徴を用いて自動変換を行うプログラムを開発した。 本手法を材料情報学に応用し,専門知識の体系的表現とその有用性を実証した。

As interdisciplinary science is flourishing because of materials informatics and additional factors; a systematic way is required for expressing knowledge and facilitating communication between scientists in various fields. A function decomposition tree is such a representation, but domain scientists face difficulty in constructing it. Thus, this study cites the general problems encountered by beginners in generating function decomposition trees and proposes a new function decomposition representation method based on a causality-first perspective for resolution of these problems. The causality-first decomposition tree was obtained from a workflow expressed according to the processing sequence. Moreover, we developed a program that performed automatic conversion using the features of the causality-first decomposition trees. The proposed method was applied to materials informatics to demonstrate the systematic representation of expert knowledge and its usefullness.
翻訳日:2022-05-09 00:53:53 公開日:2022-04-26
# (参考訳) 集団適応系の連続挙動の離散モデル

Discrete models of continuous behavior of collective adaptive systems ( http://arxiv.org/abs/2205.00828v1 )

ライセンス: CC BY 4.0
Peter Fettke and Wolfgang Reisig(参考訳) 人工アリは「小さな」単位であり、共有された動的に変化する「空間」上で自律的に動き、何らかの情報を直接または間接的に交換する。 人工アリはしばしば集団適応システムのパラダイムとして考えられている。 本稿では,離散モデルにおける「アリ」の連続的な動きを表現する手段について論じる。 より一般的には、人工アリシステムやモデルにおける「時間」の概念の役割に挑戦する。 因果関係ではなく,因果関係に沿って行動を構築するモデリングフレームワークを提案する。 簡単な例の助けを借りて、全ての議論を示す。 私たちはモデリングフレームワークとしてHeraklitを採用しています。

Artificial ants are "small" units, moving autonomously around on a shared, dynamically changing "space", directly or indirectly exchanging some kind of information. Artificial ants are frequently conceived as a paradigm for collective adaptive systems. In this paper, we discuss means to represent continuous moves of "ants" in discrete models. More generally, we challenge the role of the notion of "time" in artificial ant systems and models. We suggest a modeling framework that structures behavior along causal dependencies, and not along temporal relations. We present all arguments by help of a simple example. As a modeling framework we employ Heraklit; an emerging framework that already has proven its worth in many contexts.
翻訳日:2022-05-09 00:52:56 公開日:2022-04-26
# アメリカンフットボールビデオにおける深層学習に基づく自動選手識別とログ

Deep Learning-based Automatic Player Identification and Logging in American Football Videos ( http://arxiv.org/abs/2204.13809v1 )

ライセンス: Link先を確認
Hongshan Liu, Colin Aderon, Noah Wagon, Huapu Liu, Steven MacCall, Yu Gan(参考訳) アメリカンフットボールの試合は毎年世界的な注目を集めている。 ゲーム分析システムは、ファンやコーチにプレイヤーのパフォーマンスを追跡し評価する便利な手段を提供することで、ゲームを分析する上で重要な情報を生成する。 参加するプレイヤーを識別することは、プレイヤー1人あたりのビデオインデクシングにも重要である。 フットボールゲームビデオの処理は、混雑した設定、歪んだオブジェクト、プレイヤー、特にジャージ番号を特定するための不均衡なデータなどの課題を示す。 本研究では,プレイヤーを自動的に追跡し,プレイ毎のインデクシングを行う深層学習型サッカービデオ分析システムを提案する。 関心領域を強調表示し、ジャージー番号情報を高精度に識別する多段階ネットワーク設計である。 まず,物体検出ネットワーク,検出変換器を用いて,混雑した状況下でのプレイヤー検出問題に対処する。 次に、ジャージ数認識と二次畳み込みニューラルネットワークを用いてプレイヤーを識別し、ゲームクロックサブシステムと同期する。 最後に、システムは、プレイインデクシングのためにデータベースに完全なログを出力する。 フットボールビデオの質的,定量的な結果を分析することにより,選手識別とログシステムの有効性と信頼性を示す。 提案システムでは,フットボール放送映像の実装と分析に大きな可能性を示す。

American football games attract significant worldwide attention every year. Game analysis systems generate crucial information that can help analyze the games by providing fans and coaches with a convenient means to track and evaluate player performance. Identifying participating players in each play is also important for the video indexing of player participation per play. Processing football game video presents challenges such as crowded setting, distorted objects, and imbalanced data for identifying players, especially jersey numbers. In this work, we propose a deep learning-based football video analysis system to automatically track players and index their participation per play. It is a multi-stage network design to highlight area of interest and identify jersey number information with high accuracy. First, we utilize an object detection network, a detection transformer, to tackle the player detection problem in crowded context. Second, we identify players using jersey number recognition with a secondary convolutional neural network, then synchronize it with a game clock subsystem. Finally, the system outputs a complete log in a database for play indexing. We demonstrate the effectiveness and reliability of player identification and the logging system by analyzing the qualitative and quantitative results on football videos. The proposed system shows great potential for implementation in and analysis of football broadcast video.
翻訳日:2022-05-08 23:38:45 公開日:2022-04-26
# ハイブリッド対向オートエンコーダによる熱放射メタマテリアルの設計とベイズ最適化

Designing thermal radiation metamaterials via hybrid adversarial autoencoder and Bayesian optimization ( http://arxiv.org/abs/2205.01063v1 )

ライセンス: Link先を確認
Dezhao Zhu, Jiang Guo, Gang Yu, C. Y. Zhao, Hong Wang, Shenghong Ju(参考訳) 熱放射メタマテリアルの設計は、特に高い自由度と複雑な目的を持つ問題に対して困難である。 本稿では,対象波長の異なる狭帯域熱エミッタを設計するために,逆オートエンコーダとベイズ最適化を組み合わせたハイブリッド材料インフォマティクス手法を開発した。 数百のトレーニングデータセットだけで、最適な性質を持つ新しい構造は、圧縮された2次元ラテント空間ですぐに理解することができる。 これにより、全体の候補構造の0.001\%未満を計算して最適設計が可能となり、設計期間とコストを大幅に削減できる。 提案する設計枠組みは,高次元特徴を持つ他の熱放射性メタマテリアルの設計に容易に拡張することができる。

Designing thermal radiation metamaterials is challenging especially for problems with high degrees of freedom and complex objective. In this letter, we have developed a hybrid materials informatics approach which combines the adversarial autoencoder and Bayesian optimization to design narrowband thermal emitters at different target wavelengths. With only several hundreds of training data sets, new structures with optimal properties can be quickly figured out in a compressed 2-dimensional latent space. This enables the optimal design by calculating far less than 0.001\% of the total candidate structures, which greatly decreases the design period and cost. The proposed design framework can be easily extended to other thermal radiation metamaterials design with higher dimensional features.
翻訳日:2022-05-08 23:37:27 公開日:2022-04-26
# (参考訳) モジュールドメイン適応

Modular Domain Adaptation ( http://arxiv.org/abs/2204.14213v1 )

ライセンス: CC BY-SA 4.0
Junshen K. Chen and Dallas Card and Dan Jurafsky(参考訳) 市販のモデルは、感情などのテキストの性質を測定するために計算社会科学の研究者によって広く使われている。 しかし、ソースデータにアクセスできなければ、妥当性の脅威となる領域シフトを考慮に入れることは困難である。 ここでは、ドメイン適応を、モデルプロデューサとモデルコンシューマを分離したモジュラープロセスとして扱い、テキストのより正確な測定を容易にするために、独立して協調する方法を示す。 このシナリオに対して2つの軽量な手法を導入し、線形および文脈埋め込みモデルを用いて4つのマルチドメインテキスト分類データセットのドメイン外精度を確実に向上することを示した。 最後に,モデルプロデューサとコンシューマに対するレコメンデーション,および本論文に付随するリリースモデルとレプリケーションコードについて述べる。

Off-the-shelf models are widely used by computational social science researchers to measure properties of text, such as sentiment. However, without access to source data it is difficult to account for domain shift, which represents a threat to validity. Here, we treat domain adaptation as a modular process that involves separate model producers and model consumers, and show how they can independently cooperate to facilitate more accurate measurements of text. We introduce two lightweight techniques for this scenario, and demonstrate that they reliably increase out-of-domain accuracy on four multi-domain text classification datasets when used with linear and contextual embedding models. We conclude with recommendations for model producers and consumers, and release models and replication code to accompany this paper.
翻訳日:2022-05-08 23:32:34 公開日:2022-04-26
# GPUNet:GPUのためのデプロイ可能な畳み込みニューラルネットワークの検索

GPUNet: Searching the Deployable Convolution Neural Networks for GPUs ( http://arxiv.org/abs/2205.00841v1 )

ライセンス: Link先を確認
Linnan Wang, Chenhan Yu, Satish Salian, Slawomir Kierat, Szymon Migacz, Alex Fit Florea(参考訳) 製品利用のための畳み込みニューラルネットワーク(CNN)のカスタマイズは、DL実践者にとって難しい課題である。 本稿では,ニューラルアーキテクチャサーチ(NAS)を用いて,推論遅延によって結合されたモデルを含むモデルハブを用いて,モデルカスタマイズを高速化することを目的とする。 この目標を達成するために,我々は分散nasシステムを構築し,レイテンシと精度に影響を与える重要な要因からなる新しい検索空間を探索する。 GPUをターゲットにしているため、NAS最適化モデルをGPUNetと呼び、推論レイテンシと精度において新たなSOTA Paretoフロンティアを確立する。 1$ms$以内では、GPUNetはEfficientNet-XやFBNetV3よりも2倍高速で精度が向上している。 また、検出タスクにおいてGPUNetを検証するとともに、レイテンシと精度の両方で、COCO検出タスクにおいて、GPUNetはEfficientNet-XとFBNetV3を一貫して上回ります。 これらのデータはすべて、nasシステムが異なる設計タスクを処理するのに効果的で汎用的であることを検証します。 このNASシステムでは、GPUNetを拡張して、DL実践者がさまざまなシナリオでモデルを直接デプロイできるように、幅広いレイテンシターゲットをカバーする。

Customizing Convolution Neural Networks (CNN) for production use has been a challenging task for DL practitioners. This paper intends to expedite the model customization with a model hub that contains the optimized models tiered by their inference latency using Neural Architecture Search (NAS). To achieve this goal, we build a distributed NAS system to search on a novel search space that consists of prominent factors to impact latency and accuracy. Since we target GPU, we name the NAS optimized models as GPUNet, which establishes a new SOTA Pareto frontier in inference latency and accuracy. Within 1$ms$, GPUNet is 2x faster than EfficientNet-X and FBNetV3 with even better accuracy. We also validate GPUNet on detection tasks, and GPUNet consistently outperforms EfficientNet-X and FBNetV3 on COCO detection tasks in both latency and accuracy. All of these data validate that our NAS system is effective and generic to handle different design tasks. With this NAS system, we expand GPUNet to cover a wide range of latency targets such that DL practitioners can deploy our models directly in different scenarios.
翻訳日:2022-05-08 23:11:13 公開日:2022-04-26
# (参考訳) 深層学習を用いた人間行動認識モデルの検討

A Close Look into Human Activity Recognition Models using Deep Learning ( http://arxiv.org/abs/2204.13589v1 )

ライセンス: CC BY 4.0
Wei Zhong Tee, Rushit Dave, Naeem Seliya, Mounika Vanamala(参考訳) 深層学習技術を用いたヒューマンアクティビティ認識は、複雑なタスクの認識に効果が高いだけでなく、従来の機械学習技術に比べてコストが比較的低いため、人気が高まっている。 本稿では,CNN(Convolution Neural Networks),LSTM(Long Short-Term Memory),ハイブリッドシステムのための複数のタイプの混合を含む,ディープラーニングアーキテクチャに基づく,最先端の人間の活動認識モデルについて検討する。 この分析は、モデルがどのように実装され、その効果と、それが直面する潜在的な制限を最大化するかを概説している。

Human activity recognition using deep learning techniques has become increasing popular because of its high effectivity with recognizing complex tasks, as well as being relatively low in costs compared to more traditional machine learning techniques. This paper surveys some state-of-the-art human activity recognition models that are based on deep learning architecture and has layers containing Convolution Neural Networks (CNN), Long Short-Term Memory (LSTM), or a mix of more than one type for a hybrid system. The analysis outlines how the models are implemented to maximize its effectivity and some of the potential limitations it faces.
翻訳日:2022-04-30 07:39:53 公開日:2022-04-26
# フェデレーション学習シナリオにおける有毒深層学習に基づくレコメンダモデル

Poisoning Deep Learning based Recommender Model in Federated Learning Scenarios ( http://arxiv.org/abs/2204.13594v1 )

ライセンス: Link先を確認
Dazhong Rong, Qinming He, Jianhai Chen(参考訳) 近年,レコメンデーターシステムに対する様々な攻撃方法が提案されており,レコメンデーターシステムのセキュリティ問題が注目されている。 従来の攻撃では、トレーニングデータに毒を盛ることで、ターゲットアイテムをできるだけ多くのユーザに推奨しようとする。 ユーザのプライベートデータを保護する機能から、フェデレーションドレコメンデーション(federated recommendation)は、このような攻撃を効果的に防御することができる。 そのため、フェデレーション・レコメンデーション・システムの開発に没頭した作品も少なくない。 今回の研究では、フェデレーション学習シナリオにおいて、ディープラーニングベースのレコメンダモデルをターゲットにした攻撃アプローチを設計することを調査します。 具体的には、悪意のあるユーザーが2つの戦略(ランダム近似とハードユーザーマイニング)に基づいてアップロードするために、有害な勾配を生成します。 広範囲な実験によって、当社が設計した攻撃は、ターゲットモデルに効果的に毒を与え、攻撃の有効性が最先端を成すことが示された。

Various attack methods against recommender systems have been proposed in the past years, and the security issues of recommender systems have drawn considerable attention. Traditional attacks attempt to make target items recommended to as many users as possible by poisoning the training data. Benifiting from the feature of protecting users' private data, federated recommendation can effectively defend such attacks. Therefore, quite a few works have devoted themselves to developing federated recommender systems. For proving current federated recommendation is still vulnerable, in this work we probe to design attack approaches targeting deep learning based recommender models in federated learning scenarios. Specifically, our attacks generate poisoned gradients for manipulated malicious users to upload based on two strategies (i.e., random approximation and hard user mining). Extensive experiments show that our well-designed attacks can effectively poison the target models, and the attack effectiveness sets the state-of-the-art.
翻訳日:2022-04-29 15:28:56 公開日:2022-04-26
# S&P500上の短い階層に対する教師付き機械学習分類

Supervised machine learning classification for short straddles on the S&P500 ( http://arxiv.org/abs/2204.13587v1 )

ライセンス: Link先を確認
Alexander Brunhuemer, Lukas Larcher, Philipp Seidl, Sascha Desmettre, Johannes Kofler and Gerhard Larcher(参考訳) 本稿では、S&P500の短期オプション戦略を実行するための機械学習モデルのトレーニングの現在の進歩について述べる。 第1段階として,本論文では,S&P500の短絡を日常的に実行すべきか否かを判断するために,この問題を教師付き分類タスクに分解する。 使用済みフレームワークを解説し、異なる分類モデルにおける評価指標について概観する。 この予備的な作業では、標準的な機械学習技術を使用し、ハイパーパラメーター検索を使わずに、単純な"トレーダ常用"戦略に対する統計的に有意なパフォーマンスは見つからないが、さらなる実験を進める方法についてさらなる洞察を得ることができる。

In this working paper we present our current progress in the training of machine learning models to execute short option strategies on the S&P500. As a first step, this paper is breaking this problem down to a supervised classification task to decide if a short straddle on the S&P500 should be executed or not on a daily basis. We describe our used framework and present an overview over our evaluation metrics on different classification models. In this preliminary work, using standard machine learning techniques and without hyperparameter search, we find no statistically significant outperformance to a simple "trade always" strategy, but gain additional insights on how we could proceed in further experiments.
翻訳日:2022-04-29 14:49:03 公開日:2022-04-26
# ピアツーピアフェデレーション学習のための連続学習:自動脳転移同定に関する研究

Continual Learning for Peer-to-Peer Federated Learning: A Study on Automated Brain Metastasis Identification ( http://arxiv.org/abs/2204.13591v1 )

ライセンス: Link先を確認
Yixing Huang, Christoph Bert, Stefan Fischer, Manuel Schmidt, Arnd D\"orfler, Andreas Maier, Rainer Fietkau, Florian Putz(参考訳) データプライバシの制約により、複数のセンタ間でのデータ共有が制限される。 ピアツーピアフェデレーション学習のアプローチとしての継続的学習は、トレーニングデータの代わりに中間モデルを共有することによって、ディープラーニングアルゴリズム開発におけるマルチセンタコラボレーションを促進することができる。 本研究の目的は,DeepMedic を用いた脳転移同定の例による多施設共同学習の実現可能性を検討することである。 920 T1 MRIのコントラスト強化ボリュームは、マルチセンターコラボレーションシナリオをシミュレートするために分割される。 連続学習アルゴリズムであるシナプス知能(synaptic intelligence:si)は、中心を次々に訓練するための重要なモデル重みを保持するために用いられる。 双方向の協調シナリオでは、SIを用いた連続学習は0.917の感度を達成し、SIを使わずにナイーブな連続学習は0.906の感度を達成し、連続学習を使わずに内部データをトレーニングした2つのモデルは0.853と0.831の感度しか達成しない。 7中心の多角的コラボレーションシナリオでは、連続学習なしで内部データセット(各中心100巻)でトレーニングされたモデルは平均感度0.725を得る。 シングルビジット連続学習(つまり、共有モデルはトレーニング中に1回だけ各センターを訪れる)では、感度はSIなしで0.788と0.849に改善される。 反復連続学習(つまり、共有モデルがトレーニング中に各センターを複数回再訪する)により、感度はさらに0.914に改善され、トレーニング用混合データを使用する感度と同一である。 実験の結果, 連続学習は, 限られたデータを持つセンターの脳転移同定性能を向上させることが示された。 本研究は,多施設連携におけるピアツーピア連合学習における継続学習の適用可能性を示す。

Due to data privacy constraints, data sharing among multiple centers is restricted. Continual learning, as one approach to peer-to-peer federated learning, can promote multicenter collaboration on deep learning algorithm development by sharing intermediate models instead of training data. This work aims to investigate the feasibility of continual learning for multicenter collaboration on an exemplary application of brain metastasis identification using DeepMedic. 920 T1 MRI contrast enhanced volumes are split to simulate multicenter collaboration scenarios. A continual learning algorithm, synaptic intelligence (SI), is applied to preserve important model weights for training one center after another. In a bilateral collaboration scenario, continual learning with SI achieves a sensitivity of 0.917, and naive continual learning without SI achieves a sensitivity of 0.906, while two models trained on internal data solely without continual learning achieve sensitivity of 0.853 and 0.831 only. In a seven-center multilateral collaboration scenario, the models trained on internal datasets (100 volumes each center) without continual learning obtain a mean sensitivity value of 0.725. With single-visit continual learning (i.e., the shared model visits each center only once during training), the sensitivity is improved to 0.788 and 0.849 without SI and with SI, respectively. With iterative continual learning (i.e., the shared model revisits each center multiple times during training), the sensitivity is further improved to 0.914, which is identical to the sensitivity using mixed data for training. Our experiments demonstrate that continual learning can improve brain metastasis identification performance for centers with limited data. This study demonstrates the feasibility of applying continual learning for peer-to-peer federated learning in multicenter collaboration.
翻訳日:2022-04-29 12:46:25 公開日:2022-04-26
# (参考訳) エンドツーエンドの機械学習パイプライン上でのShapleyの重要性によるデータデバッグ

Data Debugging with Shapley Importance over End-to-End Machine Learning Pipelines ( http://arxiv.org/abs/2204.11131v2 )

ライセンス: CC BY 4.0
Bojan Karla\v{s}, David Dao, Matteo Interlandi, Bo Li, Sebastian Schelter, Wentao Wu, Ce Zhang(参考訳) 現代の機械学習(ml)アプリケーションの開発はデータ中心であり、その1つの根本的な課題は、データ品質がmlトレーニングに与える影響を理解することである。 MLトレーニングのためのデータインフルエンスをモデル化することは、この10年間で大きな関心を集めており、トレーニングサンプルのShapley値を、トレーニングされたMLモデルのバリデーションの正確性や公平性といったユーティリティに関して計算することが一般的なフレームワークである。 残念なことに、最近の集中的な関心と研究にもかかわらず、既存の手法では単一のMLモデルのみを"分離"し、データ変換、機能抽出、MLトレーニングで構成されるエンドツーエンドのMLパイプラインを考慮していない。 本稿では,エンドツーエンドのmlパイプライン上でトレーニング例のshapley値を効率的に計算する最初のシステムであるdatascope(ease.ml/datascope)を提案する。 この目的のために、我々はまず、正のリレーショナル代数クエリに続いてK-nearest-neighbor(KNN)分類器という、MLパイプラインの特定のファミリーに対してShapley値を演算する新しいアルゴリズムフレームワークを開発した。 正準パイプラインの多くのサブファミリにおいて、共有値の計算はPTIMEで行われ、一般に共有値の指数複雑性とは対照的である。 そして、これを実践に当てはめました -- スクラブパイプラインを考えると、プロキシとして使用する標準的なパイプラインと近似します。 さまざまなユースケースやユーティリティを解説した広範な実験を実施します。 その結果、datascopeは最先端のモンテカルロ法よりも最大4桁高速でありながら、データデバッグにおいて相性が良く、より効果的であることが示された。

Developing modern machine learning (ML) applications is data-centric, of which one fundamental challenge is to understand the influence of data quality to ML training -- "Which training examples are 'guilty' in making the trained ML model predictions inaccurate or unfair?" Modeling data influence for ML training has attracted intensive interest over the last decade, and one popular framework is to compute the Shapley value of each training example with respect to utilities such as validation accuracy and fairness of the trained ML model. Unfortunately, despite recent intensive interest and research, existing methods only consider a single ML model "in isolation" and do not consider an end-to-end ML pipeline that consists of data transformations, feature extractors, and ML training. We present DataScope (ease.ml/datascope), the first system that efficiently computes Shapley values of training examples over an end-to-end ML pipeline, and illustrate its applications in data debugging for ML training. To this end, we first develop a novel algorithmic framework that computes Shapley value over a specific family of ML pipelines that we call canonical pipelines: a positive relational algebra query followed by a K-nearest-neighbor (KNN) classifier. We show that, for many subfamilies of canonical pipelines, computing Shapley value is in PTIME, contrasting the exponential complexity of computing Shapley value in general. We then put this to practice -- given an sklearn pipeline, we approximate it with a canonical pipeline to use as a proxy. We conduct extensive experiments illustrating different use cases and utilities. Our results show that DataScope is up to four orders of magnitude faster over state-of-the-art Monte Carlo-based methods, while being comparably, and often even more, effective in data debugging.
翻訳日:2022-04-29 07:34:37 公開日:2022-04-26
# (参考訳) クラウドソーシングを試験として扱う: タスクとオンラインワーカーのスコア付け方法

Treating Crowdsourcing as Examination: How to Score Tasks and Online Workers? ( http://arxiv.org/abs/2204.13065v1 )

ライセンス: CC BY 4.0
Guangyang Han and Sufang Li and Runmin Wang and Chunming Wu(参考訳) クラウドソーシング(Crowdsourcing)は、現在の機械学習アルゴリズムが大量のラベル付きデータを必要とすることを解決できるオンラインアウトソーシングモードである。 requesterはクラウドソーシングプラットフォームにタスクを投稿し、タスクを完了するためにインターネット上のオンラインワーカーを雇い、その結果をrequesterに集約して返却する。 さまざまなタイプのワーカーとタスク間のインタラクションをモデル化する方法がホットスポットです。 本稿では,熟練者,正規作業者,スロッピー作業者,スパマーの4つの能力に基づいて作業者をモデル化し,作業の難易度に応じてタスクをハード,ミディアム,イージータスクに分割する。 専門家でさえ困難な作業に苦しむ一方で、下手な作業者は簡単に仕事をこなせると信じています。 したがって、優れた検査タスクは、労働者をより客観的に評価するための適度な難易度と差別性を持つべきである。 そこで,我々はまず,中堅な作業を中心に作業者の能力を評価し,まず作業者の回答の重みを減らし,課題の真実を推測する際にスパマーの回答を変更する。 タスク実行プロセスをシミュレートするために確率グラフモデルを採用し、基底真理、作業者の能力、タスクの難易度を連続的に計算・更新する反復手法を採用する。 シミュレーションと実際のクラウドソーシングの両方において,アルゴリズムの正当性と有効性を検証する。

Crowdsourcing is an online outsourcing mode which can solve the current machine learning algorithm's urge need for massive labeled data. Requester posts tasks on crowdsourcing platforms, which employ online workers over the Internet to complete tasks, then aggregate and return results to requester. How to model the interaction between different types of workers and tasks is a hot spot. In this paper, we try to model workers as four types based on their ability: expert, normal worker, sloppy worker and spammer, and divide tasks into hard, medium and easy task according to their difficulty. We believe that even experts struggle with difficult tasks while sloppy workers can get easy tasks right, and spammers always give out wrong answers deliberately. So, good examination tasks should have moderate degree of difficulty and discriminability to score workers more objectively. Thus, we first score workers' ability mainly on the medium difficult tasks, then reducing the weight of answers from sloppy workers and modifying the answers from spammers when inferring the tasks' ground truth. A probability graph model is adopted to simulate the task execution process, and an iterative method is adopted to calculate and update the ground truth, the ability of workers and the difficulty of the task successively. We verify the rightness and effectiveness of our algorithm both in simulated and real crowdsourcing scenes.
翻訳日:2022-04-29 04:49:29 公開日:2022-04-26
# (参考訳) GypSum: コード要約のためのハイブリッド表現の学習

GypSum: Learning Hybrid Representations for Code Summarization ( http://arxiv.org/abs/2204.12916v1 )

ライセンス: CC BY 4.0
Yu Wang, Yu Dong, Xuesong Lu, Aoying Zhou(参考訳) 近年,ディープラーニングによるコード要約が広く研究されている。 現在のコード要約のためのディープラーニングモデルは、一般的にはニューラルネットワーク翻訳の原則に従い、エンコーダ-デコーダフレームワークを採用しており、エンコーダはソースコードから意味表現を学習し、デコーダは学習表現を、コードスニペットの機能を記述する可読テキストに変換する。 新たな最先端のパフォーマンスを達成しているにも関わらず、現在のモデルでは、通常は単一のタイプのコード表現にフォーカスするため、より流動的な要約を生成するか、コア機能のキャプチャに失敗することが多いことに気付きました。 そこで我々は,グラフアテンションニューラルネットワークと事前学習プログラムと自然言語モデルを用いてハイブリッド表現を学習する新しいディープラーニングモデルであるGypSumを提案する。 グラフ構築のための抽象構文木にコードスニペットの制御フローに関連する特別なエッジを導入し、グラフから学習する2つのエンコーダとソースコードのトークンシーケンスをそれぞれ設計する。 本稿では,トランスフォーマーデコーダのエンコーダ-デコーダサブレイヤを変更して表現を融合させ,要約生成を容易にするデュアルコピー機構を提案する。 GypSumの既存のコード要約モデルよりも優れた性能を示す実験結果が得られた。

Code summarization with deep learning has been widely studied in recent years. Current deep learning models for code summarization generally follow the principle in neural machine translation and adopt the encoder-decoder framework, where the encoder learns the semantic representations from source code and the decoder transforms the learnt representations into human-readable text that describes the functionality of code snippets. Despite they achieve the new state-of-the-art performance, we notice that current models often either generate less fluent summaries, or fail to capture the core functionality, since they usually focus on a single type of code representations. As such we propose GypSum, a new deep learning model that learns hybrid representations using graph attention neural networks and a pre-trained programming and natural language model. We introduce particular edges related to the control flow of a code snippet into the abstract syntax tree for graph construction, and design two encoders to learn from the graph and the token sequence of source code, respectively. We modify the encoder-decoder sublayer in the Transformer's decoder to fuse the representations and propose a dual-copy mechanism to facilitate summary generation. Experimental results demonstrate the superior performance of GypSum over existing code summarization models.
翻訳日:2022-04-29 04:35:36 公開日:2022-04-26
# (参考訳) 授業増分学習におけるマルチタスク学習による特徴一般化性の向上

Improving Feature Generalizability with Multitask Learning in Class Incremental Learning ( http://arxiv.org/abs/2204.12915v1 )

ライセンス: CC BY 4.0
Dong Ma, Chi Ian Tang, Cecilia Mascolo(参考訳) キーワードスポッティングのような多くのディープラーニングアプリケーションは、クラスインクリメンタルラーニング(CIL)と呼ばれる新しい概念(クラス)を時間とともに組み込む必要がある。 CILの最大の課題は破滅的な忘れ、すなわち新しいタスクを学習しながら可能な限り多くの古い知識を保存することである。 この問題を解決するために, 正規化, 知識蒸留, 例題の使用など様々な技術が提案されている。 しかしながら、事前の作業は主にインクリメンタルな学習ステップに焦点を合わせながら、ベースモデルのトレーニング中の最適化を無視する。 ベースモデルからより転送可能で一般化可能な特徴表現は、インクリメンタル学習に有益だと仮定した。 本研究では,基本モデルトレーニング中にマルチタスク学習を採用し,特徴の一般化性を向上させる。 具体的には、すべてのベースクラスで単一のモデルをトレーニングする代わりに、ベースクラスを複数のサブセットに分解し、それぞれをタスクと見なします。 これらのタスクは同時にトレーニングされ、インクリメンタル学習のために共有特徴抽出器が得られる。 各種構成下での2つのデータセットに対するアプローチを評価する。 その結果,提案手法は平均漸進的学習精度を最大5.5%向上させ,時間とともにより信頼性が高く正確なキーワードスポッティングを可能にした。 さらに,提案手法を既存の手法と組み合わせることで,さらなる性能向上を実現することができる。

Many deep learning applications, like keyword spotting, require the incorporation of new concepts (classes) over time, referred to as Class Incremental Learning (CIL). The major challenge in CIL is catastrophic forgetting, i.e., preserving as much of the old knowledge as possible while learning new tasks. Various techniques, such as regularization, knowledge distillation, and the use of exemplars, have been proposed to resolve this issue. However, prior works primarily focus on the incremental learning step, while ignoring the optimization during the base model training. We hypothesize that a more transferable and generalizable feature representation from the base model would be beneficial to incremental learning. In this work, we adopt multitask learning during base model training to improve the feature generalizability. Specifically, instead of training a single model with all the base classes, we decompose the base classes into multiple subsets and regard each of them as a task. These tasks are trained concurrently and a shared feature extractor is obtained for incremental learning. We evaluate our approach on two datasets under various configurations. The results show that our approach enhances the average incremental learning accuracy by up to 5.5%, which enables more reliable and accurate keyword spotting over time. Moreover, the proposed approach can be combined with many existing techniques and provides additional performance gain.
翻訳日:2022-04-29 04:18:08 公開日:2022-04-26
# (参考訳) 曖昧な視覚表現の教師なし学習

Unsupervised Learning of Unbiased Visual Representations ( http://arxiv.org/abs/2204.12941v1 )

ライセンス: CC BY 4.0
Carlo Alberto Barbano, Enzo Tartaglione, Marco Grangetto(参考訳) 深層ニューラルネットワークは、データセットにバイアスが存在する場合、堅牢な表現を学習できないことで知られている。 この結果、予測はネットワークによって誤って学習される周辺要因や境界要因に強く依存するため、偏りのないデータセットへの一般化は不十分である。 既存の多くの作業は、バイアス属性に対する明示的な監督を採用するか、バイアスに関する事前の知識を仮定することによってこの問題に対処する。 本研究では,バイアスに関する明示的な注釈が得られず,その性質に関する事前知識がなくても,より難しいシナリオでこの問題を研究する。 まず, 悪性バイアスの学習に自然の嗜好を活用し, バイアス捕捉モデルを得る, バイアスラベルを得るための擬似ラベリングステップを実行する, そして最後に, 最先端の教師付きデバイアス手法を用いて非バイアスモデルを得る。 また,モデルのバイアス性を評価するための理論的枠組みを提案し,バイアスがニューラルネットワークのトレーニングに与える影響に関する詳細な分析を行う。 我々は合成データと実世界のデータセットについて実験を行い、この手法が様々な設定で最先端のパフォーマンスを達成できることを示した。

Deep neural networks are known for their inability to learn robust representations when biases exist in the dataset. This results in a poor generalization to unbiased datasets, as the predictions strongly rely on peripheral and confounding factors, which are erroneously learned by the network. Many existing works deal with this issue by either employing an explicit supervision on the bias attributes, or assuming prior knowledge about the bias. In this work we study this problem in a more difficult scenario, in which no explicit annotation about the bias is available, and without any prior knowledge about its nature. We propose a fully unsupervised debiasing framework, consisting of three steps: first, we exploit the natural preference for learning malignant biases, obtaining a bias-capturing model; then, we perform a pseudo-labelling step to obtain bias labels; finally we employ state-of-the-art supervised debiasing techniques to obtain an unbiased model. We also propose a theoretical framework to assess the biasness of a model, and provide a detailed analysis on how biases affect the training of neural networks. We perform experiments on synthetic and real-world datasets, showing that our method achieves state-of-the-art performance in a variety of settings, sometimes even higher than fully supervised debiasing approaches.
翻訳日:2022-04-29 04:05:35 公開日:2022-04-26
# (参考訳) polyloss: 分類損失関数の多項式展開の展望

PolyLoss: A Polynomial Expansion Perspective of Classification Loss Functions ( http://arxiv.org/abs/2204.12511v1 )

ライセンス: CC BY-SA 4.0
Zhaoqi Leng, Mingxing Tan, Chenxi Liu, Ekin Dogus Cubuk, Xiaojie Shi, Shuyang Cheng, Dragomir Anguelov(参考訳) クロスエントロピー損失と焦点損失は、分類問題に対するディープニューラルネットワークのトレーニングにおいて最も一般的な選択である。 しかし、一般的には、良い損失関数はより柔軟な形式を取ることができ、異なるタスクやデータセットに合わせる必要がある。 テイラー展開によって関数を近似する方法を動機として、多項式関数の線形結合として損失関数のビューと設計を行うための単純なフレームワーク、PolyLossを提案する。 我々のPolyLossは、上記のクロスエントロピー損失と焦点損失を特殊ケースとして自然に仮定しながら、ターゲットタスクやデータセットによって異なる多項式基底を容易に調整できるようにする。 大規模な実験結果から、PolyLoss内の最適な選択はタスクとデータセットに依存していることがわかった。 1つの余分なハイパーパラメータを導入し、1行のコードを追加するだけで、2d画像分類、インスタンスセグメンテーション、オブジェクト検出、および3dオブジェクト検出タスクのクロスエントロピー損失と焦点損失を、時には大きなマージンで上回ります。

Cross-entropy loss and focal loss are the most common choices when training deep neural networks for classification problems. Generally speaking, however, a good loss function can take on much more flexible forms, and should be tailored for different tasks and datasets. Motivated by how functions can be approximated via Taylor expansion, we propose a simple framework, named PolyLoss, to view and design loss functions as a linear combination of polynomial functions. Our PolyLoss allows the importance of different polynomial bases to be easily adjusted depending on the targeting tasks and datasets, while naturally subsuming the aforementioned cross-entropy loss and focal loss as special cases. Extensive experimental results show that the optimal choice within the PolyLoss is indeed dependent on the task and dataset. Simply by introducing one extra hyperparameter and adding one line of code, our Poly-1 formulation outperforms the cross-entropy loss and focal loss on 2D image classification, instance segmentation, object detection, and 3D object detection tasks, sometimes by a large margin.
翻訳日:2022-04-29 03:34:40 公開日:2022-04-26
# (参考訳) セルロース生産におけるc-di-gmp結合タンパク質の経路情報の同定

Identification of feasible pathway information for c-di-GMP binding proteins in cellulose production ( http://arxiv.org/abs/2204.12526v1 )

ライセンス: CC BY 4.0
Syeda Sakira Hassan, Rahul Mangayil, Tommi Aho, Olli Yli-Harja, Matti Karp(参考訳) 本稿では機械学習を用いてc-di-GMPシグナル伝達タンパク質の重要な経路を同定する。 このデータセットは、12の経路と1024の細菌ゲノムに対する5つの必須c-di-GMP結合ドメインからの遺伝子数を含んでいる。 2つの新しいアプローチ、Last absolute shrinkage and selection operator (Lasso) とRandom forests がデータセットの解析とモデリングに応用されている。 どちらのアプローチも、細菌の遊走性はc-di-GMPエンコーディングドメインにとって最も重要な経路であることを示している。 特徴選択には人気があるが、ラッソ法の強い正規化は、MshEドメインにいかなる経路も関連付けることができない。 分析の結果は、細菌のセルロース生産にかかわる経路を理解し強調するのに役立つかもしれない。 これらの結果から, セルロース生産における選択的経路を阻害することにより, 挙動や機能性を制限するシャシーの必要性が示された。

In this paper, we utilize a machine learning approach to identify the significant pathways for c-di-GMP signaling proteins. The dataset involves gene counts from 12 pathways and 5 essential c-di-GMP binding domains for 1024 bacterial genomes. Two novel approaches, Least absolute shrinkage and selection operator (Lasso) and Random forests, have been applied for analyzing and modeling the dataset. Both approaches show that bacterial chemotaxis is the most essential pathway for c-di-GMP encoding domains. Though popular for feature selection, the strong regularization of Lasso method fails to associate any pathway to MshE domain. Results from the analysis may help to understand and emphasize the supporting pathways involved in bacterial cellulose production. These findings demonstrate the need for a chassis to restrict the behavior or functionality by deactivating the selective pathways in cellulose production.
翻訳日:2022-04-29 03:12:27 公開日:2022-04-26
# (参考訳) WGAN-GPの提言とGANアプローチとの関連性への疑問

Application of WGAN-GP in recommendation and Questioning the relevance of GAN-based approaches ( http://arxiv.org/abs/2204.12527v1 )

ライセンス: CC BY 4.0
Hichem Ammar Khodja, Oussama Boudjeniba(参考訳) 近年、多くのニューラルベースレコメンデータシステムが提案され、その一部はGAN(Generative Adversarial Networks)を使用してユーザとテムのインタラクションをモデル化している。 しかしながら、WGAN-GP (Gradient Penalty) によるWasserstein GANの勧告による探索は、比較的少ない精査を受けている。 本稿では,WGAN-GPを推薦に適用することは可能か,また,提案手法が優れたGANモデルと比較して有利か,という2つの疑問に焦点をあてる。 2-GANベースのレコメンデーションシステムは関連しているか? まず,WGAN-GPに基づく推薦システムCFWGAN-GPを提案する。 提案手法をTop-kレコメンデーションタスク上の実世界のデータセットに適用し、実験結果から最先端のGANアプローチと競合することを示すが、少なくとも精度の観点からは、元のGANではなくWGAN-GPを使用するという大きな利点の証拠は見つからなかった。 第2の質問では、よく調整された概念上より単純な手法がGANモデルよりもかなり優れていることを示す簡単な実験を行い、そのようなモデルの使用を疑問視する。

Many neural-based recommender systems were proposed in recent years and part of them used Generative Adversarial Networks (GAN) to model user-item interactions. However, the exploration of Wasserstein GAN with Gradient Penalty (WGAN-GP) on recommendation has received relatively less scrutiny. In this paper, we focus on two questions: 1- Can we successfully apply WGAN-GP on recommendation and does this approach give an advantage compared to the best GAN models? 2- Are GAN-based recommender systems relevant? To answer the first question, we propose a recommender system based on WGAN-GP called CFWGAN-GP which is founded on a previous model (CFGAN). We successfully applied our method on real-world datasets on the top-k recommendation task and the empirical results show that it is competitive with state-of-the-art GAN approaches, but we found no evidence of significant advantage of using WGAN-GP instead of the original GAN, at least from the accuracy point of view. As for the second question, we conduct a simple experiment in which we show that a well-tuned conceptually simpler method outperforms GAN-based models by a considerable margin, questioning the use of such models.
翻訳日:2022-04-29 03:06:44 公開日:2022-04-26
# (参考訳) リアル顔編集のためのスタイルGANの潜在空間の拡大

Expanding the Latent Space of StyleGAN for Real Face Editing ( http://arxiv.org/abs/2204.12530v1 )

ライセンス: CC BY 4.0
Yin Yu, Ghasedi Kamran, Wu HsiangTao, Yang Jiaolong, Tong Xi, Fu Yun(参考訳) 近年,セマンティック操作に事前訓練されたStyleGANを利用するために顔編集技術が急増している。 実画像の編集を成功させるためには、まず入力画像をstyleganの潜在変数に変換する必要がある。 しかし、入力対象(アイデンティティ、照明、髪型など)の外観を保存する能力を持ち、意味のある操作を可能にする潜伏変数を見つけることは依然として困難である。 本稿では,スタイルガンの潜在空間を新たなコンテンツ機能で拡張し,低歪みと高編集性のトレードオフを解消する手法を提案する。 具体的には,遅延符号のスパース操作によってスタイル分岐が絡み合う問題に最初に取り組み,コンテンツ分岐は入力画像からのコンテンツや外観の詳細を利用して歪み問題を緩和する2分岐モデルを提案する。 実顔編集および再構成作業における定性的,定量的な実験により,本手法の有効性を確認した。

Recently, a surge of face editing techniques have been proposed to employ the pretrained StyleGAN for semantic manipulation. To successfully edit a real image, one must first convert the input image into StyleGAN's latent variables. However, it is still challenging to find latent variables, which have the capacity for preserving the appearance of the input subject (e.g., identity, lighting, hairstyles) as well as enabling meaningful manipulations. In this paper, we present a method to expand the latent space of StyleGAN with additional content features to break down the trade-off between low-distortion and high-editability. Specifically, we proposed a two-branch model, where the style branch first tackles the entanglement issue by the sparse manipulation of latent codes, and the content branch then mitigates the distortion issue by leveraging the content and appearance details from the input image. We confirm the effectiveness of our method using extensive qualitative and quantitative experiments on real face editing and reconstruction tasks.
翻訳日:2022-04-29 02:53:18 公開日:2022-04-26
# (参考訳) AccMPEG:ビデオ分析のためのビデオエンコーディングの最適化

AccMPEG: Optimizing Video Encoding for Video Analytics ( http://arxiv.org/abs/2204.12534v1 )

ライセンス: CC BY 4.0
Kuntai Du, Qizheng Zhang, Anton Arapin, Haodong Wang, Zhengxu Xia, Junchen Jiang(参考訳) エッジセンサー(カメラ)によってより多くのビデオが記録され、コンピュータビジョンのディープニューラルネット(DNN)によって分析され、サーバサイドのDNNによる高精度な推論を可能にする十分な情報を保持しながら、リモートサーバにビデオをリアルタイムで圧縮してストリームすることを目的として、新しいタイプのビデオストリーミングシステムが登場した。 ビデオストリーミングシステムの理想的な設計は,(1)符号化とストリーミングの低レイテンシ,(2)サーバ側のDNNの高精度化,(3)カメラ上の計算オーバーヘッドの低減,の3つの要件を同時に満たさなければならない。 特にオブジェクト検出やセマンティックセグメンテーションといった先進的な視覚タスクをこなす場合において,このようなビデオストリーミングシステムは大きな進歩を遂げている。 本稿では,3つの要件をすべて満たした新しいビデオエンコーディング・ストリーミングシステムであるAccMPEGを提案する。 鍵となるのは、各(16x16)マクロブロックにおける符号化品質がサーバ側のDNN精度にどの程度影響するかを知ることだ。 我々の洞察では、これらのマクロブロックレベルの精度勾配は、ビデオフレームを安価なモデルで供給することで十分な精度で推測できる。 AccMPEGは、新しいサーバサイドのDNNが与えられたら、すぐに安価なモデルを作成し、ほぼリアルタイムで新しいフレームの精度勾配を推測できる一連の技術を提供します。 2種類のエッジデバイス(Intel Xeon Silver 4100 CPUまたはNVIDIA Jetson Nano)と3つのビジョンタスク(最近トレーニングされたDNN6つ)におけるAccMPEGの広範囲な評価は、AccMPEG(カメラサイドの計算リソースが同じ)が最先端のベースラインと比較して精度を損なうことなく、エンドツーエンドの推論遅延を10~43%削減できることを示している。

With more videos being recorded by edge sensors (cameras) and analyzed by computer-vision deep neural nets (DNNs), a new breed of video streaming systems has emerged, with the goal to compress and stream videos to remote servers in real time while preserving enough information to allow highly accurate inference by the server-side DNNs. An ideal design of the video streaming system should simultaneously meet three key requirements: (1) low latency of encoding and streaming, (2) high accuracy of server-side DNNs, and (3) low compute overheads on the camera. Unfortunately, despite many recent efforts, such video streaming system has hitherto been elusive, especially when serving advanced vision tasks such as object detection or semantic segmentation. This paper presents AccMPEG, a new video encoding and streaming system that meets all the three requirements. The key is to learn how much the encoding quality at each (16x16) macroblock can influence the server-side DNN accuracy, which we call accuracy gradient. Our insight is that these macroblock-level accuracy gradient can be inferred with sufficient precision by feeding the video frames through a cheap model. AccMPEG provides a suite of techniques that, given a new server-side DNN, can quickly create a cheap model to infer the accuracy gradient on any new frame in near realtime. Our extensive evaluation of AccMPEG on two types of edge devices (one Intel Xeon Silver 4100 CPU or NVIDIA Jetson Nano) and three vision tasks (six recent pre-trained DNNs) shows that AccMPEG (with the same camera-side compute resources) can reduce the end-to-end inference delay by 10-43% without hurting accuracy compared to the state-of-the-art baselines
翻訳日:2022-04-29 02:37:25 公開日:2022-04-26
# (参考訳) マルチテンポラル空中LiDARデータによる建物変化検出

Building Change Detection using Multi-Temporal Airborne LiDAR Data ( http://arxiv.org/abs/2204.12535v1 )

ライセンス: CC BY 4.0
Ritu Yadav, Andrea Nascetti, Yifang Ban(参考訳) 建築変化検出は, 都市化, 災害評価, 都市計画, 頻繁な地図更新に不可欠である。 空中光検出・測位(lidar)による3次元構造情報は,都市変化の検出に非常に有効である。 しかし、空飛ぶlidar(als)からの3dポイント雲は、膨大な量の無秩序で不規則な情報を持っている。 このようなデータの処理はトリッキーで、処理には大きなメモリを使用する。 この情報のほとんどは、特定のタイプの都市変化を探しているときに必要ではありません。 本研究では,建物変化を検出するために必要な情報を失うことなく,3次元点群をはるかに小さな表現に還元する自動手法を提案する。 この手法では,背景から建物をセグメント化するために,Deep Learning(DL)モデルU-Netを利用する。 生成したセグメンテーションマップは変化を検出するためにさらに処理され、その結果は形態学的手法を用いて洗練される。 変化検出タスクには,多時期空中ライダーデータを用いた。 データは2017年と2019年にストックホルムで買収された。 建物の変化は「新築」・「解体」・「タルラー」・「ショート」の4種類に分類される。 検出された変更は、より良い解釈のために、1つのマップで視覚化される。

Building change detection is essential for monitoring urbanization, disaster assessment, urban planning and frequently updating the maps. 3D structure information from airborne light detection and ranging (LiDAR) is very effective for detecting urban changes. But the 3D point cloud from airborne LiDAR(ALS) holds an enormous amount of unordered and irregularly sparse information. Handling such data is tricky and consumes large memory for processing. Most of this information is not necessary when we are looking for a particular type of urban change. In this study, we propose an automatic method that reduces the 3D point clouds into a much smaller representation without losing the necessary information required for detecting Building changes. The method utilizes the Deep Learning(DL) model U-Net for segmenting the buildings from the background. Produced segmentation maps are then processed further for detecting changes and the results are refined using morphological methods. For the change detection task, we used multi-temporal airborne LiDAR data. The data is acquired over Stockholm in the years 2017 and 2019. The changes in buildings are classified into four types: 'newly built', 'demolished', 'taller' and 'shorter'. The detected changes are visualized in one map for better interpretation.
翻訳日:2022-04-29 02:05:00 公開日:2022-04-26
# (参考訳) 直腸癌放射線治療計画の自動化

Automation of Radiation Treatment Planning for Rectal Cancer ( http://arxiv.org/abs/2204.12539v1 )

ライセンス: CC BY 4.0
Kai Huang, Prajnan Das, Adenike M. Olanrewaju, Carlos Cardenas, David Fuentes, Lifei Zhang, Donald Hancock, Hannah Simonds, Dong Joo Rhee, Sam Beddar, Tina Marie Briere, and Laurence Court(参考訳) 深層学習(DL)開口予測と前方計画アルゴリズムを組み合わせた直腸癌3次元コンフォメーション治療計画の自動化ワークフローを開発する。 フィールドインフィールドによる計画のための臨床ワークフローを自動化するアルゴリズムを考案した。 DLモデルを訓練し, 評価し, 555名の患者に対して, 初等および増進フィールドの開口形状を自動生成する試験を行った。 ネットワーク入力は、デジタル再構成ラジオグラフィ、gtv(gross tumor volume)、nodal gtvであった。 医師は、各開口部を5ポイントスケール(>3許容)で20名に得点した。 計画アルゴリズムは、ウェッジとサブフィールドの組み合わせを用いて均質な線量を作成するために開発された。 このアルゴリズムはホットスポットボリュームを反復的に特定し、サブフィールドを作成し、ユーザの介入なしにビーム重量を最適化する。 このアルゴリズムは, 異なる設定のクリニカルアパーチャを用いて20例を対象に試験を行い, 得られた計画(4プラン/患者)を医師が採点した。 エンド・ツー・エンドのワークフローは、医師がDL生成開口と計画アルゴリズムを用いて39人の患者でテストし、評価した。 予測された開口部は,後腹側野,側方野,ブースト野それぞれ0.95点,0.94点,0.90点であった。 100%,95%,87.5%の後方,側方,隆起開口部が臨床的に許容された。 85%, 50%の患者に対して, ウェッジドプランと非ウェッジドプランが臨床的に受け入れられた。 最終計画のホットスポット線量の割合は121%($\pm$ 14%)から109%($\pm$ 5%)に低下した。 自動開口のエンドツーエンドワークフローとフィールド・イン・フィールド・プランニングの最適化により,38/39(97%)の患者に対して臨床的に許容できる計画が得られた。 直腸癌に対する放射線治療計画作成のための臨床ワークフローの自動化に成功した。

To develop an automated workflow for rectal cancer three-dimensional conformal radiotherapy treatment planning that combines deep-learning(DL) aperture predictions and forward-planning algorithms. We designed an algorithm to automate the clinical workflow for planning with field-in-field. DL models were trained, validated, and tested on 555 patients to automatically generate aperture shapes for primary and boost fields. Network inputs were digitally reconstructed radiography, gross tumor volume(GTV), and nodal GTV. A physician scored each aperture for 20 patients on a 5-point scale(>3 acceptable). A planning algorithm was then developed to create a homogeneous dose using a combination of wedges and subfields. The algorithm iteratively identifies a hotspot volume, creates a subfield, and optimizes beam weight all without user intervention. The algorithm was tested on 20 patients using clinical apertures with different settings, and the resulting plans(4 plans/patient) were scored by a physician. The end-to-end workflow was tested and scored by a physician on 39 patients using DL-generated apertures and planning algorithms. The predicted apertures had Dice scores of 0.95, 0.94, and 0.90 for posterior-anterior, laterals, and boost fields, respectively. 100%, 95%, and 87.5% of the posterior-anterior, laterals, and boost apertures were scored as clinically acceptable, respectively. Wedged and non-wedged plans were clinically acceptable for 85% and 50% of patients, respectively. The final plans hotspot dose percentage was reduced from 121%($\pm$ 14%) to 109%($\pm$ 5%) of prescription dose. The integrated end-to-end workflow of automatically generated apertures and optimized field-in-field planning gave clinically acceptable plans for 38/39(97%) of patients. We have successfully automated the clinical workflow for generating radiotherapy plans for rectal cancer for our institution.
翻訳日:2022-04-29 01:58:30 公開日:2022-04-26
# (参考訳) reluゲート訓練におけるヘビーテールの発生に関する実験的検討

An Empirical Study of the Occurrence of Heavy-Tails in Training a ReLU Gate ( http://arxiv.org/abs/2204.12554v1 )

ライセンス: CC BY 4.0
Sayar Karmakar and Anirbit Mukherjee(参考訳) 確率的深層学習アルゴリズムに関する最近の進歩の方向は、データ分布がそうでない場合でも、これらのアルゴリズムの定常分布のかなり神秘的な重み付き性質を明らかにすることである。 さらに、重テール指数は、ネットの入力次元、ミニバッチサイズ、アルゴリズムのステップサイズに興味深い依存を示すことが知られている。 本稿では、S.G.D.に対して、$\relu$ gate (reizable and in the binary classification set) と、ReLU実現可能なデータに対してKarmakar and Mukherjee (2022) で証明された S.G.D. の変種をトレーニングしながら、この指標について実験的に研究する。 我々の実験から、これらの2つのアルゴリズムは、後者が収束することが証明できる任意のデータに類似したヘビーテールの挙動を持つと推測する。 第二に、このモデルシナリオにおける後期の重み付き指数は、線形仮説クラスで証明されたものや、大規模ネットで実証されたものとは大きく異なる性質を持つことを示す。

A particular direction of recent advance about stochastic deep-learning algorithms has been about uncovering a rather mysterious heavy-tailed nature of the stationary distribution of these algorithms, even when the data distribution is not so. Moreover, the heavy-tail index is known to show interesting dependence on the input dimension of the net, the mini-batch size and the step size of the algorithm. In this short note, we undertake an experimental study of this index for S.G.D. while training a $\relu$ gate (in the realizable and in the binary classification setup) and for a variant of S.G.D. that was proven in Karmakar and Mukherjee (2022) for ReLU realizable data. From our experiments we conjecture that these two algorithms have similar heavy-tail behaviour on any data where the latter can be proven to converge. Secondly, we demonstrate that the heavy-tail index of the late time iterates in this model scenario has strikingly different properties than either what has been proven for linear hypothesis classes or what has been previously demonstrated for large nets.
翻訳日:2022-04-29 01:42:20 公開日:2022-04-26
# (参考訳) sofair: シングルショットフェアな表現学習

SoFaiR: Single Shot Fair Representation Learning ( http://arxiv.org/abs/2204.12556v1 )

ライセンス: CC BY 4.0
Xavier Gitiaux and Huzefa Rangwala(参考訳) データの差別的な利用を避けるために、組織は機密属性に関連する情報をフィルタリングする表現にそれらをマッピングすることを学べる。 しかし、公正表現学習における既存の方法はすべて、公正な情報交換を生成する。 公正情報平面上の異なる点を達成するには、異なるモデルを訓練しなければならない。 本稿では,まず,公平性情報トレードオフが利率ゆがみトレードオフによって完全に特徴付けられることを示す。 そして、このキーとなる結果を用いて、その公正度情報平面上の多くの点を1つの訓練されたモデルで生成する単発フェア表現学習法SoFaiRを提案する。 計算の節約に加えて、我々の知識の範囲では、表現の公正性や歪性の変化によってどのような情報が影響を受けるかを説明する最初の公正表現学習方法です。 実証的な結果として、SoFaiRがマルチショットと同じような公正な情報交換を行う3つのデータセットが見つかる。

To avoid discriminatory uses of their data, organizations can learn to map them into a representation that filters out information related to sensitive attributes. However, all existing methods in fair representation learning generate a fairness-information trade-off. To achieve different points on the fairness-information plane, one must train different models. In this paper, we first demonstrate that fairness-information trade-offs are fully characterized by rate-distortion trade-offs. Then, we use this key result and propose SoFaiR, a single shot fair representation learning method that generates with one trained model many points on the fairness-information plane. Besides its computational saving, our single-shot approach is, to the extent of our knowledge, the first fair representation learning method that explains what information is affected by changes in the fairness / distortion properties of the representation. Empirically, we find on three datasets that SoFaiR achieves similar fairness-information trade-offs as its multi-shot counterparts.
翻訳日:2022-04-29 01:32:38 公開日:2022-04-26
# (参考訳) ソーシャルメディアの適性評価のためのプロセス知識注入学習

Process Knowledge-infused Learning for Suicidality Assessment on Social Media ( http://arxiv.org/abs/2204.12560v1 )

ライセンス: CC BY 4.0
Kaushik Roy, Manas Gaur, Qi Zhang, Amit Sheth(参考訳) ディープラーニングアルゴリズムのパフォーマンス向上と自然言語による説明は、現実の世界における人間の採用の優先事項である。 医療などいくつかの分野では、このような技術は、大規模に品質支援を提供することで、人間の負担を軽減する大きな可能性がある。 しかし、現在の手法は、データからラベルを予測する従来のパイプラインに依存しており、ラベルを取得するのに使用されるプロセスやガイドラインを完全に無視している。 さらに、説明可能なai(xai)モデルを使用して予測をラベル付けるデータに関するhoc後の説明は、コンピュータ科学者には満足できるものの、人間の理解可能な概念の観点からのプロセスの説明が欠如しているため、エンドユーザに多くを希望する。 私たちは、新しい人工知能(a)パラダイム -- process knowledge-infused learning (pk-il) -- で、textit{introduce}, \textit{formalize}, \textit{develop} を実践しています。 PK-iLは構造化プロセスの知識を利用して、エンドユーザーにとって理にかなう予測プロセスを明確に説明する。 定性的な人間の評価は、アノテータによる0.72の合意を通じて確認され、人間は予測に関する説明を理解している。 PK-iLは最先端のSOTAベースラインとも競合する。

Improving the performance and natural language explanations of deep learning algorithms is a priority for adoption by humans in the real world. In several domains, such as healthcare, such technology has significant potential to reduce the burden on humans by providing quality assistance at scale. However, current methods rely on the traditional pipeline of predicting labels from data, thus completely ignoring the process and guidelines used to obtain the labels. Furthermore, post hoc explanations on the data to label prediction using explainable AI (XAI) models, while satisfactory to computer scientists, leave much to be desired to the end-users due to lacking explanations of the process in terms of human-understandable concepts. We \textit{introduce}, \textit{formalize}, and \textit{develop} a novel Artificial Intelligence (A) paradigm -- Process Knowledge-infused Learning (PK-iL). PK-iL utilizes a structured process knowledge that explicitly explains the underlying prediction process that makes sense to end-users. The qualitative human evaluation confirms through a annotator agreement of 0.72, that humans are understand explanations for the predictions. PK-iL also performs competitively with the state-of-the-art (SOTA) baselines.
翻訳日:2022-04-29 01:09:56 公開日:2022-04-26
# (参考訳) マルチエージェント強化学習のための政策説明に向けて

Toward Policy Explanations for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2204.12568v1 )

ライセンス: CC BY 4.0
Kayla Boggess, Sarit Kraus, and Lu Feng(参考訳) マルチエージェント強化学習(MARL)の進歩は、協調AIや自律運転など、さまざまなエキサイティングなマルチエージェントアプリケーションに対して、シーケンシャルな意思決定を可能にする。 エージェント決定を説明することは、システムの透明性の向上、ユーザの満足度の向上、ヒューマンエージェントコラボレーションの促進に不可欠である。 しかしながら、説明可能な強化学習に関する既存の研究は、主にシングルエージェントの設定に焦点を当てており、マルチエージェント環境が抱える課題に対処するのに適していない。 MARLのための2種類のポリシー記述を生成する新しい方法を提案する。 (i)エージェントの連携及びタスクの順序に関するポリシーの要約 (ii)エージェントの動作に関する質問に答える言語説明。 3つのMARL領域の実験結果から,提案手法のスケーラビリティが示された。 ユーザ調査の結果,生成した説明により,ユーザ満足度などの指標に対する主観評価が有意に向上することが示された。

Advances in multi-agent reinforcement learning(MARL) enable sequential decision making for a range of exciting multi-agent applications such as cooperative AI and autonomous driving. Explaining agent decisions are crucial for improving system transparency, increasing user satisfaction, and facilitating human-agent collaboration. However, existing works on explainable reinforcement learning mostly focus on the single-agent setting and are not suitable for addressing challenges posed by multi-agent environments. We present novel methods to generate two types of policy explanations for MARL: (i) policy summarization about the agent cooperation and task sequence, and (ii) language explanations to answer queries about agent behavior. Experimental results on three MARL domains demonstrate the scalability of our methods. A user study shows that the generated explanations significantly improve user performance and increase subjective ratings on metrics such as user satisfaction.
翻訳日:2022-04-29 00:57:48 公開日:2022-04-26
# (参考訳) 自己スケーブル・タン(stan) : 物理形ニューラルネットワークにおけるより高速な収束とより良い一般化

Self-scalable Tanh (Stan): Faster Convergence and Better Generalization in Physics-informed Neural Networks ( http://arxiv.org/abs/2204.12589v1 )

ライセンス: CC BY 4.0
Raghav Gnanasambandam, Bo Shen, Jihoon Chung, Xubo Yue, and Zhenyu (James) Kong(参考訳) 物理インフォームドニューラルネットワーク (PINN) は、気象モデリング、医療、製造などにおける様々な微分方程式の解法として、工学や科学の分野で注目を集めている。 貧弱なスケーラビリティは、現実世界の多くの問題にPINNを利用することの障壁の1つです。 これを解決するために、PINNに対して自己スケーリング可能なタン(Stan)アクティベーション関数を提案する。 提案したStan関数は滑らかで非飽和であり、訓練可能なパラメータを持つ。 トレーニング中、グラデーションのフローが容易になり、必要なデリバティブを計算すると同時に、入出力マッピングの体系的なスケーリングが可能になる。 また, 提案する stan 関数を持つ pinn は勾配降下アルゴリズムを用いた場合のスプリアス定常点を持たないことも理論的に示されている。 提案手法は一般回帰問題を含むいくつかの数値研究で検証された。 その後、二階微分と多次元を含む複数の前方問題の解法や、棒内の熱伝導によって熱拡散率が予測される逆問題に使用される。 これらのケーススタディの結果から,Stanアクティベーション関数は最先端のアクティベーション関数よりも訓練や精度の高い予測が可能であることが実証された。

Physics-informed Neural Networks (PINNs) are gaining attention in the engineering and scientific literature for solving a range of differential equations with applications in weather modeling, healthcare, manufacturing, and so on. Poor scalability is one of the barriers to utilizing PINNs for many real-world problems. To address this, a Self-scalable tanh (Stan) activation function is proposed for the PINNs. The proposed Stan function is smooth, non-saturating, and has a trainable parameter. During training, it can allow easy flow of gradients to compute the required derivatives and also enable systematic scaling of the input-output mapping. It is also shown theoretically that the PINN with the proposed Stan function has no spurious stationary points when using gradient descent algorithms. The proposed Stan is tested on a couple of numerical studies involving general regression problems. It is subsequently used for solving multiple forward problems, which involve second-order derivatives and multiple dimensions, and an inverse problem where the thermal diffusivity is predicted through heat conduction in a rod. Our results of these case studies establish empirically that the Stan activation function can achieve better training and more accurate predictions than the state-of-the-art activation functions.
翻訳日:2022-04-29 00:41:13 公開日:2022-04-26
# (参考訳) 効率的な機械翻訳ドメイン適応

Efficient Machine Translation Domain Adaptation ( http://arxiv.org/abs/2204.12608v1 )

ライセンス: CC BY 4.0
Pedro Henrique Martins and Zita Marinho and Andr\'e F. T. Martins(参考訳) 機械翻訳モデルは、ドメイン外のテキストを翻訳する際に苦労し、ドメイン適応が重要なトピックとなる。 しかし、ほとんどのドメイン適応メソッドは、モデルの全体または一部を新しいドメインごとに微調整またはトレーニングすることにフォーカスしています。 一方、半パラメトリックモデルは、ドメイン内データストア(khandelwal et al., 2021)から例を取り出すことで、ドメイン適応をうまく行うことが示されている。 しかし、これらの検索強化モデルの欠点は、かなり遅い傾向があることである。 本稿では,近傍の機械翻訳を高速化するいくつかの手法について検討する。 我々は,Heらによって提案された言語モデリング手法(2021年)に適応し,類似した文脈で検索を行うのを避ける,シンプルだが効果的なキャッシング戦略を導入する。 いくつかのドメインの翻訳品質とランタイムは、提案したソリューションの有効性を示している。

Machine translation models struggle when translating out-of-domain text, which makes domain adaptation a topic of critical importance. However, most domain adaptation methods focus on fine-tuning or training the entire or part of the model on every new domain, which can be costly. On the other hand, semi-parametric models have been shown to successfully perform domain adaptation by retrieving examples from an in-domain datastore (Khandelwal et al., 2021). A drawback of these retrieval-augmented models, however, is that they tend to be substantially slower. In this paper, we explore several approaches to speed up nearest neighbor machine translation. We adapt the methods recently proposed by He et al. (2021) for language modeling, and introduce a simple but effective caching strategy that avoids performing retrieval when similar contexts have been seen before. Translation quality and runtimes for several domains show the effectiveness of the proposed solutions.
翻訳日:2022-04-29 00:40:09 公開日:2022-04-26
# (参考訳) グラフ上の信号に対する適応学習法におけるガウス核分散

Gaussian Kernel Variance For an Adaptive Learning Method on Signals Over Graphs ( http://arxiv.org/abs/2204.12629v1 )

ライセンス: CC BY 4.0
Yue Zhao and Ender Ayanoglu(参考訳) 本稿では、未知の結節値とネットワーク構造を用いて未知の結節値を予測する適応学習法であるシングルカーネル・グラドラーカ(SKG)と呼ばれる、単純で潜在的に強力なアルゴリズムについて論じる。 本研究の目的は,アルゴリズムの適用において,モデルの特別な構成方法を見つけることである。 より具体的に言うと、我々はガウスカーネルでSKGに焦点を当て、カーネルに適した分散を見つける方法を指定する。 そこで本研究では,gaussian kernelの分散に関する要件を設定できる変数を2つ導入し,(ほぼ)最適性能を実現し,skgの動作をよりよく理解する。 我々の貢献は、2つの変数を解析ツールとして導入し、異なるガウスカーネルの下で予測がどのように影響を受けるかを説明し、トレーニングネットワークに関する知識を持つskgに適したガウスカーネルを見つけるアルゴリズムを提供することである。 実データセットのシミュレーション結果が提供される。

This paper discusses a special kind of a simple yet possibly powerful algorithm, called single-kernel Gradraker (SKG), which is an adaptive learning method predicting unknown nodal values in a network using known nodal values and the network structure. We aim to find out how to configure the special kind of the model in applying the algorithm. To be more specific, we focus on SKG with a Gaussian kernel and specify how to find a suitable variance for the kernel. To do so, we introduce two variables with which we are able to set up requirements on the variance of the Gaussian kernel to achieve (near-) optimal performance and can better understand how SKG works. Our contribution is that we introduce two variables as analysis tools, illustrate how predictions will be affected under different Gaussian kernels, and provide an algorithm finding a suitable Gaussian kernel for SKG with knowledge about the training network. Simulation results on real datasets are provided.
翻訳日:2022-04-29 00:30:58 公開日:2022-04-26
# (参考訳) フィギュラブル言語を解釈する言語モデルの能力をテストする

Testing the Ability of Language Models to Interpret Figurative Language ( http://arxiv.org/abs/2204.12632v1 )

ライセンス: CC BY-SA 4.0
Emmy Liu, Chen Cui, Kenneth Zheng, Graham Neubig(参考訳) 形容詞的言語は談話において一般的であり、形容詞的表現はコミュニケーションや認知において重要な役割を担っている。 しかし、フィギュラティブ言語は、nlpにおいて比較的未熟な領域であり、現代言語モデルが非文字句をどの程度解釈できるのかという疑問が残されている。 この問題に対処するため、我々は、ウィノグラードスタイルのノンリテラル言語理解タスクであるfig-qaを紹介する。 我々は,この課題における最先端言語モデルの性能を評価するとともに,言語モデルの性能が著しく向上する一方で,特にゼロショットや少数ショットの設定では人間の性能に不足していることを見出した。 これは、言語モデルの非リテラル推論能力を改善するためにさらなる作業が必要であることを示唆している。

Figurative and metaphorical language are commonplace in discourse, and figurative expressions play an important role in communication and cognition. However, figurative language has been a relatively under-studied area in NLP, and it remains an open question to what extent modern language models can interpret nonliteral phrases. To address this question, we introduce Fig-QA, a Winograd-style nonliteral language understanding task consisting of correctly interpreting paired figurative phrases with divergent meanings. We evaluate the performance of several state-of-the-art language models on this task, and find that although language models achieve performance significantly over chance, they still fall short of human performance, particularly in zero- or few-shot settings. This suggests that further work is needed to improve the nonliteral reasoning capabilities of language models.
翻訳日:2022-04-29 00:29:56 公開日:2022-04-26
# 産業用IoTにおけるゼロタッチネットワーク - エンドツーエンドの機械学習アプローチ

Zero-Touch Network on Industrial IoT: An End-to-End Machine Learning Approach ( http://arxiv.org/abs/2204.12605v1 )

ライセンス: Link先を確認
Shih-Chun Lin, Chia-Hung Lin, and Wei-Chi Chen(参考訳) 業界4.0対応スマートファクトリーは、製造業者にとって次の革命を実現するだろう。 人工知能(AI)技術は生産性を向上しているが、現在のユースケースは小規模と単一タスクの操作に属する。 スマートファクトリの可能性を解き放つために、インテリジェントな製造のためのゼロタッチネットワークシステムを開発し、大規模にトレーニングおよび推論段階の分散AIアプリケーションを容易にする。 オープン無線アクセスネットワーク(O-RAN)アーキテクチャは、ゼロタッチプラットフォーム向けに初めて導入され、フィールドにおける通信と計算インフラのグローバル制御を可能にする。 サーバーレスフレームワークはインテリジェントで効率的な学習割り当てとリソース割り当てを可能にする。 したがって、要求された学習タスクを適切なロボットに割り当てることができ、基礎となるインフラストラクチャは、専門家の知識なしで学習タスクをサポートするために使用できる。 さらに、提案されたネットワークシステムの柔軟性のため、強力なAI対応ネットワークアルゴリズムを使用して、サービスレベルの合意とファクトリワークロードの優れたパフォーマンスを保証することができる。 最後に、ゼロタッチスマートファクトリーにおいて、後方互換性、エンドツーエンド拡張、サイバーセキュリティの3つのオープン研究方向について論じる。

Industry 4.0-enabled smart factory is expected to realize the next revolution for manufacturers. Although artificial intelligence (AI) technologies have improved productivity, current use cases belong to small-scale and single-task operations. To unbound the potential of smart factory, this paper develops zero-touch network systems for intelligent manufacturing and facilitates distributed AI applications in both training and inferring stages in a large-scale manner. The open radio access network (O-RAN) architecture is first introduced for the zero-touch platform to enable globally controlling communications and computation infrastructure capability in the field. The designed serverless framework allows intelligent and efficient learning assignments and resource allocations. Hence, requested learning tasks can be assigned to appropriate robots, and the underlying infrastructure can be used to support the learning tasks without expert knowledge. Moreover, due to the proposed network system's flexibility, powerful AI-enabled networking algorithms can be utilized to ensure service-level agreements and superior performances for factory workloads. Finally, three open research directions of backward compatibility, end-to-end enhancements, and cybersecurity are discussed for zero-touch smart factory.
翻訳日:2022-04-28 14:48:46 公開日:2022-04-26
# レート制約付き遠隔コンテキストバンディット

Rate-Constrained Remote Contextual Bandits ( http://arxiv.org/abs/2204.12620v1 )

ライセンス: Link先を確認
Francesco Pase, Deniz G\"und\"uz, Michele Zorzi(参考訳) エージェント群が同じコンテキスト型マルチアーム・バンディット(CMAB)問題を解くために,レート制約付きコンテキスト型マルチアーム・バンディット(RC-CMAB)問題を考える。 しかし、文脈は遠隔接続されたエンティティ、すなわち意思決定者によって観察され、返された報酬を最大化するためにポリシーを更新し、エージェントによってサンプリングされるアームをレート制限された通信チャネルを介してコントローラに伝達する。 このフレームワークは、コンテンツ所有者がウェブサイトの訪問者を観察するたびに、パーソナライズされた広告配置に適用することができ、したがってコンテキストを持っているが、その広告をマーケティングコンテンツの配置を担当するコントローラに送信する必要がある。 したがって、レート制約CMAB (RC-CMAB) 問題は、チャネルレートの制約が意思決定者の意図を非圧縮的に伝達することを許さない場合に、ポリシーの損失圧縮スキームを研究する必要がある。 エージェント数を無限大にすることで,この問題の基本情報理論上の限界を特徴付け,その実現可能な後悔について検討し,リニアとサブリニアの後悔につながる2つの異なるレート領域を特定した。 次に, 歪み計量として前方および逆kl発散を用いる場合, 無限エージェントの極限で実現可能な最適圧縮スキームを解析する。 これに基づいて,実用的な符号化方式を提案し,数値計算結果を提供する。

We consider a rate-constrained contextual multi-armed bandit (RC-CMAB) problem, in which a group of agents are solving the same contextual multi-armed bandit (CMAB) problem. However, the contexts are observed by a remotely connected entity, i.e., the decision-maker, that updates the policy to maximize the returned rewards, and communicates the arms to be sampled by the agents to a controller over a rate-limited communications channel. This framework can be applied to personalized ad placement, whenever the content owner observes the website visitors, and hence has the context, but needs to transmit the ads to be shown to a controller that is in charge of placing the marketing content. Consequently, the rate-constrained CMAB (RC-CMAB) problem requires the study of lossy compression schemes for the policy to be employed whenever the constraint on the channel rate does not allow the uncompressed transmission of the decision-maker's intentions. We characterize the fundamental information theoretic limits of this problem by letting the number of agents go to infinity, and study the regret that can be achieved, identifying the two distinct rate regions leading to linear and sub-linear regrets respectively. We then analyze the optimal compression scheme achievable in the limit with infinite agents, when using the forward and reverse KL divergence as distortion metric. Based on this, we also propose a practical coding scheme, and provide numerical results.
翻訳日:2022-04-28 14:46:12 公開日:2022-04-26
# 製造業における能力とスキル: etfaの過去10年間の調査

Capabilities and Skills in Manufacturing: A Survey Over the Last Decade of ETFA ( http://arxiv.org/abs/2204.12908v1 )

ライセンス: Link先を確認
Roman Froschauer and Aljosha K\"ocher and Kristof Meixner and Siwara Schmitt and Fabian Spitzer(参考訳) 業界 4.0 は、量産可能な製品の適応生産を促進するためにサイバー物理生産システム (CPPS) を構想している。 能力とスキルに基づく製造アプローチは、機械機能をカプセル化し、特定の生産プロセスから分離することで、この適応性をサポートすることを目的としている。 2022年のIEEE Conference on Emerging Technologies and Factory Automation (ETFA)では、能力とスキルベースの製造に関する特別セッションが4回開催されている。 しかし、工場の自動化と製造システムにおける能力とスキルに基づくシステムの概要が欠けている。 本稿は,このような概観を提供し,この研究分野への洞察を与えることを目的とする。 etfaコンファレンスの最後の10年間から製造能力と技術に関する話題を扱った論文の簡潔な文献調査を行った。 能力とスキルに関する概念を持つ247の論文を発見し,本調査の包括基準を満たした34の関連論文を特定し分析した。 本稿では,本稿で紹介する。 (i)研究分野の概要 (ii)能力・技能の特徴の分析 (iii)ギャップと機会についての議論。

Industry 4.0 envisions Cyber-Physical Production Systems (CPPSs) to foster adaptive production of mass-customizable products. Manufacturing approaches based on capabilities and skills aim to support this adaptability by encapsulating machine functions and decoupling them from specific production processes. At the 2022 IEEE conference on Emerging Technologies and Factory Automation (ETFA), a special session on capability- and skill-based manufacturing is hosted for the fourth time. However, an overview on capability- and skill based systems in factory automation and manufacturing systems is missing. This paper aims to provide such an overview and give insights to this particular field of research. We conducted a concise literature survey of papers covering the topics of capabilities and skills in manufacturing from the last ten years of the ETFA conference. We found 247 papers with a notion on capabilities and skills and identified and analyzed 34 relevant papers which met this survey's inclusion criteria. In this paper, we provide (i) an overview of the research field, (ii) an analysis of the characteristics of capabilities and skills, and (iii) a discussion on gaps and opportunities.
翻訳日:2022-04-28 14:22:20 公開日:2022-04-26
# サーバーサイドトレーニングのないワンショットフェデレーションラーニング

One-shot Federated Learning without Server-side Training ( http://arxiv.org/abs/2204.12493v1 )

ライセンス: Link先を確認
Shangchao Su, Bin Li, and Xiangyang Xue(参考訳) federated learning(fl)は、プライバシ保護のための新しい機械学習パラダイムとして、最近大きく進歩した。 従来のFLの通信コストが高いため,クライアントとサーバ間の通信コストを削減する手段として,ワンショットのフェデレーション学習が人気を集めている。 既存のワンショットfl法は、ほとんどが知識蒸留に基づいているが、蒸留ベースのアプローチでは追加のトレーニングフェーズが必要であり、利用可能なデータセットに依存する。 本研究では,公開データセット上でサーバ側でのトレーニングを行わずに,ローカルモデル上で1ラウンドのパラメータアグリゲーションを実行するという,斬新かつ難解な設定を考える。 そこで本研究では,全局所モデルのパラメータを反復的に更新し,損失面の共通低損失領域に近づける手法として,自己のデータセットの性能を損なうことなく,モデルアグリゲーションの効果的なアルゴリズムを提案する。 既存の手法と比較して、MA-Echoは、各ローカルモデルのサポートカテゴリが他のモデルと重複するラベルを持たない非常に非識別的なデータ配信設定でもうまく機能する。 提案手法を既存の手法と比較し,MA-Echoの有効性を実証するために,2つの画像分類データセットについて広範な実験を行った。

Federated Learning (FL) has recently made significant progress as a new machine learning paradigm for privacy protection. Due to the high communication cost of traditional FL, one-shot federated learning is gaining popularity as a way to reduce communication cost between clients and the server. Most of the existing one-shot FL methods are based on Knowledge Distillation; however, distillation based approach requires an extra training phase and depends on publicly available data sets. In this work, we consider a novel and challenging setting: performing a single round of parameter aggregation on the local models without server-side training on a public data set. In this new setting, we propose an effective algorithm for Model Aggregation via Exploring Common Harmonized Optima (MA-Echo), which iteratively updates the parameters of all local models to bring them close to a common low-loss area on the loss surface, without harming performance on their own data sets at the same time. Compared to the existing methods, MA-Echo can work well even in extremely non-identical data distribution settings where the support categories of each local model have no overlapped labels with those of the others. We conduct extensive experiments on two popular image classification data sets to compare the proposed method with existing methods and demonstrate the effectiveness of MA-Echo, which clearly outperforms the state-of-the-arts.
翻訳日:2022-04-28 14:12:53 公開日:2022-04-26
# vaeに基づく異常検出システムの新しい応用

Novel Applications for VAE-based Anomaly Detection Systems ( http://arxiv.org/abs/2204.12577v1 )

ライセンス: Link先を確認
Luca Bergamin, Tommaso Carraro, Mirko Polato, Fabio Aiolli(参考訳) 近年のディープラーニング技術の発展はイノベーションを加速させ、科学研究を加速させた。 その成果は、与えられたデータセットから、新しく見えないデータを作成できる、ますますポピュラーなアプローチであるdeep generative modeling(dgm)に対する、新たな研究の方向性を可能にした。 この技術が有望な応用を示すにつれて、多くの倫理的問題がもたらされる。 例えば、悪用は偽情報キャンペーンや強力なフィッシングの試みを可能にする。 研究はまた、異なるバイアスが深層学習モデルに影響を与え、誤った表現のような社会的問題を引き起こすことも示している。 そこで,本研究では, 再使用した異常検出システムが, 特定の不要データを生成するのを回避して, 効果的に新しいデータを生成することを示す。 本稿では,変分オートエンコーダ (vae) を用いて,自動エンコーダ (abc) 異常検出器を再利用し拡張する新しいモデルである変分自動エンコーダ (v-abc) を提案する。 既存のアプローチの限界を調査し、モデルの内部動作を解釈可能な方法で示すための多くのツールを調査します。 ユーザー生成データに依存するモデルは、攻撃的言語、卑劣な画像、誤解を招く情報など、望ましくないコンテンツを自動的にフィルターすることができる。

The recent rise in deep learning technologies fueled innovation and boosted scientific research. Their achievements enabled new research directions for deep generative modeling (DGM), an increasingly popular approach that can create novel and unseen data, starting from a given data set. As the technology shows promising applications, many ethical issues also arise. For example, their misuse can enable disinformation campaigns and powerful phishing attempts. Research also indicates different biases affect deep learning models, leading to social issues such as misrepresentation. In this work, we formulate a novel setting to deal with similar problems, showing that a repurposed anomaly detection system effectively generates novel data, avoiding generating specified unwanted data. We propose Variational Auto-encoding Binary Classifiers (V-ABC): a novel model that repurposes and extends the Auto-encoding Binary Classifier (ABC) anomaly detector, using the Variational Auto-encoder (VAE). We survey the limitations of existing approaches and explore many tools to show the model's inner workings in an interpretable way. This proposal has excellent potential for generative applications: models that rely on user-generated data could automatically filter out unwanted content, such as offensive language, obscene images, and misleading information.
翻訳日:2022-04-28 14:12:34 公開日:2022-04-26
# 信仰プログラムの検証について

On the Verification of Belief Programs ( http://arxiv.org/abs/2204.12562v1 )

ライセンス: Link先を確認
Daxin Liu and Gerhard Lakemeyer(参考訳) これはgologプログラムの確率的拡張であり、あらゆるアクションやセンシングの結果がうるさく、テスト条件がエージェントの主観的な信念を参照している。 GOLOGプログラムを継承したこの行動中心の機能は、不確実性の下で高いレベルのロボット制御に適した信念プログラムを実現する。 このようなプログラムをデプロイする前に重要なステップは、必要に応じてプロパティを満たすかどうかを検証することだ。 検証を行う際に少なくとも2つの問題が存在している:プログラムのプロパティを正式に指定する方法と、検証の複雑さである。 これはgologプログラムの確率的拡張であり、あらゆるアクションやセンシングの結果がうるさく、テスト条件がエージェントの主観的な信念を参照している。 GOLOGプログラムを継承したこの行動中心の機能は、不確実性の下で高いレベルのロボット制御に適した信念プログラムを実現する。 このようなプログラムをデプロイする前に重要なステップは、必要に応じてプロパティを満たすかどうかを検証することだ。 検証を行う際に少なくとも2つの問題が存在している:プログラムのプロパティを正式に指定する方法と、検証の複雑さである。 本稿では,行動と信念の様相論理に基づく信念プログラムの形式化を提案する。 中でもPCTLのような時間特性をスムーズに表現することができる。 さらに,信念プログラムの検証問題に対する決定可能性や不決定性についても検討する。

In a recent paper, Belle and Levesque proposed a framework for a type of program called belief programs, a probabilistic extension of GOLOG programs where every action and sensing result could be noisy and every test condition refers to the agent's subjective beliefs. Inherited from GOLOG programs, the action-centered feature makes belief programs fairly suitable for high-level robot control under uncertainty. An important step before deploying such a program is to verify whether it satisfies properties as desired. At least two problems exist in doing verification: how to formally specify properties of a program and what is the complexity of verification. In a recent paper, Belle and Levesque proposed a framework for a type of program called belief programs, a probabilistic extension of GOLOG programs where every action and sensing result could be noisy and every test condition refers to the agent's subjective beliefs. Inherited from GOLOG programs, the action-centered feature makes belief programs fairly suitable for high-level robot control under uncertainty. An important step before deploying such a program is to verify whether it satisfies properties as desired. At least two problems exist in doing verification: how to formally specify properties of a program and what is the complexity of verification. In this paper, we propose a formalism for belief programs based on a modal logic of actions and beliefs. Among other things, this allows us to express PCTL-like temporal properties smoothly. Besides, we investigate the decidability and undecidability for the verification problem of belief programs.
翻訳日:2022-04-28 13:30:41 公開日:2022-04-26
# 6次元多目的電位推定のための結合反復補正法

Coupled Iterative Refinement for 6D Multi-Object Pose Estimation ( http://arxiv.org/abs/2204.12516v1 )

ライセンス: Link先を確認
Lahav Lipson, Zachary Teed, Ankit Goyal, Jia Deng(参考訳) 既知の3Dオブジェクトの集合とRGBまたはRGB-D入力画像が与えられた場合、各オブジェクトの6Dポーズを検出して推定する。 本稿では,幾何学的知識を活かしたエンドツーエンドの微分可能アーキテクチャからなる6次元物体ポーズ推定手法を提案する。 提案手法はポーズと対応を緊密に結合した方法で反復的に洗練し,出力異常を動的に除去し,精度を向上させる。 双方向奥行き推定遠近点 (bd-pnp) と呼ばれる最適化問題を解くことにより, 新たな微分可能層を用いてポーズ補正を行う。 提案手法は,標準6D Object Poseベンチマークにおける最先端の精度を実現する。 コードはhttps://github.com/princeton-vl/Coupled-Iterative-Refinementで入手できる。

We address the task of 6D multi-object pose: given a set of known 3D objects and an RGB or RGB-D input image, we detect and estimate the 6D pose of each object. We propose a new approach to 6D object pose estimation which consists of an end-to-end differentiable architecture that makes use of geometric knowledge. Our approach iteratively refines both pose and correspondence in a tightly coupled manner, allowing us to dynamically remove outliers to improve accuracy. We use a novel differentiable layer to perform pose refinement by solving an optimization problem we refer to as Bidirectional Depth-Augmented Perspective-N-Point (BD-PnP). Our method achieves state-of-the-art accuracy on standard 6D Object Pose benchmarks. Code is available at https://github.com/princeton-vl/Coupled-Iterative-Refinement.
翻訳日:2022-04-28 13:29:51 公開日:2022-04-26
# スケッチベース理解のためのラベルなしデータ活用

Leveraging Unlabeled Data for Sketch-based Understanding ( http://arxiv.org/abs/2204.12522v1 )

ライセンス: Link先を確認
Javier Morales, Nils Murrugarra-Llerena and Jose M. Saavedra(参考訳) スケッチに基づく理解は人間の認知学習の重要な要素であり、人間間の原始的なコミュニケーション手段である。 このトピックは最近、静的オブジェクトと動的シーンを表現する強力なツールとして、コンピュータビジョンコミュニティの関心を集めている。 残念ながら、幅広いアプリケーションドメインにもかかわらず、現在のスケッチベースのモデルは教師付きトレーニングのラベルに強く依存しており、ラベルのないデータからの知識を無視し、基礎となる一般化と適用性を制限する。 そこで本研究では,不ラベルデータを用いたスケッチモデルの改良について検討する。 そこで我々は,VAEと半教師付きVAEのバリエーションを評価し,スケッチ処理のためのBYOLの拡張を提案する。 以上の結果から,スケッチBYOLは,未知のカテゴリの検索性能を向上する自己教師型アプローチよりも優れていた。 さらに、他のタスクが私たちの提案の恩恵を受けるかを示す。

Sketch-based understanding is a critical component of human cognitive learning and is a primitive communication means between humans. This topic has recently attracted the interest of the computer vision community as sketching represents a powerful tool to express static objects and dynamic scenes. Unfortunately, despite its broad application domains, the current sketch-based models strongly rely on labels for supervised training, ignoring knowledge from unlabeled data, thus limiting the underlying generalization and the applicability. Therefore, we present a study about the use of unlabeled data to improve a sketch-based model. To this end, we evaluate variations of VAE and semi-supervised VAE, and present an extension of BYOL to deal with sketches. Our results show the superiority of sketch-BYOL, which outperforms other self-supervised approaches increasing the retrieval performance for known and unknown categories. Furthermore, we show how other tasks can benefit from our proposal.
翻訳日:2022-04-28 13:29:36 公開日:2022-04-26
# 顔モフ攻撃の感受性に及ぼす他のストレス効果の影響

The Influence of the Other-Race Effect on Susceptibility to Face Morphing Attacks ( http://arxiv.org/abs/2204.12591v1 )

ライセンス: Link先を確認
Snipta Mallick, Geraldine Jeckeln, Connor J. Parde, Carlos D. Castillo, Alice J. O'Toole(参考訳) 2つのアイデンティティの間に作られる顔形態は、形態を作るのに使用される顔の両方に類似している。 その結果、人間と機械は、この形態を作るために使用される顔の2つのアイデンティティから作られた形態を間違えやすい。 この脆弱性は、セキュリティシナリオの"morph attack"で悪用されている。 そこで我々は,他者の顔の識別における人間的優位性である「異人種効果(ore)」がヒトのモルフィック攻撃感受性を悪化させるかどうかを問うた。 また,深層畳み込みニューラルネットワーク(dcnn)における顔識別性能は,顔の種別によって影響を受けるか質問した。 コーカサス (CA) と東アジア (EA) の参加者は, 2つの条件でCAとEAの対の顔画像に対して顔同一性マッチングタスクを行った。 形態条件では、識別対は「A」のイメージと「A」と「B」のイメージ間の50/50形態からなる。 基準条件では、異なる同一性の形態は現れなかった。 予想通り、形態は元の顔画像よりも誤って識別された。 さらに, EA面(部分ORE)と比較してCA面が有利であった。 第一に, モルフォロジーの同定は, クロスレース顔では, 自己レース顔よりも有意に悪化した。 人間と同様に、dcnnはモーフィックな画像ペアよりもオリジナルの顔画像をより正確に実行した。 特に、深層ネットワークはどちらも人間よりもかなり正確であることが判明した。 以上の結果から,DCNNは変形顔の認識精度を向上させるのに有用である可能性が示唆された。 また, 適用条件下でのモルヒネ攻撃感受性におけるOREの重要性も示唆した。

Facial morphs created between two identities resemble both of the faces used to create the morph. Consequently, humans and machines are prone to mistake morphs made from two identities for either of the faces used to create the morph. This vulnerability has been exploited in "morph attacks" in security scenarios. Here, we asked whether the "other-race effect" (ORE) -- the human advantage for identifying own- vs. other-race faces -- exacerbates morph attack susceptibility for humans. We also asked whether face-identification performance in a deep convolutional neural network (DCNN) is affected by the race of morphed faces. Caucasian (CA) and East-Asian (EA) participants performed a face-identity matching task on pairs of CA and EA face images in two conditions. In the morph condition, different-identity pairs consisted of an image of identity "A" and a 50/50 morph between images of identity "A" and "B". In the baseline condition, morphs of different identities never appeared. As expected, morphs were identified mistakenly more often than original face images. Moreover, CA participants showed an advantage for CA faces in comparison to EA faces (a partial ORE). Of primary interest, morph identification was substantially worse for cross-race faces than for own-race faces. Similar to humans, the DCNN performed more accurately for original face images than for morphed image pairs. Notably, the deep network proved substantially more accurate than humans in both cases. The results point to the possibility that DCNNs might be useful for improving face identification accuracy when morphed faces are presented. They also indicate the significance of the ORE in morph attack susceptibility in applied settings.
翻訳日:2022-04-28 13:29:22 公開日:2022-04-26
# indic言語の低リソース乱用言語検出を改善するためのデータブートストラップ法

Data Bootstrapping Approaches to Improve Low Resource Abusive Language Detection for Indic Languages ( http://arxiv.org/abs/2204.12543v1 )

ライセンス: Link先を確認
Mithun Das and Somnath Banerjee and Animesh Mukherjee(参考訳) 乱用言語は多くのソーシャルメディアプラットフォームで懸念が高まっている。 乱用音声への繰り返し曝露は, 対象ユーザに対する生理的影響を生じさせている。 したがって、乱用言語の問題は、オンラインの平和と安全のためにあらゆる形で解決されるべきである。 乱用音声検出には広範な研究があるが、ほとんどの研究は英語に焦点を当てている。 近年,インドでは多くのスミア事件が発生しており,位置情報に基づく様々な言語におけるオンライン空間における虐待スピーチの多様な形態が引き起こされている。 そのため、このような悪質なコンテンツを扱うことが不可欠である。 本稿では,このギャップを埋めるため,indic 言語における多言語乱用音声の大規模分析を行う。 異なる言語間伝達機構について検討し,8種類のindic言語における乱用音声検出のための多言語モデルの性能を観察した。 また、これらのモデルが敵攻撃にどれほど頑丈であるかを示す実験も行います。 最後に,様々な設定にまたがって,モデルの誤分類記事を調べることによって,詳細な誤差解析を行う。 他の研究者のためにコードとモデルを公開しました。

Abusive language is a growing concern in many social media platforms. Repeated exposure to abusive speech has created physiological effects on the target users. Thus, the problem of abusive language should be addressed in all forms for online peace and safety. While extensive research exists in abusive speech detection, most studies focus on English. Recently, many smearing incidents have occurred in India, which provoked diverse forms of abusive speech in online space in various languages based on the geographic location. Therefore it is essential to deal with such malicious content. In this paper, to bridge the gap, we demonstrate a large-scale analysis of multilingual abusive speech in Indic languages. We examine different interlingual transfer mechanisms and observe the performance of various multilingual models for abusive speech detection for eight different Indic languages. We also experiment to show how robust these models are on adversarial attacks. Finally, we conduct an in-depth error analysis by looking into the models' misclassified posts across various settings. We have made our code and models public for other researchers.
翻訳日:2022-04-28 13:14:02 公開日:2022-04-26
# 深層多視点サブスペースクラスタリングのための自己監督型情報基盤

Self-Supervised Information Bottleneck for Deep Multi-View Subspace Clustering ( http://arxiv.org/abs/2204.12496v1 )

ライセンス: Link先を確認
Shiye Wang, Changsheng Li, Yanming Li, Ye Yuan, Guoren Wang(参考訳) 本稿では,情報理論の観点から,深層多視点サブスペースクラスタリングフレームワークの問題点を考察する。 従来の情報ボトルネック原則を拡張して,異なる視点間の共通情報を自己教師あり方式で学習し,自己教師あり情報ボトルネックに基づくマルチビューサブスペースクラスタリング(sib-msc)と呼ばれる新しい枠組みを確立する。 SIB-MSCは、情報ボトルネックの利点を継承し、他のビューの潜伏表現に十分な情報を保持しながら、ビュー自体から過剰な情報を除去することで、各ビューの潜伏表現間の共通情報をキャプチャする潜伏空間を学習することができる。 実際、各ビューの潜在表現は、他のビューの潜在表現をトレーニングするために、一種の自己教師付き信号を提供する。 さらに、SIB-MSCは、各ビューの他の潜在空間を学習し、相互情報に基づく正規化用語を導入して、ビュー固有の情報をキャプチャし、マルチビューサブスペースクラスタリングの性能をさらに向上させる。 私たちの知る限りでは、マルチビューサブスペースクラスタリングのための情報のボトルネックを調査するのはこれが初めてです。 実世界のマルチビューデータに対する大規模な実験により,本手法は関連する最先端手法よりも優れた性能を発揮することが示された。

In this paper, we explore the problem of deep multi-view subspace clustering framework from an information-theoretic point of view. We extend the traditional information bottleneck principle to learn common information among different views in a self-supervised manner, and accordingly establish a new framework called Self-supervised Information Bottleneck based Multi-view Subspace Clustering (SIB-MSC). Inheriting the advantages from information bottleneck, SIB-MSC can learn a latent space for each view to capture common information among the latent representations of different views by removing superfluous information from the view itself while retaining sufficient information for the latent representations of other views. Actually, the latent representation of each view provides a kind of self-supervised signal for training the latent representations of other views. Moreover, SIB-MSC attempts to learn the other latent space for each view to capture the view-specific information by introducing mutual information based regularization terms, so as to further improve the performance of multi-view subspace clustering. To the best of our knowledge, this is the first work to explore information bottleneck for multi-view subspace clustering. Extensive experiments on real-world multi-view data demonstrate that our method achieves superior performance over the related state-of-the-art methods.
翻訳日:2022-04-28 13:13:49 公開日:2022-04-26
# RAMBO-RL:ロバスト適応モデルに基づくオフライン強化学習

RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning ( http://arxiv.org/abs/2204.12581v1 )

ライセンス: Link先を確認
Marc Rigter, Bruno Lacerda, Nick Hawes(参考訳) オフライン強化学習(RL)は、さらなる環境相互作用を伴わないログデータから、ほぼ最適なポリシーを見つけることを目的としている。 データセットから環境のモデルを学び、そのモデル内で保守的なポリシー最適化を行うモデルベースのアルゴリズムは、この問題に対して有望なアプローチとして現れてきた。 本稿では,モデルベースオフラインRLの新しいアプローチであるRobust Adversarial Model-Based Offline RL(RAMBO)を提案する。 保守性を達成するため、敵環境モデルに対して2プレイヤーゼロ和ゲームとして問題を定式化する。 モデルは、データセットの遷移を正確に予測しながら、値関数を最小化し、ポリシーをデータセットでカバーされていない領域で保守的に振る舞うように訓練される。 両プレイヤーのゲームを大まかに解くため、ポリシーの最適化とモデルを逆向きに最適化するのを交互に行う。 提案する問題定式化は理論的に根拠づけられ、その結果pac性能保証と真環境における値関数の境界を低くする悲観的値関数となる。 我々は,オフラインRLベンチマークに対する我々のアプローチを評価し,我々のアプローチが技術性能の状態を達成できることを実証した。

Offline reinforcement learning (RL) aims to find near-optimal policies from logged data without further environment interaction. Model-based algorithms, which learn a model of the environment from the dataset and perform conservative policy optimisation within that model, have emerged as a promising approach to this problem. In this work, we present Robust Adversarial Model-Based Offline RL (RAMBO), a novel approach to model-based offline RL. To achieve conservatism, we formulate the problem as a two-player zero sum game against an adversarial environment model. The model is trained minimise the value function while still accurately predicting the transitions in the dataset, forcing the policy to act conservatively in areas not covered by the dataset. To approximately solve the two-player game, we alternate between optimising the policy and optimising the model adversarially. The problem formulation that we address is theoretically grounded, resulting in a PAC performance guarantee and a pessimistic value function which lower bounds the value function in the true environment. We evaluate our approach on widely studied offline RL benchmarks, and demonstrate that our approach achieves state of the art performance.
翻訳日:2022-04-28 13:13:25 公開日:2022-04-26
# 表情認識のための自己学習型表現の評価

Evaluation of Self-taught Learning-based Representations for Facial Emotion Recognition ( http://arxiv.org/abs/2204.12624v1 )

ライセンス: Link先を確認
Bruna Delazeri, Leonardo L. Veras, Alceu de S. Britto Jr., Jean Paul Barddal, Alessandro L. Koerich(参考訳) 本研究は,表情認識のための自己学習(fer)の概念を用いて,教師なし表現を生成するための異なる戦略について述べる。 このアイデアは、オートエンコーダの初期化、アーキテクチャ、トレーニングデータを変更することで、多様性を促進する補完的な表現を作ることである。 SVM, Bagging, Random Forestおよび動的アンサンブル選択法を最終分類法として評価した。 Jaffe と Cohn-Kanade のデータセットに対して,提案した多種多様な表現に基づく FER 手法が,教師なし特徴学習を探求する最先端手法と好意的に比較できることを示す。

This work describes different strategies to generate unsupervised representations obtained through the concept of self-taught learning for facial emotion recognition (FER). The idea is to create complementary representations promoting diversity by varying the autoencoders' initialization, architecture, and training data. SVM, Bagging, Random Forest, and a dynamic ensemble selection method are evaluated as final classification methods. Experimental results on Jaffe and Cohn-Kanade datasets using a leave-one-subject-out protocol show that FER methods based on the proposed diverse representations compare favorably against state-of-the-art approaches that also explore unsupervised feature learning.
翻訳日:2022-04-28 13:09:33 公開日:2022-04-26
# 混合勾配戦略を用いたフェデレーション学習における逆攻撃に対するプライバシー強化

Enhancing Privacy against Inversion Attacks in Federated Learning by using Mixing Gradients Strategies ( http://arxiv.org/abs/2204.12495v1 )

ライセンス: Link先を確認
Shaltiel Eloul, Fran Silavong, Sanket Kamthe, Antonios Georgiadis, Sean J. Moran(参考訳) フェデレーション学習は情報漏洩のリスクを低減するが、攻撃には弱い。 本研究では,複数のニューラルネットワーク設計決定が勾配反転攻撃に対してどのように防御できるかを検討する。 重なり合う勾配は,高度に脆弱な密度層上の勾配反転に対する抵抗を数値的に示す。 具体的には,適切な損失関数を選択し,同一ラベルを描画することにより,バッチ処理を利用して勾配の混合を最大化する。 また, クロスエントロピー損失の非混合性により, 数値最適化をすることなく, ミニバッチ内のすべてのベクトルを直接回収することができることを示した。 データリカバリを正確に評価するために,全変動から得られた画像中の情報漏洩に対する絶対変動距離(AVD)メトリクスを導入する。 平均二乗誤差や構造的類似性指数のような標準メトリクスとは対照的に、avdはノイズ画像から情報を抽出するための連続的なメトリックを提供する。 最後に,様々なインバージョンアタックおよびトレーニングパフォーマンスからの情報回復に関する経験的結果から,防衛戦略を支援する。 これらの戦略は、画像認識のためのLeNETのような深層畳み込みニューラルネットワークにも有用である。 この研究は、信頼ある連合政策を達成するためのさらなる戦略の開発を導くのに役立つと期待している。

Federated learning reduces the risk of information leakage, but remains vulnerable to attacks. We investigate how several neural network design decisions can defend against gradients inversion attacks. We show that overlapping gradients provides numerical resistance to gradient inversion on the highly vulnerable dense layer. Specifically, we propose to leverage batching to maximise mixing of gradients by choosing an appropriate loss function and drawing identical labels. We show that otherwise it is possible to directly recover all vectors in a mini-batch without any numerical optimisation due to the de-mixing nature of the cross entropy loss. To accurately assess data recovery, we introduce an absolute variation distance (AVD) metric for information leakage in images, derived from total variation. In contrast to standard metrics, e.g. Mean Squared Error or Structural Similarity Index, AVD offers a continuous metric for extracting information in noisy images. Finally, our empirical results on information recovery from various inversion attacks and training performance supports our defense strategies. These strategies are also shown to be useful for deep convolutional neural networks such as LeNET for image recognition. We hope that this study will help guide the development of further strategies that achieve a trustful federation policy.
翻訳日:2022-04-28 13:07:02 公開日:2022-04-26
# 宇宙空間における二重拡散図とその科学的計算のための潜在高調波

Double Diffusion Maps and their Latent Harmonics for Scientific Computations in Latent Space ( http://arxiv.org/abs/2204.12536v1 )

ライセンス: Link先を確認
Nikolaos Evangelou, Felix Dietrich, Eliodoro Chiavazzo, Daniel Lehmberg, Marina Meila and Ioannis G. Kevrekidis(参考訳) 本研究では, 時間列データ上での拡散マップ(Diffusion Maps, 多様体学習手法)を用いて, 遅延空間の削減を図った。 これらの潜在座標上の拡散写像の第二ラウンドは、還元力学モデルの近似を可能にする。 この第2ラウンドでは、潜在空間座標を全周囲空間(リフトと呼ばれる)にマッピングすることができる。 本研究では,潜伏空間における事前集計とフライ上の積分,あるいは周囲の空間と潜伏空間の間を行き来する3つの異なる数値シミュレーション手法を開発・テストした。 3つの異なるアプローチに基づくデータ駆動潜在空間シミュレーションの結果は検証される (a)nystr\"om拡張公式による全シミュレーションの潜在空間観測、またはその経由 (b)潜在調和によって、縮小された軌道を全周囲空間へ持ち上げること。 潜在空間モデリングは、しばしば他の空間よりも空間の特定の性質を優先するために追加の正則化を伴い、その後、周囲空間への写像はこれらの性質とは独立に構築される。

We introduce a data-driven approach to building reduced dynamical models through manifold learning; the reduced latent space is discovered using Diffusion Maps (a manifold learning technique) on time series data. A second round of Diffusion Maps on those latent coordinates allows the approximation of the reduced dynamical models. This second round enables mapping the latent space coordinates back to the full ambient space (what is called lifting); it also enables the approximation of full state functions of interest in terms of the reduced coordinates. In our work, we develop and test three different reduced numerical simulation methodologies, either through pre-tabulation in the latent space and integration on the fly or by going back and forth between the ambient space and the latent space. The data-driven latent space simulation results, based on the three different approaches, are validated through (a) the latent space observation of the full simulation through the Nystr\"om Extension formula, or through (b) lifting the reduced trajectory back to the full ambient space, via Latent Harmonics. Latent space modeling often involves additional regularization to favor certain properties of the space over others, and the mapping back to the ambient space is then constructed mostly independently from these properties; here, we use the same data-driven approach to construct the latent space and then map back to the ambient space.
翻訳日:2022-04-28 13:06:30 公開日:2022-04-26
# ベイズ最適化によるパラメータフリー回帰ネットワークを用いた為替レート予測

Forecasting Foreign Exchange Rates With Parameter-Free Regression Networks Tuned By Bayesian Optimization ( http://arxiv.org/abs/2204.12914v1 )

ライセンス: Link先を確認
Linwei Li, Paul-Amaury Matt, Christian Heumann(参考訳) 本論文は、外国為替(FX)レートの多段階金融時系列予測の問題に関するものである。 この問題に対処するために,regpred netと呼ばれるパラメータフリー回帰ネットワークを提案する。 予測に対する為替レートは確率過程として扱われる。 ブラウン運動の一般化と、時間依存係数を持つ一般化されたornstein-uhlenbeck (ou) 過程と呼ばれる平均反転過程に従うと仮定される。 入力時系列の過去の観測値を用いて、これらの係数はネットワークの前半(reg)のセルによってオンラインに回帰することができる。 回帰係数は-のみに依存するが、非常に敏感であり、大域的な最適化手順によって設定される必要のある少数のハイパーパラメータ、ベイズ最適化は適切なヒューリスティックである。 多層アーキテクチャにより、回帰ネットワーク(Pred)の後半部は、OUプロセス係数の時間依存値を投影し、時系列の現実的な軌跡を生成することができる。 予測はモンテカルロシミュレーションで得られた平均値から推定される期待値の形で容易に導出できる。 EUR/USD、EUR/CNY、EUR/GBPなど、最も重要なFXレートについて、100日間の地平線上の予測精度を評価する。 実験の結果,RegPred NetはARMA, ARIMA, LSTM, Autoencoder-LSTMモデルよりも優れていた。

The article is concerned with the problem of multi-step financial time series forecasting of Foreign Exchange (FX) rates. To address this problem, we introduce a parameter-free regression network termed RegPred Net. The exchange rate to forecast is treated as a stochastic process. It is assumed to follow a generalization of Brownian motion and the mean-reverting process referred to as the generalized Ornstein-Uhlenbeck (OU) process, with time-dependent coefficients. Using past observed values of the input time series, these coefficients can be regressed online by the cells of the first half of the network (Reg). The regressed coefficients depend only on - but are very sensitive to - a small number of hyperparameters required to be set by a global optimization procedure for which, Bayesian optimization is an adequate heuristic. Thanks to its multi-layered architecture, the second half of the regression network (Pred) can project time-dependent values for the OU process coefficients and generate realistic trajectories of the time series. Predictions can be easily derived in the form of expected values estimated by averaging values obtained by Monte Carlo simulation. The forecasting accuracy on a 100 days horizon is evaluated for several of the most important FX rates such as EUR/USD, EUR/CNY, and EUR/GBP. Our experimental results show that the RegPred Net significantly outperforms ARMA, ARIMA, LSTMs, and Autoencoder-LSTM models in this task.
翻訳日:2022-04-28 13:04:25 公開日:2022-04-26
# 病理におけるマルチモーダル統合のためのマルチステングラフ融合

Multi stain graph fusion for multimodal integration in pathology ( http://arxiv.org/abs/2204.12541v1 )

ライセンス: Link先を確認
Chaitanya Dwivedi, Shima Nofallah, Maryam Pouryahya, Janani Iyer, Kenneth Leidal, Chuhan Chung, Timothy Watkins, Andrew Billin, Robert Myers, John Abel, Ali Behrooz(参考訳) 病理学では、組織サンプルは異なる組織学的特徴のコントラストを高めるために複数の染色技術を用いて評価される。 本稿では,複数の非登録病理画像からの補足情報を活用し,病理スコアを予測するマルチモーダルcnn-gnnベースのグラフ融合手法を提案する。 CRN線維症ステージとNAS(NAFLD Activity Score)を予測し,非アルコール性脂肪肝炎(NASH)に対するアプローチを実証した。 NASHの一次評価は、通常、Trichrome (TC) と hematoxylin (H&E) の2つの組織染色の肝生検を必要とする。 我々のマルチモーダルアプローチは、各染色に対応するTCおよびH&Eグラフから補完情報を抽出し、同時にこれらの情報を組み合わせるための最適なポリシーを学習する。 機械由来と病理学者のコンセンサススコアを線形重み付けしたcohen's kappaを計算した結果, 線維化期およびnas成分の予測成績は, 最大20%改善した。 本稿では,MLを用いた病理組織学的評価を改善するために,多様な病理画像を活用することの価値を広く示す。

In pathology, tissue samples are assessed using multiple staining techniques to enhance contrast in unique histologic features. In this paper, we introduce a multimodal CNN-GNN based graph fusion approach that leverages complementary information from multiple non-registered histopathology images to predict pathologic scores. We demonstrate this approach in nonalcoholic steatohepatitis (NASH) by predicting CRN fibrosis stage and NAFLD Activity Score (NAS). Primary assessment of NASH typically requires liver biopsy evaluation on two histological stains: Trichrome (TC) and hematoxylin and eosin (H&E). Our multimodal approach learns to extract complementary information from TC and H&E graphs corresponding to each stain while simultaneously learning an optimal policy to combine this information. We report up to 20% improvement in predicting fibrosis stage and NAS component grades over single-stain modeling approaches, measured by computing linearly weighted Cohen's kappa between machine-derived vs. pathologist consensus scores. Broadly, this paper demonstrates the value of leveraging diverse pathology images for improved ML-powered histologic assessment.
翻訳日:2022-04-28 13:04:01 公開日:2022-04-26
# 信号区間におけるエコドライブ戦略の学習

Learning Eco-Driving Strategies at Signalized Intersections ( http://arxiv.org/abs/2204.12561v1 )

ライセンス: Link先を確認
Vindula Jayawardana and Cathy Wu(参考訳) 動脈道路の信号化された交差点は、車両のアイドリングと過剰な加速をもたらし、燃料消費と二酸化炭素排出量に寄与する。 そのため、交差点での燃料消費と排出のレベルを減らすためのエコドライブコントロール戦略の研究が続けられている。 しかし,様々なトラフィック設定に対して効果的な制御戦略を考案する手法はいまだ解明されていない。 本稿では,効果的なエコ運転制御戦略を学ぶための強化学習(rl)手法を提案する。 我々は, 学習戦略が燃料消費, CO2排出, 旅行時間に与える影響を分析し, 自然主義運転とモデルベースラインとの比較を行った。 さらに,混合交通シナリオにおける学習方針の一般化可能性を示す。 シミュレーションの結果,コネクテッド・オートモービル(CAV)が100%浸透するシナリオでは,燃費が最大18%減少し,二酸化炭素排出量が25%減少し,走行速度が20%向上する可能性が示唆された。 さらに, 25%のCAV侵入でも, 総燃料および排出削減効果の少なくとも50%を享受できることが示唆された。

Signalized intersections in arterial roads result in persistent vehicle idling and excess accelerations, contributing to fuel consumption and CO2 emissions. There has thus been a line of work studying eco-driving control strategies to reduce fuel consumption and emission levels at intersections. However, methods to devise effective control strategies across a variety of traffic settings remain elusive. In this paper, we propose a reinforcement learning (RL) approach to learn effective eco-driving control strategies. We analyze the potential impact of a learned strategy on fuel consumption, CO2 emission, and travel time and compare with naturalistic driving and model-based baselines. We further demonstrate the generalizability of the learned policies under mixed traffic scenarios. Simulation results indicate that scenarios with 100% penetration of connected autonomous vehicles (CAV) may yield as high as 18% reduction in fuel consumption and 25% reduction in CO2 emission levels while even improving travel speed by 20%. Furthermore, results indicate that even 25% CAV penetration can bring at least 50% of the total fuel and emission reduction benefits.
翻訳日:2022-04-28 13:02:53 公開日:2022-04-26
# MagahiとBrajのためのユニバーサル依存ツリーバンクの開発

Developing Universal Dependency Treebanks for Magahi and Braj ( http://arxiv.org/abs/2204.12633v1 )

ライセンス: Link先を確認
Mohit Raj, Shyam Ratan, Deepak Alok, Ritesh Kumar, Atul Kr. Ojha(参考訳) 本稿では,Universal Dependenciesフレームワークに基づく2つの低リソースインド言語(MagahiとBraj)のためのツリーバンクの開発について論じる。 マガヒの木バンクには945の文と500の文からなるブラージュの木バンクがあり、その補題、部分音声、形態的特徴、普遍的な依存関係が特徴である。 本稿では,2つの言語における依存関係の異なる記述と,二つの木々バンクの統計について述べる。 データセットは次の(v2.10)リリースでUniversal Dependency(UD)リポジトリ(https://github.com/UniversalDependencies/UD_Magahi-MGTB/tree/master)で公開される。

In this paper, we discuss the development of treebanks for two low-resourced Indian languages - Magahi and Braj based on the Universal Dependencies framework. The Magahi treebank contains 945 sentences and Braj treebank around 500 sentences marked with their lemmas, part-of-speech, morphological features and universal dependencies. This paper gives a description of the different dependency relationship found in the two languages and give some statistics of the two treebanks. The dataset will be made publicly available on Universal Dependency (UD) repository (https://github.com/UniversalDependencies/UD_Magahi-MGTB/tree/master) in the next(v2.10) release.
翻訳日:2022-04-28 13:01:00 公開日:2022-04-26
# aiと自然言語知識伝達を用いたパーキンソン病の診断

Parkinson's disease diagnostics using AI and natural language knowledge transfer ( http://arxiv.org/abs/2204.12559v1 )

ライセンス: Link先を確認
Maurycy Chronowski, Maciej Klaczynski, Malgorzata Dec-Cwiek, Karolina Porebska(参考訳) 本研究では,非侵襲的アテマルテム技術を用いたパーキンソン病(pd)診断の課題に取り組んだ。 pdと診断された症例の生音声記録分類のための深層学習手法を提案した。 提案手法の核となるのは,事前学習された自然言語モデルからの知識伝達を用いた音声分類器である。 対象は, PD患者38名, 健常者10名で, 50歳以上であった。 スマートフォンレコーダを用いて取得した音声記録のデータセットを構築し,Hoehn-Yahr 尺度で評価した疾患の重篤度でPD/non-PDとラベル付けした。 音声録音は2141のサンプルに切り分けられ、文、音節、母音、持続音節が含まれていた。 分類器のスコアは97.92 %までである。 また,神経学の専門家に相談した人間レベルのパフォーマンス評価アンケートの結果も提示する。

In this work, the issue of Parkinson's disease (PD) diagnostics using non-invasive antemortem techniques was tackled. A deep learning approach for classification of raw speech recordings in patients with diagnosed PD was proposed. The core of proposed method is an audio classifier using knowledge transfer from a pretrained natural language model, namely \textit{wav2vec 2.0}. Method was tested on a group of 38 PD patients and 10 healthy persons above the age of 50. A dataset of speech recordings acquired using a smartphone recorder was constructed and the recordings were label as PD/non-PD with severity of the disease additionally rated using Hoehn-Yahr scale. The audio recordings were cut into 2141 samples that include sentences, syllables, vowels and sustained phonation. The classifier scores up to 97.92\% of cross-validated accuracy. Additionally, paper presents results of a human-level performance assessment questionnaire, which was consulted with the neurology professionals
翻訳日:2022-04-28 12:15:23 公開日:2022-04-26
# (参考訳) 非一様終端チェイス:サイズと複雑さ

Non-Uniformly Terminating Chase: Size and Complexity ( http://arxiv.org/abs/2204.10584v2 )

ライセンス: CC BY 4.0
Marco Calautti, Georg Gottlob, Andreas Pieris(参考訳) チェイス手順は、もともとデータベース制約の含意をチェックするために導入され、後にデータ交換ソリューションの計算に使われるようになったが、最近、ルールベースのオントロジ推論の中心的なアルゴリズムツールとなった。 この文脈では、鍵となる問題は非一様チェイス終了である:データベースw.r.t.のチェイスは終了するか? もしそうなら、チェイスの結果のサイズは? 本稿では,厳密な規則に基づくオントロジー言語を構成するタプル生成依存性 (TGD) に注目し,上記の中心的課題について考察する。 主な発見の1つは、保護されたTGDに対する一様でない半盲検追跡終了は、データベースの多項式時間 w.r.t で実現可能であり、追跡結果(有限である場合)のサイズは、データベースの線形時間 w.r.t である。 非一様チェイス終了に関する結果に向けて,もともとオントロジクエリ応答の文脈で導入された単純化や線形化といった基本的な手法がチェイス終了問題に安全に適用できることを示す。

The chase procedure, originally introduced for checking implication of database constraints, and later on used for computing data exchange solutions, has recently become a central algorithmic tool in rule-based ontological reasoning. In this context, a key problem is non-uniform chase termination: does the chase of a database w.r.t. a rule-based ontology terminate? And if this is the case, what is the size of the result of the chase? We focus on guarded tuple-generating dependencies (TGDs), which form a robust rule-based ontology language, and study the above central questions for the semi-oblivious version of the chase. One of our main findings is that non-uniform semi-oblivious chase termination for guarded TGDs is feasible in polynomial time w.r.t. the database, and the size of the result of the chase (whenever is finite) is linear w.r.t. the database. Towards our results concerning non-uniform chase termination, we show that basic techniques such as simplification and linearization, originally introduced in the context of ontological query answering, can be safely applied to the chase termination problem.
翻訳日:2022-04-28 10:55:38 公開日:2022-04-26
# (参考訳) Bamboo: 大規模DNNのトレーニングに使えるプリエンプティブルインスタンス

Bamboo: Making Preemptible Instances Resilient for Affordable Training of Large DNNs ( http://arxiv.org/abs/2204.12013v1 )

ライセンス: CC BY 4.0
John Thorpe and Pengzhan Zhao and Jonathan Eyolfson and Yifan Qiao and Zhihao Jia and Minjia Zhang and Ravi Netravali and Guoqing Harry Xu(参考訳) 多くのドメインにわたるDNNモデルは規模が拡大し続けており、結果として効果的なトレーニングのためのリソースの要求が高くなり、組織や研究機関の規模で適用不可能なコストがかかる。 本研究の目的は、アイドル時にはるかに安価に入手できるが、優先ユーザからの要求に応じてプリエンプティブルなインスタンスを有効利用することで、トレーニングコストを大幅に削減することである。 しかし、頻繁なプリエンプションの可能性を対処するためには、新しいタイプのレジリエンスと効率が必要だ。これは、既存のチェックポイント技術がターゲットとする通常のクラスタ設定の障害と大きく異なる、障害モデルである。 本稿では,学習パイプラインに冗長な計算を導入することで,これらの課題に対処可能な分散システムであるbambooを提案する。 私たちのキーとなる洞察は、大きなモデルのトレーニングには、"パイプラインバブル"が自然に存在するパイプライン並列性が必要です。 Bambooは、これらのバブルに冗長な計算を注意深く埋め、低コストでレジリエンスを提供する。 広く使用されているDNNモデル全体では、Bambooは従来のチェックポイントを3.7倍のトレーニングスループットで上回り、オンデマンドインスタンスを使用する設定に比べて2.4倍のコスト削減を実現している。

DNN models across many domains continue to grow in size, resulting in high resource requirements for effective training, and unpalatable (and often unaffordable) costs for organizations and research labs across scales. This paper aims to significantly reduce training costs with effective use of preemptible instances, i.e., those that can be obtained at a much cheaper price while idle, but may be preempted whenever requested by priority users. Doing so, however, requires new forms of resiliency and efficiency to cope with the possibility of frequent preemptions - a failure model that is drastically different from the occasional failures in normal cluster settings that existing checkpointing techniques target. We present Bamboo, a distributed system that tackles these challenges by introducing redundant computations into the training pipeline, i.e., whereby one node performs computations over not only its own layers but also over some layers in its neighbor. Our key insight is that training large models often requires pipeline parallelism where "pipeline bubbles" naturally exist. Bamboo carefully fills redundant computations into these bubbles, providing resilience at a low cost. Across a variety of widely used DNN models, Bamboo outperforms traditional checkpointing by 3.7x in training throughput, and reduces costs by 2.4x compared to a setting where on-demand instances are used.
翻訳日:2022-04-28 00:44:13 公開日:2022-04-26
# (参考訳) 情報融合:サブスペース駆動アプローチのスケーリング

Information Fusion: Scaling Subspace-Driven Approaches ( http://arxiv.org/abs/2204.12035v1 )

ライセンス: CC BY 4.0
Sally Ghanem, and Hamid Krim(参考訳) 本研究では,畳み込みニューラルネットワーク(CNN)の形式化を用いて,マルチモーダルデータの深部構造を利用して情報のグループ部分空間分布を強固に活用する。 各データモダリティを構成する部分空間の集合を展開し、対応するエンコーダを学習することで、生成された固有情報の最適化統合を行い、様々なクラスの特徴付けを行う。 deep multimodal robust group subspace clustering (drgsure) と呼ばれるこのアプローチは、独立に開発されたdeep multimodal subspace clustering (dmsc) と呼ばれる最先端のアプローチと比較される。 異なるマルチモーダルデータセットの実験は、ノイズの存在下での我々のアプローチが競争力があり、より堅牢であることを示している。

In this work, we seek to exploit the deep structure of multi-modal data to robustly exploit the group subspace distribution of the information using the Convolutional Neural Network (CNN) formalism. Upon unfolding the set of subspaces constituting each data modality, and learning their corresponding encoders, an optimized integration of the generated inherent information is carried out to yield a characterization of various classes. Referred to as deep Multimodal Robust Group Subspace Clustering (DRoGSuRe), this approach is compared against the independently developed state-of-the-art approach named Deep Multimodal Subspace Clustering (DMSC). Experiments on different multimodal datasets show that our approach is competitive and more robust in the presence of noise.
翻訳日:2022-04-28 00:11:56 公開日:2022-04-26
# (参考訳) 時間的知識予測のための適応擬似シームズポリシーネットワーク

Adaptive Pseudo-Siamese Policy Network for Temporal Knowledge Prediction ( http://arxiv.org/abs/2204.12036v1 )

ライセンス: CC BY 4.0
Pengpeng Shao, Tong Liu, Feihu Che, Dawei Zhang, Jianhua Tao(参考訳) 時間的知識予測は、時間的知識グラフ上の関連する歴史的事実を用いて将来の事実を予測することを目的として、近年注目を集めているイベント早期警告にとって重要な課題である。 この予測には2つの大きな困難がある。 まず、歴史的事実の観点から、事実の進化パターンをモデル化してクエリを正確に予測する方法を考察する。 第二に、クエリの観点からは、クエリが含んでいる2つのケースと、統一されたフレームワークで見えないエンティティを扱う方法です。 この2つの問題により,強化学習に基づく時間的知識予測のための適応型擬似テーマポリシーネットワークを提案する。 具体的には,2つのサブポリシーネットワークからなる疑似シム政策ネットワークとして,政策ネットワークをモデルとして設計する。 サブポリシーネットワークiでは、エージェントがエンティティ-リレーショナルパスに沿ってクエリの答えを検索し、静的進化パターンをキャプチャする。 そして、サブ政治ネットワークIIでは、エージェントは、未知のエンティティを扱うための関係時間パスに沿って、クエリの回答を検索する。 さらに、時間的進化パターンをキャプチャする時間的関係エンコーダを開発する。 最後に、2つのサブポリシーネットワークの結果を適応的に統合し、エージェントが目的地の回答に集中できるようにゲーティング機構を設計する。 モデル性能を評価するために,4つのベンチマークデータセットでリンク予測を行い,本手法が既存の手法と比較してかなりの性能が得られることを示す。

Temporal knowledge prediction is a crucial task for the event early warning that has gained increasing attention in recent years, which aims to predict the future facts by using relevant historical facts on the temporal knowledge graphs. There are two main difficulties in this prediction task. First, from the historical facts point of view, how to model the evolutionary patterns of the facts to predict the query accurately. Second, from the query perspective, how to handle the two cases where the query contains seen and unseen entities in a unified framework. Driven by the two problems, we propose a novel adaptive pseudo-siamese policy network for temporal knowledge prediction based on reinforcement learning. Specifically, we design the policy network in our model as a pseudo-siamese policy network that consists of two sub-policy networks. In sub-policy network I, the agent searches for the answer for the query along the entity-relation paths to capture the static evolutionary patterns. And in sub-policy network II, the agent searches for the answer for the query along the relation-time paths to deal with unseen entities. Moreover, we develop a temporal relation encoder to capture the temporal evolutionary patterns. Finally, we design a gating mechanism to adaptively integrate the results of the two sub-policy networks to help the agent focus on the destination answer. To assess our model performance, we conduct link prediction on four benchmark datasets, the experimental results demonstrate that our method obtains considerable performance compared with existing methods.
翻訳日:2022-04-27 23:50:02 公開日:2022-04-26
# (参考訳) istrboost: boostingを用いた重要サンプリング転送回帰

ISTRBoost: Importance Sampling Transfer Regression using Boosting ( http://arxiv.org/abs/2204.12044v1 )

ライセンス: CC BY 4.0
Shrey Gupta, Jianzhao Bi, Yang Liu, and Avani Wildani(参考訳) 現在のインスタンス転送学習(ITL)手法は、ドメイン適応とサブスペース変換を用いて、転送学習を成功させる。 しかしながら、これらの方法論は、そのプロセスにおいて、テストデータセットが分散度が高い場合、ターゲットデータセットに過度に適合するか、負の転送に苦しむことがある。 ブースティング手法は,高レジデントを反復的に繰り返すことで過度に適合するリスクを低減することが示されている。 しかしながら、このバランスは通常、パラメータ最適化によって達成され、ソースデータセットのサイズによって生成される重みの歪みを低減する。 前者は達成できるが、後者はより困難であり、負の移動につながる可能性がある。 本稿では,2段階の TrAdaBoost.R2 という一般的な ITL 回帰手法に基づいて,この問題に対してよりシンプルで堅牢な修正を導入する。 我々の方法論である~\us{}は、重要サンプリングを利用してソース・データセットによる歪を低減し、ランダム・フォレストに基づくアンサンブル手法である。 競争力のある移行学習手法よりも,~\us{}~が 63\% の時間でよいことを示す。 また、他のトランスファー学習手法で観察される散発的な結果とは対照的に、さまざまな複雑なデータセットに対するパフォーマンスの一貫性を示す。

Current Instance Transfer Learning (ITL) methodologies use domain adaptation and sub-space transformation to achieve successful transfer learning. However, these methodologies, in their processes, sometimes overfit on the target dataset or suffer from negative transfer if the test dataset has a high variance. Boosting methodologies have been shown to reduce the risk of overfitting by iteratively re-weighing instances with high-residual. However, this balance is usually achieved with parameter optimization, as well as reducing the skewness in weights produced due to the size of the source dataset. While the former can be achieved, the latter is more challenging and can lead to negative transfer. We introduce a simpler and more robust fix to this problem by building upon the popular boosting ITL regression methodology, two-stage TrAdaBoost.R2. Our methodology,~\us{}, is a boosting and random-forest based ensemble methodology that utilizes importance sampling to reduce the skewness due to the source dataset. We show that~\us{}~performs better than competitive transfer learning methodologies $63\%$ of the time. It also displays consistency in its performance over diverse datasets with varying complexities, as opposed to the sporadic results observed for other transfer learning methodologies.
翻訳日:2022-04-27 23:28:56 公開日:2022-04-26
# (参考訳) plod: 科学文書のための省略検出データセット

PLOD: An Abbreviation Detection Dataset for Scientific Documents ( http://arxiv.org/abs/2204.12061v1 )

ライセンス: CC BY 4.0
Leonardo Zilio, Hadeel Saadany, Prashant Sharma, Diptesh Kanojia, Constantin Orasan(参考訳) 非構造化テキストからの略語の検出と抽出は、機械翻訳や情報検索などの自然言語処理タスクの性能を向上させるのに役立つ。 しかし、公開されているデータセットに関しては、ディープ・ニューラル・ネットワークベースのモデルをトレーニングするのに十分なデータがない。 そこで本稿では,160k以上のセグメントを省略文と長文で自動アノテートした,短縮検出と抽出のための大規模データセットであるplodを提案する。 一連のインスタンスに対して手動検証を行い、このデータセットの完全な自動検証を行った。 その後、省略や長い形を検出するためにいくつかのベースラインモデルを生成しました。 最高のモデルでは0.92の略語でF1スコアを獲得し、0.89の長形を検知した。 このデータセットとコードおよびすべてのモデルをhttps://github.com/surrey-nlp/AbbreviationDetRepoで公開しています。

The detection and extraction of abbreviations from unstructured texts can help to improve the performance of Natural Language Processing tasks, such as machine translation and information retrieval. However, in terms of publicly available datasets, there is not enough data for training deep-neural-networks-based models to the point of generalising well over data. This paper presents PLOD, a large-scale dataset for abbreviation detection and extraction that contains 160k+ segments automatically annotated with abbreviations and their long forms. We performed manual validation over a set of instances and a complete automatic validation for this dataset. We then used it to generate several baseline models for detecting abbreviations and long forms. The best models achieved an F1-score of 0.92 for abbreviations and 0.89 for detecting their corresponding long forms. We release this dataset along with our code and all the models publicly in https://github.com/surrey-nlp/AbbreviationDetRepo.
翻訳日:2022-04-27 23:12:32 公開日:2022-04-26
# (参考訳) 仮想カンファレンスを公平にスケジューリングする - 参加者と講演者の満足を得る

Scheduling Virtual Conferences Fairly: Achieving Equitable Participant and Speaker Satisfaction ( http://arxiv.org/abs/2204.12062v1 )

ライセンス: CC BY 4.0
Gourab K. Patro, Prithwish Jana, Abhijnan Chakraborty, Krishna P. Gummadi, Niloy Ganguly(参考訳) 近年,パンデミックによる旅行・社会集会制限により,ほぼすべてのカンファレンスが仮想モードに移行している。 対面会議とは対照的に、仮想会議は会議を効率的にスケジューリングするという課題に直面し、異なる時間帯の参加者の可用性と、異なる講演に参加することへの関心を考慮に入れている。 カンファレンス主催者にとっての自然な目的は、例えば、すべての講演で期待される総オーディエンス参加の効率を最大化することである。 しかし,効率の最適化だけでは,参加者や講演者の個々のユーティリティが極めて不平等な,不公平な仮想会議スケジュールが生じる可能性がある。 この問題に対処するために,参加者と話者の公平性の概念を正式に定義し,それらを説明する適切な目的を導出する。 効率と公正の目標が相反する可能性があるため,会議主催者が効率,参加者の公平性,講演者の公平性の目標間でバランスをとるスケジュール(すなわちトレードオフを許容する)を設計できる協調最適化フレームワークを提案する。 最適化問題は、より小さなカンファレンスをスケジュールするために整数プログラミングを使って解決できるが、より大規模なカンファレンスに対応する2つのスケーラブルなテクニックを提供する。 複数の実世界のデータセットに対する広範囲な評価は、提案手法の有効性と柔軟性を示している。

Recently, almost all conferences have moved to virtual mode due to the pandemic-induced restrictions on travel and social gathering. Contrary to in-person conferences, virtual conferences face the challenge of efficiently scheduling talks, accounting for the availability of participants from different timezones and their interests in attending different talks. A natural objective for conference organizers is to maximize efficiency, e.g., total expected audience participation across all talks. However, we show that optimizing for efficiency alone can result in an unfair virtual conference schedule, where individual utilities for participants and speakers can be highly unequal. To address this, we formally define fairness notions for participants and speakers, and derive suitable objectives to account for them. As the efficiency and fairness objectives can be in conflict with each other, we propose a joint optimization framework that allows conference organizers to design schedules that balance (i.e., allow trade-offs) among efficiency, participant fairness and speaker fairness objectives. While the optimization problem can be solved using integer programming to schedule smaller conferences, we provide two scalable techniques to cater to bigger conferences. Extensive evaluations over multiple real-world datasets show the efficacy and flexibility of our proposed approaches.
翻訳日:2022-04-27 23:00:44 公開日:2022-04-26
# (参考訳) PP-MARL:コミュニケーションにおける協調的知能のための効果的なプライバシー保護型MARL

PP-MARL: Efficient Privacy-Preserving MARL for Cooperative Intelligence in Communication ( http://arxiv.org/abs/2204.12064v1 )

ライセンス: CC BY 4.0
Tingting Yuan, Hwei-Ming Chung, Xiaoming Fu(参考訳) 通信ネットワークやサービスにおいて、自己最適化による効率向上のために人工知能(AI)が導入されている。 協調インテリジェンス(CI)は、集合インテリジェンスや協調インテリジェンスとしても知られ、複数のデバイスの能力とインテリジェンスを集約できるため、次世代ネットワークにおいて不可欠な要素になると期待されている。 しかし、コラボレーションはデータと情報共有に大きく依存するため、プライバシ問題はciの展開を阻害し、妨害し、妨げる可能性がある。 通信における追加の実用的な制約(例えば、帯域幅の制限)は、CIの性能をさらに制限する。 これらの課題を克服するために,マルチエージェント強化学習(MARL)に基づく効率的なプライバシー保護学習手法であるPP-MARLを提案する。 本手法は,ドローン支援通信におけるモビリティ管理とエッジインテリジェンスを用いたネットワーク制御の2つの通信関連ユースケースに適用し,評価する。 シミュレーションの結果,提案手法は,プライバシ保護の1.1~6倍,オーバーヘッドの低減(帯域幅の84~91%削減など)により,最先端のアプローチよりも効率的で信頼性の高いコラボレーションを実現することが判明した。

Artificial intelligence (AI) has been introduced in communication networks and services to improve efficiency via self-optimization. Cooperative intelligence (CI), also known as collective intelligence and collaborative intelligence, is expected to become an integral element in next-generation networks because it can aggregate the capabilities and intelligence of multiple devices. However, privacy issues may intimidate, obstruct, and hinder the deployment of CI in practice because collaboration heavily relies on data and information sharing. Additional practical constraints in communication (e.g., limited bandwidth) further limit the performance of CI. To overcome these challenges, we propose PP-MARL, an efficient privacy-preserving learning scheme based on multi-agent reinforcement learning (MARL). We apply and evaluate our scheme in two communication-related use cases: mobility management in drone-assisted communication and network control with edge intelligence. Simulation results reveal that the proposed scheme can achieve efficient and reliable collaboration with 1.1-6 times better privacy protection and lower overheads (e.g., 84-91% reduction in bandwidth) than state-of-the-art approaches.
翻訳日:2022-04-27 22:37:07 公開日:2022-04-26
# (参考訳) Symlink: 科学記号記述リンクのための新しいデータセット

Symlink: A New Dataset for Scientific Symbol-Description Linking ( http://arxiv.org/abs/2204.12070v1 )

ライセンス: CC BY 4.0
Viet Dac Lai, Amir Pouran Ben Veyseh, Franck Dernoncourt, Thien Huu Nguyen(参考訳) 数学的記号や記述は、明示的なマークアップなしで文書の境界を越えて様々な形で現れる。 本稿では,科学文書中の記号や記述の抽出を強調する,新しい大規模データセットを提案する。 Symlinkは5つの分野(コンピュータ科学、生物学、物理学、数学、経済学)の科学論文に注釈を付ける。 symlinkに関する実験は,既存のモデルにおけるシンボル記述リンクタスクの課題を実証し,この分野におけるさらなる研究努力を求める。 今後の研究を促進するため、Symlinkを公開します。

Mathematical symbols and descriptions appear in various forms across document section boundaries without explicit markup. In this paper, we present a new large-scale dataset that emphasizes extracting symbols and descriptions in scientific documents. Symlink annotates scientific papers of 5 different domains (i.e., computer science, biology, physics, mathematics, and economics). Our experiments on Symlink demonstrate the challenges of the symbol-description linking task for existing models and call for further research effort in this area. We will publicly release Symlink to facilitate future research.
翻訳日:2022-04-27 22:25:30 公開日:2022-04-26
# (参考訳) know thy student: ガウス過程を用いた対話型学習

Know Thy Student: Interactive Learning with Gaussian Processes ( http://arxiv.org/abs/2204.12072v1 )

ライセンス: CC BY 4.0
Rose E. Wang, Mike Wu, Noah Goodman(参考訳) 学習はしばしば複数のエージェント間の相互作用を伴う。 人間の教師と学生は、教師が生徒の能力に基づいてカリキュラムを構築できる効率的な知識パスを、どのように相互作用が生み出すかを最もよく示している。 機械教育研究における事前の仕事は、教師が生徒についてすべてを知っていると仮定して、教師が最適な指導データセットを構築する方法である。 しかし、現実の世界では、先生は生徒の完全な情報を持っていません。 先生は教える前に生徒と対話し、診断しなければならない。 本研究は,授業データセットを構築する前に,ガウス過程を用いて学生関連情報を推測する簡易診断アルゴリズムを提案する。 これを2つの設定に適用する。 一つは、生徒がスクラッチから学び、教師が生徒の学習アルゴリズムパラメータを把握しなければならないところである。 リッジ回帰またはサポートベクトルマシンにおける正規化パラメータ。 2つは,教師が環境を部分的に探究し,教師が探究していない重要な領域を把握しなければならない場所であり,教師が生徒に実演を行い,余分な軌跡の送出を避けるためのオフライン強化学習環境でこれを研究する。 本実験では,対話型教師の助けを借りて,学生がより効率的に学習できることを示す。 最後に,受動的学習よりも診断と指導の併用が望ましい点を概説する。

Learning often involves interaction between multiple agents. Human teacher-student settings best illustrate how interactions result in efficient knowledge passing where the teacher constructs a curriculum based on their students' abilities. Prior work in machine teaching studies how the teacher should construct optimal teaching datasets assuming the teacher knows everything about the student. However, in the real world, the teacher doesn't have complete information about the student. The teacher must interact and diagnose the student, before teaching. Our work proposes a simple diagnosis algorithm which uses Gaussian processes for inferring student-related information, before constructing a teaching dataset. We apply this to two settings. One is where the student learns from scratch and the teacher must figure out the student's learning algorithm parameters, eg. the regularization parameters in ridge regression or support vector machines. Two is where the student has partially explored the environment and the teacher must figure out the important areas the student has not explored; we study this in the offline reinforcement learning setting where the teacher must provide demonstrations to the student and avoid sending redundant trajectories. Our experiments highlight the importance of diagosing before teaching and demonstrate how students can learn more efficiently with the help of an interactive teacher. We conclude by outlining where diagnosing combined with teaching would be more desirable than passive learning.
翻訳日:2022-04-27 22:17:09 公開日:2022-04-26
# (参考訳) $\ell_{p}$部分空間近似のための1パス加法エラー部分集合選択

One-pass additive-error subset selection for $\ell_{p}$ subspace approximation ( http://arxiv.org/abs/2204.12073v1 )

ライセンス: CC BY 4.0
Amit Deshpande and Rameshwar Pratap(参考訳) 我々は、$\ell_{p}$部分空間近似に対する部分集合選択の問題、すなわち、この部分集合に対して最適に解くことが元の入力に対して最適に解くよい近似を与えるような、データ点の半点部分集合を効率的に見つけることを考える。 従来知られていたボリュームサンプリングと適応サンプリングに基づくサブセット選択アルゴリズムは、$p \in [1, \infty)$の一般的な場合、データに対する複数のパスを必要とする。 本稿では、任意の$p \in [1, \infty)$に対して、$\ell_{p}$ subspace approximationに対して加法近似の保証付きワンパス部分集合選択を与える。 1パス乗算(1+\epsilon)$近似作業を特殊ケースで与えた初期の部分集合選択アルゴリズム。 Cohen \textit{et al. } \cite{cohenmm17} は、$\ell_{2}$ 部分空間近似の特別な場合に対する乗法 $(1+\epsilon)$ の近似保証を提供する1パスのサブセットセクションを与える。 Mahabadi \textit{et al. } \cite{mahabadirwz20} は、$p \in \{1, 2\}$ のとき、$(1+\epsilon)$ の近似保証を持つ1パスの \emph{noisy} 部分選択を与える。 我々の部分集合選択アルゴリズムはより弱で加法的な近似を保証するが、任意の$p \in [1, \infty)$に対して作用する。

We consider the problem of subset selection for $\ell_{p}$ subspace approximation, that is, to efficiently find a \emph{small} subset of data points such that solving the problem optimally for this subset gives a good approximation to solving the problem optimally for the original input. Previously known subset selection algorithms based on volume sampling and adaptive sampling \cite{DeshpandeV07}, for the general case of $p \in [1, \infty)$, require multiple passes over the data. In this paper, we give a one-pass subset selection with an additive approximation guarantee for $\ell_{p}$ subspace approximation, for any $p \in [1, \infty)$. Earlier subset selection algorithms that give a one-pass multiplicative $(1+\epsilon)$ approximation work under the special cases. Cohen \textit{et al.} \cite{CohenMM17} gives a one-pass subset section that offers multiplicative $(1+\epsilon)$ approximation guarantee for the special case of $\ell_{2}$ subspace approximation. Mahabadi \textit{et al.} \cite{MahabadiRWZ20} gives a one-pass \emph{noisy} subset selection with $(1+\epsilon)$ approximation guarantee for $\ell_{p}$ subspace approximation when $p \in \{1, 2\}$. Our subset selection algorithm gives a weaker, additive approximation guarantee, but it works for any $p \in [1, \infty)$.
翻訳日:2022-04-27 22:05:44 公開日:2022-04-26
# (参考訳) atst: 先生スチューデントトランスフォーマーによる音声表現学習

ATST: Audio Representation Learning with Teacher-Student Transformer ( http://arxiv.org/abs/2204.12076v1 )

ライセンス: CC BY 4.0
Xian Li and Xiaofei Li(参考訳) 自己教師付き学習(ssl)は、大量のラベルのないデータから知識を学習し、限られた数のラベル付きデータで特定の問題に知識を転送する。 SSLは様々な領域で有望な結果を得た。 本研究は、セグメントレベルの一般オーディオSSLの問題に対処し、ATSTという新しいトランスフォーマーベースの教師学生SSLモデルを提案する。 変圧器エンコーダは、最近登場した教師学生ベースラインスキームに基づいて開発され、事前学習のモデリング能力を大幅に向上させる。 さらに, 変圧器の性能をフル活用するために, 正対生成のための新しい戦略を考案した。 広範な実験が行われ,提案手法は下流タスクのほぼすべてにおいて,新たな最先端の成果を達成している。

Self-supervised learning (SSL) learns knowledge from a large amount of unlabeled data, and then transfers the knowledge to a specific problem with a limited number of labeled data. SSL has achieved promising results in various domains. This work addresses the problem of segment-level general audio SSL, and proposes a new transformer-based teacher-student SSL model, named ATST. A transformer encoder is developed on a recently emerged teacher-student baseline scheme, which largely improves the modeling capability of pre-training. In addition, a new strategy for positive pair creation is designed to fully leverage the capability of transformer. Extensive experiments have been conducted, and the proposed model achieves the new state-of-the-art results on almost all of the downstream tasks.
翻訳日:2022-04-27 21:42:07 公開日:2022-04-26
# (参考訳) ガーメントランドマークのためのResNetバックボーン付きU-Net

U-Net with ResNet Backbone for Garment Landmarking Purpose ( http://arxiv.org/abs/2204.12084v1 )

ライセンス: CC BY-SA 4.0
Khay Boon Hong(参考訳) 熱マップに基づくランドマーク検出モデルを構築し、2次元RGBの衣服画像上で重要なランドマークを見つける。 主な目的は、衣服のエッジ、コーナー、適切な内部領域を検出することである。 これにより、ランドマーク検出モデルとテクスチャアンラッピングを組み込むことで、現代の3d編集ソフトウェアで3d衣料品を再現できます。 モデル構築には、ResNetのバックボーンを備えたU-netアーキテクチャを使用します。 適切な損失関数で、適度に堅牢なモデルを訓練することができる。

We build a heatmap-based landmark detection model to locate important landmarks on 2D RGB garment images. The main goal is to detect edges, corners and suitable interior region of the garments. This let us re-create 3D garments in modern 3D editing software by incorporate landmark detection model and texture unwrapping. We use a U-net architecture with ResNet backbone to build the model. With an appropriate loss function, we are able to train a moderately robust model.
翻訳日:2022-04-27 21:29:55 公開日:2022-04-26
# (参考訳) 時空間情報変換を用いたマルチタスクGPRによる時系列予測

Time Series Prediction by Multi-task GPR with Spatiotemporal Information Transformation ( http://arxiv.org/abs/2204.12085v1 )

ライセンス: CC BY 4.0
Peng Tao, Xiaohu Hao, Jie Cheng and Luonan Chen(参考訳) 短時間の時系列のみから未知のシステムの正確な予測を行うことは、特に多段階的な方法で十分な情報がないため困難である。 しかし、高次元の短期時系列にはリッチな力学情報が含まれており、多くの分野で利用できるようになる。 本研究では,高次元/空間情報から時間情報へ変換する時空間情報(STI)変換方式を利用して,MT-GPRMachineと呼ばれる新しい手法を開発した。 具体的には、まず、複数のリンクされたSTIマッピングである特定のマルチタスクGPRを構築し、高次元/空間情報を任意の対象変数の時間的/動的情報に変換する。 MT-GPRMachineが他の既存手法よりも優れていたことを、様々な合成および実世界のデータセットで明らかに検証した。

Making an accurate prediction of an unknown system only from a short-term time series is difficult due to the lack of sufficient information, especially in a multi-step-ahead manner. However, a high-dimensional short-term time series contains rich dynamical information, and also becomes increasingly available in many fields. In this work, by exploiting spatiotemporal information (STI) transformation scheme that transforms such high-dimensional/spatial information to temporal information, we developed a new method called MT-GPRMachine to achieve accurate prediction from a short-term time series. Specifically, we first construct a specific multi-task GPR which is multiple linked STI mappings to transform high dimensional/spatial information into temporal/dynamical information of any given target variable, and then makes multi step-ahead prediction of the target variable by solving those STI mappings. The multi-step-ahead prediction results on various synthetic and real-world datasets clearly validated that MT-GPRMachine outperformed other existing approaches.
翻訳日:2022-04-27 21:26:23 公開日:2022-04-26
# (参考訳) 古典弾塑性におけるサロゲートモデリングのための物理インフォームド深層ニューラルネットワーク

A physics-informed deep neural network for surrogate modeling in classical elasto-plasticity ( http://arxiv.org/abs/2204.12088v1 )

ライセンス: CC BY 4.0
Mahdad Eghbalian, Mehdi Pouragha, Richard Wan(参考訳) 本研究では,古典的弾塑性構成関係を効率的に近似するディープニューラルネットワークアーキテクチャを提案する。 このネットワークは、弾性および塑性部分へのひずみの付加的な分解、非線形的な漸進弾性を含む古典的エラスト塑性の重要な物理面に富んでいる。 これは、Elasto-Plastic Neural Network (EPNN)という名前の物理情報ニューラルネットワーク(PINN)サロゲートモデルにつながる。 詳細な分析により、これらの物理をニューラルネットワークのアーキテクチャに組み込むことで、トレーニングデータが少ないネットワークのより効率的なトレーニングが容易になると同時に、トレーニングデータ外にレジームをロードするための外挿能力も向上することが示された。 EPNNのアーキテクチャはモデルであり、物質に依存しない、すなわち、地球材料や金属を含む幅広い弾塑性材料に適応することができる。 提案アーキテクチャのロバスト性を示すため,砂の弾塑性挙動に一般の枠組みを適用した。 ニューラルネットワークのトレーニングには,比較的高度なディラテンシーベース構成モデルに基づく材料点シミュレーションから生成された合成データを用いている。 ニューラルネットワークアーキテクチャにおけるepnnの優位性を,初期密度の異なる砂のひずみ制御負荷経路の予測により検討した。

In this work, we present a deep neural network architecture that can efficiently approximate classical elasto-plastic constitutive relations. The network is enriched with crucial physics aspects of classical elasto-plasticity, including additive decomposition of strains into elastic and plastic parts, and nonlinear incremental elasticity. This leads to a Physics-Informed Neural Network (PINN) surrogate model named here as Elasto-Plastic Neural Network (EPNN). Detailed analyses show that embedding these physics into the architecture of the neural network facilitates a more efficient training of the network with less training data, while also enhancing the extrapolation capability for loading regimes outside the training data. The architecture of EPNN is model and material-independent, i.e. it can be adapted to a wide range of elasto-plastic material types, including geomaterials and metals; and experimental data can potentially be directly used in training the network. To demonstrate the robustness of the proposed architecture, we adapt its general framework to the elasto-plastic behavior of sands. We use synthetic data generated from material point simulations based on a relatively advanced dilatancy-based constitutive model for granular materials to train the neural network. The superiority of EPNN over regular neural network architectures is explored through predicting unseen strain-controlled loading paths for sands with different initial densities.
翻訳日:2022-04-27 20:48:21 公開日:2022-04-26
# (参考訳) ニュース予測へのアプローチ -BERTを用いた高精度マルチLSTMネットワーク

Approach to Predicting News -- A Precise Multi-LSTM Network With BERT ( http://arxiv.org/abs/2204.12093v1 )

ライセンス: CC BY 4.0
Chia-Lin Chen (1), Pei-Yu Huang (2), Yi-Ting Huang (3), Chun Lin (3) ((1) Computer Science and Engineering, National Sun Yat-sen University, Kaohsiung, Taiwan, (2) Management and Digital Innovation, University of London, Singapore, (3) Institute of Information Science, Academia Sinica, Taipei, Taiwan)(参考訳) 民主主義の多様性(V-Dem)は民主主義と政治を概念化し、測定する新しいアプローチである。 200か国にまたがる情報を持ち、政治科学の最大のデータベースの1つである。 V-Demの年次民主主義報告書によると、台湾は外国政府から偽情報を拡散した2カ国のうちの1つである。 また、台湾社会で「メイドアップニュース」が大きな混乱を引き起こし、世界的安定に深刻な影響を与えていることも示している。 偽情報を識別するアプリケーションもいくつかあるが、ニュースを分類する前処理は、まだ人間の労働によって行われていることが判明した。 しかし、人間の労働は失敗を招き、長時間は働けない。 今後数十年で自動機械の需要が高まっていることから、機械は人間に匹敵する性能を持つが、機械を使用することで人間の負担を減らし、コストを削減できる。 そこで本研究では,ニュースのカテゴリを分類するための予測モデルを構築した。 私たちが使ったコーパスには28358のニュースと200のニュースがオンライン新聞リバティ・タイムズ・ネット(LTN)のウェブサイトから削除され、テクノロジー、エンターテイメント、ファッション、政治、スポーツ、インターナショナル、ファイナンス、ヘルスの8つのカテゴリが含まれています。 まず、各漢字を (1,768) ベクトルに変換する単語埋め込みに対して、トランスフォーマー (bert) からの双方向エンコーダ表現を用いる。 次に,Long Short-Term Memory (LSTM) レイヤを用いて単語埋め込みを文埋め込みに変換し,別のLSTMレイヤを追加して文書埋め込みに変換する。 各ドキュメント埋め込みは、2つの密層と1つの活性化層を含むファイナル予測モデルの入力である。 そして、各文書の埋め込みは8つの実数を持つ1つのベクトルに変換され、最も高いものは最大99%の精度で8つのニュースカテゴリに対応する。

Varieties of Democracy (V-Dem) is a new approach to conceptualizing and measuring democracy and politics. It has information for 200 countries and is one of the biggest databases for political science. According to the V-Dem annual democracy report 2019, Taiwan is one of the two countries that got disseminated false information from foreign governments the most. It also shows that the "made-up news" has caused a great deal of confusion in Taiwanese society and has serious impacts on global stability. Although there are several applications helping distinguish the false information, we found out that the pre-processing of categorizing the news is still done by human labor. However, human labor may cause mistakes and cannot work for a long time. The growing demands for automatic machines in the near decades show that while the machine can do as good as humans or even better, using machines can reduce humans' burden and cut down costs. Therefore, in this work, we build a predictive model to classify the category of news. The corpora we used contains 28358 news and 200 news scraped from the online newspaper Liberty Times Net (LTN) website and includes 8 categories: Technology, Entertainment, Fashion, Politics, Sports, International, Finance, and Health. At first, we use Bidirectional Encoder Representations from Transformers (BERT) for word embeddings which transform each Chinese character into a (1,768) vector. Then, we use a Long Short-Term Memory (LSTM) layer to transform word embeddings into sentence embeddings and add another LSTM layer to transform them into document embeddings. Each document embedding is an input for the final predicting model, which contains two Dense layers and one Activation layer. And each document embedding is transformed into 1 vector with 8 real numbers, then the highest one will correspond to the 8 news categories with up to 99% accuracy.
翻訳日:2022-04-27 20:47:01 公開日:2022-04-26
# (参考訳) PyGOD: グラフ出力検出のためのPythonライブラリ

PyGOD: A Python Library for Graph Outlier Detection ( http://arxiv.org/abs/2204.12095v1 )

ライセンス: CC BY 4.0
Kay Liu, Yingtong Dou, Yue Zhao, Xueying Ding, Xiyang Hu, Ruitong Zhang, Kaize Ding, Canyu Chen, Hao Peng, Kai Shu, George H. Chen, Zhihao Jia, Philip S. Yu(参考訳) PyGODはオープンソースのPythonライブラリで、グラフデータの外れ値を検出する。 この種の最初の包括的なライブラリとして、PyGODは、ノード、エッジ、サブグラフ、グラフレベルのアウトリア検出のための、多数の主要なグラフベースのメソッドをサポートしている。 大規模グラフにおけるスケーラビリティの問題を克服するため,ミニバッチやサンプリングなど,選択したモデルに対して高度な機能を提供する。 PyGODには、ユニットテスト、継続的インテグレーション、コードカバレッジなど、コードの信頼性と保守性を向上するためのベストプラクティスが備わっている。 アクセシビリティを高めるため、PyGODはhttps://github.com/pygod-team/pygod/とPython Package Index (PyPI)でBSDライセンスの下でリリースされた。

PyGOD is an open-source Python library for detecting outliers on graph data. As the first comprehensive library of its kind, PyGOD supports a wide array of leading graph-based methods for node-, edge-, subgraph-, and graph-level outlier detection, under a unified, well-documented API designed for use by both researchers and practitioners. To overcome the scalability issue in large graphs, we provide advanced functionalities for selected models, including mini-batch and sampling. PyGOD is equipped with best practices to foster code reliability and maintainability, including unit testing, continuous integration, and code coverage. To foster accessibility, PyGOD is released under a permissive BSD-license at https://github.com/pygod-team/pygod/ and the Python Package Index (PyPI).
翻訳日:2022-04-27 20:36:41 公開日:2022-04-26
# (参考訳) Few-Shot逆関係分類のための機能ワード強化注意ネットワーク

Function-words Enhanced Attention Networks for Few-Shot Inverse Relation Classification ( http://arxiv.org/abs/2204.12111v1 )

ライセンス: CC BY 4.0
Chunliu Dou and Shaojuan Wu and Xiaowang Zhang and Zhiyong Feng and Kewen Wang(参考訳) 関係分類は、与えられたテキスト中の2つのエンティティ間の意味関係を識別することである。 既存のモデルは大規模なデータセットとの逆関係を分類するのにうまく機能するが、少数の学習ではその性能は大幅に低下する。 本稿では,メタラーニングに基づくクラス関連関数語へのハイブリットアテンションモデルを設計した,数ショットの逆関係分類のための関数単語適応型アテンションフレームワーク(FAEA)を提案する。 機能単語の関与がクラス内冗長性に大きな影響を及ぼす中,機能単語のクラス間差を捕捉・伝達する適応的メッセージパッシング機構を導入し,ドット積測定から関数単語の負の影響を数学的に解析し,メッセージパッシング機構が影響を効果的に軽減する理由を説明する。 実験の結果,FAEAは強いベースラインよりも優れており,特にFewRel1.0では1ショット設定で逆相関精度が14.33%向上した。

The relation classification is to identify semantic relations between two entities in a given text. While existing models perform well for classifying inverse relations with large datasets, their performance is significantly reduced for few-shot learning. In this paper, we propose a function words adaptively enhanced attention framework (FAEA) for few-shot inverse relation classification, in which a hybrid attention model is designed to attend class-related function words based on meta-learning. As the involvement of function words brings in significant intra-class redundancy, an adaptive message passing mechanism is introduced to capture and transfer inter-class differences.We mathematically analyze the negative impact of function words from dot-product measurement, which explains why message passing mechanism effectively reduces the impact. Our experimental results show that FAEA outperforms strong baselines, especially the inverse relation accuracy is improved by 14.33% under 1-shot setting in FewRel1.0.
翻訳日:2022-04-27 20:26:39 公開日:2022-04-26
# (参考訳) 位相構造に着目した話者ダイアリゼーションのコミュニティ検出への応用

Reformulating Speaker Diarization as Community Detection With Emphasis On Topological Structure ( http://arxiv.org/abs/2204.12112v1 )

ライセンス: CC BY 4.0
Siqi Zheng, Hongbin Suo(参考訳) クラスタリングベースの話者ダイアリゼーションは、最近のエンドツーエンドダイアリゼーションの発展にもかかわらず、現実における主要なアプローチの1つとして定着している。 しかし,話者ダイアリゼーションのためのクラスタリング手法は広く検討されていない。 k平均、スペクトルクラスタリング、凝集階層クラスタリングなどの一般的な手法は、近接密度や相対密度などの特性のみを考慮に入れている。 本稿では,クラスタリングに基づくダイアリゼーションをコミュニティ検出問題として考察する。 これにより、トポロジカルな構造が考慮される。 この作品には4つの大きな貢献がある。 まず,ライデンコミュニティ検出アルゴリズムは,従来の話者セグメントのクラスタリング手法を大きく上回ることを示した。 第2に,大域的および局所的な位相構造を維持しながら次元を小さくするために一様多様体近似を用いることを提案する。 第3に,「クリーン」話者埋め込みを抽出するためのマスクフィルタリング手法を導入する。 最後に、コミュニティ構造をエンドツーエンドのポストプロセッシングネットワークに適用してダイアリゼーション結果を得る。 最終システムは、最大70%の相対的なDER削減を示す。 各コンポーネントの分解貢献を分析する。

Clustering-based speaker diarization has stood firm as one of the major approaches in reality, despite recent development in end-to-end diarization. However, clustering methods have not been explored extensively for speaker diarization. Commonly-used methods such as k-means, spectral clustering, and agglomerative hierarchical clustering only take into account properties such as proximity and relative densities. In this paper we propose to view clustering-based diarization as a community detection problem. By doing so the topological structure is considered. This work has four major contributions. First it is shown that Leiden community detection algorithm significantly outperforms the previous methods on the clustering of speaker-segments. Second, we propose to use uniform manifold approximation to reduce dimension while retaining global and local topological structure. Third, a masked filtering approach is introduced to extract "clean" speaker embeddings. Finally, the community structure is applied to an end-to-end post-processing network to obtain diarization results. The final system presents a relative DER reduction of up to 70 percent. The breakdown contribution of each component is analyzed.
翻訳日:2022-04-27 20:11:35 公開日:2022-04-26
# (参考訳) lm-debugger : トランスフォーマチック言語モデルの検査と介入のための対話的ツール

LM-Debugger: An Interactive Tool for Inspection and Intervention in Transformer-Based Language Models ( http://arxiv.org/abs/2204.12130v1 )

ライセンス: CC BY 4.0
Mor Geva, Avi Caciularu, Guy Dar, Paul Roit, Shoval Sadde, Micah Shlain, Bar Tamir, Yoav Goldberg(参考訳) トランスフォーマーベースの言語モデル(lms)の不透明な性質と説明できない振る舞いは、その予測を解釈することに対する幅広い関心を喚起した。 しかし、現在の解釈法は主に外部からのモデル探索、行動テストの実行、サリエンス入力の特徴の分析に重点を置いているが、内部予測構築プロセスはほとんど理解されていない。 本研究では,モデルの内部予測プロセスのきめ細かい解釈を提供するトランスフォーマーベースLMの対話型デバッガツールであるLM-Debuggerと,LM動作を介入するための強力なフレームワークについて紹介する。 LM-Debuggerはそのバックボーンについて、内部トークン表現とその更新を語彙空間内のフィードフォワード層によって解釈する最近の方法に依存している。 GPT2による内部曖昧化プロセスの検査により,単一予測デバッグにおけるLM-Debuggerの有用性を実証する。 さらに, LM-Debuggerは, ネットワーク内の数ベクトルを識別し, 予測プロセスへの効果的な介入を誘導することにより, モデル動作をユーザの選択方向にシフトできることを示す。 オープンソースツールとしてLM-Debuggerをリリースし、GPT2モデルのデモを行います。

The opaque nature and unexplained behavior of transformer-based language models (LMs) have spurred a wide interest in interpreting their predictions. However, current interpretation methods mostly focus on probing models from outside, executing behavioral tests, and analyzing salience input features, while the internal prediction construction process is largely not understood. In this work, we introduce LM-Debugger, an interactive debugger tool for transformer-based LMs, which provides a fine-grained interpretation of the model's internal prediction process, as well as a powerful framework for intervening in LM behavior. For its backbone, LM-Debugger relies on a recent method that interprets the inner token representations and their updates by the feed-forward layers in the vocabulary space. We demonstrate the utility of LM-Debugger for single-prediction debugging, by inspecting the internal disambiguation process done by GPT2. Moreover, we show how easily LM-Debugger allows to shift model behavior in a direction of the user's choice, by identifying a few vectors in the network and inducing effective interventions to the prediction process. We release LM-Debugger as an open-source tool and a demo over GPT2 models.
翻訳日:2022-04-27 20:01:12 公開日:2022-04-26
# (参考訳) 随伴としての非決定的代数的書き換え

Non-determinsitic algebraic rewriting as adjunction ( http://arxiv.org/abs/2204.12133v1 )

ライセンス: CC BY 4.0
R\u{a}zvan Diaconescu(参考訳) 我々は、通常の収束と終了の仮定を超えて書き換えるための一般的なモデル理論的意味論を開発する。 これは多くのソート代数を拡張するモデル理論である事前順序代数に基づいている。 In this framework we characterise rewriting in arbitrary algebras rather than term algebras (called algebraic rewriting) as a persistent adjunction and use this result, on the one hand for proving the soundness and the completeness of an abstract computational model of rewriting that underlies the non-deterministic programming with Maude and CafeOBJ, and on the other hand for developing a compositionality result for algebraic rewriting in the context of the pushout-based modularisation technique.

We develop a general model theoretic semantics to rewriting beyond the usual confluence and termination assumptions. This is based on preordered algebra which is a model theory that extends many sorted algebra. In this framework we characterise rewriting in arbitrary algebras rather than term algebras (called algebraic rewriting) as a persistent adjunction and use this result, on the one hand for proving the soundness and the completeness of an abstract computational model of rewriting that underlies the non-deterministic programming with Maude and CafeOBJ, and on the other hand for developing a compositionality result for algebraic rewriting in the context of the pushout-based modularisation technique.
翻訳日:2022-04-27 19:47:09 公開日:2022-04-26
# (参考訳) CoVERT: バイオメディカルなCOVID-19のツイートをチェック

CoVERT: A Corpus of Fact-checked Biomedical COVID-19 Tweets ( http://arxiv.org/abs/2204.12164v1 )

ライセンス: CC BY-SA 4.0
Isabelle Mohr and Amelie W\"uhrl and Roman Klinger(参考訳) 新型コロナウイルス(covid-19)パンデミックの期間中、この病気に関する大量のバイオメディカル情報がソーシャルメディアで公開されている。 これらの情報のいくつかは、特に偽情報を共有する場合、特に専門的な医療アドバイスなしで病気を治療する方法を推奨する場合、人々の健康に深刻な危険をもたらす可能性がある。 そのため,医療分野に特化したファクトチェック・リソースやシステムの開発が重要である。 既存の事実チェックリソースは、ニュースの新型コロナウイルス関連情報をカバーしたり、ツイート中の誤情報の量を定量化したりするが、事実チェックされたcovid-19関連twitter投稿に、生物医学的実体、関係性、関連する証拠に関する詳細な注釈を含むデータセットはない。 私たちは、バイオメディシンとcovid-19関連情報(mis)の領域に焦点を当てた、事実チェックされたツイートコーパスであるcovertに貢献します。 コーパスは300のツイートで構成され、それぞれに医学名と関係性を示す。 我々は、新しいクラウドソーシング手法を用いて、すべてのツイートにファクトチェックラベルを付加し、クラウドワーカーがオンラインで検索する証拠を支持する。 この手法は中程度のアノテーション間の合意をもたらす。 さらに,得られたエビデンス抽出をファクトチェックパイプラインの一部として使用し,実世界のエビデンスの方が,事前学習された言語モデルで直接利用できる知識よりも有用であることを確認した。

Over the course of the COVID-19 pandemic, large volumes of biomedical information concerning this new disease have been published on social media. Some of this information can pose a real danger to people's health, particularly when false information is shared, for instance recommendations on how to treat diseases without professional medical advice. Therefore, automatic fact-checking resources and systems developed specifically for the medical domain are crucial. While existing fact-checking resources cover COVID-19-related information in news or quantify the amount of misinformation in tweets, there is no dataset providing fact-checked COVID-19-related Twitter posts with detailed annotations for biomedical entities, relations and relevant evidence. We contribute CoVERT, a fact-checked corpus of tweets with a focus on the domain of biomedicine and COVID-19-related (mis)information. The corpus consists of 300 tweets, each annotated with medical named entities and relations. We employ a novel crowdsourcing methodology to annotate all tweets with fact-checking labels and supporting evidence, which crowdworkers search for online. This methodology results in moderate inter-annotator agreement. Furthermore, we use the retrieved evidence extracts as part of a fact-checking pipeline, finding that the real-world evidence is more useful than the knowledge indirectly available in pretrained language models.
翻訳日:2022-04-27 19:46:16 公開日:2022-04-26
# (参考訳) 機械学習を用いた高血糖死分析における言語解剖物語と二分的特徴の融合

Using Machine Learning to Fuse Verbal Autopsy Narratives and Binary Features in the Analysis of Deaths from Hyperglycaemia ( http://arxiv.org/abs/2204.12169v1 )

ライセンス: CC BY 4.0
Thokozile Manaka and Terence Van Zyl and Alisha N Wade and Deepak Kar(参考訳) 低所得国は、死亡原因に関するデータ不足(COD)に起因する課題に直面しており、人口健康や疾病管理に関する決定を制限できる。 言語解剖(VA)は、堅牢な死亡登録システムなしで、地域内のCODに関する情報を提供することができる。 vaは、数値的特徴とバイナリ的特徴を組み合わせた構造化データと、未構造化データとからなる。 本研究は,vaレポートの構造化コンポーネントと非構造化コンポーネントの両方を分析する際に,様々な機械学習手法の性能を評価する。 これらのアルゴリズムは、南アフリカの農村部からのVAレポートから得られた3つのバイナリ特徴、テキスト特徴、およびバイナリ特徴とテキスト特徴の組み合わせにおいて、クロスバリデーションを通じてトレーニングされ、テストされた。 その結果、ナラティブテキストの特徴はcodを決定する上で有用な情報を含み、バイナリとテキストの機能の組み合わせによってcodの自動分類タスクが改善されることを示す。 キーワード:糖尿病、言語解剖、死因、機械学習、自然言語処理

Lower-and-middle income countries are faced with challenges arising from a lack of data on cause of death (COD), which can limit decisions on population health and disease management. A verbal autopsy(VA) can provide information about a COD in areas without robust death registration systems. A VA consists of structured data, combining numeric and binary features, and unstructured data as part of an open-ended narrative text. This study assesses the performance of various machine learning approaches when analyzing both the structured and unstructured components of the VA report. The algorithms were trained and tested via cross-validation in the three settings of binary features, text features and a combination of binary and text features derived from VA reports from rural South Africa. The results obtained indicate narrative text features contain valuable information for determining COD and that a combination of binary and text features improves the automated COD classification task. Keywords: Diabetes Mellitus, Verbal Autopsy, Cause of Death, Machine Learning, Natural Language Processing
翻訳日:2022-04-27 19:26:50 公開日:2022-04-26
# (参考訳) CNNを用いた音響シーン分類手法の比較検討

A Comparative Study on Approaches to Acoustic Scene Classification using CNNs ( http://arxiv.org/abs/2204.12177v1 )

ライセンス: CC BY 4.0
Ishrat Jahan Ananya, Sarah Suad, Shadab Hafiz Choudhury and Mohammad Ashrafuzzaman Khan(参考訳) 音響シーン分類は、音の録音から環境を識別し分類するプロセスである。 最初のステップは、録音された音から特徴(表現)を生成し、背景環境を分類する。 しかし、異なる種類の表現は分類の精度に劇的な影響を与えている。 本稿では,ニューラルネットワークを用いた分類精度に関する3つの表現について検討した。 我々は、異なるcnnネットワークとオートエンコーダを用いて、スペクトログラム、mfcc、埋め込み表現を調査した。 我々のデータセットは屋内と屋外の3つの環境の音で構成されており、データセットには6種類の環境の音が含まれている。 その結果,MFCCは分類精度が最も低いのに対し,スペクトル表現は分類精度が最も高いことがわかった。 我々は,音を用いた環境分類の精度を向上させるためのガイドラインや知見を報告した。

Acoustic scene classification is a process of characterizing and classifying the environments from sound recordings. The first step is to generate features (representations) from the recorded sound and then classify the background environments. However, different kinds of representations have dramatic effects on the accuracy of the classification. In this paper, we explored the three such representations on classification accuracy using neural networks. We investigated the spectrograms, MFCCs, and embeddings representations using different CNN networks and autoencoders. Our dataset consists of sounds from three settings of indoors and outdoors environments - thus the dataset contains sound from six different kinds of environments. We found that the spectrogram representation has the highest classification accuracy while MFCC has the lowest classification accuracy. We reported our findings, insights as well as some guidelines to achieve better accuracy for environment classification using sounds.
翻訳日:2022-04-27 19:11:42 公開日:2022-04-26
# (参考訳) Dual-Task Siamese Networkとセミスーパービジョンラーニングを用いた都市変化検出

Urban Change Detection Using a Dual-Task Siamese Network and Semi-Supervised Learning ( http://arxiv.org/abs/2204.12202v1 )

ライセンス: CC BY 4.0
Sebastian Hafner, Yifang Ban, Andrea Nascetti(参考訳) 本研究では,両時間画像ペアによる都市変化検出を改善するための半監視学習(SSL)手法を提案する。 提案手法は,差分デコーダによる変化を予測できるだけでなく,セマンティクスデコーダを用いた2つの画像のセグメンテーションビルディングを適応させた。 まず、アーキテクチャが変更され、セマンティックス予測から導かれた第2の変更予測が生成される。 次にSSLが採用され、教師付き変更検出が改善された。 ラベルのないデータについては、ネットワークが2つの変更出力に対して一貫した変化を予測することを奨励する損失を導入しました。 提案手法は,SpaceNet7データセットを用いて都市変化検出を行った。 SSLは3つの完全に教師されたベンチマークと比較して改善された結果を得た。

In this study, a Semi-Supervised Learning (SSL) method for improving urban change detection from bi-temporal image pairs was presented. The proposed method adapted a Dual-Task Siamese Difference network that not only predicts changes with the difference decoder, but also segments buildings for both images with a semantics decoder. First, the architecture was modified to produce a second change prediction derived from the semantics predictions. Second, SSL was adopted to improve supervised change detection. For unlabeled data, we introduced a loss that encourages the network to predict consistent changes across the two change outputs. The proposed method was tested on urban change detection using the SpaceNet7 dataset. SSL achieved improved results compared to three fully supervised benchmarks.
翻訳日:2022-04-27 19:03:04 公開日:2022-04-26
# (参考訳) 教師なし異常検出のためのIRCセーフグラフオートエンコーダ

IRC-safe Graph Autoencoder for an unsupervised anomaly detection ( http://arxiv.org/abs/2204.12231v1 )

ライセンス: CC BY 4.0
Oliver Atkinson, Akanksha Bhardwaj, Christoph Englert, Partha Konar, Vishal S. Ngairangbam, and Michael Spannowsky(参考訳) 機械学習技術を用いた異常検出は、標準モデルを超えて新しい物理学を探索する新しい強力なツールとして登場した。 歴史的にジェット観測装置の開発と類似しているが、理論的な一貫性はアルゴリズムやニューラルネットワークアーキテクチャの迅速な開発において常に中心的な役割を担っているわけではない。 本研究では,エネルギー重み付きメッセージパッシングを用いて,グラフニューラルネットワークに基づく赤外・コリニア安全オートエンコーダを構築する。 提案手法は理論的に有利な性質を持つ一方で,非QCD構造に対して強い感度を示す。

Anomaly detection through employing machine learning techniques has emerged as a novel powerful tool in the search for new physics beyond the Standard Model. Historically similar to the development of jet observables, theoretical consistency has not always assumed a central role in the fast development of algorithms and neural network architectures. In this work, we construct an infrared and collinear safe autoencoder based on graph neural networks by employing energy-weighted message passing. We demonstrate that whilst this approach has theoretically favourable properties, it also exhibits formidable sensitivity to non-QCD structures.
翻訳日:2022-04-27 18:57:11 公開日:2022-04-26
# (参考訳) 条件付き生成対向ネットワークを用いた感情顔生成のためのカテゴリー間ラベル補間

Intercategorical Label Interpolation for Emotional Face Generation with Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2204.12237v1 )

ライセンス: CC BY-SA 4.0
Silvan Mertes, Dominik Schiller, Florian Lingenfelser, Thomas Kiderle, Valentin Kroner, Lama Diab, Elisabeth Andr\'e(参考訳) 生成的広告ネットワークは、実際の写真とほとんど区別できない、欺きに富んだ実画像を生成することができる。 しかし、そのようなシステムは対応するドメインを現実的に複製するために大きなデータセットの存在に依存している。 これは特に、ランダムな新しい画像が生成されるだけでなく、特定の(連続的な)特徴が一緒にモデル化される場合の問題である。 hci(enmph{human-computer interaction})研究で特に重要なユースケースは、アバターの自動生成など、さまざまなユースケースで使用できる人間の顔の感情イメージの生成である。 ここでの問題は、トレーニングデータの可用性にある。 このタスクに最も適したデータセットは分類的感情モデルに依存しており、そのため個別のアノテーションラベルのみを特徴としている。 これにより、表示された感情状態間の滑らかな遷移の学習とモデリングが著しく妨げられる。 この課題を克服するために,ラベル補間の可能性を探究し,連続的な特徴を条件とした画像を生成することで,カテゴリ的データセットにトレーニングされたネットワークを強化する。

Generative adversarial networks offer the possibility to generate deceptively real images that are almost indistinguishable from actual photographs. Such systems however rely on the presence of large datasets to realistically replicate the corresponding domain. This is especially a problem if not only random new images are to be generated, but specific (continuous) features are to be co-modeled. A particularly important use case in \emph{Human-Computer Interaction} (HCI) research is the generation of emotional images of human faces, which can be used for various use cases, such as the automatic generation of avatars. The problem hereby lies in the availability of training data. Most suitable datasets for this task rely on categorical emotion models and therefore feature only discrete annotation labels. This greatly hinders the learning and modeling of smooth transitions between displayed affective states. To overcome this challenge, we explore the potential of label interpolation to enhance networks trained on categorical datasets with the ability to generate images conditioned on continuous features.
翻訳日:2022-04-27 18:42:15 公開日:2022-04-26
# (参考訳) TwitterとRedditにおけるサイバーセキュリティコンテンツの感性分析

Sentiment Analysis of Cybersecurity Content on Twitter and Reddit ( http://arxiv.org/abs/2204.12267v1 )

ライセンス: CC BY 4.0
Bipun Thapa(参考訳) 知覚分析(Sentiment Analysis)は、公共データと効果的なアルゴリズムが豊富にあるため、特にデジタル時代において、対象を理解する機会を提供する。 サイバーセキュリティは、パブリックドメインにおいて意見が豊富で異なる主題である。 この記述的な研究は、TwitterとRedditのサイバーセキュリティコンテンツを分析し、その感情、ポジティブ、ネガティブ、中立性を計測した。 twitterとredditのデータは、選択した時間枠で技術固有のapiを使って収集され、データセットを作成し、nlp(natural language processing)アルゴリズムであるvaderによって個別に分析された。 また、VADERの性能を評価するために、ランダムなサイバーセキュリティコンテンツ(10のつぶやきと投稿)のサンプルを20人のアノテータによって分類した。 Twitterのサイバーセキュリティコンテンツは少なくとも48%、Redditは少なくとも26.5%のポジティブだった。 肯定的あるいは中立的なコンテンツは、両プラットフォーム間のネガティブな感情をはるかに上回った。 人間の分類と比較すると、VADERはTwitterで60%の精度、Redditで70%の精度で感情を評価した。 全体として、目標は、サイバーセキュリティの感情に関する未解決の研究トピックを探求することだった。

Sentiment Analysis provides an opportunity to understand the subject(s), especially in the digital age, due to an abundance of public data and effective algorithms. Cybersecurity is a subject where opinions are plentiful and differing in the public domain. This descriptive research analyzed cybersecurity content on Twitter and Reddit to measure its sentiment, positive or negative, or neutral. The data from Twitter and Reddit was amassed via technology-specific APIs during a selected timeframe to create datasets, which were then analyzed individually for their sentiment by VADER, an NLP (Natural Language Processing) algorithm. A random sample of cybersecurity content (ten tweets and posts) was also classified for sentiments by twenty human annotators to evaluate the performance of VADER. Cybersecurity content on Twitter was at least 48% positive, and Reddit was at least 26.5% positive. The positive or neutral content far outweighed negative sentiments across both platforms. When compared to human classification, which was considered the standard or source of truth, VADER produced 60% accuracy for Twitter and 70% for Reddit in assessing the sentiment; in other words, some agreement between algorithm and human classifiers. Overall, the goal was to explore an uninhibited research topic about cybersecurity sentiment
翻訳日:2022-04-27 18:23:49 公開日:2022-04-26
# (参考訳) 差分プライバシーを用いた確率的原始双対学習

Federated Stochastic Primal-dual Learning with Differential Privacy ( http://arxiv.org/abs/2204.12284v1 )

ライセンス: CC BY 4.0
Yiwei Li, Shuai Wang, Tsung-Hui Chang, and Chong-Yung Chi(参考訳) フェデレートラーニング(FL)は、多くのクライアントがパラメータサーバのオーケストレーションの下で機械学習(ML)モデルを共同でトレーニングし、ローカルデータをサードパーティに公開しないようにするための新しいパラダイムである。 しかしながら、flのトレーニングは、ローカルクライアントとパラメータサーバ間の対話的なプロセスである。 このようなプロセスは、相手が過度に耳を傾けたメッセージを分析して機密情報を検索できるため、プライバシーの漏洩を引き起こす。 本稿では,差分プライバシー(fedspd-dp)を用いた新しい連立確率的原始双対アルゴリズムを提案する。 従来の手法と比較して,FedSPD-DPは局所確率勾配勾配(ローカルSGD)と部分的クライアント参加(PCP)を組み込んで,ランダムにアクセスされたクライアントによる通信効率とトラグラー効果の問題に対処する。 分析の結果、データサンプリング戦略とpcpはデータプライバシを強化できるのに対し、ローカルsgdのステップが多ければプライバシの漏洩が増加し、アルゴリズム通信効率とプライバシ保護との非自明なトレードオフが明らかになった。 Specifically, we show that, by guaranteeing $(\epsilon, \delta)$-DP for each client per communication round, the proposed algorithm guarantees $(\mathcal{O}(q\epsilon \sqrt{p T}), \delta)$-DP after $T$ communication rounds while maintaining an $\mathcal{O}(1/\sqrt{pTQ})$ convergence rate for a convex and non-smooth learning problem, where $Q$ is the number of local SGD steps, $p$ is the client sampling probability, $q=\max_{i} q_i/\sqrt{1-q_i}$ and $q_i$ is the data sampling probability of each client under PCP. 提案アルゴリズムの性能評価と最先端手法との比較実験を行った。

Federated learning (FL) is a new paradigm that enables many clients to jointly train a machine learning (ML) model under the orchestration of a parameter server while keeping the local data not being exposed to any third party. However, the training of FL is an interactive process between local clients and the parameter server. Such process would cause privacy leakage since adversaries may retrieve sensitive information by analyzing the overheard messages. In this paper, we propose a new federated stochastic primal-dual algorithm with differential privacy (FedSPD-DP). Compared to the existing methods, the proposed FedSPD-DP incorporates local stochastic gradient descent (local SGD) and partial client participation (PCP) for addressing the issues of communication efficiency and straggler effects due to randomly accessed clients. Our analysis shows that the data sampling strategy and PCP can enhance the data privacy whereas the larger number of local SGD steps could increase privacy leakage, revealing a non-trivial tradeoff between algorithm communication efficiency and privacy protection. Specifically, we show that, by guaranteeing $(\epsilon, \delta)$-DP for each client per communication round, the proposed algorithm guarantees $(\mathcal{O}(q\epsilon \sqrt{p T}), \delta)$-DP after $T$ communication rounds while maintaining an $\mathcal{O}(1/\sqrt{pTQ})$ convergence rate for a convex and non-smooth learning problem, where $Q$ is the number of local SGD steps, $p$ is the client sampling probability, $q=\max_{i} q_i/\sqrt{1-q_i}$ and $q_i$ is the data sampling probability of each client under PCP. Experiment results are presented to evaluate the practical performance of the proposed algorithm and comparison with state-of-the-art methods.
翻訳日:2022-04-27 18:12:39 公開日:2022-04-26
# (参考訳) 確率的プログラムの微分による知覚パズルの設計

Designing Perceptual Puzzles by Differentiating Probabilistic Programs ( http://arxiv.org/abs/2204.12301v1 )

ライセンス: CC BY 4.0
Kartik Chandra, Tzu-Mao Li, Joshua Tenenbaum, Jonathan Ragan-Kelley(参考訳) 視覚をベイズ推論として扱う確率モデルのために、人間の知覚の原理モデルのための「逆の例」を見つけることにより、新しい視覚錯覚を設計する。 この探索を効率的に行うために,APIがMCMC推論を一級微分可能関数として公開する可微分確率型プログラミング言語を設計する。 我々は,人間の視覚の3つの特徴,すなわち色コンテンシティ,大きさコンテンシティ,顔知覚の錯覚を自動生成する手法を実証した。

We design new visual illusions by finding "adversarial examples" for principled models of human perception -- specifically, for probabilistic models, which treat vision as Bayesian inference. To perform this search efficiently, we design a differentiable probabilistic programming language, whose API exposes MCMC inference as a first-class differentiable function. We demonstrate our method by automatically creating illusions for three features of human vision: color constancy, size constancy, and face perception.
翻訳日:2022-04-27 17:27:23 公開日:2022-04-26
# (参考訳) Fr'echet運動距離を用いた合成運動の品質評価

Evaluating the Quality of a Synthesized Motion with the Fr\'echet Motion Distance ( http://arxiv.org/abs/2204.12318v1 )

ライセンス: CC BY 4.0
Antoine Maiorca, Youngwoo Yoon and Thierry Dutoit(参考訳) Fr'echet運動距離を用いた合成運動の品質評価

Evaluating the Quality of a Synthesized Motion with the Fr\'echet Motion Distance
翻訳日:2022-04-27 17:07:37 公開日:2022-04-26
# (参考訳) 多変量依存に対するマルチスケール漁業独立試験の検討

Discussion of Multiscale Fisher's Independence Test for Multivariate Dependence ( http://arxiv.org/abs/2204.12319v1 )

ライセンス: CC BY 4.0
Duyeol Lee, Helal El-Zaatari, Michael R. Kosorok, Xinyi Li, and Kai Zhang(参考訳) マルチスケールフィッシャー独立試験 (MULTIFIT) は、Gorsky & Ma (2022) によって提案された2つのランダムベクトル間の独立性をテストする新しい方法である。 設計上、この試験は特に局所依存の検出に有用である。 さらに、再サンプリングフリーアプローチを採用することで、大量のサンプルサイズを容易に対応できる。 提案手法のもう1つの利点は依存性の性質を解釈する能力である。 著者のShai GorksyとLi Maは、非常に興味深くエレガントな作品であることに感謝している。 このコメントでは、MultiFITと他のテストを統合する一般的なフレームワークについて議論し、Leeらによって提案されたバイナリ拡張ランダムアンサンブルテスト(BERET)と比較する(プレスリリース)。 また,本手法の拡張の可能性についても考察した。

The multiscale Fisher's independence test (MULTIFIT hereafter) proposed by Gorsky & Ma (2022) is a novel method to test independence between two random vectors. By its design, this test is particularly useful in detecting local dependence. Moreover, by adopting a resampling-free approach, it can easily accommodate massive sample sizes. Another benefit of the proposed method is its ability to interpret the nature of dependency. We congratulate the authors, Shai Gorksy and Li Ma, for their very interesting and elegant work. In this comment, we would like to discuss a general framework unifying the MULTIFIT and other tests and compare it with the binary expansion randomized ensemble test (BERET hereafter) proposed by Lee et al. (In press). We also would like to contribute our thoughts on potential extensions of the method.
翻訳日:2022-04-27 17:04:14 公開日:2022-04-26
# (参考訳) 室内属性からのフロアプランのトポロジー構造の生成

Generating Topological Structure of Floorplans from Room Attributes ( http://arxiv.org/abs/2204.12338v1 )

ライセンス: CC BY 4.0
Yin Yu, Hutchcroft Will, Khosravan Naji, Boyadzhiev Ivaylo, Fu Yun, Kang Sing Bing(参考訳) 屋内空間の分析には位相情報が必要である。 本稿では,反復型および適応型グラフトポロジー学習(itl)を用いて,部屋属性から位相情報を抽出することを提案する。 ITLは部屋間の複数の関係を徐々に予測し、各イテレーションでノードの埋め込みを改善し、それによってより優れたトポロジグラフ構造を生成する。 ノード埋め込みと位相グラフ構造を反復的に改善するというこの概念は、 \cite{chen2020iterative} と同じ精神である。 しかし,「cite{chen2020iterative}」はノード類似性に基づいて隣接行列を演算するが,関係デコーダを用いてグラフ計量を学習し,室内相関を抽出する。 新しい挑戦的屋内データセットを用いた実験により,提案手法が検証された。 レイアウトトポロジー予測およびフロアプラン生成アプリケーションの質的・定量的評価もitlの有効性を示す。

Analysis of indoor spaces requires topological information. In this paper, we propose to extract topological information from room attributes using what we call Iterative and adaptive graph Topology Learning (ITL). ITL progressively predicts multiple relations between rooms; at each iteration, it improves node embeddings, which in turn facilitates generation of a better topological graph structure. This notion of iterative improvement of node embeddings and topological graph structure is in the same spirit as \cite{chen2020iterative}. However, while \cite{chen2020iterative} computes the adjacency matrix based on node similarity, we learn the graph metric using a relational decoder to extract room correlations. Experiments using a new challenging indoor dataset validate our proposed method. Qualitative and quantitative evaluation for layout topology prediction and floorplan generation applications also demonstrate the effectiveness of ITL.
翻訳日:2022-04-27 17:00:02 公開日:2022-04-26
# (参考訳) ディープフェイク・フェイススワッピングに対するブラックボックス攻撃の制限

Restricted Black-box Adversarial Attack Against DeepFake Face Swapping ( http://arxiv.org/abs/2204.12347v1 )

ライセンス: CC BY 4.0
Junhao Dong, Yuan Wang, Jianhuang Lai, Xiaohua Xie(参考訳) ディープフェイク・フェイススワップは、オンラインのセキュリティとソーシャルメディアに重大な脅威をもたらし、任意の写真やビデオのソース・フェイスを、まったく異なる人物のターゲット・フェイスに置き換えることができる。 この不正を防ぐために、ディープフェイクや顔操作に対する敵対的手法の研究を始めた研究者もいる。 しかし、既存の作品では、大量のクエリによって駆動されるホワイトボックス設定やブラックボックス設定に焦点が当てられている。 この問題に対処するために,顔画像偽造モデルに対する問い合わせを一切必要としない現実的な敵攻撃を導入する。 本手法は,顔の再構成を行う代用モデルに基づいて構築され,置換モデルから非アクセス可能なブラックボックスDeepFakeモデルへの逆例を直接転送する。 具体的には、未知のDeepFakeシステムを破壊するための逆摂動を構築するために、Transferable Cycle Adversary Generative Adversarial Network (TCA-GAN)を提案する。 また, 生成した逆例の転送性を高めるために, 新たなポストレギュライゼーションモジュールを提案する。 提案手法の有効性を包括的に評価するために,DeepFake の敵攻撃に対する挑戦的なベンチマークを構築した。 大規模な実験により、提案手法により、DeepFakeの顔画像の視覚的品質が低下し、人間やアルゴリズムによる検出が容易になることが示された。 さらに,提案アルゴリズムを一般化し,様々な顔変換手法に対する顔画像保護を実現することを実証する。

DeepFake face swapping presents a significant threat to online security and social media, which can replace the source face in an arbitrary photo/video with the target face of an entirely different person. In order to prevent this fraud, some researchers have begun to study the adversarial methods against DeepFake or face manipulation. However, existing works focus on the white-box setting or the black-box setting driven by abundant queries, which severely limits the practical application of these methods. To tackle this problem, we introduce a practical adversarial attack that does not require any queries to the facial image forgery model. Our method is built on a substitute model persuing for face reconstruction and then transfers adversarial examples from the substitute model directly to inaccessible black-box DeepFake models. Specially, we propose the Transferable Cycle Adversary Generative Adversarial Network (TCA-GAN) to construct the adversarial perturbation for disrupting unknown DeepFake systems. We also present a novel post-regularization module for enhancing the transferability of generated adversarial examples. To comprehensively measure the effectiveness of our approaches, we construct a challenging benchmark of DeepFake adversarial attacks for future development. Extensive experiments impressively show that the proposed adversarial attack method makes the visual quality of DeepFake face images plummet so that they are easier to be detected by humans and algorithms. Moreover, we demonstrate that the proposed algorithm can be generalized to offer face image protection against various face translation methods.
翻訳日:2022-04-27 16:43:11 公開日:2022-04-26
# (参考訳) トレーニングニューラルネットワークにおける分布外検出の性能解析

Performance Analysis of Out-of-Distribution Detection on Trained Neural Networks ( http://arxiv.org/abs/2204.12378v1 )

ライセンス: CC BY 4.0
Jens Henriksson, Christian Berger, Markus Borg, Lars Tornberg, Sankar Raman Sathyamoorthy, Cristofer Englund(参考訳) 近年、Deep Learningによっていくつかの領域が改善されている。 非安全関連アプリケーションのためのディープニューラルネットワーク(DNN)の実装は、ここ数年で顕著な成果を上げてきたが、安全クリティカルなアプリケーションでDNNを使用するには、そのようなモデルの堅牢性を検証するためのアプローチが欠如している。 DNNの一般的な課題は、DNNのスコープ外にある分布外サンプルに曝露した場合に発生するが、そのような入力の事前知識がないにもかかわらず高い信頼度が出力される。 本稿では,4つのよく知られたDNNアーキテクチャを用いて,配当データと配当データとを分離する3つの手法を解析する。 その結果,モデルの品質が向上し,異常検出性能が向上することがわかった。 また,訓練の進行過程において,所定の間隔の監督者を適用することで,訓練過程における特定の監督者のパフォーマンスを分析した。 トレーニング結果と監督性能の関係を理解することは,モデルの堅牢性の向上と,DNNの堅牢性向上のためにどのような入力サンプルが必要かを示す上で重要である。 さらに,我々の研究は,安全クリティカルな応用のための安全議論のための手段への道を開いた。 本論文は,2019 seaa (cf. [1]) で発表された先行研究の拡張版である。ここでは,使用済みのメトリクスを詳述し,追加のスーパーバイザを追加して,さらに2つのデータセットでそれらをテストする。

Several areas have been improved with Deep Learning during the past years. Implementing Deep Neural Networks (DNN) for non-safety related applications have shown remarkable achievements over the past years; however, for using DNNs in safety critical applications, we are missing approaches for verifying the robustness of such models. A common challenge for DNNs occurs when exposed to out-of-distribution samples that are outside of the scope of a DNN, but which result in high confidence outputs despite no prior knowledge of such input. In this paper, we analyze three methods that separate between in- and out-of-distribution data, called supervisors, on four well-known DNN architectures. We find that the outlier detection performance improves with the quality of the model. We also analyse the performance of the particular supervisors during the training procedure by applying the supervisor at a predefined interval to investigate its performance as the training proceeds. We observe that understanding the relationship between training results and supervisor performance is crucial to improve the model's robustness and to indicate, what input samples require further measures to improve the robustness of a DNN. In addition, our work paves the road towards an instrument for safety argumentation for safety critical applications. This paper is an extended version of our previous work presented at 2019 SEAA (cf. [1]); here, we elaborate on the used metrics, add an additional supervisor and test them on two additional datasets.
翻訳日:2022-04-27 16:24:18 公開日:2022-04-26
# (参考訳) MLシステムにおける集積歩行者のエッジケースの影響の理解

Understanding the Impact of Edge Cases from Occluded Pedestrians for ML Systems ( http://arxiv.org/abs/2204.12402v1 )

ライセンス: CC BY 4.0
Jens Henriksson, Christian Berger, Stig Ursing(参考訳) 機械学習(ml)対応のアプローチは、自動運転車における交通参加者の障害物の検出と分類の実質的な支援技術であると考えられている。 過去数年間で大きなブレークスルーが示され、感覚入力から加速、破壊、ステアリングの車両制御まで、完全なエンドツーエンドのデータ処理チェーンがカバーされた。 YOLO(You-only-look-once)は、カメライメージ上のバウンディングボックス推定を通じてオブジェクトの検出と分類を提供する、最先端の知覚ニューラルネットワーク(NN)アーキテクチャである。 本稿では,手作りオクルージョンをテストセットに加えた場合のNNからの信頼度の変化について検討する。 通常の歩行者検出と上下半身検出を比較した。 その結果, 部分的情報のみを用いる2つのNNは, フルボディNNが0.75以上である場合に, フルボディのNNとよく似た性能を示すことがわかった。 さらに、予想通り、下半身のみにトレーニングされるネットワークは、上半身の閉塞による障害や、その逆による障害がほとんどない。

Machine learning (ML)-enabled approaches are considered a substantial support technique of detection and classification of obstacles of traffic participants in self-driving vehicles. Major breakthroughs have been demonstrated the past few years, even covering complete end-to-end data processing chain from sensory inputs through perception and planning to vehicle control of acceleration, breaking and steering. YOLO (you-only-look-once) is a state-of-the-art perception neural network (NN) architecture providing object detection and classification through bounding box estimations on camera images. As the NN is trained on well annotated images, in this paper we study the variations of confidence levels from the NN when tested on hand-crafted occlusion added to a test set. We compare regular pedestrian detection to upper and lower body detection. Our findings show that the two NN using only partial information perform similarly well like the NN for the full body when the full body NN's performance is 0.75 or better. Furthermore and as expected, the network, which is only trained on the lower half body is least prone to disturbances from occlusions of the upper half and vice versa.
翻訳日:2022-04-27 16:06:58 公開日:2022-04-26
# (参考訳) 医療用アテンションメカニズムに関する調査:より良いアルゴリズムに向かっているか?

A survey on attention mechanisms for medical applications: are we moving towards better algorithms? ( http://arxiv.org/abs/2204.12406v1 )

ライセンス: CC BY 4.0
Tiago Gon\c{c}alves, Isabel Rio-Torto, Lu\'is F. Teixeira, Jaime S. Cardoso(参考訳) コンピュータビジョンと自然言語処理のためのディープラーニングアルゴリズムにおける注意機構の普及により、これらのモデルは他の研究領域に魅力的なものとなった。 医療においては、臨床医や患者のルーチンを改善するツールが強く求められている。 当然、医療応用における注意に基づくアルゴリズムの使用は円滑に行われた。 しかし、医療は高い意思決定に依存する領域であり、これらの高いパフォーマンスのアルゴリズムが医療応用のニーズに適合するかどうか、科学界は考慮しなければならない。 本モットーは,機械学習における注意機構(トランスフォーマーを含む)の医療への応用を概観するものである。 本研究は,3つの異なるユースケースを用いた医用画像分類の実験的ケーススタディを通じて,文献に提示される注意機構の主張と可能性について批判的な分析を行った。 これらの実験は、注意機構の確立したディープラーニングアーキテクチャへの統合プロセス、その予測力の分析、ポストホックな説明手法によって生成されたサリエンシーマップの視覚的評価に焦点を当てている。 本稿では,注意メカニズムに関する文献に提示される主張と可能性について批判的な分析を行い,これらの枠組みの恩恵を受ける医療応用における今後の研究線を提案する。

The increasing popularity of attention mechanisms in deep learning algorithms for computer vision and natural language processing made these models attractive to other research domains. In healthcare, there is a strong need for tools that may improve the routines of the clinicians and the patients. Naturally, the use of attention-based algorithms for medical applications occurred smoothly. However, being healthcare a domain that depends on high-stake decisions, the scientific community must ponder if these high-performing algorithms fit the needs of medical applications. With this motto, this paper extensively reviews the use of attention mechanisms in machine learning (including Transformers) for several medical applications. This work distinguishes itself from its predecessors by proposing a critical analysis of the claims and potentialities of attention mechanisms presented in the literature through an experimental case study on medical image classification with three different use cases. These experiments focus on the integrating process of attention mechanisms into established deep learning architectures, the analysis of their predictive power, and a visual assessment of their saliency maps generated by post-hoc explanation methods. This paper concludes with a critical analysis of the claims and potentialities presented in the literature about attention mechanisms and proposes future research lines in medical applications that may benefit from these frameworks.
翻訳日:2022-04-27 15:51:15 公開日:2022-04-26
# (参考訳) UHF RFIDセンサネットワークと機械学習による果実熟成室の自動モニタリング

Automatic Monitoring of Fruit Ripening Rooms by UHF RFID Sensor Network and Machine Learning ( http://arxiv.org/abs/2204.12415v1 )

ライセンス: CC BY 4.0
Cecilia Occhiuzzi, Francesca Camera, Michele D'Orazio, Nicola D'Uva, Sara Amendola, Giulio Maria Bianco, Carolina Miozzi, Luigi Garavaglia, Eugenio Martinelli, Gaetano Marrocco(参考訳) 果物の環境条件やガスへの曝露による熟成の促進は、今日では最も評価の高い食品技術の一つであり、特に気候やエキゾチックな製品である。 しかし、その工程の細かな粒度制御や商品の質の制御がいまだに欠けているため、熟成室の管理は主に質的評価のみに基づいて行われる。 産業4.0の近代的パラダイムに従って、この貢献はアボカドの生熟自動評価のための非破壊的なRFIDベースのシステムを提案する。 このシステムは、SVM(Support Vector Machines)に基づく適切に訓練された自動分類アルゴリズムと組み合わせて、85%以上の精度で熟成段階を識別することができる。

Accelerated ripening through the exposure of fruits to controlled environmental conditions and gases is nowadays one of the most assessed food technologies, especially for climacteric and exotic products. However, a fine granularity control of the process and consequently of the quality of the goods is still missing, so the management of the ripening rooms is mainly based on qualitative estimations only. Following the modern paradigms of Industry 4.0, this contribution proposes a non-destructive RFID-based system for the automatic evaluation of the live ripening of avocados. The system, coupled with a properly trained automatic classification algorithm based on Support Vector Machines (SVMs), can discriminate the stage of ripening with an accuracy greater than 85%.
翻訳日:2022-04-27 15:49:54 公開日:2022-04-26
# (参考訳) 畳み込みニューラルネットワークを用いた心肺運動時間時系列の分類のための画像化

Encoding Cardiopulmonary Exercise Testing Time Series as Images for Classification using Convolutional Neural Network ( http://arxiv.org/abs/2204.12432v1 )

ライセンス: CC BY 4.0
Yash Sharma, Nick Coronato, Donald E. Brown(参考訳) 運動テストは半世紀以上にわたって利用可能であり、様々な疾患、特に心血管および肺の患者の診断および予後診断のための非常に汎用的なツールである。 過去10年間のテクノロジー、ウェアラブル、学習アルゴリズムの急速な進歩により、その範囲は進化してきた。 具体的には、心肺運動テスト(CPX)は、患者の運動能力とパフォーマンスレベルを客観的に評価するための最も一般的な実験の1つである。 CPXは、ガス交換の測定を含む肺、心血管、骨格筋系の非侵襲的、統合的評価を提供する。 しかし、その評価は困難であり、個人が複数の時系列データポイントを処理する必要があるため、ピーク値や勾配の簡略化につながる。 しかし、この単純化は、この時系列に存在する貴重なトレンド情報を捨てる可能性がある。 本研究では,グラミアン角場とマルコフ遷移場を用いて時系列を画像として符号化し,畳み込みニューラルネットワークと注意プーリングアプローチを用いて心不全とメタボリックシンドロームの分類を行う。 gradcamsを使用して,モデルによって識別される識別的特徴を強調する。

Exercise testing has been available for more than a half-century and is a remarkably versatile tool for diagnostic and prognostic information of patients for a range of diseases, especially cardiovascular and pulmonary. With rapid advancements in technology, wearables, and learning algorithm in the last decade, its scope has evolved. Specifically, Cardiopulmonary exercise testing (CPX) is one of the most commonly used laboratory tests for objective evaluation of exercise capacity and performance levels in patients. CPX provides a non-invasive, integrative assessment of the pulmonary, cardiovascular, and skeletal muscle systems involving the measurement of gas exchanges. However, its assessment is challenging, requiring the individual to process multiple time series data points, leading to simplification to peak values and slopes. But this simplification can discard the valuable trend information present in these time series. In this work, we encode the time series as images using the Gramian Angular Field and Markov Transition Field and use it with a convolutional neural network and attention pooling approach for the classification of heart failure and metabolic syndrome patients. Using GradCAMs, we highlight the discriminative features identified by the model.
翻訳日:2022-04-27 15:36:39 公開日:2022-04-26
# モンテカルロ木探索のための効率的な動的サンプリングポリシー

An Efficient Dynamic Sampling Policy For Monte Carlo Tree Search ( http://arxiv.org/abs/2204.12043v1 )

ライセンス: Link先を確認
Gongbo Zhang, Yijie Peng, Yilong Xu(参考訳) 我々は,強化学習の枠組みであるモンテカルロ木探索(mcts)において,有限ホリゾンマルコフ決定過程の文脈において,一般的な木ベース探索戦略を考える。 本稿では,木根ノードにおける最適動作の正しい選択確率を最大化するために,限られた計算予算を効率的に割り当てる動的サンプリングツリーポリシーを提案する。 Tic-Tac-Toe と Gomoku の実験結果は,提案手法が他の競合手法よりも効率的であることを示している。

We consider the popular tree-based search strategy within the framework of reinforcement learning, the Monte Carlo Tree Search (MCTS), in the context of finite-horizon Markov decision process. We propose a dynamic sampling tree policy that efficiently allocates limited computational budget to maximize the probability of correct selection of the best action at the root node of the tree. Experimental results on Tic-Tac-Toe and Gomoku show that the proposed tree policy is more efficient than other competing methods.
翻訳日:2022-04-27 15:24:49 公開日:2022-04-26
# ブロックチェーンシステムの動的管理のためのデジタルツイン

Digital Twins for Dynamic Management of Blockchain Systems ( http://arxiv.org/abs/2204.12477v1 )

ライセンス: Link先を確認
Georgios Diamantopoulos, Nikos Tziritas, Rami Bahsoon, Georgios Theodoropoulos(参考訳) ブロックチェーンシステムは、分散化、スケーラビリティ、セキュリティといういわゆるトリレンマトレードオフによって挑戦される。 インフラストラクチャとノードの構成、コンセンサスプロトコルの選択、アプリケーショントランザクションの複雑さは、トレードオフのバランスに影響する要因として挙げられます。 ブロックチェーンは複雑でダイナミックな動的システムであるため、インフラストラクチャとアプリケーションの状態の変化を反映するために、実行時の管理と再構成に対する動的アプローチが必要であると考えられている。 本稿では,Digital Twinsの利用について紹介する。 論文の新たな貢献は、時間クリティカルシステムの三角関係のトレードオフを維持するのに役立つデジタル双生児の枠組みと概念アーキテクチャの設計である。 提案するデジタル双生児は,コンセンサスプロトコルの動的選択に対する革新的なアプローチによって示される。 シミュレーションの結果,提案フレームワークはブロックチェーンの動的適応と管理を効果的に支援できることが示された。

Blockchain systems are challenged by the so-called Trilemma tradeoff: decentralization, scalability and security. Infrastructure and node configuration, choice of the Consensus Protocol and complexity of the application transactions are cited amongst the factors that affect the tradeoffs balance. Given that Blockchains are complex, dynamic dynamic systems, a dynamic approach to their management and reconfiguration at runtime is deemed necessary to reflect the changes in the state of the infrastructure and application. This paper introduces the utilisation of Digital Twins for this purpose. The novel contribution of the paper is design of a framework and conceptual architecture of a Digital Twin that can assist in maintaining the Trilemma tradeoffs of time critical systems. The proposed Digital Twin is illustrated via an innovative approach to dynamic selection of Consensus Protocols. Simulations results show that the proposed framework can effectively support the dynamic adaptation and management of the Blockchain
翻訳日:2022-04-27 15:24:40 公開日:2022-04-26
# サバイバルランダムフォレストの信頼度バンド推定

Confidence Band Estimation for Survival Random Forests ( http://arxiv.org/abs/2204.12038v1 )

ライセンス: Link先を確認
Sarah Elizabeth Formentini and Wei Liang and Ruoqing Zhu(参考訳) サバイバルランダムフォレストは、検閲されたサバイバルデータをモデリングするための一般的な機械学習ツールである。 しかし、現在、その信頼性帯域を推定するための統計的に有効で計算可能なアプローチは存在しない。 本稿では,無限次不完全u-統計学における最近の展開を拡張し,バイアスのない信頼バンド推定を提案する。 この考え方は、累積的ハザード関数予測の分散共分散行列を時間点の格子上で推定する。 次に,シミュレーションにより分布を近似できるガウス過程として累積ハザード関数推定を見て,信頼度帯域を生成する。 このアプローチは、木のサブサンプリングサイズが全体のトレーニングサンプルサイズの半分に満たない場合に、計算的に実装が容易である。 提案手法は,信頼度帯域を正確に推定し,所望のカバレッジ率を達成する。 本手法を退役軍人の肺癌管理データに適用する。

Survival random forest is a popular machine learning tool for modeling censored survival data. However, there is currently no statistically valid and computationally feasible approach for estimating its confidence band. This paper proposes an unbiased confidence band estimation by extending recent developments in infinite-order incomplete U-statistics. The idea is to estimate the variance-covariance matrix of the cumulative hazard function prediction on a grid of time points. We then generate the confidence band by viewing the cumulative hazard function estimation as a Gaussian process whose distribution can be approximated through simulation. This approach is computationally easy to implement when the subsampling size of a tree is no larger than half of the total training sample size. Numerical studies show that our proposed method accurately estimates the confidence band and achieves desired coverage rate. We apply this method to veterans' administration lung cancer data.
翻訳日:2022-04-27 15:24:28 公開日:2022-04-26
# 可逆的シンプレクティックダイナミクスの学習

Learning reversible symplectic dynamics ( http://arxiv.org/abs/2204.12323v1 )

ライセンス: Link先を確認
Riccardo Valperga, Kevin Webster, Victoria Klein, Dmitry Turaev and Jeroen S. W. Lamb(参考訳) 時間反転対称性は、多くの力学系における構造的性質として自然に現れる。 ハードウイング対称性の重要性は機械学習においてますます認識されているが、現在では時間的可逆性は失われている。 本稿では,データから時間可逆な動的システムを学習するためのニューラルネットワークアーキテクチャを提案する。 特に,物理インフォームドラーニングの重要性から,シンプレクティックシステムへの適応に焦点を当てている。

Time-reversal symmetry arises naturally as a structural property in many dynamical systems of interest. While the importance of hard-wiring symmetry is increasingly recognized in machine learning, to date this has eluded time-reversibility. In this paper we propose a new neural network architecture for learning time-reversible dynamical systems from data. We focus in particular on an adaptation to symplectic systems, because of their importance in physics-informed learning.
翻訳日:2022-04-27 15:24:14 公開日:2022-04-26
# ニューラルネットワークのためのPAC-Bayesトレーニング:空間性と不確実性定量化

PAC-Bayes training for neural networks: sparsity and uncertainty quantification ( http://arxiv.org/abs/2204.12392v1 )

ライセンス: Link先を確認
Maximilian F. Steffen, Mathias Trabs(参考訳) 非パラメトリック回帰設定における疎深層ニューラルネットワークに対するpac-bayes理論からのgibbs後方分布について検討した。 後方分布にアクセスするために、バックプロパゲーションに基づく効率的なmcmcアルゴリズムを構築する。 トレーニングにより、ネットワークパラメータに結合分布を持つベイズニューラルネットワークが得られる。 ネットワーク重みのスパース集合上の均一な先行集合上の混合物を用いて、この手法が回帰関数の未知の正則性と階層構造に適応することを示すオラクル不等式を証明した。 頻繁なベイズ的視点からギブス後方分布を解析した結果, 直径を解析し, 信頼性の高い集合の被覆率を示した。 この手法はシミュレーションの例で示される。

We study the Gibbs posterior distribution from PAC-Bayes theory for sparse deep neural nets in a nonparametric regression setting. To access the posterior distribution, an efficient MCMC algorithm based on backpropagation is constructed. The training yields a Bayesian neural network with a joint distribution on the network parameters. Using a mixture over uniform priors on sparse sets of networks weights, we prove an oracle inequality which shows that the method adapts to the unknown regularity and hierarchical structure of the regression function. Studying the Gibbs posterior distribution from a frequentist Bayesian perspective, we analyze the diameter and show high coverage probability of the resulting credible sets. The method is illustrated in a simulation example.
翻訳日:2022-04-27 15:22:20 公開日:2022-04-26
# 一致する市場でのバンディット学習のためのトンプソンサンプリング

Thompson Sampling for Bandit Learning in Matching Markets ( http://arxiv.org/abs/2204.12048v1 )

ライセンス: Link先を確認
Fang Kong, Junming Yin, Shuai Li(参考訳) 双方向マッチング市場の問題には、幅広い実世界の応用があり、文献で広く研究されている。 最近の一連の研究では、一方の市場参加者の好みが不明な問題設定に焦点が当てられ、他方の参加者と反復的に相互作用することで学習されている。 これらの研究はすべて、マルチアーム・バンディット(MAB)における2つの共通戦略である、探索-then-commit(ETC)と上信頼境界(UCB)アルゴリズムに基づいている。 トンプソンサンプリング(TS)もまた一般的な手法であり、実装が簡単で経験的性能が良く、多くの注目を集めている。 多くの問題において、UTBとETC型アルゴリズムが既に分析されているとしても、研究者はTSの利点について研究している。 しかし、TSの収束解析はより困難であり、多くの問題設定では未解決のままである。 本稿では,新たな反復的マッチング市場におけるTSに対する最初の後悔分析について述べる。 大規模な実験は、ETCおよびUTB型ベースラインに対するTS型アルゴリズムの実用的利点を示す。

The problem of two-sided matching markets has a wide range of real-world applications and has been extensively studied in the literature. A line of recent works have focused on the problem setting where the preferences of one-side market participants are unknown \emph{a priori} and are learned by iteratively interacting with the other side of participants. All these works are based on explore-then-commit (ETC) and upper confidence bound (UCB) algorithms, two common strategies in multi-armed bandits (MAB). Thompson sampling (TS) is another popular approach, which attracts lots of attention due to its easier implementation and better empirical performances. In many problems, even when UCB and ETC-type algorithms have already been analyzed, researchers are still trying to study TS for its benefits. However, the convergence analysis of TS is much more challenging and remains open in many problem settings. In this paper, we provide the first regret analysis for TS in the new setting of iterative matching markets. Extensive experiments demonstrate the practical advantages of the TS-type algorithm over the ETC and UCB-type baselines.
翻訳日:2022-04-27 15:20:50 公開日:2022-04-26
# 非バイアス項目推薦のためのクロスペアワイズランキング

Cross Pairwise Ranking for Unbiased Item Recommendation ( http://arxiv.org/abs/2204.12176v1 )

ライセンス: Link先を確認
Qi Wan, Xiangnan He, Xiang Wang, Jiancan Wu, Wei Guo, Ruiming Tang(参考訳) 最も推奨されるシステムは、観測された相互作用データに基づいてモデルを最適化し、これは以前の露出メカニズムの影響を受け、人気バイアスのような多くのバイアスを示す。 主に使用される2進クロスエントロピーやペアワイズ・ベイズ・パーソナライズ・ランクリングのような損失関数は、観測データのバイアスを考慮するように設計されていない。 その結果、損失に最適化されたモデルはデータのバイアスを継承し、さらに悪いことにバイアスを増幅する。 例えば、いくつかの人気アイテムが露出の機会を増やし、悪名高いマシュー効果として知られるニッチアイテムのレコメンデーション品質をひどく傷つけている。 本研究では,CPR(Cross Pairwise Ranking)と呼ばれる新しい学習パラダイムを開発し,露出メカニズムを知らずに非バイアスの推薦を実現する。 逆相対性スコア(IPS)とは別として、サンプルの損失期間を変更する -- 複数の観察された相互作用を革新的にサンプリングし、それらの予測の組み合わせとして損失を形成する。 本稿では,この手法が学習に与える影響を相殺し,露光機構によるデータバイアスの影響を取り除いていることを理論的に証明する。 IPSと相まって,提案したCPRは,適合性スコアの設定を必要とせずに,各トレーニングインスタンスに対するバイアスのない学習を保証する。 実験結果は,モデル一般化とトレーニング効率の両方において,最先端デバイアスソリューションよりもcprが優れていることを示した。 コードはhttps://github.com/qcactus/cprで入手できる。

Most recommender systems optimize the model on observed interaction data, which is affected by the previous exposure mechanism and exhibits many biases like popularity bias. The loss functions, such as the mostly used pointwise Binary Cross-Entropy and pairwise Bayesian Personalized Ranking, are not designed to consider the biases in observed data. As a result, the model optimized on the loss would inherit the data biases, or even worse, amplify the biases. For example, a few popular items take up more and more exposure opportunities, severely hurting the recommendation quality on niche items -- known as the notorious Mathew effect. In this work, we develop a new learning paradigm named Cross Pairwise Ranking (CPR) that achieves unbiased recommendation without knowing the exposure mechanism. Distinct from inverse propensity scoring (IPS), we change the loss term of a sample -- we innovatively sample multiple observed interactions once and form the loss as the combination of their predictions. We prove in theory that this way offsets the influence of user/item propensity on the learning, removing the influence of data biases caused by the exposure mechanism. Advantageous to IPS, our proposed CPR ensures unbiased learning for each training instance without the need of setting the propensity scores. Experimental results demonstrate the superiority of CPR over state-of-the-art debiasing solutions in both model generalization and training efficiency. The codes are available at https://github.com/Qcactus/CPR.
翻訳日:2022-04-27 15:19:07 公開日:2022-04-26
# 限られた注釈付き原料データから品質生産データへ:乳業界における事例研究(技術報告)

From Limited Annotated Raw Material Data to Quality Production Data: A Case Study in the Milk Industry (Technical Report) ( http://arxiv.org/abs/2204.12302v1 )

ライセンス: Link先を確認
Roee Shraga, Gil Katz, Yael Badian, Nitay Calderon, Avigdor Gal(参考訳) industry 4.0は、iot技術を使って複数のセンサーデータソースを組み合わせる機会を提供し、製品ラインで原料をより有効活用する。 データが容易に利用できるという一般的な信念(ビッグデータ現象)は、厳しい制約下で品質データを効果的に取得する必要性にしばしば挑戦される。 本稿では,学習能力を高めるためにアクティブラーニングを用いた設計手法を提案する。 提案手法は,既存の能動学習手法を拡張して回帰学習を効果的に解決し,物理世界においてデータ取得が過剰なリソースを必要とするような状況に対処する。 さらに,学習者のパフォーマンス分析のための質的尺度も提案する。 提案手法は, 乳産業において, 乳を複数の小乳農場から採取し, 乳製品工場に持ち込み, コテージチーズに加工する実例を用いて実証した。

Industry 4.0 offers opportunities to combine multiple sensor data sources using IoT technologies for better utilization of raw material in production lines. A common belief that data is readily available (the big data phenomenon), is oftentimes challenged by the need to effectively acquire quality data under severe constraints. In this paper we propose a design methodology, using active learning to enhance learning capabilities, for building a model of production outcome using a constrained amount of raw material training data. The proposed methodology extends existing active learning methods to effectively solve regression-based learning problems and may serve settings where data acquisition requires excessive resources in the physical world. We further suggest a set of qualitative measures to analyze learners performance. The proposed methodology is demonstrated using an actual application in the milk industry, where milk is gathered from multiple small milk farms and brought to a dairy production plant to be processed into cottage cheese.
翻訳日:2022-04-27 15:18:43 公開日:2022-04-26
# IoT用侵入検知システムにおけるフェデレーション学習のレビュー

A review of Federated Learning in Intrusion Detection Systems for IoT ( http://arxiv.org/abs/2204.12443v1 )

ライセンス: Link先を確認
Aitor Belenguer, Javier Navaridas and Jose A. Pascual(参考訳) 侵入検知システムは、環境中の異常を検索するデータ分析を行うインテリジェントシステムへと進化している。 ディープラーニング技術の開発は、より複雑で効果的な脅威検出モデルを構築するための扉を開いた。 しかし、これらのモデルのトレーニングは、ほとんどのIoTデバイスでは計算不可能である可能性がある。 現在のアプローチは、すべてのパーティからデータを受け取る強力な集中型サーバに依存している -- 基本的なプライバシの制約に違反し、通信のオーバーヘッドが大きいため、応答時間や運用コストに大きな影響を与えている。 これらの問題を解決するため、フェデレーション学習は、異なるエージェントが共有モデルを共同的にトレーニングする有望なアプローチとして浮上し、トレーニングデータを他の人に公開することも、計算集約的な集中型インフラストラクチャも必要としなかった。 本稿では,侵入検出分野におけるフェデレートラーニング手法の適用に焦点を当てた。 どちらの技術も詳細に説明され、現在の科学的進歩がレビューされ分類される。 最後に,最近の研究における限界を強調し,この技術の今後の方向性について述べる。

Intrusion detection systems are evolving into intelligent systems that perform data analysis searching for anomalies in their environment. The development of deep learning technologies opened the door to build more complex and effective threat detection models. However, training those models may be computationally infeasible in most Internet of Things devices. Current approaches rely on powerful centralized servers that receive data from all their parties -- violating basic privacy constraints and substantially affecting response times and operational costs due to the huge communication overheads. To mitigate these issues, Federated Learning emerged as a promising approach where different agents collaboratively train a shared model, neither exposing training data to others nor requiring a compute-intensive centralized infrastructure. This paper focuses on the application of Federated Learning approaches in the field of Intrusion Detection. Both technologies are described in detail and current scientific progress is reviewed and categorized. Finally, the paper highlights the limitations present in recent works and presents some future directions for this technology.
翻訳日:2022-04-27 15:18:27 公開日:2022-04-26
# 標準医用画像の統計を学習する生成型adversarial networkの能力評価

Assessing the ability of generative adversarial networks to learn canonical medical image statistics ( http://arxiv.org/abs/2204.12007v1 )

ライセンス: Link先を確認
Varun A. Kelkar, Dimitrios S. Gotsis, Frank J. Brooks, Prabhat KC, Kyle J. Myers, Rongping Zeng and Mark A. Anastasio(参考訳) 近年, 医用画像合成, 修復, 再構築, 翻訳, 客観的画像品質評価など, 医用画像の潜在的な応用において, GAN (Generative Adversarial Network) が大いに人気を集めている。 高解像度で知覚的にリアルな画像を生成するという驚くべき進歩にもかかわらず、現代のGANが下流の医療画像アプリケーションに意味のある統計を確実に学習しているかどうかは不明だ。 本研究では,画像品質の客観的評価に関連する標準確率的画像モデル(SIM)の統計を,最先端のGANで学習する能力について検討する。 GANは、特定の医療用SIMの基本的1次・2次統計を考慮し、知覚的品質の高い画像を生成することに成功したが、これらのSIMに関連する画像ごとの統計を正しく学習することはできず、画像品質の客観的指標の観点から医療用画像GANを評価する緊急の必要性を強調した。

In recent years, generative adversarial networks (GANs) have gained tremendous popularity for potential applications in medical imaging, such as medical image synthesis, restoration, reconstruction, translation, as well as objective image quality assessment. Despite the impressive progress in generating high-resolution, perceptually realistic images, it is not clear if modern GANs reliably learn the statistics that are meaningful to a downstream medical imaging application. In this work, the ability of a state-of-the-art GAN to learn the statistics of canonical stochastic image models (SIMs) that are relevant to objective assessment of image quality is investigated. It is shown that although the employed GAN successfully learned several basic first- and second-order statistics of the specific medical SIMs under consideration and generated images with high perceptual quality, it failed to correctly learn several per-image statistics pertinent to the these SIMs, highlighting the urgent need to assess medical image GANs in terms of objective measures of image quality.
翻訳日:2022-04-27 15:18:12 公開日:2022-04-26
# 虚血性脳卒中脳血管系のラベリングとインタラクティブ可視化のためのアルゴリズム

An Algorithm for the Labeling and Interactive Visualization of the Cerebrovascular System of Ischemic Strokes ( http://arxiv.org/abs/2204.12333v1 )

ライセンス: Link先を確認
Florian Thamm and Markus J\"urgens and Oliver Taubmann and Aleksandra Thamm and Leonhard Rist and Hendrik Ditt and Andreas Maier(参考訳) 虚血性脳梗塞の診断中、ウィリスの円とその周辺の船は興味ある動脈である。 急性期脳卒中の場合の可視化は、ct angiography (cta) によってしばしば実現される。 それでも、脳動脈の同定と解析は、視覚印象を乱す可能性のある多数の末梢血管のため、このようなスキャンでは時間がかかり続ける。 CTAスキャンで脳血管樹を分類・ラベル付けするアルゴリズムであるVirtualDSA++を提案した。 特に脳卒中患者では, 難治性灌流により全半球が消失することがあるため, ラベル付けは微妙な手順である。 そこで,脳動脈のラベリング機構を拡張し,閉塞血管を同定した。 本研究では,脳卒中患者に対するラベリングとオクルージョン検出の評価を行い,そのアルゴリズムを臨床文脈に配置し,92\,\%から95\,\%の他の作品に匹敵するラベリング感性を達成した。 我々の知る限りでは,ラベリングとオクルージョン検出を同時に扱う最初の研究であり,67\,\%の感度と81\,\%の特異性が得られた。 virtualdsa++はまた、頭蓋内システムを自動的にセグメンテーションし、モデル化します。 本稿では,そのモデルのすべてのノードにおける経路の反復的系統的探索という汎用的な概念を提案する。 例として,第1に,機械的血栓摘出術のような血管介入のインタラクティブな計画,第2に,脳卒中(静脈など)の診断には興味のない血管構造のインタラクティブな抑制について詳述する。 我々は,提案する概念から出現する可能性と機能について考察する。

During the diagnosis of ischemic strokes, the Circle of Willis and its surrounding vessels are the arteries of interest. Their visualization in case of an acute stroke is often enabled by Computed Tomography Angiography (CTA). Still, the identification and analysis of the cerebral arteries remain time consuming in such scans due to a large number of peripheral vessels which may disturb the visual impression. In previous work we proposed VirtualDSA++, an algorithm designed to segment and label the cerebrovascular tree on CTA scans. Especially with stroke patients, labeling is a delicate procedure, as in the worst case whole hemispheres may not be present due to impeded perfusion. Hence, we extended the labeling mechanism for the cerebral arteries to identify occluded vessels. In the work at hand, we place the algorithm in a clinical context by evaluating the labeling and occlusion detection on stroke patients, where we have achieved labeling sensitivities comparable to other works between 92\,\% and 95\,\%. To the best of our knowledge, ours is the first work to address labeling and occlusion detection at once, whereby a sensitivity of 67\,\% and a specificity of 81\,\% were obtained for the latter. VirtualDSA++ also automatically segments and models the intracranial system, which we further used in a deep learning driven follow up work. We present the generic concept of iterative systematic search for pathways on all nodes of said model, which enables new interactive features. Exemplary, we derive in detail, firstly, the interactive planning of vascular interventions like the mechanical thrombectomy and secondly, the interactive suppression of vessel structures that are not of interest in diagnosing strokes (like veins). We discuss both features as well as further possibilities emerging from the proposed concept.
翻訳日:2022-04-27 15:15:38 公開日:2022-04-26
# 自己監督時間遅延推定による音像定位

Sound Localization by Self-Supervised Time Delay Estimation ( http://arxiv.org/abs/2204.12489v1 )

ライセンス: Link先を確認
Ziyang Chen, David F. Fouhey and Andrew Owens(参考訳) 音はステレオペアよりも早く1つのマイクに届き、その方向を伝達する耳間時間遅延が生じる。 音の時間遅延を推定するには、各マイクが記録した信号間の対応を見つける必要がある。 我々は,これらの対応を自己スーパービジョンで学習し,視覚追跡の最近の技術について考察する。 我々は、Jabriらによる対照的なランダムウォークに適応し、未ラベルステレオ音から周期整合表現を学習し、結果として「野生」インターネット記録における教師付き手法と同等に動作するモデルを構築した。 また,顔の視覚的表現を与えられた複数話者混合において,特定の人物の時間遅延を推定する,視覚誘導型局所化課題を解決するマルチモーダルコントラスト学習モデルを提案する。 プロジェクトサイト: https://ificl.github.io/stereocrw/

Sounds reach one microphone in a stereo pair sooner than the other, resulting in an interaural time delay that conveys their directions. Estimating a sound's time delay requires finding correspondences between the signals recorded by each microphone. We propose to learn these correspondences through self-supervision, drawing on recent techniques from visual tracking. We adapt the contrastive random walk of Jabri et al. to learn a cycle-consistent representation from unlabeled stereo sounds, resulting in a model that performs on par with supervised methods on "in the wild" internet recordings. We also propose a multimodal contrastive learning model that solves a visually-guided localization task: estimating the time delay for a particular person in a multi-speaker mixture, given a visual representation of their face. Project site: https://ificl.github.io/stereocrw/
翻訳日:2022-04-27 15:15:10 公開日:2022-04-26
# 微生物ゲノム回復のためのグラフニューラルネットワーク

Graph Neural Networks for Microbial Genome Recovery ( http://arxiv.org/abs/2204.12270v1 )

ライセンス: Link先を確認
Andre Lamurias, Alessandro Tibo, Katja Hose, Mads Albertsen and Thomas Dyhre Nielsen(参考訳) 微生物は我々の健康と環境に大きな影響を与えるが、微生物群集の多様性と機能に対する理解は極めて限られている。 微生物群集(メタゲノミクス)のDNAシークエンシングにより、個々の微生物のDNA断片(読み取り)を得ることができ、組立グラフを通じて長い連続したDNA配列(contigs)に結合することができる。 微生物群集の複雑さを考えると、単一の凹凸微生物ゲノムはほとんど得られない。 コンティグは最終的にビンにまとめられ、それぞれのビンは理想的には完全なゲノムを構成する。 この過程をメタジノミクス・ビンニング(Metagenomic binning)と呼ぶ。 メッサージノミクス・バイニングの最先端技術は、個々のコンチグの局所的な特徴にのみ依存している。 したがって、これらのテクニックは、コンティグが組織化されるアセンブリグラフによって符号化されるコンティグ間の類似性を利用することができない。 本稿では,グラフニューラルネットワーク(GNN)を用いて,メダゲノミクスの双対表現を学習する際のアセンブリグラフを活用することを提案する。 提案手法であるVaeG-Binは,個々のコンティグの潜在表現を学習するための変分オートエンコーダと,アセンブリグラフ内のコンティグの近傍構造を考慮に入れてこれらの表現を精製するGNNを組み合わせる。 いくつかの種類のGNNを探索し、VaeG-Binがシミュレーションと実世界の両方のデータセット上で、他の最先端のバイナリよりも高品質なゲノムを回収することを示した。

Microbes have a profound impact on our health and environment, but our understanding of the diversity and function of microbial communities is severely limited. Through DNA sequencing of microbial communities (metagenomics), DNA fragments (reads) of the individual microbes can be obtained, which through assembly graphs can be combined into long contiguous DNA sequences (contigs). Given the complexity of microbial communities, single contig microbial genomes are rarely obtained. Instead, contigs are eventually clustered into bins, with each bin ideally making up a full genome. This process is referred to as metagenomic binning. Current state-of-the-art techniques for metagenomic binning rely only on the local features for the individual contigs. These techniques therefore fail to exploit the similarities between contigs as encoded by the assembly graph, in which the contigs are organized. In this paper, we propose to use Graph Neural Networks (GNNs) to leverage the assembly graph when learning contig representations for metagenomic binning. Our method, VaeG-Bin, combines variational autoencoders for learning latent representations of the individual contigs, with GNNs for refining these representations by taking into account the neighborhood structure of the contigs in the assembly graph. We explore several types of GNNs and demonstrate that VaeG-Bin recovers more high-quality genomes than other state-of-the-art binners on both simulated and real-world datasets.
翻訳日:2022-04-27 15:14:29 公開日:2022-04-26
# 深層強化学習を用いた最適ヒューリスティックス探索による社会学習の創発

Social learning spontaneously emerges by searching optimal heuristics with deep reinforcement learning ( http://arxiv.org/abs/2204.12371v1 )

ライセンス: Link先を確認
Seungwoong Ha, Hawoong Jeong(参考訳) 自然界の社会動物の個人はどのようにして互いから学び合うように進化し、特定の環境で学ぶのに最適な戦略は何でしょう? 本稿では,多次元空間における協調ゲームにおけるエージェントの社会学習戦略(SLS)を最適化するために,深層強化学習モデルを用いることで,両問題に対処する。 全体の給与を最大化するためのトレーニングを通じて、エージェントは、コピー、頻繁で良好な隣人への焦点、自己比較、個人と社会の学習のバランスの重要性など、システムに関する明確なガイダンスや事前の知識なしに、自発的に社会学習の様々な概念を学習することを発見した。 完全に訓練されたエージェントからのslsは、従来のベースラインslsを平均的な給与で上回っている。 本研究では,環境の時間的変化や実際のソーシャルネットワークなど,様々な環境における強化学習エージェントの優れた性能を示すとともに,そのフレームワークの異なる社会的設定への適応性を検証する。

How have individuals of social animals in nature evolved to learn from each other, and what would be the optimal strategy for such learning in a specific environment? Here, we address both problems by employing a deep reinforcement learning model to optimize the social learning strategies (SLSs) of agents in a cooperative game in a multi-dimensional landscape. Throughout the training for maximizing the overall payoff, we find that the agent spontaneously learns various concepts of social learning, such as copying, focusing on frequent and well-performing neighbors, self-comparison, and the importance of balancing between individual and social learning, without any explicit guidance or prior knowledge about the system. The SLS from a fully trained agent outperforms all of the traditional, baseline SLSs in terms of mean payoff. We demonstrate the superior performance of the reinforcement learning agent in various environments, including temporally changing environments and real social networks, which also verifies the adaptability of our framework to different social settings.
翻訳日:2022-04-27 15:13:52 公開日:2022-04-26
# Bifrost: 再構成可能なDNN加速器のエンドツーエンド評価と最適化

Bifrost: End-to-End Evaluation and Optimization of Reconfigurable DNN Accelerators ( http://arxiv.org/abs/2204.12418v1 )

ライセンス: Link先を確認
Axel Stjerngren, Perry Gibson, Jos\'e Cano(参考訳) ディープニューラルネットワーク(DNN)のための再構成可能なアクセラレータは、推論レイテンシなどのパフォーマンスを改善することを約束する。 STONNEは、再構成可能なDNN推論アクセラレーターのための最初のサイクル精度シミュレータであり、加速器の設計と構成空間の探索を可能にする。 しかし、STONNEにおける構成空間の評価と探索のためのモデルの作成は、手作業による開発者の時間消費プロセスであり、研究の障壁となる。 本稿では、再構成可能なDNN推論アクセラレータの評価と最適化のためのエンドツーエンドフレームワークであるBifrostを紹介する。 BifrostはSTONNEのフロントエンドとして動作し、TVMディープラーニングコンパイラスタックを利用してモデルを解析し、高速化された計算のオフロードを自動化する。 我々は,ByfrostのSTONNEおよび他のツールに対する優位性を論じ,Byfrost を用いた MAERI および SIGMA アーキテクチャの評価を行った。 さらに、BifrostはAutoTVMを活用してアクセラレータ設計とデータフローマッピングスペースを効率的に探索し、パフォーマンスを最適化するモジュールを導入した。 これは、maeriアーキテクチャをチューニングし、alexnetで効率的なデータフローマッピングを生成し、畳み込み層で平均50\times$、完全接続層で111\times$を取得することで示される。 私たちのコードはwww.github.com/giclab/bifrostで入手できる。

Reconfigurable accelerators for deep neural networks (DNNs) promise to improve performance such as inference latency. STONNE is the first cycle-accurate simulator for reconfigurable DNN inference accelerators which allows for the exploration of accelerator designs and configuration space. However, preparing models for evaluation and exploring configuration space in STONNE is a manual developer-timeconsuming process, which is a barrier for research. This paper introduces Bifrost, an end-to-end framework for the evaluation and optimization of reconfigurable DNN inference accelerators. Bifrost operates as a frontend for STONNE and leverages the TVM deep learning compiler stack to parse models and automate offloading of accelerated computations. We discuss Bifrost's advantages over STONNE and other tools, and evaluate the MAERI and SIGMA architectures using Bifrost. Additionally, Bifrost introduces a module leveraging AutoTVM to efficiently explore accelerator designs and dataflow mapping space to optimize performance. This is demonstrated by tuning the MAERI architecture and generating efficient dataflow mappings for AlexNet, obtaining an average speedup of $50\times$ for the convolutional layers and $11\times$ for the fully connected layers. Our code is available at www.github.com/gicLAB/bifrost.
翻訳日:2022-04-27 15:12:32 公開日:2022-04-26
# 細胞レベルでの早期劣化データを用いた解釈可能なバッテリーサイクル寿命予測

Interpretable Battery Cycle Life Range Prediction Using Early Degradation Data at Cell Level ( http://arxiv.org/abs/2204.12420v1 )

ライセンス: Link先を確認
Huang Zhang, Yang Su, Faisal Altaf, Torsten Wik, Sebastien Gros(参考訳) 早期劣化データを用いたバッテリサイクルのライフサイクル予測は、バッテリ製品ライフサイクル全体を通して多くの潜在的な応用がある。 電池劣化機構の最小限の知識で, 電池サイクル寿命のポイント予測のためのデータ駆動手法が提案されている。 しかし、経済的・技術的リスクの低い終末期のバッテリーの管理には、定量化された不確実性を伴うサイクルライフの予測が必要である。 これらの高度なデータ駆動手法の解釈可能性(すなわち高い予測精度の理由)も調査に値する。 そこで, 物理インフォームド量子回帰フォレスト(QRF)モデルを導入し, 精度の高い点予測に加えて, 予測間隔の長さとして定量化された不確実性のある周期寿命予測を行う。 QRFモデルのハイパーパラメータは、予測間隔に関連するカバレッジ確率を調整できるように、提案した領域に基づく性能評価指標で調整される。 最終QRFモデルの解釈性は、2つの大域的モデル非依存的手法、すなわち置換重要度と部分依存プロットを用いて検討される。 最終QRFモデルは, 点予測と予測に伴う不確実性を考慮した高サイクル充電プロトコルの選択を容易にする。

Battery cycle life prediction using early degradation data has many potential applications throughout the battery product life cycle. Various data-driven methods have been proposed for point prediction of battery cycle life with minimum knowledge of the battery degradation mechanisms. However, management of batteries at end-of-life with lower economic and technical risk requires prediction of cycle life with quantified uncertainty, which is still lacking. The interpretability (i.e., the reason for high prediction accuracy) of these advanced data-driven methods is also worthy of investigation. Here, a physics-informed Quantile Regression Forest (QRF) model is introduced to make cycle life range prediction with uncertainty quantified as the length of the prediction interval, in addition to point predictions with high accuracy. The hyperparameters of the QRF model are tuned with a proposed area-based performance evaluation metric so that the coverage probabilities associated with the prediction intervals are calibrated. The interpretability of the final QRF model is explored with two global model-agnostic methods, namely permutation importance, and partial dependence plot. The final QRF model facilitates dual-criteria decision-making to select the high-cycle-life charging protocol with consideration of both point predictions and uncertainty associated with the prediction.
翻訳日:2022-04-27 15:12:12 公開日:2022-04-26
# 無線ネットワークを用いた時系列フェデレーション学習

Time-triggered Federated Learning over Wireless Networks ( http://arxiv.org/abs/2204.12426v1 )

ライセンス: Link先を確認
Xiaokang Zhou, Yansha Deng, Huiyun Xia, Shaochuan Wu, and Mehdi Bennis(参考訳) 新しく登場したフェデレーションラーニング(FL)フレームワークは、プライバシを保存する方法で機械学習モデルをトレーニングする新しい方法を提供する。 しかし、従来のFLアルゴリズムは、トラグラーや通信オーバーヘッドの問題に悩まされるイベントトリガー集約に基づいている。 本稿では,従来の同期・非同期FLの一般化形式である無線ネットワーク上での時間トリガー付きFLアルゴリズム(TT-Fed)を提案する。 無線通信の制約された資源と信頼性の低い性質を考慮して,flのトレーニング損失を最小限に抑えるために,ユーザ選択と帯域幅最適化問題を共同で検討する。 この共同最適化問題を解決するために,TT-Fedの完全収束解析を行う。 得られた解析収束上界に基づいて、各大域集約ラウンドに対して可搬性サブプロブレムに分解し、提案するオンライン検索アルゴリズムにより最終的に解決する。 シミュレーションの結果,非同期ユーザ層(fedat)ベンチマークを用いた非同期fl (fedasync) とflと比較して,提案手法は通信オーバーヘッドを大幅に低減しつつ,高い不均衡と非iidデータ下で,最大12.5%,5%の収束テスト精度をそれぞれ改善できることがわかった。

The newly emerging federated learning (FL) framework offers a new way to train machine learning models in a privacy-preserving manner. However, traditional FL algorithms are based on an event-triggered aggregation, which suffers from stragglers and communication overhead issues. To address these issues, in this paper, we present a time-triggered FL algorithm (TT-Fed) over wireless networks, which is a generalized form of classic synchronous and asynchronous FL. Taking the constrained resource and unreliable nature of wireless communication into account, we jointly study the user selection and bandwidth optimization problem to minimize the FL training loss. To solve this joint optimization problem, we provide a thorough convergence analysis for TT-Fed. Based on the obtained analytical convergence upper bound, the optimization problem is decomposed into tractable sub-problems with respect to each global aggregation round, and finally solved by our proposed online search algorithm. Simulation results show that compared to asynchronous FL (FedAsync) and FL with asynchronous user tiers (FedAT) benchmarks, our proposed TT-Fed algorithm improves the converged test accuracy by up to 12.5% and 5%, respectively, under highly imbalanced and non-IID data, while substantially reducing the communication overhead.
翻訳日:2022-04-27 15:11:55 公開日:2022-04-26
# gLaSDI:パラメトリック物理インフォームドグレディ遅延宇宙ダイナミクスの同定

gLaSDI: Parametric Physics-informed Greedy Latent Space Dynamics Identification ( http://arxiv.org/abs/2204.12005v1 )

ライセンス: Link先を確認
Xiaolong He, Youngsoo Choi, William D. Fries, Jon Belof, Jiun-Shyan Chen(参考訳) 高次元非線形力学系の高精度, 効率的, 堅牢なデータ駆動還元次数モデリングのために, パラメトリック適応物理学インフォームドグレディ遅延宇宙ダイナミクス同定法(gLaSDI)を提案する。 提案したgLaSDIフレームワークでは、オートエンコーダが高次元データの固有非線形潜在表現を発見し、ダイナミックス識別(DI)モデルが局所潜在空間のダイナミクスをキャプチャする。 オートエンコーダとローカルDIモデルにインタラクティブなトレーニングアルゴリズムが採用され、単純な潜時空間のダイナミクスの識別が可能となり、データ駆動の低次モデリングの精度と効率が向上する。 最適モデル性能のためのパラメータ空間の探索を最大化・高速化するため、物理インフォームド残差ベースエラーインジケータと統合された適応型グリーディサンプリングアルゴリズムを導入し、最適なトレーニングサンプルをオンザフライで探索する。 さらに、局所diモデルによってキャプチャされた局所的潜在空間ダイナミクスを利用して、パラメータ空間内の最小の局所diモデルによるモデリング精度を向上させるため、効率的なk-ネアレスト近傍凸補間スキームを用いる。 提案手法の有効性は, バーガーズ方程式, 非線形熱伝導, 放射対流など, 様々な非線形力学問題をモデル化することによって実証される。 提案する適応グリーディサンプリングは, 従来の一様サンプリングよりも精度が優れる。 高忠実度モデルと比較して、gLaSDIは66から4,417倍のスピードアップを達成する。

A parametric adaptive physics-informed greedy Latent Space Dynamics Identification (gLaSDI) method is proposed for accurate, efficient, and robust data-driven reduced-order modeling of high-dimensional nonlinear dynamical systems. In the proposed gLaSDI framework, an autoencoder discovers intrinsic nonlinear latent representations of high-dimensional data, while dynamics identification (DI) models capture local latent-space dynamics. An interactive training algorithm is adopted for the autoencoder and local DI models, which enables identification of simple latent-space dynamics and enhances accuracy and efficiency of data-driven reduced-order modeling. To maximize and accelerate the exploration of the parameter space for the optimal model performance, an adaptive greedy sampling algorithm integrated with a physics-informed residual-based error indicator and random-subset evaluation is introduced to search for the optimal training samples on-the-fly. Further, to exploit local latent-space dynamics captured by the local DI models for an improved modeling accuracy with a minimum number of local DI models in the parameter space, an efficient k-nearest neighbor convex interpolation scheme is employed. The effectiveness of the proposed framework is demonstrated by modeling various nonlinear dynamical problems, including Burgers equations, nonlinear heat conduction, and radial advection. The proposed adaptive greedy sampling outperforms the conventional predefined uniform sampling in terms of accuracy. Compared with the high-fidelity models, gLaSDI achieves 66 to 4,417x speed-up with 1 to 5% relative errors.
翻訳日:2022-04-27 15:11:29 公開日:2022-04-26
# (参考訳) リプシッツを超えて:gdの鋭い一般化と過剰なリスク限界

Beyond Lipschitz: Sharp Generalization and Excess Risk Bounds for Full-Batch GD ( http://arxiv.org/abs/2204.12446v1 )

ライセンス: CC BY 4.0
Konstantinos E. Nikolakakis, Farzin Haddadpour, Amin Karbasi, Dionysios S. Kalogerias(参考訳) 我々は,滑らかな損失(おそらく非リプシッツ,あるいは非凸)に対する全バッチ勾配正規化(gd)アルゴリズムに対して,鋭い経路依存の一般化と過大な誤差保証を提供する。 我々の分析の核心は、決定論的対称アルゴリズムのための新しい一般化誤差法であり、平均出力安定性と終了時の損失の有界な予測勾配が一般化に繋がる。 この鍵となる結果は、小さな一般化誤差が定常点で発生し、以前の研究でよく見られる損失に関するリプシッツの仮定を回避できることを示している。 非凸,凸,強凸の損失に対して,累積経路依存最適化誤差,終端最適化誤差,サンプル数,反復数の観点から一般化誤差の明示的依存性を示す。 非凸スムーズな損失に対して、全バッチ GD は、ステップサイズを減少させる適切な選択の下で、終点の任意の定常点に近く効率的に一般化することを証明する。 さらに、損失が非凸であるが目的がPLである場合、対応する余剰リスクの消滅境界を導出する。 凸と強凸の滑らかな損失に対しては、フルバッチgdが大きな定数ステップサイズでも一般化し、トレーニングが高速である一方でリスクが小さいことが証明される。 完全なgd一般化誤差と過大なリスク境界は、損失が滑らかな場合(おそらくリプシッツではない)、既存のgdの限界よりもかなり厳密である。

We provide sharp path-dependent generalization and excess error guarantees for the full-batch Gradient Decent (GD) algorithm for smooth losses (possibly non-Lipschitz, possibly nonconvex). At the heart of our analysis is a novel generalization error technique for deterministic symmetric algorithms, that implies average output stability and a bounded expected gradient of the loss at termination leads to generalization. This key result shows that small generalization error occurs at stationary points, and allows us to bypass Lipschitz assumptions on the loss prevalent in previous work. For nonconvex, convex and strongly convex losses, we show the explicit dependence of the generalization error in terms of the accumulated path-dependent optimization error, terminal optimization error, number of samples, and number of iterations. For nonconvex smooth losses, we prove that full-batch GD efficiently generalizes close to any stationary point at termination, under the proper choice of a decreasing step size. Further, if the loss is nonconvex but the objective is PL, we derive vanishing bounds on the corresponding excess risk. For convex and strongly-convex smooth losses, we prove that full-batch GD generalizes even for large constant step sizes, and achieves a small excess risk while training fast. Our full-batch GD generalization error and excess risk bounds are significantly tighter than the existing bounds for (stochastic) GD, when the loss is smooth (but possibly non-Lipschitz).
翻訳日:2022-04-27 15:10:20 公開日:2022-04-26
# RAPQ:2ビット後処理量子化の省電力化

RAPQ: Rescuing Accuracy for Power-of-Two Low-bit Post-training Quantization ( http://arxiv.org/abs/2204.12322v1 )

ライセンス: Link先を確認
Hongyi Yao, Pu Li, Jian Cao, Xiangcheng Liu, Chenying Xie and Bingzhang Wang(参考訳) 本稿では,ハードウェア要件を満たす深層ニューラルネットワークのためのPTQ(Power-of-Two post-training Quantization)手法を提案する。 PTQは小さなキャリブレーションデータを必要とし、展開が容易であるが、量子化認識トレーニング(QAT)よりも精度が低い。 2つの量子化のパワーは、量子化と非量子化によってもたらされる乗法を多くの効率的な加速器で採用されるビットシフトに変換することができる。 しかし、Power-of-Twoスケールは候補値が少ないため、ラウンドやクリッピングエラーが増える。 RAPQと呼ばれる新しいPower-of-Two PTQフレームワークを提案し、レイヤごとに静的に決定するのではなく、ネットワーク全体のPower-of-Twoスケールを動的に調整する。 理論上は、ネットワーク全体の丸め誤差とクリップング誤差をトレードオフすることができる。 一方、RAPQの再構成方法は各ユニットのBN情報に基づいている。 ImageNetの大規模な実験により,提案手法の優れた性能が証明された。 ベルとホイッスルがなければ、RAPQ は ResNet-18 と MobileNetV2 でそれぞれ 65% と 48% の精度で INT2 のアクティベーション INT4 を達成できる。 我々は、より制約のあるハードウェアフレンドリーなPower-of-Two量子化のためのPTQを提案し、SOTA PTQ法とほぼ同じ精度で実現できることを証明した。 コードはリリースされます。

We introduce a Power-of-Two post-training quantization( PTQ) method for deep neural network that meets hardware requirements and does not call for long-time retraining. PTQ requires a small set of calibration data and is easier for deployment, but results in lower accuracy than Quantization-Aware Training( QAT). Power-of-Two quantization can convert the multiplication introduced by quantization and dequantization to bit-shift that is adopted by many efficient accelerators. However, the Power-of-Two scale has fewer candidate values, which leads to more rounding or clipping errors. We propose a novel Power-of-Two PTQ framework, dubbed RAPQ, which dynamically adjusts the Power-of-Two scales of the whole network instead of statically determining them layer by layer. It can theoretically trade off the rounding error and clipping error of the whole network. Meanwhile, the reconstruction method in RAPQ is based on the BN information of every unit. Extensive experiments on ImageNet prove the excellent performance of our proposed method. Without bells and whistles, RAPQ can reach accuracy of 65% and 48% on ResNet-18 and MobileNetV2 respectively with weight INT2 activation INT4. We are the first to propose PTQ for the more constrained but hardware-friendly Power-of-Two quantization and prove that it can achieve nearly the same accuracy as SOTA PTQ method. The code will be released.
翻訳日:2022-04-27 13:57:15 公開日:2022-04-26
# 視覚認識のための因果輸送性

Causal Transportability for Visual Recognition ( http://arxiv.org/abs/2204.12363v1 )

ライセンス: Link先を確認
Chengzhi Mao, Kevin Xia, James Wang, Hao Wang, Junfeng Yang, Elias Bareinboim, Carl Vondrick(参考訳) 視覚表現はオブジェクト認識のタスクを下敷きにするが、しばしば頑丈な特徴と非破壊的な特徴の両方を含んでいる。 画像分類器は,非ロバスト特徴とラベルとの相関関係を新たな環境で変更できるため,分散サンプルでは性能が低下する可能性がある。 因果グラフを用いたアウトオブディストリビューション一般化の手順を分析することで,画像とラベルの関連付けが設定間で転送できないため,標準分類器が失敗することを示した。 しかし、すべての共起源を分離する因果効果は、領域をまたいで不変であることを示した。 これにより、画像分類の因果効果を推定するアルゴリズムを開発するモチベーションが生まれました。 追加変数を観察せずに,深層モデルの表現をプロキシとして用いる経験的仮定の下で因果効果を推定できることを示す。 理論的解析,経験的結果,可視化は,本手法が因果不変性を捉え,全体的な一般化を改善することを示す。

Visual representations underlie object recognition tasks, but they often contain both robust and non-robust features. Our main observation is that image classifiers may perform poorly on out-of-distribution samples because spurious correlations between non-robust features and labels can be changed in a new environment. By analyzing procedures for out-of-distribution generalization with a causal graph, we show that standard classifiers fail because the association between images and labels is not transportable across settings. However, we then show that the causal effect, which severs all sources of confounding, remains invariant across domains. This motivates us to develop an algorithm to estimate the causal effect for image classification, which is transportable (i.e., invariant) across source and target environments. Without observing additional variables, we show that we can derive an estimand for the causal effect under empirical assumptions using representations in deep models as proxies. Theoretical analysis, empirical results, and visualizations show that our approach captures causal invariances and improves overall generalization.
翻訳日:2022-04-27 13:56:52 公開日:2022-04-26
# ROMA: 夜間赤外線と昼夜可視ビデオ翻訳のためのクロスドメイン領域類似性マッチング

ROMA: Cross-Domain Region Similarity Matching for Unpaired Nighttime Infrared to Daytime Visible Video Translation ( http://arxiv.org/abs/2204.12367v1 )

ライセンス: Link先を確認
Zhenjie Yu, Kai Chen, Shuang Li, Bingfeng Han, Chi Harold Liu and Shuigen Wang(参考訳) 可視光カメラは十分な照明を施すことなく効果が劣るため、赤外線カメラは夜視を強化するためにしばしば利用される。 しかし、赤外線データは固有の熱関連イメージング原理に起因する色コントラストと表現能力が不十分である。 これにより、人間の情報をキャプチャして分析することが難しくなり、一方でその応用を妨げます。 しかし、非ペアの夜間赤外線映像と昼間の可視映像の領域ギャップは、同時に撮影されたペア映像よりもさらに大きいが、効果的な翻訳マッピングを確立することは、様々な分野に大きく貢献する。 この場合、夜間赤外線映像における構造知識と、翻訳された昼間可視対に含まれる意味情報を同時に利用することができる。 この目的のために、我々はcRoss- domain regiOn siMilarity mAtching技術と組み合わせて巨大なギャップを埋めるフレームワークROMAを提案する。 具体的には、ROMAは、未使用の夜間赤外線映像を日中の細粒度に翻訳すると同時に、ドメイン間の類似性を一致させることで、時空間一貫性を維持することができる。 さらに,合成された可視結果と実参照とを区別するために,マルチスケールの地域別判別器を設計した。 特定の用途に対する大規模な実験と評価は、ROMAが最先端の手法よりも優れていることを示している。 さらに、夜間の赤外線と昼間の可視光ビデオ翻訳のさらなる研究を奨励する新しい挑戦的データセットInfraredCityを提供する。 特に、都市、高速道路、監視シナリオを含む9つの長いビデオクリップで構成されている。 すべてのクリップを合計603,142フレームに分割することができる。

Infrared cameras are often utilized to enhance the night vision since the visible light cameras exhibit inferior efficacy without sufficient illumination. However, infrared data possesses inadequate color contrast and representation ability attributed to its intrinsic heat-related imaging principle. This makes it arduous to capture and analyze information for human beings, meanwhile hindering its application. Although, the domain gaps between unpaired nighttime infrared and daytime visible videos are even huger than paired ones that captured at the same time, establishing an effective translation mapping will greatly contribute to various fields. In this case, the structural knowledge within nighttime infrared videos and semantic information contained in the translated daytime visible pairs could be utilized simultaneously. To this end, we propose a tailored framework ROMA that couples with our introduced cRoss-domain regiOn siMilarity mAtching technique for bridging the huge gaps. To be specific, ROMA could efficiently translate the unpaired nighttime infrared videos into fine-grained daytime visible ones, meanwhile maintain the spatiotemporal consistency via matching the cross-domain region similarity. Furthermore, we design a multiscale region-wise discriminator to distinguish the details from synthesized visible results and real references. Extensive experiments and evaluations for specific applications indicate ROMA outperforms the state-of-the-art methods. Moreover, we provide a new and challenging dataset encouraging further research for unpaired nighttime infrared and daytime visible video translation, named InfraredCity. In particular, it consists of 9 long video clips including City, Highway and Monitor scenarios. All clips could be split into 603,142 frames in total, which are 20 times larger than the recently released daytime infrared-to-visible dataset IRVI.
翻訳日:2022-04-27 13:56:33 公開日:2022-04-26
# MILES: ビデオテキスト検索のためのインジェクト言語セマンティクスによるビジュアルBERT事前トレーニング

MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval ( http://arxiv.org/abs/2204.12408v1 )

ライセンス: Link先を確認
Yuying Ge, Yixiao Ge, Xihui Liu, Alex Jinpeng Wang, Jianping Wu, Ying Shan, Xiaohu Qie and Ping Luo(参考訳) ビデオテキスト検索における優位な事前学習作業は、主に「デュアルエンコーダ」アーキテクチャを採用して効率的な検索を可能にし、グローバルなビデオやテキスト表現を対比するために2つの独立したエンコーダを使用するが、詳細なローカルセマンティクスは無視する。 局所的な視覚的コンテキストの学習を促進するマスク付き視覚モデルを用いた画像BERT事前学習の成功は、上記の制限に対処するための解決策の動機付けとなる。 本研究では,「二重エンコーダ」アーキテクチャを用いた映像テキスト事前学習におけるマスキングビジュアルモデリングを初めて検討した。 我々は,追加のスナップショットビデオエンコーダを"トケナイザ"として使用し,マスク映像パッチ予測のための再構成目標を生成することにより,インジェクション言語セマンティクス(miles)を用いたマスキングビジュアルモデリングを行う。 ビデオエンコーダは、腐敗した映像を想定して、空間的および時間的次元に沿って可視領域を推論することにより、マスキングパッチのテキストアライメント特徴を復元するように訓練され、局所的な視覚特徴の判別性と細粒度のクロスモダリティアライメントが向上する。 提案手法は,ゼロショットおよびファインチューン評価プロトコルを用いた4つのデータセット上でのテキスト・ビデオ検索における最先端手法よりも優れる。 提案手法は,ビデオからテキストへの検索が可能なゼロショット動作認識において,ベースラインモデルを大幅に上回る。

Dominant pre-training work for video-text retrieval mainly adopt the "dual-encoder" architectures to enable efficient retrieval, where two separate encoders are used to contrast global video and text representations, but ignore detailed local semantics. The recent success of image BERT pre-training with masked visual modeling that promotes the learning of local visual context, motivates a possible solution to address the above limitation. In this work, we for the first time investigate masked visual modeling in video-text pre-training with the "dual-encoder" architecture. We perform Masked visual modeling with Injected LanguagE Semantics (MILES) by employing an extra snapshot video encoder as an evolving "tokenizer" to produce reconstruction targets for masked video patch prediction. Given the corrupted video, the video encoder is trained to recover text-aligned features of the masked patches via reasoning with the visible regions along the spatial and temporal dimensions, which enhances the discriminativeness of local visual features and the fine-grained cross-modality alignment. Our method outperforms state-of-the-art methods for text-to-video retrieval on four datasets with both zero-shot and fine-tune evaluation protocols. Our approach also surpasses the baseline models significantly on zero-shot action recognition, which can be cast as video-to-text retrieval.
翻訳日:2022-04-27 13:56:05 公開日:2022-04-26
# 視覚トランスフォーマーのロバスト性理解

Understanding The Robustness in Vision Transformers ( http://arxiv.org/abs/2204.12451v1 )

ライセンス: Link先を確認
Daquan Zhou, Zhiding Yu, Enze Xie, Chaowei Xiao, Anima Anandkumar, Jiashi Feng, Jose M. Alvarez(参考訳) 近年の研究では、視覚変換器(ViT)が様々な汚職に対して強い堅牢性を示すことが示されている。 この性質は部分的に自己着脱機構に起因するが、体系的な理解が不足している。 本稿では,ロバスト表現の学習における自己意識の役割について検討する。 本研究は,視覚トランスフォーマーにおける視覚グループ化の興味をそそる性質を動機とし,中レベル表現の改善による自己着脱がロバスト性を促進する可能性を示唆する。 さらに,注意チャネル処理設計を組み込んだ完全注意ネットワーク(fans)のファミリを提案する。 様々な階層バックボーン上で設計を包括的に検証する。 我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、87.1%の精度と35.8%のmCEを達成する。 また,下流課題であるセマンティクスセグメンテーションとオブジェクト検出において,最先端の正確性とロバスト性を示す。 コードはhttps://github.com/NVlabs/FAN.comから入手できる。

Recent studies show that Vision Transformers(ViTs) exhibit strong robustness against various corruptions. Although this property is partly attributed to the self-attention mechanism, there is still a lack of systematic understanding. In this paper, we examine the role of self-attention in learning robust representations. Our study is motivated by the intriguing properties of the emerging visual grouping in Vision Transformers, which indicates that self-attention may promote robustness through improved mid-level representations. We further propose a family of fully attentional networks (FANs) that strengthen this capability by incorporating an attentional channel processing design. We validate the design comprehensively on various hierarchical backbones. Our model achieves a state of-the-art 87.1% accuracy and 35.8% mCE on ImageNet-1k and ImageNet-C with 76.8M parameters. We also demonstrate state-of-the-art accuracy and robustness in two downstream tasks: semantic segmentation and object detection. Code will be available at https://github.com/NVlabs/FAN.
翻訳日:2022-04-27 13:55:34 公開日:2022-04-26
# 全スライド画像における複数インスタンス学習のための微分ズーム

Differentiable Zooming for Multiple Instance Learning on Whole-Slide Images ( http://arxiv.org/abs/2204.12454v1 )

ライセンス: Link先を確認
Kevin Thandiackal, Boqi Chen, Pushpak Pati, Guillaume Jaume, Drew F. K. Williamson, Maria Gabrani, Orcun Goksel(参考訳) デジタル病理学において、ギガピクセルサイズのWSI(Whole-Slide Images)を分類するために、MIL(Multiple Instance Learning)メソッドが人気を集めている。 ほとんどのMILメソッドは単一のWSI倍率で動作し、すべての組織パッチを処理する。 このような定式化は高い計算要求を誘導し、wsiレベルの表現の文脈化を単一のスケールに制限する。 いくつかのMILメソッドは複数のスケールに拡張されるが、より計算量が多い。 本稿では,病理診断プロセスに着想を得て,マルチレベルズームをエンドツーエンドで行う方法であるzoomilを提案する。 ZoomMILは、複数の倍率から組織コンテキスト情報を集約することでWSI表現を構築する。 提案手法は,2つの大規模データセットに対するWSI分類における最先端のMIL手法よりも優れており,浮動小数点演算(FLOP)と処理時間を最大40倍に削減する。

Multiple Instance Learning (MIL) methods have become increasingly popular for classifying giga-pixel sized Whole-Slide Images (WSIs) in digital pathology. Most MIL methods operate at a single WSI magnification, by processing all the tissue patches. Such a formulation induces high computational requirements, and constrains the contextualization of the WSI-level representation to a single scale. A few MIL methods extend to multiple scales, but are computationally more demanding. In this paper, inspired by the pathological diagnostic process, we propose ZoomMIL, a method that learns to perform multi-level zooming in an end-to-end manner. ZoomMIL builds WSI representations by aggregating tissue-context information from multiple magnifications. The proposed method outperforms the state-of-the-art MIL methods in WSI classification on two large datasets, while significantly reducing the computational demands with regard to Floating-Point Operations (FLOPs) and processing time by up to 40x.
翻訳日:2022-04-27 13:55:16 公開日:2022-04-26
# vitpose:人間のポーズ推定のための簡易視覚トランスフォーマー

ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation ( http://arxiv.org/abs/2204.12484v1 )

ライセンス: Link先を確認
Yufei Xu, Jing Zhang, Qiming Zhang, Dacheng Tao(参考訳) 近年、人間のポーズ推定にカスタマイズされた視覚変換器が採用され、精巧な構造で優れた性能を実現している。 しかし、プレーンビジョントランスフォーマーがポーズ推定を容易にするかどうかはまだ不明である。 本稿では,人間のポーズ推定のために,VTPoseと呼ばれる単純なデコンボリューションデコーダとともに,平面的かつ非階層的な視覚変換器を用いて質問に答える第一歩を踏み出す。 人間のポーズ推定データセットを微調整した結果,MAEプリトレーニング付きプレーンビジョントランスフォーマが優れた性能が得られることを示す。 ViTPoseは、入力解像度とトークン番号に関するモデルサイズと柔軟性に関して優れたスケーラビリティを持っています。 さらに、大規模なアップストリームイメージネットデータを必要とせずに、ラベルのないポーズデータを使って簡単に事前学習することができる。 10億のパラメータを持つViTAE-Gのバックボーンに基づく我々の最大のViTPoseモデルは、MS COCOテストデブセット上で最高の80.9 mAPを得る一方、アンサンブルモデルは、人間のポーズ推定のための新しい最先端、すなわち81.1 mAPを更に設定する。 ソースコードとモデルはhttps://github.com/ViTAE-Transformer/ViTPoseでリリースされる。

Recently, customized vision transformers have been adapted for human pose estimation and have achieved superior performance with elaborate structures. However, it is still unclear whether plain vision transformers can facilitate pose estimation. In this paper, we take the first step toward answering the question by employing a plain and non-hierarchical vision transformer together with simple deconvolution decoders termed ViTPose for human pose estimation. We demonstrate that a plain vision transformer with MAE pretraining can obtain superior performance after finetuning on human pose estimation datasets. ViTPose has good scalability with respect to model size and flexibility regarding input resolution and token number. Moreover, it can be easily pretrained using the unlabeled pose data without the need for large-scale upstream ImageNet data. Our biggest ViTPose model based on the ViTAE-G backbone with 1 billion parameters obtains the best 80.9 mAP on the MS COCO test-dev set, while the ensemble models further set a new state-of-the-art for human pose estimation, i.e., 81.1 mAP. The source code and models will be released at https://github.com/ViTAE-Transformer/ViTPose.
翻訳日:2022-04-27 13:54:59 公開日:2022-04-26
# 連続学習性能に関する情報フローの理論的理解

Theoretical Understanding of the Information Flow on Continual Learning Performance ( http://arxiv.org/abs/2204.12010v1 )

ライセンス: Link先を確認
Josh Andle, Salimeh Yasaei Sekeh(参考訳) 連続学習(Continuous Learning, CL)とは、エージェントがデータストリームから連続的に学習しなければならない設定である。 CLのパフォーマンスは、モデルを継続的に学習し、過去の知識を維持しながら、段階的に利用可能な情報で新しい問題を解決する能力を評価する。 学習プロセス中に見られたタスクの破滅的な忘れ(CF)を回避しようとする多くの過去のソリューションにもかかわらず、その多くは新しいタスクを学習しながら、ニューラルネットワークの行動に関する理論的理解が欠如している。 CL性能が異なる訓練体制下で低下する問題は経験的に研究されているが、理論的な角度からはあまり注目されていない。 本稿では,タスクシーケンスのネットワーク層内を流れる情報の流れとその学習性能への影響を分析するための確率的枠組みを確立する。 本研究の目的は, 階層間の情報保存を最適化し, 新しいタスクを学習し, 従来のタスクのモデル性能を維持しながら, 階層間を通過するタスク固有の知識を管理することである。 特に,ネットワーク内の情報フローとCL性能の関係について検討し,「層間情報フローの知識はCFを緩和するためにどのように利用できるのか」という疑問に答える。 本分析は,インクリメンタルタスク学習プロセスにおいて,レイヤ内の情報適応に関する新たな知見を提供する。 実験を通じて実証的なエビデンスを提供し,複数のタスクにおけるパフォーマンス改善を実際に強調する。

Continual learning (CL) is a setting in which an agent has to learn from an incoming stream of data sequentially. CL performance evaluates the model's ability to continually learn and solve new problems with incremental available information over time while retaining previous knowledge. Despite the numerous previous solutions to bypass the catastrophic forgetting (CF) of previously seen tasks during the learning process, most of them still suffer significant forgetting, expensive memory cost, or lack of theoretical understanding of neural networks' conduct while learning new tasks. While the issue that CL performance degrades under different training regimes has been extensively studied empirically, insufficient attention has been paid from a theoretical angle. In this paper, we establish a probabilistic framework to analyze information flow through layers in networks for task sequences and its impact on learning performance. Our objective is to optimize the information preservation between layers while learning new tasks to manage task-specific knowledge passing throughout the layers while maintaining model performance on previous tasks. In particular, we study CL performance's relationship with information flow in the network to answer the question "How can knowledge of information flow between layers be used to alleviate CF?". Our analysis provides novel insights of information adaptation within the layers during the incremental task learning process. Through our experiments, we provide empirical evidence and practically highlight the performance improvement across multiple tasks.
翻訳日:2022-04-27 13:53:40 公開日:2022-04-26
# BATS:ベストアクショントラックステッチ

BATS: Best Action Trajectory Stitching ( http://arxiv.org/abs/2204.12026v1 )

ライセンス: Link先を確認
Ian Char, Viraj Mehta, Adam Villaflor, John M. Dolan, Jeff Schneider(参考訳) オフライン強化学習の問題は、環境相互作用のログから良い政策を学ぶことに焦点を当てている。 この分野でのアルゴリズム開発における過去の取り組みは、オンライン強化学習アルゴリズムに制約を導入し、学習されたポリシーの動作がログデータに制約されることを確実にする。 本研究では,固定データセットを直接計画することで,代替手法を検討する。 具体的には、データセットに新しい遷移を加えることで、ログデータ上に表形式のマルコフ決定プロセス(MDP)を形成するアルゴリズムを導入する。 我々は、学習力学モデルを用いて状態間の短い軌跡を計画する。 この構成されたMDP上で正確な値反復を行うことができるので、MPPにどのトラジェクトリが有利であるかを容易に識別できる。 重要なことは、このMDPの遷移の大部分はログ化されたデータに由来するため、MDPからの軌道は長期間にわたって信頼性を持って展開することができる。 我々は、この性質により、適切な距離メトリクスまで値関数の上限を上下にすることができることを証明する。 最後に、学習されたポリシーをデータセット全体に一様に制約するアルゴリズムが不必要な振る舞いを生じさせるという実証的な方法を示し、我々のアルゴリズムによって作成されたmdpの最適ポリシーを単純に振る舞いをクローンする例を示す。

The problem of offline reinforcement learning focuses on learning a good policy from a log of environment interactions. Past efforts for developing algorithms in this area have revolved around introducing constraints to online reinforcement learning algorithms to ensure the actions of the learned policy are constrained to the logged data. In this work, we explore an alternative approach by planning on the fixed dataset directly. Specifically, we introduce an algorithm which forms a tabular Markov Decision Process (MDP) over the logged data by adding new transitions to the dataset. We do this by using learned dynamics models to plan short trajectories between states. Since exact value iteration can be performed on this constructed MDP, it becomes easy to identify which trajectories are advantageous to add to the MDP. Crucially, since most transitions in this MDP come from the logged data, trajectories from the MDP can be rolled out for long periods with confidence. We prove that this property allows one to make upper and lower bounds on the value function up to appropriate distance metrics. Finally, we demonstrate empirically how algorithms that uniformly constrain the learned policy to the entire dataset can result in unwanted behavior, and we show an example in which simply behavior cloning the optimal policy of the MDP created by our algorithm avoids this problem.
翻訳日:2022-04-27 13:53:18 公開日:2022-04-26
# Federated Progressive Sparsification (Purge, Merge, Tune)+

Federated Progressive Sparsification (Purge, Merge, Tune)+ ( http://arxiv.org/abs/2204.12430v1 )

ライセンス: Link先を確認
Dimitris Stripelis, Umang Gupta, Greg Ver Steeg, Jose Luis Ambite(参考訳) ニューラルネットワークのフェデレートトレーニングを改善するために,プログレッシブウェイトマグニチュードプルーニングに基づくスパシフィケーション戦略であるFedSparsifyを開発した。 我々の方法にはいくつかの利点がある。 まず、ネットワークのサイズが小さくなるにつれて、トレーニング中の計算コストと通信コストが削減される。 第二に、モデルは小さなパラメータセットに漸進的に制約され、局所モデルのアライメント/マージが容易になり、高いスパシフィケーションレートで学習性能が向上する。 第三に、最後のスカラー化モデルはかなり小さく、推論効率を改善し、暗号化通信時の動作遅延を最適化する。 我々は,FedSparsifyが高空間性と学習性能の両方のサブネットワークを学習できることを実験的に示す。 我々のスパースモデルは、既存のプルーニングや非プルーニングのベースラインと比較して、同じまたはより良い精度で元のモデルの10分の1に達することができる。

To improve federated training of neural networks, we develop FedSparsify, a sparsification strategy based on progressive weight magnitude pruning. Our method has several benefits. First, since the size of the network becomes increasingly smaller, computation and communication costs during training are reduced. Second, the models are incrementally constrained to a smaller set of parameters, which facilitates alignment/merging of the local models and improved learning performance at high sparsification rates. Third, the final sparsified model is significantly smaller, which improves inference efficiency and optimizes operations latency during encrypted communication. We show experimentally that FedSparsify learns a subnetwork of both high sparsity and learning performance. Our sparse models can reach a tenth of the size of the original model with the same or better accuracy compared to existing pruning and nonpruning baselines.
翻訳日:2022-04-27 13:52:58 公開日:2022-04-26
# 一般的な防御要件を持つセキュリティゲームのための混合戦略

Mixed Strategies for Security Games with General Defending Requirements ( http://arxiv.org/abs/2204.12158v1 )

ライセンス: Link先を確認
Rufan Bai, Haoxing Lin, Xinyu Yang, Xiaowei Wu, Minming Li, Weijia Jia(参考訳) stackelberg security gameはディフェンダーとアタッカーの間で行われ、ディフェンダーは攻撃者による敵の攻撃による損失を最小限に抑えるために、限られた量のリソースを複数のターゲットに割り当てる必要がある。 目標が異なる値を持つことを許容する一方で、古典的な設定はしばしば目標を守るための統一的な要件を仮定する。 これにより、混合戦略(ランダム割当アルゴリズム)を研究する既存の結果が、混合戦略のコンパクトな表現を採用することができる。 本研究では,対象が異なる防御要件を持つことのできるセキュリティゲームに対する混合戦略の研究を開始する。 最適混合戦略を効率的に計算できる一様防御要求の場合とは対照的に, 汎用防衛要求設定では, 最適混合戦略の計算がNPハードであることが示されている。 しかし, 最適混合戦略防衛結果に対して, 強い上下境界を導出できることが示唆された。 純粋戦略をほとんど用いていない混合戦略を計算する効率的な近対最適パッチングアルゴリズムを提案する。 また,ゲームがネットワーク上でプレイされ,近隣のターゲット間で資源共有が可能となる際の設定についても検討する。 実験結果は,いくつかの大規模実世界データセットにおけるアルゴリズムの有効性を示す。

The Stackelberg security game is played between a defender and an attacker, where the defender needs to allocate a limited amount of resources to multiple targets in order to minimize the loss due to adversarial attack by the attacker. While allowing targets to have different values, classic settings often assume uniform requirements to defend the targets. This enables existing results that study mixed strategies (randomized allocation algorithms) to adopt a compact representation of the mixed strategies. In this work, we initiate the study of mixed strategies for the security games in which the targets can have different defending requirements. In contrast to the case of uniform defending requirement, for which an optimal mixed strategy can be computed efficiently, we show that computing the optimal mixed strategy is NP-hard for the general defending requirements setting. However, we show that strong upper and lower bounds for the optimal mixed strategy defending result can be derived. We propose an efficient close-to-optimal Patching algorithm that computes mixed strategies that use only few pure strategies. We also study the setting when the game is played on a network and resource sharing is enabled between neighboring targets. Our experimental results demonstrate the effectiveness of our algorithm in several large real-world datasets.
翻訳日:2022-04-27 13:52:41 公開日:2022-04-26
# 視覚的ドローン群を用いた協調目標探索--適応型カリキュラム組込み多段階強化学習アプローチ

Collaborative Target Search with a Visual Drone Swarm: An Adaptive Curriculum Embedded Multi-stage Reinforcement Learning Approach ( http://arxiv.org/abs/2204.12181v1 )

ライセンス: Link先を確認
Jiaping Xiao, Phumrapee Pisutsin and Mir Feroskhan(参考訳) ドローンにターゲット検索機能を搭載することは、災害管理シナリオやスマート倉庫配送システムでの利用に望ましい。 単一のドローンを配置する代わりに、障害物間の操作で互いに協調できるインテリジェントなドローン群は、ターゲット検索を短時間で達成する上でより効果的である。 本研究では,データ効率向上のための強化学習手法である適応カリキュラム埋め込み型多段階学習(ACEMSL)を提案し,視覚ドローン群を用いた協調目標探索の課題,すなわち3次元スパース報酬空間探索と協調行動要求に対処する。 具体的には,学習で得られた成功率に応じて課題難易度を適応的に調整できる適応型組込みカリキュラムを開発する。 一方、多段階学習では、ACEMSLはコラボレーティブなドローン群に対して、データ効率のトレーニングとチーム毎の報酬配分を可能にする。 本手法の有効性と一般化はシミュレーションと実飛行試験を用いて検証した。

Equipping drones with target search capabilities is desirable for applications in disaster management scenarios and smart warehouse delivery systems. Instead of deploying a single drone, an intelligent drone swarm that can collaborate with one another in maneuvering among obstacles will be more effective in accomplishing the target search in a shorter amount of time. In this work, we propose a data-efficient reinforcement learning-based approach, Adaptive Curriculum Embedded Multi-Stage Learning (ACEMSL), to address the challenges of carrying out a collaborative target search with a visual drone swarm, namely the 3D sparse reward space exploration and the collaborative behavior requirement. Specifically, we develop an adaptive embedded curriculum, where the task difficulty level can be adaptively adjusted according to the success rate achieved in training. Meanwhile, with multi-stage learning, ACEMSL allows data-efficient training and individual-team reward allocation for the collaborative drone swarm. The effectiveness and generalization capability of our approach are validated using simulations and actual flight tests.
翻訳日:2022-04-27 13:52:22 公開日:2022-04-26
# ハイパーグラフコントラスト協調フィルタリング

Hypergraph Contrastive Collaborative Filtering ( http://arxiv.org/abs/2204.12200v1 )

ライセンス: Link先を確認
Lianghao Xia and Chao Huang and Yong Xu and Jiashu Zhao and Dawei Yin and Jimmy Xiangji Huang(参考訳) 協調フィルタリング(CF)は,ユーザや項目を遅延表現空間にパラメータ化するための基本パラダイムとして,インタラクションデータからの相関パターンとして登場した。 CF技術の中でも、PinSageやLightGCNといったGNNベースのレコメンドシステムの開発は最先端のパフォーマンスを提供している。 しかし、既存のソリューションでは2つの重要な課題が十分に検討されていない。 i) より深いグラフベースのcfアーキテクチャによる過剰なスムーシング効果は、識別不能なユーザ表現と推奨結果の低下を引き起こす可能性がある。 二 監督信号(すなわち、ユーザとコンテンツの相互作用)は通常、cfパラダイムの表現力を制限する現実に分散して分布する。 これらの課題に対処するために,ハイパーグラフ強化クロスビューコントラスト学習アーキテクチャを用いて,局所的およびグローバルな協調関係を共同でキャプチャする,新たな自己監督型推薦フレームワークHypergraph Contrastive Collaborative Filtering (HCCF)を提案する。 特に、デザインされたハイパーグラフ構造学習は、ユーザ間の複雑な高次依存関係を包括的にキャプチャすることで、GNNベースのCFパラダイムの識別能力を高める。 さらに, hccfモデルでは, ハイパーグラフ構造エンコーディングを自己教師付き学習と効果的に統合し, ハイパーグラフの自己弁別に基づくレコメンダシステムの表現品質を高める。 3つのベンチマークデータセットに対する大規模な実験は、様々な最先端のレコメンデーション手法よりもモデルの優位性と、スパースユーザーインタラクションデータに対する堅牢性を示している。 実装コードはhttps://github.com/akaxlh/hccfで利用可能である。

Collaborative Filtering (CF) has emerged as fundamental paradigms for parameterizing users and items into latent representation space, with their correlative patterns from interaction data. Among various CF techniques, the development of GNN-based recommender systems, e.g., PinSage and LightGCN, has offered the state-of-the-art performance. However, two key challenges have not been well explored in existing solutions: i) The over-smoothing effect with deeper graph-based CF architecture, may cause the indistinguishable user representations and degradation of recommendation results. ii) The supervision signals (i.e., user-item interactions) are usually scarce and skewed distributed in reality, which limits the representation power of CF paradigms. To tackle these challenges, we propose a new self-supervised recommendation framework Hypergraph Contrastive Collaborative Filtering (HCCF) to jointly capture local and global collaborative relations with a hypergraph-enhanced cross-view contrastive learning architecture. In particular, the designed hypergraph structure learning enhances the discrimination ability of GNN-based CF paradigm, in comprehensively capturing the complex high-order dependencies among users. Additionally, our HCCF model effectively integrates the hypergraph structure encoding with self-supervised learning to reinforce the representation quality of recommender systems, based on the hypergraph self-discrimination. Extensive experiments on three benchmark datasets demonstrate the superiority of our model over various state-of-the-art recommendation methods, and the robustness against sparse user interaction data. The implementation codes are available at https://github.com/akaxlh/HCCF.
翻訳日:2022-04-27 13:52:05 公開日:2022-04-26
# 放射線画像分類における量子古典畳み込みニューラルネットワーク

Quantum-classical convolutional neural networks in radiological image classification ( http://arxiv.org/abs/2204.12390v1 )

ライセンス: Link先を確認
Andrea Matic, Maureen Monnet, Jeanette Miriam Lorenz, Balthasar Schachtner, Thomas Messerer(参考訳) 量子機械学習は現在、大きな注目を集めているが、古典的な機械学習技術と比較して実用的応用に有用性はいまだに不明である。 しかし、一部の量子機械学習アルゴリズムは、古典的アルゴリズムに対してトレーニング能力の向上をもたらす可能性があるという兆候がある。 このような状況は、医学的な分類作業で自然に発生する。 本稿では、異なる量子回路設計と符号化技術を備えた異なるハイブリッド量子古典畳み込みニューラルネットワーク(QCCNN)を提案する。 これらは2次元および3次元の医療画像データに適用され、例えばctスキャンで異なる、潜在的に悪性な病変を特徴付ける。 これらのQCCNNの性能は従来のものと既に似ており、医療画像タスクにこれらのアルゴリズムを適用する方向性についてさらなる研究を奨励している。

Quantum machine learning is receiving significant attention currently, but its usefulness in comparison to classical machine learning techniques for practical applications remains unclear. However, there are indications that certain quantum machine learning algorithms might result in improved training capabilities with respect to their classical counterparts - which might be particularly beneficial in situations with little training data available. Such situations naturally arise in medical classification tasks. Within this paper, different hybrid quantum-classical convolutional neural networks (QCCNN) with varying quantum circuit designs and encoding techniques are proposed. They are applied to two- and three-dimensional medical imaging data, e.g. featuring different, potentially malign, lesions in computed tomography scans. The performance of these QCCNNs is already similar to the one of their classical counterparts - therefore encouraging further studies towards the direction of applying these algorithms within medical imaging tasks.
翻訳日:2022-04-27 13:51:37 公開日:2022-04-26
# ポーランドにおけるCOVID-19データのSIRD疫学モデルの自動校正について

On automatic calibration of the SIRD epidemiological model for COVID-19 data in Poland ( http://arxiv.org/abs/2204.12346v1 )

ライセンス: Link先を確認
Piotr B{\l}aszczyk, Konrad Klimczak, Adam Mahdi, Piotr Oprocha, Pawe{\l} Potorski, Pawe{\l} Przyby{\l}owicz, Micha{\l} Sobieraj(参考訳) 修正SIRD(Susceptible, Infected, Recovered and Deceaseed individuals)モデルの疫学的パラメータを推定し,SARS-CoV-2ウイルス感染の短期予測を行うための新しい手法を提案する。 主に死者数の予測に重点を置いている。 手順はポーランドの報告されたデータでテストされた。 提案手法では,短い時間間隔でパラメータ推定の安定性を調べる数値実験を行った。 数値実験により,短期予測(最大2週間)の有効性と手法の安定性が確認された。 性能向上(すなわち計算時間)のために、GPUアーキテクチャは計算に使われた。

We propose a novel methodology for estimating the epidemiological parameters of a modified SIRD model (acronym of Susceptible, Infected, Recovered and Deceased individuals) and perform a short-term forecast of SARS-CoV-2 virus spread. We mainly focus on forecasting number of deceased. The procedure was tested on reported data for Poland. For some short-time intervals we performed numerical test investigating stability of parameter estimates in the proposed approach. Numerical experiments confirm the effectiveness of short-term forecasts (up to 2 weeks) and stability of the method. To improve their performance (i.e. computation time) GPU architecture was used in computations.
翻訳日:2022-04-27 13:50:51 公開日:2022-04-26
# 終端学習画像圧縮におけるサイズパラメータの推定

Estimating the Resize Parameter in End-to-end Learned Image Compression ( http://arxiv.org/abs/2204.12022v1 )

ライセンス: Link先を確認
Li-Heng Chen and Christos G. Bampis and Zhi Li and Luk\'a\v{s} Krasula and Alan C. Bovik(参考訳) 本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。 私たちのアプローチは単純で、ニューラルネットワークの圧縮モデルを挟む2つの微分可能なダウンサンプリング/アップサンプリング層を構成する。 異なる入力に対するサイズ要因を決定するために、圧縮モデルと共同で訓練された別のニューラルネットワークを用いて、速度歪みの目的を最小化する。 圧縮フレンドリな"ダウンサンプリング表現は,補助ネットワークと微分可能な画像ウォーピングを用いて,エンコード中に迅速に決定できることが示唆された。 既存の深部画像圧縮モデルに対する広範囲な実験実験により,Bj{\o}ntegaard-Delta rate (BD-rate) を主要な知覚品質エンジンに対して約10%向上させることができることを示す。 また、主観的品質調査を行い、その結果から、新しいアプローチが良好な圧縮画像が得られることを示した。 この方向の再現可能な研究を容易にするために,本論文で使用される実装は, https://github.com/treammm/ResizeCompression.comで無償公開されている。

We describe a search-free resizing framework that can further improve the rate-distortion tradeoff of recent learned image compression models. Our approach is simple: compose a pair of differentiable downsampling/upsampling layers that sandwich a neural compression model. To determine resize factors for different inputs, we utilize another neural network jointly trained with the compression model, with the end goal of minimizing the rate-distortion objective. Our results suggest that "compression friendly" downsampled representations can be quickly determined during encoding by using an auxiliary network and differentiable image warping. By conducting extensive experimental tests on existing deep image compression models, we show results that our new resizing parameter estimation framework can provide Bj{\o}ntegaard-Delta rate (BD-rate) improvement of about 10% against leading perceptual quality engines. We also carried out a subjective quality study, the results of which show that our new approach yields favorable compressed images. To facilitate reproducible research in this direction, the implementation used in this paper is being made freely available online at: https://github.com/treammm/ResizeCompression.
翻訳日:2022-04-27 13:50:40 公開日:2022-04-26
# 有理範囲内のビット深さ拡大のための重み付けマップの学習

Learning Weighting Map for Bit-Depth Expansion within a Rational Range ( http://arxiv.org/abs/2204.12039v1 )

ライセンス: Link先を確認
Yuqing Liu, Qi Jia, Jian Zhang, Xin Fan, Shanshe Wang, Siwei Ma, Wen Gao(参考訳) ビット深化(BDE)は、低ビット深化(LBD)ソースから高ビット深化(HBD)画像を表示する新興技術の1つである。 既存のBDE法では、様々なBDE状況に対して統一的な解が得られず、LBD画像からHBD画像の所望値への各画素のマッピングを直接学習することで、与えられた高次ビットを変更でき、基底真理から大きく逸脱する可能性がある。 本稿では,各画素の重みを求めるために,BRNetを設計し,与えられた高次ビット情報を変更せずに正確な解を導出する有理範囲内における補充値の比率を示す。 ビット深度分解に対してネットワークを適応させるため,最適化の観点から問題を調査し,プログレッシブトレーニング戦略の下でネットワークをトレーニングし,パフォーマンスを向上させる。 さらに,視覚的品質指標としてワッサースタイン距離を用いて,復元された画像と地上の真実との色分布の差を評価する。 実験結果から,提案手法はより少ないアーティファクトと偽輪郭で色鮮やかな画像を復元し,PSNR/SSIMの精度向上とワッサーシュタイン距離の低減を図った。 ソースコードはhttps://github.com/yuqing-liu-dut/bit-depth-expansionで入手できる。

Bit-depth expansion (BDE) is one of the emerging technologies to display high bit-depth (HBD) image from low bit-depth (LBD) source. Existing BDE methods have no unified solution for various BDE situations, and directly learn a mapping for each pixel from LBD image to the desired value in HBD image, which may change the given high-order bits and lead to a huge deviation from the ground truth. In this paper, we design a bit restoration network (BRNet) to learn a weight for each pixel, which indicates the ratio of the replenished value within a rational range, invoking an accurate solution without modifying the given high-order bit information. To make the network adaptive for any bit-depth degradation, we investigate the issue in an optimization perspective and train the network under progressive training strategy for better performance. Moreover, we employ Wasserstein distance as a visual quality indicator to evaluate the difference of color distribution between restored image and the ground truth. Experimental results show our method can restore colorful images with fewer artifacts and false contours, and outperforms state-of-the-art methods with higher PSNR/SSIM results and lower Wasserstein distance. The source code will be made available at https://github.com/yuqing-liu-dut/bit-depth-expansion
翻訳日:2022-04-27 13:50:18 公開日:2022-04-26
# メディア・フォレンジスにおける最近の研究動向 : 方法と脅威

An Overview of Recent Work in Media Forensics: Methods and Threats ( http://arxiv.org/abs/2204.12067v1 )

ライセンス: Link先を確認
Kratika Bhagtani, Amit Kumar Singh Yadav, Emily R. Bartusiak, Ziyue Xiang, Ruiting Shao, Sriram Baireddy, Edward J. Delp(参考訳) 本稿では,デジタル画像,映像,音声(特に音声),文書のメディア・フォレンジスに関する最近の研究について概説する。 各データモダリティについて,デジタルメディアの作成と修正に使用できる合成および操作技術について述べる。 次に,このような操作を検出・定量化するための技術進歩について検討する。 最後に,オープンな課題を考察し,今後の研究の方向性を提案する。

In this paper, we review recent work in media forensics for digital images, video, audio (specifically speech), and documents. For each data modality, we discuss synthesis and manipulation techniques that can be used to create and modify digital media. We then review technological advancements for detecting and quantifying such manipulations. Finally, we consider open issues and suggest directions for future research.
翻訳日:2022-04-27 13:49:52 公開日:2022-04-26
# シングルショット符号化画像による動的光場取得

Acquiring a Dynamic Light Field through a Single-Shot Coded Image ( http://arxiv.org/abs/2204.12089v1 )

ライセンス: Link先を確認
Ryoya Mizuno, Keita Takahashi, Michitaka Yoshida, Chihiro Tsutake, Toshiaki Fujii, Hajime Nagahara(参考訳) 単一ショット符号化画像(2次元計測)を用いて動的光場(5次元体積)を圧縮的に取得する手法を提案する。 我々は,1回の露光時間内に開口符号化と画素分割露光符号化を同期的に適用するイメージングモデルを設計した。 この符号化方式により、元の情報を単一の観測画像に効果的に埋め込むことができる。 観察された画像は、光場再構成のための畳み込みニューラルネットワーク(CNN)に送られ、カメラ側のコーディングパターンと共同で訓練される。 また,実際の3Dシーンを時間とともに撮影するハードウェアプロトタイプも開発した。 1つの観測画像から4つの時間的サブフレーム(合計100ビュー)に5x5視点の動的光場を得ることに成功した。 撮影と復元を繰り返すことで、カメラのフレームレートの4倍のダイナミック光場を得ることができる。 我々の知る限り、我々の方法は、圧縮光場取得においてカメラ自体よりも微細な時間分解能を達成する最初の方法である。 私たちのソフトウェアはプロジェクトのWebページから入手可能です。

We propose a method for compressively acquiring a dynamic light field (a 5-D volume) through a single-shot coded image (a 2-D measurement). We designed an imaging model that synchronously applies aperture coding and pixel-wise exposure coding within a single exposure time. This coding scheme enables us to effectively embed the original information into a single observed image. The observed image is then fed to a convolutional neural network (CNN) for light-field reconstruction, which is jointly trained with the camera-side coding patterns. We also developed a hardware prototype to capture a real 3-D scene moving over time. We succeeded in acquiring a dynamic light field with 5x5 viewpoints over 4 temporal sub-frames (100 views in total) from a single observed image. Repeating capture and reconstruction processes over time, we can acquire a dynamic light field at 4x the frame rate of the camera. To our knowledge, our method is the first to achieve a finer temporal resolution than the camera itself in compressive light-field acquisition. Our software is available from our project webpage
翻訳日:2022-04-27 13:49:46 公開日:2022-04-26
# デフォーカスデブラリングのためのデュアルピクセルアライメント学習

Learning Dual-Pixel Alignment for Defocus Deblurring ( http://arxiv.org/abs/2204.12105v1 )

ライセンス: Link先を確認
Yu Li, Yaling Yi, Dongwei Ren, Qince Li, Wangmeng Zuo(参考訳) 実世界のアプリケーションにおいて,単一のデフォーカスぼけ画像からオールインフォーカス画像を復元することは難しい作業である。 多くの現代のカメラでは、デュアルピクセル(DP)センサーが2画像のビューを作成し、デフォーカスを損なうためにステレオ情報を活用できる。 既存のDPデフォーカスデブロアリング法では印象的な結果が得られたが、カメラの深度(DoF)から外れた領域における左と右のビューの差を無視しながら、DPビューの自然な結合を直接入力とする。 本研究では,デフォーカス除去のためのDPANet(Dual-Pixel Alignment Network)を提案する。 一般に、dpanetはスキップ接続を備えたエンコーダデコーダであり、共有パラメータを持つ2つのブランチを使用して左右のビューから深い特徴を抽出・整列し、1つのデコーダを使用して全フォーカス画像を予測する。 DPビューは曖昧な量が異なるため、左右のビューを並べるのは簡単ではない。 そこで本研究では,新しいエンコーダアライメントモジュール(EAM)とデコーダアライメントモジュール(DAM)を提案する。 特に、EAMでは、DPビュー間の格差を測定するために相関層を提案し、その深い特徴を変形可能な畳み込みを用いて一致させることができる。 そしてDAMは、デコーダのエンコーダとディープ機能からスキップ接続された機能のアライメントをさらに強化することができる。 いくつかのEMAとDAMを導入することで、DPANetのDPビューは、潜在するオールインフォーカスイメージをより正確に予測できる。 実世界のデータセットによる実験結果から,私たちのDPANetは,目視可能な鋭い構造やテクスチャを復元しながら,デフォーカスのぼやけを低減する最先端のデブロアリング手法よりも優れていることがわかった。

It is a challenging task to recover all-in-focus image from a single defocus blurry image in real-world applications. On many modern cameras, dual-pixel (DP) sensors create two-image views, based on which stereo information can be exploited to benefit defocus deblurring. Despite existing DP defocus deblurring methods achieving impressive results, they directly take naive concatenation of DP views as input, while neglecting the disparity between left and right views in the regions out of camera's depth of field (DoF). In this work, we propose a Dual-Pixel Alignment Network (DPANet) for defocus deblurring. Generally, DPANet is an encoder-decoder with skip-connections, where two branches with shared parameters in the encoder are employed to extract and align deep features from left and right views, and one decoder is adopted to fuse aligned features for predicting the all-in-focus image. Due to that DP views suffer from different blur amounts, it is not trivial to align left and right views. To this end, we propose novel encoder alignment module (EAM) and decoder alignment module (DAM). In particular, a correlation layer is suggested in EAM to measure the disparity between DP views, whose deep features can then be accordingly aligned using deformable convolutions. And DAM can further enhance the alignment of skip-connected features from encoder and deep features in decoder. By introducing several EAMs and DAMs, DP views in DPANet can be well aligned for better predicting latent all-in-focus image. Experimental results on real-world datasets show that our DPANet is notably superior to state-of-the-art deblurring methods in reducing defocus blur while recovering visually plausible sharp structures and textures.
翻訳日:2022-04-27 13:49:29 公開日:2022-04-26
# 運動障害の未経験データに基づく神経性最大Aポストエリオリ推定

Neural Maximum A Posteriori Estimation on Unpaired Data for Motion Deblurring ( http://arxiv.org/abs/2204.12139v1 )

ライセンス: Link先を確認
Youjian Zhang, Chaoyue Wang, Dacheng Tao(参考訳) 実世界の動的シーンのデブラリングは、ペアのぼやけたシャープなトレーニングデータが利用できないため、長い間困難な作業でした。 従来の最大Aポストリオ推定法と深層学習に基づくデブロアリング法は,それぞれ手作り事前と合成ぼやけたシャープトレーニングペアによって制限されるため,実際の動的ぼやけに一般化できない。 この目的のために,ニューラルネットワークをトレーニングし,失明したデータから視覚情報や鋭いコンテンツを復元するためのニューラルネットワークの最大Aポストエリオリ(NeurMAP)推定フレームワークを提案する。 提案したNeruMAPは,(再)ブラリング過程(可能性関数)をモデル化するために共同で訓練された動き推定ネットワークと遅延ネットワークから構成される。 一方、動き推定ネットワークは、前もって暗黙の動的動きを適用して画像内の動き情報を探索するように訓練され、その代わりに遅延ネットワークトレーニング(即ち、シャープな画像を提供する)を実施する。 提案されたNeurMAPは、既存のデブロアリングニューラルネットワークに対する直交的なアプローチであり、未ペアデータセット上のイメージデブロアリングネットワークのトレーニングを可能にする最初のフレームワークである。 実験は、最先端の手法よりも定量的メトリクスと視覚的品質の両方に優位性を示す。 コードはhttps://github.com/yjzhang96/neurmap-deblurで入手できる。

Real-world dynamic scene deblurring has long been a challenging task since paired blurry-sharp training data is unavailable. Conventional Maximum A Posteriori estimation and deep learning-based deblurring methods are restricted by handcrafted priors and synthetic blurry-sharp training pairs respectively, thereby failing to generalize to real dynamic blurriness. To this end, we propose a Neural Maximum A Posteriori (NeurMAP) estimation framework for training neural networks to recover blind motion information and sharp content from unpaired data. The proposed NeruMAP consists of a motion estimation network and a deblurring network which are trained jointly to model the (re)blurring process (i.e. likelihood function). Meanwhile, the motion estimation network is trained to explore the motion information in images by applying implicit dynamic motion prior, and in return enforces the deblurring network training (i.e. providing sharp image prior). The proposed NeurMAP is an orthogonal approach to existing deblurring neural networks, and is the first framework that enables training image deblurring networks on unpaired datasets. Experiments demonstrate our superiority on both quantitative metrics and visual quality over state-of-the-art methods. Codes are available on https://github.com/yjzhang96/NeurMAP-deblur.
翻訳日:2022-04-27 13:48:55 公開日:2022-04-26
# 運転注意に基づく物体検出の場所と場所

Where and What: Driver Attention-based Object Detection ( http://arxiv.org/abs/2204.12150v1 )

ライセンス: Link先を確認
Yao Rong, Naemi-Rebecca Kassautzki, Wolfgang Fuhl, Enkelejda Kasneci(参考訳) 人間のドライバーは注意の仕組みを使って重要な物体に集中し、運転中に意思決定を行う。 視線データから人間の注意が明らかになるにつれて、視線情報の収集と分析が近年、自動運転技術に恩恵をもたらしている。 この文脈におけるこれまでの作業は、主に人間のドライバがどこに見ているのかを予測し、ドライバが注目する"何"オブジェクトの知識を欠くことを目的としていた。 我々の研究は、ピクセルレベルとオブジェクトレベルのアテンション予測のギャップを埋める。 具体的には,注意予測モジュールを事前学習した物体検出フレームワークに統合し,グリッドベースで注目度を予測することを提案する。 さらに、予測された参加領域に基づいてクリティカルオブジェクトが認識される。 提案手法をBDD-AとDR(eye)VEの2つのドライバー注意データセット上で評価した。 我々のフレームワークは、ピクセルレベルとオブジェクトレベルの両方の注意予測において、競争力のある最先端性能を実現するが、計算においてはるかに効率が良く(75.3 GFLOPs以下)。

Human drivers use their attentional mechanisms to focus on critical objects and make decisions while driving. As human attention can be revealed from gaze data, capturing and analyzing gaze information has emerged in recent years to benefit autonomous driving technology. Previous works in this context have primarily aimed at predicting "where" human drivers look at and lack knowledge of "what" objects drivers focus on. Our work bridges the gap between pixel-level and object-level attention prediction. Specifically, we propose to integrate an attention prediction module into a pretrained object detection framework and predict the attention in a grid-based style. Furthermore, critical objects are recognized based on predicted attended-to areas. We evaluate our proposed method on two driver attention datasets, BDD-A and DR(eye)VE. Our framework achieves competitive state-of-the-art performance in the attention prediction on both pixel-level and object-level but is far more efficient (75.3 GFLOPs less) in computation.
翻訳日:2022-04-27 13:48:31 公開日:2022-04-26
# (参考訳) 双曲幾何学から単語埋め込みへ

From Hyperbolic Geometry Back to Word Embeddings ( http://arxiv.org/abs/2204.12481v1 )

ライセンス: CC BY 4.0
Sultan Nurmukhamedov, Thomas Mach, Arsen Sheverdin, Zhenisbek Assylbekov(参考訳) 双曲円盤内のランダム点を選択し、これらの点が既にワード表現であると主張する。 しかし、どの点が人間の興味ある言語のどの語に対応するかは明らかになっていない。 この対応は、単語間のポイントワイズ相互情報と最近のアライメント技術を用いて、概ね確立することができる。

We choose random points in the hyperbolic disc and claim that these points are already word representations. However, it is yet to be uncovered which point corresponds to which word of the human language of interest. This correspondence can be approximately established using a pointwise mutual information between words and recent alignment techniques.
翻訳日:2022-04-27 13:47:45 公開日:2022-04-26
# マルチドメインテキスト分類のためのロバストコントラストアライメント法

A Robust Contrastive Alignment Method For Multi-Domain Text Classification ( http://arxiv.org/abs/2204.12125v1 )

ライセンス: Link先を確認
Xuefeng Li, Hao Lei, Liwen Wang, Guanting Dong, Jinzheng Zhao, Jiachi Liu, Weiran Xu, Chunyun Zhang(参考訳) マルチドメインテキスト分類は、様々なシナリオで自動的にテキストを分類することができる。 ヒト言語の多様性のため、異なるドメインで同じラベルを持つテキストは、大きく異なる可能性があるため、マルチドメインのテキスト分類に課題が生じる。 現在の先進的な手法では、プライベート共有パラダイムを使用し、共有エンコーダによってドメイン共有機能をキャプチャし、ドメイン固有の特徴を抽出するために各ドメインのプライベートエンコーダをトレーニングする。 しかし、現実のシナリオでは、新しいドメインが常に出現しているため、これらのメソッドは非効率に苦しむ。 本論文では,教師付きコントラスト学習により,異なる領域のテキスト分類特徴を同じ特徴空間に整列させる頑健なコントラストアライメント手法を提案する。 これにより、多領域テキスト分類を実現するために、2つの普遍的特徴抽出器が必要である。 大規模な実験結果から,本手法は,プライベート共有フレームワークにおける複雑なマルチクラス化手法を用いて,最先端の手法と同等あるいは時折同等に動作することが示された。

Multi-domain text classification can automatically classify texts in various scenarios. Due to the diversity of human languages, texts with the same label in different domains may differ greatly, which brings challenges to the multi-domain text classification. Current advanced methods use the private-shared paradigm, capturing domain-shared features by a shared encoder, and training a private encoder for each domain to extract domain-specific features. However, in realistic scenarios, these methods suffer from inefficiency as new domains are constantly emerging. In this paper, we propose a robust contrastive alignment method to align text classification features of various domains in the same feature space by supervised contrastive learning. By this means, we only need two universal feature extractors to achieve multi-domain text classification. Extensive experimental results show that our method performs on par with or sometimes better than the state-of-the-art method, which uses the complex multi-classifier in a private-shared framework.
翻訳日:2022-04-27 13:37:09 公開日:2022-04-26
# コントラスト的単語アライメントは多対多のニューラルマシン翻訳を改善するか?

When do Contrastive Word Alignments Improve Many-to-many Neural Machine Translation? ( http://arxiv.org/abs/2204.12165v1 )

ライセンス: Link先を確認
Zhuoyuan Mao, Chenhui Chu, Raj Dabre, Haiyue Song, Zhen Wan, Sadao Kurohashi(参考訳) 単語アライメントは、多対多のニューラルマシン翻訳(NMT)に有用であることが証明されている。 しかし、ほとんどの言語対では利用できない以前の手法では、高品質な二言語辞書が事前編集に使われた。 一方,多くのNMTでは探索されていない単語アライメントを暗黙的に利用することができる。 本研究は,多対多nmtの単語アライメントを利用した単語レベルのコントラスト目標を提案する。 実験の結果、いくつかの言語ペアで0.8 bleuが得られた。 解析の結果,多対多のnmtでは,エンコーダの文検索性能は翻訳品質と高い相関を示し,提案手法が翻訳に与える影響を明らかにした。 これは、エンコーダの文検索性能を改善するために、多対多nmtの将来の探索を動機付ける。

Word alignment has proven to benefit many-to-many neural machine translation (NMT). However, high-quality ground-truth bilingual dictionaries were used for pre-editing in previous methods, which are unavailable for most language pairs. Meanwhile, the contrastive objective can implicitly utilize automatically learned word alignment, which has not been explored in many-to-many NMT. This work proposes a word-level contrastive objective to leverage word alignments for many-to-many NMT. Empirical results show that this leads to 0.8 BLEU gains for several language pairs. Analyses reveal that in many-to-many NMT, the encoder's sentence retrieval performance highly correlates with the translation quality, which explains when the proposed method impacts translation. This motivates future exploration for many-to-many NMT to improve the encoder's sentence retrieval performance.
翻訳日:2022-04-27 13:36:51 公開日:2022-04-26
# クロースレベルの並列デコーディングとアライメント損失による文法ベースのテキスト-SQL構文解析の高速化

Faster and Better Grammar-based Text-to-SQL Parsing via Clause-level Parallel Decoding and Alignment Loss ( http://arxiv.org/abs/2204.12186v1 )

ライセンス: Link先を確認
Kun Wu, Lijie Wang, Zhenghua Li, Xinyan Xiao(参考訳) 文法ベースのパーサは、クロスドメインのテキスト-SQL構文解析タスクで高いパフォーマンスを達成しているが、SQLクエリのトークンよりも文法選択のためのアクションの数が多いため、復号効率の低下に悩まされている。 一方、sql節と質問セグメントをよりよく調整する方法は、パフォーマンスを解析する上で重要な課題でした。 そこで本稿では,RATSQL と LGESQL という2つの高性能文法ベースのパーサを強化するために,節レベルの並列デコーディングとアライメント損失を提案する。 2つのパーサの実験結果から,本手法は精度と復号速度の両方において一貫した改善が得られた。

Grammar-based parsers have achieved high performance in the cross-domain text-to-SQL parsing task, but suffer from low decoding efficiency due to the much larger number of actions for grammar selection than that of tokens in SQL queries. Meanwhile, how to better align SQL clauses and question segments has been a key challenge for parsing performance. Therefore, this paper proposes clause-level parallel decoding and alignment loss to enhance two high-performance grammar-based parsers, i.e., RATSQL and LGESQL. Experimental results of two parsers show that our method obtains consistent improvements both in accuracy and decoding speed.
翻訳日:2022-04-27 13:36:38 公開日:2022-04-26
# 教師なし機械翻訳のためのフロー適応アーキテクチャ

Flow-Adapter Architecture for Unsupervised Machine Translation ( http://arxiv.org/abs/2204.12225v1 )

ライセンス: Link先を確認
Yihong Liu, Haris Jabbar, Hinrich Sch\"utze(参考訳) 本研究では,教師なしNMTのためのフローアダプタアーキテクチャを提案する。 正規化フローを利用して文レベルの潜在表現の分布を明示的にモデル化し、その後、翻訳タスクの注意機構と共に使用される。 私たちのモデルの主な特徴は (a)正規化フローを用いて各言語毎に言語固有の文表現を別々に捉えること。 (b)ある言語から別の言語への翻訳にこれらの潜在表現の単純な変換を用いる。 このアーキテクチャにより、各言語の教師なしのトレーニングが独立に可能になる。 教師付きmtの潜在変数に関する先行研究は,我々の知る限りでは最善だが,教師なしmtの潜在変数と正規化フローを用いた最初の作業である。

In this work, we propose a flow-adapter architecture for unsupervised NMT. It leverages normalizing flows to explicitly model the distributions of sentence-level latent representations, which are subsequently used in conjunction with the attention mechanism for the translation task. The primary novelties of our model are: (a) capturing language-specific sentence representations separately for each language using normalizing flows and (b) using a simple transformation of these latent representations for translating from one language to another. This architecture allows for unsupervised training of each language independently. While there is prior work on latent variables for supervised MT, to the best of our knowledge, this is the first work that uses latent variables and normalizing flows for unsupervised MT. We obtain competitive results on several unsupervised MT benchmarks.
翻訳日:2022-04-27 13:36:25 公開日:2022-04-26
# 深部NLPモデルの体系性・構成性・推移性:変成試験の視点から

Systematicity, Compositionality and Transitivity of Deep NLP Models: a Metamorphic Testing Perspective ( http://arxiv.org/abs/2204.12316v1 )

ライセンス: Link先を確認
Edoardo Manino, Julia Rozanova, Danilo Carvalho, Andre Freitas, Lucas Cordeiro(参考訳) 最近、ニューラルNLPモデルの安全性を確認するためにメタモルフィックテストが使用されている。 その主な利点は、テストケースを生成するために基礎的な真実に頼らないことである。 しかし、既存の研究は主にロバストネスのような変成関係に関係しており、テスト可能な言語特性の範囲を制限する。 本稿では, 体系性, 構成性, 推移性という性質を扱う3つの新しい変成関係のクラスを提案する。 ロバスト性とは異なり、我々の関係は複数のソース入力で定義され、多項式因子によって生成できるテストケースの数を増加させる。 それらを用いて,最先端nlpモデルの内部整合性をテストし,期待する言語特性に必ずしも従わないことを示す。 最後に,メタモルフィック関係の内部構造を効率的に要約する新しいグラフィカル表記法を提案する。

Metamorphic testing has recently been used to check the safety of neural NLP models. Its main advantage is that it does not rely on a ground truth to generate test cases. However, existing studies are mostly concerned with robustness-like metamorphic relations, limiting the scope of linguistic properties they can test. We propose three new classes of metamorphic relations, which address the properties of systematicity, compositionality and transitivity. Unlike robustness, our relations are defined over multiple source inputs, thus increasing the number of test cases that we can produce by a polynomial factor. With them, we test the internal consistency of state-of-the-art NLP models, and show that they do not always behave according to their expected linguistic properties. Lastly, we introduce a novel graphical notation that efficiently summarises the inner structure of metamorphic relations.
翻訳日:2022-04-27 13:36:14 公開日:2022-04-26
# アフリカ系アメリカ人英語のモルフォ・シンタクティックな特徴の曖昧さ--常習蜂の場合

Disambiguation of morpho-syntactic features of African American English -- the case of habitual be ( http://arxiv.org/abs/2204.12421v1 )

ライセンス: Link先を確認
Harrison Santiago, Joshua Martin, Sarah Moeller, and Kevin Tang(参考訳) 最近の研究では、自然言語処理(NLP)システムがアフリカ系アメリカ人の話者に対して偏見を示すことが強調されている。 バイアスエラーは、アフリカ系アメリカ人の英語(AAE)に特有の言語的特徴の表現が貧弱なため、訓練データにそのような特徴が出現する確率が比較的低いため、しばしば引き起こされる。 習慣的"be"の場合,そのようなバイアスを克服するためのワークフローを提示する。 習慣的「be」は同型であり、したがってあいまいであり、他の形の「be」はAEやその他の英語の変種に見られる。 これはNLP技術におけるバイアスに対する明らかな課題を生み出します。 不足を克服するために,ルールベースのフィルタとデータ拡張を組み合わせることで,日常インスタンスと非生活インスタンスのバランスの取れたコーパスを生成する。 このバランスの取れたコーパスで、aaeで書き起こされたテキストのコーパスで示されるように、偏りのない機械学習分類器をトレーニングし、.65 f$_1$スコアの曖昧な習慣的"be"を達成する。

Recent research has highlighted that natural language processing (NLP) systems exhibit a bias against African American speakers. The bias errors are often caused by poor representation of linguistic features unique to African American English (AAE), due to the relatively low probability of occurrence of many such features in training data. We present a workflow to overcome such bias in the case of habitual "be". Habitual "be" is isomorphic, and therefore ambiguous, with other forms of "be" found in both AAE and other varieties of English. This creates a clear challenge for bias in NLP technologies. To overcome the scarcity, we employ a combination of rule-based filters and data augmentation that generate a corpus balanced between habitual and non-habitual instances. With this balanced corpus, we train unbiased machine learning classifiers, as demonstrated on a corpus of AAE transcribed texts, achieving .65 F$_1$ score disambiguating habitual "be".
翻訳日:2022-04-27 13:36:01 公開日:2022-04-26
# ユニバーサル通信による交通信号制御のためのマルチエージェント強化学習

Multi-Agent Reinforcement Learning for Traffic Signal Control through Universal Communication Method ( http://arxiv.org/abs/2204.12190v1 )

ライセンス: Link先を確認
Qize Jiang, Minhao Qin, Shengmin Shi, Weiwei Sun and Baihua Zheng(参考訳) 実複雑な交通シナリオにおける交差点間の通信を多区間で効果的に協調する方法は困難である。 既存のアプローチは、共有する情報の内容や重要性を考慮せずに、ヒューリスティックな方法でのみ通信を可能にする。 本稿では,交差点間のユニコンムの普遍的な通信形式を提案する。 UniCommは、あるエージェントで収集された大量の観測結果を、隣人への影響の重大な予測に埋め込むことで、通信効率を向上し、既存の手法にまたがって普遍的である。 また,UniCommによる通信をフル活用するための簡潔ネットワークUniLightを提案する。 実データを用いた実験結果から、UniCommは既存の最先端手法の性能を普遍的に向上し、UniLightは幅広い交通状況において既存の手法よりも大幅に優れていた。

How to coordinate the communication among intersections effectively in real complex traffic scenarios with multi-intersection is challenging. Existing approaches only enable the communication in a heuristic manner without considering the content/importance of information to be shared. In this paper, we propose a universal communication form UniComm between intersections. UniComm embeds massive observations collected at one agent into crucial predictions of their impact on its neighbors, which improves the communication efficiency and is universal across existing methods. We also propose a concise network UniLight to make full use of communications enabled by UniComm. Experimental results on real datasets demonstrate that UniComm universally improves the performance of existing state-of-the-art methods, and UniLight significantly outperforms existing methods on a wide range of traffic situations.
翻訳日:2022-04-27 13:34:35 公開日:2022-04-26
# 自己回復可能なadversarial例:ソーシャルネットワークにおける新しい効果的な保護メカニズム

Self-recoverable Adversarial Examples: A New Effective Protection Mechanism in Social Networks ( http://arxiv.org/abs/2204.12050v1 )

ライセンス: Link先を確認
Jiawei Zhang, Jinwei Wang, Hao Wang, Xiangyang Luo(参考訳) 悪意のあるインテリジェントなアルゴリズムは、ソーシャルネットワークプラットフォームにアップロードされた写真を検出し分析することで、ソーシャルユーザーのプライバシーのセキュリティを脅かす。 敵の攻撃によって引き起こされたDNNの破壊は、敵の例がソーシャルネットワークにおけるプライバシセキュリティの新たな保護メカニズムとして機能する可能性を引き起こす。 しかし、既存の敵の例は効果的な保護機構として機能する回復性を持っていない。 この問題に対処するため,我々は,自己回復可能な攻撃例を生成するための,再生可能な生成型攻撃ネットワークを提案する。 本手法は,敵攻撃とリカバリを統合タスクとしてモデル化することにより,攻撃能力を最大化しながら,回収した事例の誤りを最小限に抑えることができる。 これらの例の復元性をさらに高めるために,次元縮小器を用いて逆摂動の分布を最適化する。 実験結果から,提案手法が生成する敵対的例は,異なるデータセットとネットワークアーキテクチャにおいて優れた回復性,攻撃性,堅牢性を示し,ソーシャルネットワークにおける保護機構としての有効性を実証する。

Malicious intelligent algorithms greatly threaten the security of social users' privacy by detecting and analyzing the uploaded photos to social network platforms. The destruction to DNNs brought by the adversarial attack sparks the potential that adversarial examples serve as a new protection mechanism for privacy security in social networks. However, the existing adversarial example does not have recoverability for serving as an effective protection mechanism. To address this issue, we propose a recoverable generative adversarial network to generate self-recoverable adversarial examples. By modeling the adversarial attack and recovery as a united task, our method can minimize the error of the recovered examples while maximizing the attack ability, resulting in better recoverability of adversarial examples. To further boost the recoverability of these examples, we exploit a dimension reducer to optimize the distribution of adversarial perturbation. The experimental results prove that the adversarial examples generated by the proposed method present superior recoverability, attack ability, and robustness on different datasets and network architectures, which ensure its effectiveness as a protection mechanism in social networks.
翻訳日:2022-04-27 13:33:29 公開日:2022-04-26
# 参照セグメンテーションのためのインスタンス特異的特徴伝搬

Instance-Specific Feature Propagation for Referring Segmentation ( http://arxiv.org/abs/2204.12109v1 )

ライセンス: Link先を確認
Chang Liu, Xudong Jiang, and Henghui Ding(参考訳) セグメンテーションの参照は、自然言語表現で示されるターゲットインスタンスのセグメンテーションマスクを生成することを目的としている。 既存のメソッドには、融合したビジョンと言語機能を直接セグメンテーションを実行するワンステージメソッドと、インスタンスセグメンテーションモデルを使ったインスタンス提案と、それらのうちの1つを言語機能とマッチングすることで選択する2ステージメソッドの2種類がある。 本研究では,特徴伝搬による関心のターゲットを同時に検出し,きめ細かいセグメンテーションマスクを生成する新しいフレームワークを提案する。 我々のフレームワークでは、各インスタンスはインスタンス特化機能(ISF)で表現され、提案したFeature Propagation Module(FPM)を使用して全てのISF間で情報交換によって参照対象を特定する。 我々のインスタンス認識アプローチは、すべてのオブジェクト間の関係を学習し、1段階のメソッドよりも関心のターゲットを見つけるのに役立ちます。 2段階の手法と比較し,視覚情報と言語情報の両方を協調的かつインタラクティブに利用し,同時識別とセグメンテーションを行う。 実験では,3つのRefCOCOシリーズのデータセットにおいて,従来の最先端手法よりも優れていた。

Referring segmentation aims to generate a segmentation mask for the target instance indicated by a natural language expression. There are typically two kinds of existing methods: one-stage methods that directly perform segmentation on the fused vision and language features; and two-stage methods that first utilize an instance segmentation model for instance proposal and then select one of these instances via matching them with language features. In this work, we propose a novel framework that simultaneously detects the target-of-interest via feature propagation and generates a fine-grained segmentation mask. In our framework, each instance is represented by an Instance-Specific Feature (ISF), and the target-of-referring is identified by exchanging information among all ISFs using our proposed Feature Propagation Module (FPM). Our instance-aware approach learns the relationship among all objects, which helps to better locate the target-of-interest than one-stage methods. Comparing to two-stage methods, our approach collaboratively and interactively utilizes both vision and language information for synchronous identification and segmentation. In the experimental tests, our method outperforms previous state-of-the-art methods on all three RefCOCO series datasets.
翻訳日:2022-04-27 13:33:09 公開日:2022-04-26
# ViTsのロバスト性に関するより深い洞察

Deeper Insights into ViTs Robustness towards Common Corruptions ( http://arxiv.org/abs/2204.12143v1 )

ライセンス: Link先を確認
Rui Tian, Zuxuan Wu, Qi Dai, Han Hu, Yugang Jiang(参考訳) 近年、畳み込みニューラルネットワーク(cnns)による視覚変換器(vits)の設計戦略が様々な視覚タスクで示されている。 しかし、これらの設計選択がViTに移行した際のロバスト性にどのように影響するかは不明だ。 本稿では,cnnライクなアーキテクチャ設計とcnnベースのデータ拡張戦略がvitsの共通汚職に対する堅牢性に与える影響を,広範囲かつ厳格なベンチマークによって検証する。 重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。 さらに、フーリエ領域拡張が失敗する間、ViT上では対向ノイズトレーニングが強力である。 さらに,(1)入力画像に条件づけられた動的拡張パラメータの生成という2つの角度から入力変数拡張を可能にする新しい条件付き手法を提案する。 条件付き畳み込みによるロバスト性の最先端化,(2) 余分な予測器による最適な拡張戦略の選択は, クリーンな精度とロバストさの最良のトレードオフを達成するのに役立つ。

Recent literature have shown design strategies from Convolutions Neural Networks (CNNs) benefit Vision Transformers (ViTs) in various vision tasks. However, it remains unclear how these design choices impact on robustness when transferred to ViTs. In this paper, we make the first attempt to investigate how CNN-like architectural designs and CNN-based data augmentation strategies impact on ViTs' robustness towards common corruptions through an extensive and rigorous benchmarking. We demonstrate that overlapping patch embedding and convolutional Feed-Forward Network (FFN) boost performance on robustness. Furthermore, adversarial noise training is powerful on ViTs while fourier-domain augmentation fails. Moreover, we introduce a novel conditional method enabling input-varied augmentations from two angles: (1) Generating dynamic augmentation parameters conditioned on input images. It conduces to state-of-the-art performance on robustness through conditional convolutions; (2) Selecting most suitable augmentation strategy by an extra predictor helps to achieve the best trade-off between clean accuracy and robustness.
翻訳日:2022-04-27 13:32:46 公開日:2022-04-26
# ClothFormer:全モジュールでビデオバーチャルトライオンをカスタマイズ

ClothFormer:Taming Video Virtual Try-on in All Module ( http://arxiv.org/abs/2204.12151v1 )

ライセンス: Link先を確認
Jianbin Jiang, Tan Wang, He Yan, Junhui Liu(参考訳) video virtual try-onのタスクは、対象の服をビデオ内の人物に時空間的一貫性を持たせることを目的としている。 画像バーチャル・トライオンの進歩にもかかわらず、ビデオに適用するとフレーム間の不整合が生じる。 限定的な研究は、ビデオベースの仮想試行の課題も探求したが、視覚的に快く、時間的に一貫性のある結果が得られなかった。 さらに2つの重要な課題があります。 1) 衣服領域に咬合が出現したときの正確な反りの発生方法 2) 複雑な背景と調和して衣服や非標的の身体部分(腕,首など)を生成する方法; これに対処するために, 現実的, 調和的, 時空間的一貫した結果を複雑な環境下でうまく合成する新しい仮想試行フレームワーク, ClothFormerを提案する。 特に、clotformerには3つの大きなモジュールがある。 まず,身体領域と衣服領域の間の密集した流れを正確に予測する2段階の抗閉塞性ウォーピングモジュールについて検討した。 第2に、尾根回帰と光流補正を利用して密流シーケンスを円滑にし、時間的にスムーズな衣料シーケンスを生成する。 第3に、デュアルストリームトランスフォーマーは、衣服のテクスチャ、人の特徴、環境情報を抽出して融合し、リアルな試着ビデオを生成する。 厳密な実験により,本手法が質的および定量的に合成された映像品質の基準を高い精度で上回っていることを実証した。

The task of video virtual try-on aims to fit the target clothes to a person in the video with spatio-temporal consistency. Despite tremendous progress of image virtual try-on, they lead to inconsistency between frames when applied to videos. Limited work also explored the task of video-based virtual try-on but failed to produce visually pleasing and temporally coherent results. Moreover, there are two other key challenges: 1) how to generate accurate warping when occlusions appear in the clothing region; 2) how to generate clothes and non-target body parts (e.g. arms, neck) in harmony with the complicated background; To address them, we propose a novel video virtual try-on framework, ClothFormer, which successfully synthesizes realistic, harmonious, and spatio-temporal consistent results in complicated environment. In particular, ClothFormer involves three major modules. First, a two-stage anti-occlusion warping module that predicts an accurate dense flow mapping between the body regions and the clothing regions. Second, an appearance-flow tracking module utilizes ridge regression and optical flow correction to smooth the dense flow sequence and generate a temporally smooth warped clothing sequence. Third, a dual-stream transformer extracts and fuses clothing textures, person features, and environment information to generate realistic try-on videos. Through rigorous experiments, we demonstrate that our method highly surpasses the baselines in terms of synthesized video quality both qualitatively and quantitatively.
翻訳日:2022-04-27 13:32:27 公開日:2022-04-26
# transiam: 医療画像分割のためのトランスフォーマーを用いたマルチモーダル視覚特徴の活用

TranSiam: Fusing Multimodal Visual Features Using Transformer for Medical Image Segmentation ( http://arxiv.org/abs/2204.12185v1 )

ライセンス: Link先を確認
Xuejian Li and Shiqiang Ma and Jijun Tang and Fei Guo(参考訳) マルチモーダル性に基づく医用画像の自動分割は, 疾患診断において重要な課題である。 畳み込みニューラルネットワーク(CNN)は,画像分割タスクにおいて優れた性能を示すことが証明されているが,グローバルな情報を得ることは困難である。 グローバル情報の欠如は病変領域の分節結果の精度に深刻な影響を与える。 また、同一患者のマルチモーダルデータの間には、視覚的表現の相違がある。 これらの違いは自動分割法の結果に影響を及ぼす。 これらの問題を解決するために,TranSiamというグローバルな情報をキャプチャできるマルチモーダル医療画像に適したセグメンテーション手法を提案する。 TranSiamは異なるモードの特徴を抽出する2次元デュアルパスネットワークである。 各経路において、畳み込みを利用して低レベル段階の詳細な情報を抽出し、ICMTブロックを設計し、高レベル段階のグローバル情報を抽出する。 ICMTブロックは変換器に畳み込みを埋め込み、空間情報や詳細な情報を保持しながらグローバル情報を抽出することができる。 さらに,tmmブロックと呼ばれるクロスアテンションとセルフアテンションに基づく新しい融合機構を設計し,異なるモダリティ間の特徴を効果的に融合する。 BraTS 2019とBraTS 2020のマルチモーダルデータセットでは、他の一般的なメソッドよりも精度が大幅に向上しています。

Automatic segmentation of medical images based on multi-modality is an important topic for disease diagnosis. Although the convolutional neural network (CNN) has been proven to have excellent performance in image segmentation tasks, it is difficult to obtain global information. The lack of global information will seriously affect the accuracy of the segmentation results of the lesion area. In addition, there are visual representation differences between multimodal data of the same patient. These differences will affect the results of the automatic segmentation methods. To solve these problems, we propose a segmentation method suitable for multimodal medical images that can capture global information, named TranSiam. TranSiam is a 2D dual path network that extracts features of different modalities. In each path, we utilize convolution to extract detailed information in low level stage, and design a ICMT block to extract global information in high level stage. ICMT block embeds convolution in the transformer, which can extract global information while retaining spatial and detailed information. Furthermore, we design a novel fusion mechanism based on cross attention and selfattention, called TMM block, which can effectively fuse features between different modalities. On the BraTS 2019 and BraTS 2020 multimodal datasets, we have a significant improvement in accuracy over other popular methods.
翻訳日:2022-04-27 13:31:06 公開日:2022-04-26
# 適応スプリットフュージョン変換器

Adaptive Split-Fusion Transformer ( http://arxiv.org/abs/2204.12196v1 )

ライセンス: Link先を確認
Zixuan Su, Hao Zhang, Jingjing Chen, Lei Pang, Chong-Wah Ngo, Yu-Gang Jiang(参考訳) 視覚的コンテンツ理解のためのニューラルネットワークは、近年、畳み込み(CNN)からトランスフォーマーへと進化している。 前者(CNN)は、局所的な表現力を示すために、小さなウィンドウを持つカーネルに依存している。 逆に、後者(トランスフォーマー)は、全体学習のための地域間の長距離グローバルな接続を確立する。 この相補的な性質に触発されて、各テクニックを最大限活用するためのハイブリッドモデルの設計に関心が高まっている。 現在のハイブリッドは、単に線形射影の単純な近似として畳み込みを置き換えるか、局所/グローバルモデリングの重要性を気にせずに畳み込み分岐に注意を向けるだけである。 そこで本研究では,ASF-former (Adaptive Split-Fusion Transformer) というハイブリッドシステムを提案する。 特に、asf-formerエンコーダは、機能チャネルを半分割してデュアルパス入力に適合させる。 そして、視覚手がかりから算出した重み付きスカラーでデュアルパスの出力を融合する。 また,効率性を考慮した畳み込み経路をコンパクトに設計する。 imagenet-1k、cifar-10、cifar-100などの標準ベンチマークに関する広範囲な実験により、我々のasf-formerは、cnn、transformer、ハイブリッドパイロットよりも精度で優れている(imagenet-1kでは83.9%)。 コードはhttps://github.com/szx5045266/asf-formerで入手できる。

Neural networks for visual content understanding have recently evolved from convolutional ones (CNNs) to transformers. The prior (CNN) relies on small-windowed kernels to capture the regional clues, demonstrating solid local expressiveness. On the contrary, the latter (transformer) establishes long-range global connections between localities for holistic learning. Inspired by this complementary nature, there is a growing interest in designing hybrid models to best utilize each technique. Current hybrids merely replace convolutions as simple approximations of linear projection or juxtapose a convolution branch with attention, without concerning the importance of local/global modeling. To tackle this, we propose a new hybrid named Adaptive Split-Fusion Transformer (ASF-former) to treat convolutional and attention branches differently with adaptive weights. Specifically, an ASF-former encoder equally splits feature channels into half to fit dual-path inputs. Then, the outputs of dual-path are fused with weighting scalars calculated from visual cues. We also design the convolutional path compactly for efficiency concerns. Extensive experiments on standard benchmarks, such as ImageNet-1K, CIFAR-10, and CIFAR-100, show that our ASF-former outperforms its CNN, transformer counterparts, and hybrid pilots in terms of accuracy (83.9% on ImageNet-1K), under similar conditions (12.9G MACs/56.7M Params, without large-scale pre-training). The code is available at: https://github.com/szx503045266/ASF-former.
翻訳日:2022-04-27 13:30:46 公開日:2022-04-26
# MLPミキサーの対向転写性向上

Boosting Adversarial Transferability of MLP-Mixer ( http://arxiv.org/abs/2204.12204v1 )

ライセンス: Link先を確認
Haoran Lyu, Yajie Wang, Yu-an Tan, Huipeng Zhou, Yuhang Zhao and Quanxin Zhang(参考訳) MLP-MixerやViTsといった新しいアーキテクチャに基づくモデルのセキュリティは、緊急に研究する必要がある。 しかし、現在の研究の大部分は主にViTに対する敵対的な攻撃を目的としており、MLP-mixerに対する敵対的な研究は比較的少ない。 我々は,マクスウェルの悪魔攻撃(MA)と呼ばれるMLPミクサーに対する敵攻撃手法を提案する。 MAは、MLPミキサーの各ミキサー層の一部入力を制御することで、MLPミキサーのチャネルミキシング及びトークンミキシング機構を破り、MLPミキサーを乱して画像の主情報を得る。 提案手法は,ミキサー層の一部入力をマスキングし,逆例のソースモデルへの過剰適合を回避し,クロスアーキテクチャの転送性を向上させる。 広範な実験評価により,提案手法の有効性と性能が実証された。 提案手法は既存の手法と簡単に組み合わせることができ、MPPベースのResMLPで最大38.0%の転送性を向上させることができる。 MLP-Mixer の逆例は DenseNet を用いた CNN に対する逆例の転送可能性を上回ることができる。 我々の知る限り、我々はMLP-Mixerの対向転写可能性を研究する最初の研究である。

The security of models based on new architectures such as MLP-Mixer and ViTs needs to be studied urgently. However, most of the current researches are mainly aimed at the adversarial attack against ViTs, and there is still relatively little adversarial work on MLP-mixer. We propose an adversarial attack method against MLP-Mixer called Maxwell's demon Attack (MA). MA breaks the channel-mixing and token-mixing mechanism of MLP-Mixer by controlling the part input of MLP-Mixer's each Mixer layer, and disturbs MLP-Mixer to obtain the main information of images. Our method can mask the part input of the Mixer layer, avoid overfitting of the adversarial examples to the source model, and improve the transferability of cross-architecture. Extensive experimental evaluation demonstrates the effectiveness and superior performance of the proposed MA. Our method can be easily combined with existing methods and can improve the transferability by up to 38.0% on MLP-based ResMLP. Adversarial examples produced by our method on MLP-Mixer are able to exceed the transferability of adversarial examples produced using DenseNet against CNNs. To the best of our knowledge, we are the first work to study adversarial transferability of MLP-Mixer.
翻訳日:2022-04-27 13:30:17 公開日:2022-04-26
# 4次元骨格拡張を用いた文脈認識シーケンスアライメント

Context-Aware Sequence Alignment using 4D Skeletal Augmentation ( http://arxiv.org/abs/2204.12223v1 )

ライセンス: Link先を確認
Taein Kwon, Bugra Tekin, Siyu Tang, Marc Pollefeys(参考訳) 映像におけるきめ細かい人間の行動の時間的アライメントは、コンピュータビジョン、ロボティクス、混合現実における多くの応用において重要である。 最先端の手法は強力な深層畳み込みニューラルネットワークを利用して画像に基づく埋め込み空間を直接学習する。 直感的ではあるが、彼らの結果は満足には程遠いが、アライメントされたビデオは、追加の処理ステップなしで時間的不連続を示す。 野生動物における人間の身体と手のポーズ推定の最近の進歩は、ビデオにおける人間のアクションアライメントの課題に対処する新しい方法を約束している。 本研究は,人間のポーズ推定者に基づいて,行動のシーケンスを整合させる新しい文脈認識型自己教師付き学習アーキテクチャを提案する。 これをCASAと呼ぶ。 具体的には、CASAは、人間の行動の空間的・時間的文脈を取り入れ、時間的不連続性問題を解決するために、自己注意と相互注意のメカニズムを採用している。 さらに, 3次元スケルトン表現のための新しい4次元拡張技術により, 自己教師付き学習方式を提案する。 提案手法の重要な要素を体系的に評価する。 3つの公開データセットに対する実験により、CASAは相の進行を著しく改善し、KendallのTauスコアは従来の最先端手法よりも向上した。

Temporal alignment of fine-grained human actions in videos is important for numerous applications in computer vision, robotics, and mixed reality. State-of-the-art methods directly learn image-based embedding space by leveraging powerful deep convolutional neural networks. While being straightforward, their results are far from satisfactory, the aligned videos exhibit severe temporal discontinuity without additional post-processing steps. The recent advancements in human body and hand pose estimation in the wild promise new ways of addressing the task of human action alignment in videos. In this work, based on off-the-shelf human pose estimators, we propose a novel context-aware self-supervised learning architecture to align sequences of actions. We name it CASA. Specifically, CASA employs self-attention and cross-attention mechanisms to incorporate the spatial and temporal context of human actions, which can solve the temporal discontinuity problem. Moreover, we introduce a self-supervised learning scheme that is empowered by novel 4D augmentation techniques for 3D skeleton representations. We systematically evaluate the key components of our method. Our experiments on three public datasets demonstrate CASA significantly improves phase progress and Kendall's Tau scores over the previous state-of-the-art methods.
翻訳日:2022-04-27 13:29:56 公開日:2022-04-26
# 画像復元のための細粒度構造スパーシティ

Attentive Fine-Grained Structured Sparsity for Image Restoration ( http://arxiv.org/abs/2204.12266v1 )

ライセンス: Link先を確認
Junghun Oh, Heewon Kim, Seungjun Nah, Cheeun Hong, Jonghyun Choi, and Kyoung Mu Lee(参考訳) 画像復元タスクは、近年、大きな深層モデルを開発することで大きなパフォーマンス向上を目撃している。 優れた性能にもかかわらず、深層モデルが要求する重い計算は、画像復元の適用を制限している。 制限を解除するためには、精度を維持しながらネットワークのサイズを小さくする必要がある。 近年、N:M構造化プルーニングは、精度の制約でモデルを効率的にするための効果的かつ実用的なプルーニング手法の1つとして現れている。 しかし、画像復元ネットワークの異なる層に対する計算の複雑さや性能要件は考慮されていない。 効率と復元精度のトレードオフをさらに最適化するために, 各層におけるN:M構造空間の刈り取り比を決定する新しい刈り取り法を提案する。 超分解能および脱臭性タスクの広範囲な実験結果から,従来の刈り取り法よりも優れていた方法の有効性が示された。 提案されたメソッドのPyTorch実装はhttps://github.com/JungHunOh/SLS_CVPR2022で公開される。

Image restoration tasks have witnessed great performance improvement in recent years by developing large deep models. Despite the outstanding performance, the heavy computation demanded by the deep models has restricted the application of image restoration. To lift the restriction, it is required to reduce the size of the networks while maintaining accuracy. Recently, N:M structured pruning has appeared as one of the effective and practical pruning approaches for making the model efficient with the accuracy constraint. However, it fails to account for different computational complexities and performance requirements for different layers of an image restoration network. To further optimize the trade-off between the efficiency and the restoration accuracy, we propose a novel pruning method that determines the pruning ratio for N:M structured sparsity at each layer. Extensive experimental results on super-resolution and deblurring tasks demonstrate the efficacy of our method which outperforms previous pruning methods significantly. PyTorch implementation for the proposed methods will be publicly available at https://github.com/JungHunOh/SLS_CVPR2022.
翻訳日:2022-04-27 13:29:35 公開日:2022-04-26
# 時間的局所化のためのコントラスト言語アクション事前学習

Contrastive Language-Action Pre-training for Temporal Localization ( http://arxiv.org/abs/2204.12293v1 )

ライセンス: Link先を確認
Mengmeng Xu, Erhan Gundogdu, Maksim Lapin, Bernard Ghanem, Michael Donoser, Loris Bazzani(参考訳) ロングフォームビデオ理解は、時間的に活動や言語をローカライズできるアプローチを設計する必要がある。 このようなタスクに対するエンドツーエンドのトレーニングは、計算装置のメモリ制約と大規模な時間アノテーションの欠如によって制限される。 これらの制限は、クラスアノテーションによって監視された時間的トリミングビデオの大規模なデータセットを事前トレーニングすることで対処できる。 ビデオエンコーダが事前トレーニングされると、微調整中に凍結することが一般的である。 したがって、ビデオエンコーダは、時間的境界や見当たらないクラスを学習せず、ダウンストリームタスクに関してドメインギャップを引き起こす。 さらに、時間的トリミングビデオを使用することで、ビデオクリップ内の異なるアクションカテゴリと背景コンテキストの関係を捉えることができ、一般化能力が制限される。 これらの制約に対処するために,言語を利用したビデオエンコーダを凍結することなく,新しい事前学習手法を提案する。 そこで本研究では,アクティベーション,背景映像,言語の関係をキャプション形式で捉えるために,マスキングによるコントラスト学習ロスを導入する。 実験の結果,提案手法は,時間的行動の定位,短時間の時間的行動定位,ビデオ言語接地作業の状況を改善した。

Long-form video understanding requires designing approaches that are able to temporally localize activities or language. End-to-end training for such tasks is limited by the compute device memory constraints and lack of temporal annotations at large-scale. These limitations can be addressed by pre-training on large datasets of temporally trimmed videos supervised by class annotations. Once the video encoder is pre-trained, it is common practice to freeze it during fine-tuning. Therefore, the video encoder does not learn temporal boundaries and unseen classes, causing a domain gap with respect to the downstream tasks. Moreover, using temporally trimmed videos prevents to capture the relations between different action categories and the background context in a video clip which results in limited generalization capacity. To address these limitations, we propose a novel post-pre-training approach without freezing the video encoder which leverages language. We introduce a masked contrastive learning loss to capture visio-linguistic relations between activities, background video clips and language in the form of captions. Our experiments show that the proposed approach improves the state-of-the-art on temporal action localization, few-shot temporal action localization, and video language grounding tasks.
翻訳日:2022-04-27 13:29:22 公開日:2022-04-26
# スーパーピクセルを用いたハイパースペクトルリモートセンシング画像の教師なしセグメンテーション

Unsupervised Segmentation of Hyperspectral Remote Sensing Images with Superpixels ( http://arxiv.org/abs/2204.12296v1 )

ライセンス: Link先を確認
Mirko Paolo Barbato, Paolo Napoletano, Flavio Piccoli, Raimondo Schettini(参考訳) 本稿では,ハイパースペクトルリモートセンシング画像分割のための教師なし手法を提案する。 本手法は、スペクトル画素情報とともに予備のハイパースペクトルスーパーピクセルセグメンテーションを入力とする平均シフトクラスタリングアルゴリズムを利用する。 提案手法では,セグメンテーションクラス数を入力パラメータとして必要とせず,土地被覆の種類や土地利用に関するaプライオリ知識(例えば,水,植生,建物など)を活用できない。 サリナス、サリナスA、パヴィアセンター、パヴィア大学のデータセットの実験が行われた。 性能は正規化された相互情報、調整されたランド指数、f1-scoreで測定される。 その結果, 提案手法の有効性は, 技術の現状と比較して明らかとなった。

In this paper, we propose an unsupervised method for hyperspectral remote sensing image segmentation. The method exploits the mean-shift clustering algorithm that takes as input a preliminary hyperspectral superpixels segmentation together with the spectral pixel information. The proposed method does not require the number of segmentation classes as input parameter, and it does not exploit any a-priori knowledge about the type of land-cover or land-use to be segmented (e.g. water, vegetation, building etc.). Experiments on Salinas, SalinasA, Pavia Center and Pavia University datasets are carried out. Performance are measured in terms of normalized mutual information, adjusted Rand index and F1-score. Results demonstrate the validity of the proposed method in comparison with the state of the art.
翻訳日:2022-04-27 13:29:00 公開日:2022-04-26
# 統一GCN:GCNとCNNの接続を目指して

Unified GCNs: Towards Connecting GCNs with CNNs ( http://arxiv.org/abs/2204.12300v1 )

ライセンス: Link先を確認
Ziyan Zhang, Bo Jiang, and Bin Luo(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフデータの表現と学習において、その強力な能力を広く実証している。 既存のグラフ畳み込み層は、主にグラフ信号処理と変換の側面に基づいて設計されている。 誰もが知っているように、畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンと機械学習で大きな成功を収めています。 CNNは、多くの学習可能な畳み込みフィルタ(カーネル)を利用してリッチな特徴記述子を得るため、視覚データ解析における複雑なパターンをエンコードする能力が高い。 また、CNNはMobileNet、ResNet、Xceptionといったネットワークアーキテクチャの設計にも柔軟です。 グラフ畳み込み層をCNNのように柔軟に設計することはできるだろうか? 本稿では,GCNとCNNの相互接続について,深い分離可能な畳み込み操作の一般的な視点から検討する。 具体的には,GCN と GAT が特定の深さ分離可能な畳み込み操作を行うことを示す。 この斬新な解釈により、GCN(GCN, GAT)とCNN(CNN)の接続をよりよく理解することができ、さらに統一GCN(UGCN)の設計を促すことができます。 2つのショーケースとして、グラフデータ表現と学習のための分離可能なUGCN(S-UGCN)と一般UGCN(G-UGCN)という2つのUGCNを実装している。 いくつかのグラフ表現ベンチマークで実験を行い、提案したUGCNの有効性と利点を示した。

Graph Convolutional Networks (GCNs) have been widely demonstrated their powerful ability in graph data representation and learning. Existing graph convolution layers are mainly designed based on graph signal processing and transform aspect which usually suffer from some limitations, such as over-smoothing, over-squashing and non-robustness, etc. As we all know that Convolution Neural Networks (CNNs) have received great success in many computer vision and machine learning. One main aspect is that CNNs leverage many learnable convolution filters (kernels) to obtain rich feature descriptors and thus can have high capacity to encode complex patterns in visual data analysis. Also, CNNs are flexible in designing their network architecture, such as MobileNet, ResNet, Xception, etc. Therefore, it is natural to arise a question: can we design graph convolutional layer as flexibly as that in CNNs? Innovatively, in this paper, we consider connecting GCNs with CNNs deeply from a general perspective of depthwise separable convolution operation. Specifically, we show that GCN and GAT indeed perform some specific depthwise separable convolution operations. This novel interpretation enables us to better understand the connections between GCNs (GCN, GAT) and CNNs and further inspires us to design more Unified GCNs (UGCNs). As two showcases, we implement two UGCNs, i.e., Separable UGCN (S-UGCN) and General UGCN (G-UGCN) for graph data representation and learning. Promising experiments on several graph representation benchmarks demonstrate the effectiveness and advantages of the proposed UGCNs.
翻訳日:2022-04-27 13:28:48 公開日:2022-04-26
# (参考訳) 片手から複数手へ:単一カメラ遠隔操作によるデクサラスマニピュレーションのための模倣学習

From One Hand to Multiple Hands: Imitation Learning for Dexterous Manipulation from Single-Camera Teleoperation ( http://arxiv.org/abs/2204.12490v1 )

ライセンス: CC BY 4.0
Yuzhe Qin, Hao Su, Xiaolong Wang(参考訳) 本稿では,人間の実演から,多指ロボットハンドを用いたデクスタース操作のための模倣学習を行い,その方針を実ロボットハンドに伝達する。 我々は,iPadとコンピュータのみで3Dデモを効率的に収集する,新しい単一カメラ遠隔操作システムを提案する。 本システムの主な貢献は,操作者の手の構造と形状に類似したマニピュレータである物理シミュレータにおいて,各ユーザ向けにカスタマイズされたロボットハンドを構築することである。 これは直感的なインターフェースを提供し、データ収集のための不安定なヒューマンロボットハンドリターゲティングを回避し、大規模で高品質なデータを生み出す。 データが収集されると、カスタマイズされたロボットハンドの軌跡を、特定のロボットハンド(製造されたモデル)に変換して、トレーニングデモを生成する。 データを用いた模倣学習では、複数の複雑な操作タスクでベースラインを大幅に改善する。 重要なことは、実際のロボットに移行する際に、学習方針がはるかに堅牢であることである。 さらなるビデオはhttps://yzqin.github.io/dex-teleop-imitation で見ることができる。

We propose to perform imitation learning for dexterous manipulation with multi-finger robot hand from human demonstrations, and transfer the policy to the real robot hand. We introduce a novel single-camera teleoperation system to collect the 3D demonstrations efficiently with only an iPad and a computer. One key contribution of our system is that we construct a customized robot hand for each user in the physical simulator, which is a manipulator resembling the same kinematics structure and shape of the operator's hand. This provides an intuitive interface and avoid unstable human-robot hand retargeting for data collection, leading to large-scale and high quality data. Once the data is collected, the customized robot hand trajectories can be converted to different specified robot hands (models that are manufactured) to generate training demonstrations. With imitation learning using our data, we show large improvement over baselines with multiple complex manipulation tasks. Importantly, we show our learned policy is significantly more robust when transferring to the real robot. More videos can be found in the https://yzqin.github.io/dex-teleop-imitation .
翻訳日:2022-04-27 13:27:32 公開日:2022-04-26
# 確率的ウェイト平均化による数ショット学習のためのメタ自由表現学習

Meta-free representation learning for few-shot learning via stochastic weight averaging ( http://arxiv.org/abs/2204.12466v1 )

ライセンス: Link先を確認
Kuilin Chen, Chi-Guhn Lee(参考訳) 転向学習を用いた少数ショット分類の最近の研究は、エピソディックメタラーニングアルゴリズムの有効性と効率に挑戦している。 転送学習のアプローチは自然な方法だが、限定的な分類に制限されている。 さらに、ベイズのエピソディック学習アルゴリズムを除いて、少数のサンプルから十分な不確実性を持つ確率モデルの開発にはほとんど注意が払われていない。 上記の課題に対処するため,数発のレグレッションと分類のための正確かつ信頼性の高いモデルを得るための新しい移動学習手法を提案する。 この手法はエピソディックメタラーニングを必要とせず、メタフリー表現学習(meta-free representation learning, mfrl)と呼ばれる。 MFRLはまず、メタテストタスクをうまく一般化した低ランク表現を見つける。 学習された表現から、確率線形モデルは、よく校正された不確実性を持つモデルを得るために、少数のサンプルで微調整される。 提案手法は,多種多様な数点学習ベンチマークデータセットにおいて,高い精度を実現するだけでなく,予測の不確かさを正しく定量化する。 さらに、重量平均化と温度スケーリングは、幅広い学習パラダイムとモデルアーキテクチャを持つ既存のメタ学習アルゴリズムにおいて、数ショット学習の精度と信頼性を向上させるのに有効である。

Recent studies on few-shot classification using transfer learning pose challenges to the effectiveness and efficiency of episodic meta-learning algorithms. Transfer learning approaches are a natural alternative, but they are restricted to few-shot classification. Moreover, little attention has been on the development of probabilistic models with well-calibrated uncertainty from few-shot samples, except for some Bayesian episodic learning algorithms. To tackle the aforementioned issues, we propose a new transfer learning method to obtain accurate and reliable models for few-shot regression and classification. The resulting method does not require episodic meta-learning and is called meta-free representation learning (MFRL). MFRL first finds low-rank representation generalizing well on meta-test tasks. Given the learned representation, probabilistic linear models are fine-tuned with few-shot samples to obtain models with well-calibrated uncertainty. The proposed method not only achieves the highest accuracy on a wide range of few-shot learning benchmark datasets but also correctly quantifies the prediction uncertainty. In addition, weight averaging and temperature scaling are effective in improving the accuracy and reliability of few-shot learning in existing meta-learning algorithms with a wide range of learning paradigms and model architectures.
翻訳日:2022-04-27 13:10:22 公開日:2022-04-26
# Monant Medical Misinformation Dataset: 記事をFact-Checked Claimsにマッピングする

Monant Medical Misinformation Dataset: Mapping Articles to Fact-Checked Claims ( http://arxiv.org/abs/2204.12294v1 )

ライセンス: Link先を確認
Ivan Srba, Branislav Pecher, Matus Tomlein, Robert Moro, Elena Stefancova, Jakub Simko, Maria Bielikova(参考訳) 偽情報は、社会全体だけでなく個人にも顕著な悪影響を及ぼす。 特に現在の新型コロナウイルス(COVID-19)時代には、医療上の誤報が前例のない成長を遂げている。 機械学習のアプローチでこの問題に取り組むために、私たちは、おおよその機能豊富なデータセットを公開しています。 317kの医療ニュース記事/ブログ、3.5kの事実確認クレーム。 また、手作業で573個、クレームと記事のマッピングに51k以上のラベルを付けている。 マッピングは,クレームの存在,すなわち,クレームが所定の記事に含まれるか否か,及びクレームに対する記事のスタンスから構成される。 これら2つのタスクのベースラインを提供し、データセットのラベル付けされた部分で評価する。 このデータセットは、誤情報の特徴化研究やソース間の誤情報の拡散の研究など、医療的誤情報の多くの追加タスクを可能にする。

False information has a significant negative influence on individuals as well as on the whole society. Especially in the current COVID-19 era, we witness an unprecedented growth of medical misinformation. To help tackle this problem with machine learning approaches, we are publishing a feature-rich dataset of approx. 317k medical news articles/blogs and 3.5k fact-checked claims. It also contains 573 manually and more than 51k automatically labelled mappings between claims and articles. Mappings consist of claim presence, i.e., whether a claim is contained in a given article, and article stance towards the claim. We provide several baselines for these two tasks and evaluate them on the manually labelled part of the dataset. The dataset enables a number of additional tasks related to medical misinformation, such as misinformation characterisation studies or studies of misinformation diffusion between sources.
翻訳日:2022-04-27 13:09:35 公開日:2022-04-26
# ニューラルネットワークの一般化向上のためのハイブリッド化ロス関数

Hybridised Loss Functions for Improved Neural Network Generalisation ( http://arxiv.org/abs/2204.12244v1 )

ライセンス: Link先を確認
Matthew C. Dickson, Anna S. Bosman and Katherine M. Malan(参考訳) 損失関数は、人工知能ニューラルネットワーク(ANN)のトレーニングにおいて重要な役割を果たし、ANNモデルの一般化能力に影響を及ぼす可能性がある。 具体的には、交叉エントロピーと和二乗誤差損失関数は異なるトレーニングダイナミクスをもたらし、互いに相補的な特性を示すことが示されている。 従来、エントロピーと和2乗誤差損失関数のハイブリッドは、2つの関数の利点を組み合わせ、その欠点を制限できると考えられてきた。 本研究では,ハイブリッド損失関数の有効性を検討した。 2つの損失関数のハイブリッド化は、考慮すべきすべての問題において、ANNの一般化能力を向上させる。 合計二乗誤差損失関数を用いてトレーニングを開始し、その後クロスエントロピー誤差損失関数に切り替えるハイブリッド損失関数は、平均でベストを果たすか、考慮されたすべての問題に対してテストされたベスト損失関数と大きく異なるかを示す。 本研究では, 和二乗誤差損失関数によって発見されたミニマは, クロスエントロピー誤差損失関数に切り換えることでさらに活用できることを示す。 したがって、2つの損失関数のハイブリダイゼーションは ann の性能向上につながると結論付けることができる。

Loss functions play an important role in the training of artificial neural networks (ANNs), and can affect the generalisation ability of the ANN model, among other properties. Specifically, it has been shown that the cross entropy and sum squared error loss functions result in different training dynamics, and exhibit different properties that are complementary to one another. It has previously been suggested that a hybrid of the entropy and sum squared error loss functions could combine the advantages of the two functions, while limiting their disadvantages. The effectiveness of such hybrid loss functions is investigated in this study. It is shown that hybridisation of the two loss functions improves the generalisation ability of the ANNs on all problems considered. The hybrid loss function that starts training with the sum squared error loss function and later switches to the cross entropy error loss function is shown to either perform the best on average, or to not be significantly different than the best loss function tested for all problems considered. This study shows that the minima discovered by the sum squared error loss function can be further exploited by switching to cross entropy error loss function. It can thus be concluded that hybridisation of the two loss functions could lead to better performance in ANNs.
翻訳日:2022-04-27 13:06:48 公開日:2022-04-26
# マルチタスク学習による快適感・感性・嗜好の同時予測

Multi-task Learning for Concurrent Prediction of Thermal Comfort, Sensation, and Preference ( http://arxiv.org/abs/2204.12380v1 )

ライセンス: Link先を確認
Betty Lala, Hamada Rizk, Srikant Manas Kala, Aya Hagishima(参考訳) 室内の熱的快適さは、居住者の健康とパフォーマンスに大きな影響を及ぼす。 そのため、研究者や技術者は熱快適性(TC)を推定するための多くの計算モデルを提案している。 エネルギー効率への衝動を考えると、現在の焦点は最先端機械学習(ml)アルゴリズムを活用するデータ駆動tc予測ソリューションである。 しかし,室内熱快適感(TC)は主観的かつ多次元的である。 TCのさまざまな側面は、様々な標準指標/スケールビズ、熱センセーション(TSV)、熱快適性(TCV)、熱嗜好(TPV)によって表される。 現在のMLベースのTC予測ソリューションは、シングルタスク学習アプローチ、すなわちメトリック毎に1つの予測モデルを採用している。 したがって、ソリューションはしばしば1つのTCメトリックのみに焦点を当てます。 さらに、いくつかのメトリクスを考慮すると、1つの屋内空間の複数のTCモデルが矛盾する予測をもたらし、現実のデプロイメントが不可能になる。 この仕事はこれらの問題に対処する。 自然に換気された小学校の教室は,エネルギー保全と実世界の応用をめざして検討されている。 まず5つの学校と14の教室で1ヶ月のフィールド実験が行われ、512人の学生が参加した。 さらに,マルチタスク学習に触発されたディープラーニングモデル「deepcomfort」を提案する。 DeepComfortは、単一のモデルで複数のTC出力メトリクスviz., TSV, TPV, TCVを同時に予測する。 本研究は,ASHRAE-IIデータベースと本研究で作成したデータセットを用いて,高いF1スコア,精度(>90%),一般化能力を示す。 DeepComfortはまた、一般的なメトリック固有のシングルタスク機械学習アルゴリズムを6つ上回っている。 我々の知る限り、この研究は教室におけるマルチタスク学習の温熱的快適性予測への最初の応用である。

Indoor thermal comfort immensely impacts the health and performance of occupants. Therefore, researchers and engineers have proposed numerous computational models to estimate thermal comfort (TC). Given the impetus toward energy efficiency, the current focus is on data-driven TC prediction solutions that leverage state-of-the-art machine learning (ML) algorithms. However, an indoor occupant's perception of indoor thermal comfort (TC) is subjective and multi-dimensional. Different aspects of TC are represented by various standard metrics/scales viz., thermal sensation (TSV), thermal comfort (TCV), and thermal preference (TPV). The current ML-based TC prediction solutions adopt the Single-task Learning approach, i.e., one prediction model per metric. Consequently, solutions often focus on only one TC metric. Moreover, when several metrics are considered, multiple TC models for a single indoor space lead to conflicting predictions, making real-world deployment infeasible. This work addresses these problems. With the vision toward energy conservation and real-world application, naturally ventilated primary school classrooms are considered. First, month-long field experiments are conducted in 5 schools and 14 classrooms, including 512 unique student participants. Further, "DeepComfort," a Multi-task Learning inspired deep-learning model is proposed. DeepComfort predicts multiple TC output metrics viz., TSV, TPV, and TCV, simultaneously, through a single model. It demonstrates high F1-scores, Accuracy (>90%), and generalization capability when validated on the ASHRAE-II database and the dataset created in this study. DeepComfort is also shown to outperform 6 popular metric-specific single-task machine learning algorithms. To the best of our knowledge, this work is the first application of Multi-task Learning to thermal comfort prediction in classrooms.
翻訳日:2022-04-27 13:06:02 公開日:2022-04-26
# 非指向状態のみの経験から学ぶ価値関数

Learning Value Functions from Undirected State-only Experience ( http://arxiv.org/abs/2204.12458v1 )

ライセンス: Link先を確認
Matthew Chang, Arjun Gupta, Saurabh Gupta(参考訳) 本稿では,無向状態のみの経験(動作ラベルのない状態遷移,すなわち(s,s,r)タプル)から価値関数を学習する問題に取り組む。 本稿ではまず,Q-ラーニングの適用性を理論的に評価する。 離散マルコフ決定過程(MDP)における表型Q-ラーニングは、任意のアクション空間の洗練の下で同じ値関数を学習することを示す。 この理論的結果は、状態のみの経験から効果的な値関数を学習できるオフラインRL法であるLatent Action Q-learning(LAQ)の設計を動機付けている。 潜時行動Q学習(LAQ)は、潜時変動予測モデルを用いて得られた離散潜時行動に基づいてQ学習を用いて値関数を学習する。 LAQは、基底真理行動を用いて学習した値関数と高い相関を持つ値関数を復元できることを示す。 laqを使って学んだ値関数は、目標指向の振る舞いのサンプルを効率的に取得し、ドメイン固有の低レベルコントローラで使用し、実施形態間の転送を容易にする。 2dグリッドの世界から3dビジュアルナビゲーションまで,現実環境における5つの環境における実験では,laqがよりシンプルな代替手段,模倣学習オラクル,競合する手法よりも優れていることが示されています。

This paper tackles the problem of learning value functions from undirected state-only experience (state transitions without action labels i.e. (s,s',r) tuples). We first theoretically characterize the applicability of Q-learning in this setting. We show that tabular Q-learning in discrete Markov decision processes (MDPs) learns the same value function under any arbitrary refinement of the action space. This theoretical result motivates the design of Latent Action Q-learning or LAQ, an offline RL method that can learn effective value functions from state-only experience. Latent Action Q-learning (LAQ) learns value functions using Q-learning on discrete latent actions obtained through a latent-variable future prediction model. We show that LAQ can recover value functions that have high correlation with value functions learned using ground truth actions. Value functions learned using LAQ lead to sample efficient acquisition of goal-directed behavior, can be used with domain-specific low-level controllers, and facilitate transfer across embodiments. Our experiments in 5 environments ranging from 2D grid world to 3D visual navigation in realistic environments demonstrate the benefits of LAQ over simpler alternatives, imitation learning oracles, and competing methods.
翻訳日:2022-04-27 13:05:33 公開日:2022-04-26
# エンジニアリング艦隊における知識伝達:マルチタスク学習のための階層ベイズモデル

Knowledge Transfer in Engineering Fleets: Hierarchical Bayesian Modelling for Multi-Task Learning ( http://arxiv.org/abs/2204.12404v1 )

ライセンス: Link先を確認
L.A. Bull, M. Dhada, O. Steinert, T. Lindgren, A.K. Parlikad, A.B. Duncan, M. Girolami(参考訳) 本稿では,エンジニアリングインフラストラクチャの予測モデルを構築する際に,データの分散性に対処する集団レベルの分析を提案する。 類似の資産間で情報を共有することにより、ヒエラルキーベイズモデルを用いて、トラック船隊(ハザードカーブ)の生存率分析と風力発電所(パワーカーブ)の電力予測を改善する。 それぞれの例において、相関関数の集合は、集団モデルを学ぶために、組み合わせた推論で資産艦隊を通して学習される。 階層内の異なるレベルにおいて相関情報の共有が許された場合、パラメータ推定が改善される。 逆に、不完全データを持つグループは、データ豊富なグループから統計的な強度を自動で借用する。 相関関係を調べて、どの資産がどの効果(すなわちパラメータ)について情報を共有するかを知らせる。

We propose a population-level analysis to address issues of data sparsity when building predictive models of engineering infrastructure. By sharing information between similar assets, hierarchical Bayesian modelling is used to improve the survival analysis of a truck fleet (hazard curves) and power prediction in a wind farm (power curves). In each example, a set of correlated functions are learnt over the asset fleet, in a combined inference, to learn a population model. Parameter estimation is improved when sub-fleets of assets are allowed to share correlated information at different levels in the hierarchy. In turn, groups with incomplete data automatically borrow statistical strength from those that are data-rich. The correlations can be inspected to inform which assets share information for which effect (i.e. parameter).
翻訳日:2022-04-27 13:05:12 公開日:2022-04-26
# AAU-net:超音波画像における乳腺病変分離のための適応的注意U-net

AAU-net: An Adaptive Attention U-net for Breast Lesions Segmentation in Ultrasound Images ( http://arxiv.org/abs/2204.12077v1 )

ライセンス: Link先を確認
Gongping Chen, Yu Dai, Jianxun Zhang and Moi Hoon Yap(参考訳) 超音波画像から乳房病変を抽出する様々な深層学習法が提案されている。 しかし, 同様の強度分布, 腫瘍形態, ぼやけた境界は, 乳腺病変の分節, 特に異常な形状の悪性腫瘍に対する課題を呈している。 超音波画像の複雑さを考慮し,乳腺病変を超音波画像から自動的に安定的に分離する適応型注意U-net(AAU-net)を開発した。 具体的には,従来の畳み込み操作に代えて,チャネル自己着型ブロックと空間自己着型ブロックを主とするハイブリッド適応型アテンションモジュールを提案する。 従来の畳み込み操作と比較して,ハイブリッド適応型アテンションモジュールの設計は,異なる受容領域下でより多くの特徴を捉えるのに役立つ。 既存の注意機構と異なり、ハイブリッド適応型注意モジュールはネットワークを誘導し、より複雑な乳房病変のセグメンテーションに対処するために、チャネルと空間次元のより堅牢な表現を適応的に選択することができる。 3つの公衆乳房超音波データセットにおける最先端のディープラーニングセグメンテーション法を用いた広範囲な実験により,乳房病変セグメンテーションの性能が向上した。 さらにロバスト性解析と外部実験により,提案するaau-netは乳腺病変の分節化においてより汎用性が向上することが示された。 さらに、ハイブリッドアダプティブアテンションモジュールを既存のネットワークフレームワークに柔軟に適用することができる。

Various deep learning methods have been proposed to segment breast lesion from ultrasound images. However, similar intensity distributions, variable tumor morphology and blurred boundaries present challenges for breast lesions segmentation, especially for malignant tumors with irregular shapes. Considering the complexity of ultrasound images, we develop an adaptive attention U-net (AAU-net) to segment breast lesions automatically and stably from ultrasound images. Specifically, we introduce a hybrid adaptive attention module, which mainly consists of a channel self-attention block and a spatial self-attention block, to replace the traditional convolution operation. Compared with the conventional convolution operation, the design of the hybrid adaptive attention module can help us capture more features under different receptive fields. Different from existing attention mechanisms, the hybrid adaptive attention module can guide the network to adaptively select more robust representation in channel and space dimensions to cope with more complex breast lesions segmentation. Extensive experiments with several state-of-the-art deep learning segmentation methods on three public breast ultrasound datasets show that our method has better performance on breast lesion segmentation. Furthermore, robustness analysis and external experiments demonstrate that our proposed AAU-net has better generalization performance on the segmentation of breast lesions. Moreover, the hybrid adaptive attention module can be flexibly applied to existing network frameworks.
翻訳日:2022-04-27 13:03:08 公開日:2022-04-26
# 高次元ロバスト統計のストリーミングアルゴリズム

Streaming Algorithms for High-Dimensional Robust Statistics ( http://arxiv.org/abs/2204.12399v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Ankit Pensia, Thanasis Pittas(参考訳) ストリーミングモデルにおける高次元ロバスト統計タスクについて検討する。 近年,高次元ロバスト推定タスクにおいて計算効率の高いアルゴリズムが提案されている。 残念なことに、以前のアルゴリズムはすべてデータセット全体を格納する必要がある。 本研究では,(対数係数まで)最適に近いメモリ要件を持つ高次元ロバスト統計量に対して,最初の効率的なストリーミングアルゴリズムを開発した。 我々の主な結果は,フーバー汚染モデルにおける高次元ロバスト平均推定の課題である。 ほぼ最適誤差保証と空間の複雑さをほぼ線形とした,このタスクのための効率的なシングルパスストリーミングアルゴリズムを提案する。 結果として,ロバスト共分散推定,ロバスト回帰,より一般にロバストな確率最適化など,より複雑なタスクに対して,最適に近い空間複雑性を持つストリーミングアルゴリズムを得る。

We study high-dimensional robust statistics tasks in the streaming model. A recent line of work obtained computationally efficient algorithms for a range of high-dimensional robust estimation tasks. Unfortunately, all previous algorithms require storing the entire dataset, incurring memory at least quadratic in the dimension. In this work, we develop the first efficient streaming algorithms for high-dimensional robust statistics with near-optimal memory requirements (up to logarithmic factors). Our main result is for the task of high-dimensional robust mean estimation in (a strengthening of) Huber's contamination model. We give an efficient single-pass streaming algorithm for this task with near-optimal error guarantees and space complexity nearly-linear in the dimension. As a corollary, we obtain streaming algorithms with near-optimal space complexity for several more complex tasks, including robust covariance estimation, robust regression, and more generally robust stochastic optimization.
翻訳日:2022-04-27 13:02:44 公開日:2022-04-26
# リプリント:データ拡張のための主成分に基づくランダム化外挿

Reprint: a randomized extrapolation based on principal components for data augmentation ( http://arxiv.org/abs/2204.12024v1 )

ライセンス: Link先を確認
Jiale Wei, Qiyuan Chen, Pai Peng, Benjamin Guedj, Le Li(参考訳) データ不足とデータの不均衡は多くの分野で注目を集めている。 データ拡張は、それらに取り組む効果的なアプローチとして検討され、新しいサンプルを生成して分類モデルのロバスト性と効率を向上させることができる。 本稿では,不均衡なデータ分類のためのシンプルで効果的な隠れ空間データ拡張手法であるREPRINTを提案する。 各クラスのサンプルの隠された空間表現が与えられた場合、REPRINTはランダムな方法でターゲットクラスの例を例示し、主成分が分散した部分空間を使用してソースクラスとターゲットクラスの分布構造を要約する。 その結果、生成された例は、ターゲット分布の本来の幾何学を維持しながら、ターゲットを多様化する。 さらに、この方法は、新しいソフトラベルを拡張例用に合成できるラベルリファインメントコンポーネントを含んでいる。 4つのテキスト分類ベンチマークにおいて、さまざまなデータ不均衡シナリオの下で異なるNLPデータ拡張アプローチと比較して、REPRINTは顕著な改善を示している。 さらに,包括的アブレーション研究を通じて,拡張例のラベル保存よりもラベルリファインメントが優れていることを示し,本手法は主成分の適切な選択に関して安定かつ一貫した改善を示唆する。 さらに、RePRINTは、サブスペースの次元を決定する1つのハイパーパラメータしか含んでおらず、計算資源の少ないため、使いやすさを訴えている。

Data scarcity and data imbalance have attracted a lot of attention in many fields. Data augmentation, explored as an effective approach to tackle them, can improve the robustness and efficiency of classification models by generating new samples. This paper presents REPRINT, a simple and effective hidden-space data augmentation method for imbalanced data classification. Given hidden-space representations of samples in each class, REPRINT extrapolates, in a randomized fashion, augmented examples for target class by using subspaces spanned by principal components to summarize distribution structure of both source and target class. Consequently, the examples generated would diversify the target while maintaining the original geometry of target distribution. Besides, this method involves a label refinement component which allows to synthesize new soft labels for augmented examples. Compared with different NLP data augmentation approaches under a range of data imbalanced scenarios on four text classification benchmark, REPRINT shows prominent improvements. Moreover, through comprehensive ablation studies, we show that label refinement is better than label-preserving for augmented examples, and that our method suggests stable and consistent improvements in terms of suitable choices of principal components. Moreover, REPRINT is appealing for its easy-to-use since it contains only one hyperparameter determining the dimension of subspace and requires low computational resource.
翻訳日:2022-04-27 13:02:31 公開日:2022-04-26
# 単語挿入・削除誤り検出のための事前学習中国語bert

Pretraining Chinese BERT for Detecting Word Insertion and Deletion Errors ( http://arxiv.org/abs/2204.12052v1 )

ライセンス: Link先を確認
Cong Zhou, Yong Dai, Duyu Tang, Enbo Zhao, Zhangyin Feng, Li Kuang, and Shuming Shi(参考訳) 中国語 BERT モデルは,単語置換の文法的誤りに対処する上で,顕著な進歩を達成している。 しかし、BERTは各位置に単語が存在すると仮定するため、単語挿入と削除の処理に失敗する。 これを解決するために、簡素で効果的な中国語事前学習モデルを提案する。 基本的な考え方は、ある単語が特定の位置に存在するかどうかをモデルが決定できるようにすることである。 我々は、単語の非存在を表す特別なトークン \texttt{[null]} を導入することで、これを実現する。 トレーニング段階では、モデルが周囲の文脈で同時に \texttt{[null]} と実単語を予測するように事前学習タスクを設計する。 推論段階では、標準的なマスキング言語モデリング機能で単語を挿入または削除すべきかどうかを容易に検出する。 さらに,単語挿入と削除の研究を促進するための評価データセットを作成する。 7,726文の人間の注釈による訂正を含む。 その結果,既存の中国のBERTは挿入誤りや削除誤りを検出できないことがわかった。 提案手法は,単語挿入時のF1スコアを24.1\%から78.1\%に,単語削除時の26.5\%から68.5\%に改善する。

Chinese BERT models achieve remarkable progress in dealing with grammatical errors of word substitution. However, they fail to handle word insertion and deletion because BERT assumes the existence of a word at each position. To address this, we present a simple and effective Chinese pretrained model. The basic idea is to enable the model to determine whether a word exists at a particular position. We achieve this by introducing a special token \texttt{[null]}, the prediction of which stands for the non-existence of a word. In the training stage, we design pretraining tasks such that the model learns to predict \texttt{[null]} and real words jointly given the surrounding context. In the inference stage, the model readily detects whether a word should be inserted or deleted with the standard masked language modeling function. We further create an evaluation dataset to foster research on word insertion and deletion. It includes human-annotated corrections for 7,726 erroneous sentences. Results show that existing Chinese BERT performs poorly on detecting insertion and deletion errors. Our approach significantly improves the F1 scores from 24.1\% to 78.1\% for word insertion and from 26.5\% to 68.5\% for word deletion, respectively.
翻訳日:2022-04-27 13:02:09 公開日:2022-04-26
# 統計的自然言語処理技術を用いたクエリ関連質問の提案

Suggesting Relevant Questions for a Query Using Statistical Natural Language Processing Technique ( http://arxiv.org/abs/2204.12069v1 )

ライセンス: Link先を確認
Shriniwas Nayak, Anuj Kanetkar, Hrushabh Hirudkar, Archana Ghotkar, Sheetal Sonawane and Onkar Litake(参考訳) ユーザクエリに対する同様の質問の推奨には、EコマースWebサイトのユーザの検索時間短縮、企業の従業員のトレーニング、学生の全体学習など、多くのアプリケーションがある。 同様の疑問を提起するための自然言語処理技術の使用は、既存のアーキテクチャに広く普及している。 テキストの類似性、すなわち構文と意味論を見出すために主に2つのアプローチが研究されているが、それぞれが欠点を持ち、望ましい結果を提供していない。 本稿では, テキスト類似度を決定するための自己学習複合手法を提案し, 与えられたデータベースから類似した質問を抽出するための頑健な重み付き構文と意味類似度指数を導入し, 検討中のデータベースに対して, 上記のアプローチの最適組み合わせを学習する。 既存の文献に対する提案手法の効率性と有効性を正当化するために,包括的分析を行った。

Suggesting similar questions for a user query has many applications ranging from reducing search time of users on e-commerce websites, training of employees in companies to holistic learning for students. The use of Natural Language Processing techniques for suggesting similar questions is prevalent over the existing architecture. Mainly two approaches are studied for finding text similarity namely syntactic and semantic, however each has its draw-backs and fail to provide the desired outcome. In this article, a self-learning combined approach is proposed for determining textual similarity that introduces a robust weighted syntactic and semantic similarity index for determining similar questions from a predetermined database, this approach learns the optimal combination of the mentioned approaches for a database under consideration. Comprehensive analysis has been carried out to justify the efficiency and efficacy of the proposed approach over the existing literature.
翻訳日:2022-04-27 13:01:48 公開日:2022-04-26
# (参考訳) 木の拡大に伴う粗大なQ-attention

Coarse-to-fine Q-attention with Tree Expansion ( http://arxiv.org/abs/2204.12471v1 )

ライセンス: CC BY 4.0
Stephen James and Pieter Abbeel(参考訳) 粗大なQ-アテンションは、各階層の分解能が徐々に増大する粗大な方法で翻訳空間を識別することにより、サンプリング効率の良いロボット操作を可能にする。 有効ではあるが、q-アテンションは「曖昧さ」に苦しむ - ボクセル化が著しく粗い場合、より細かい解像度で最初に検査することなく類似した物体を区別することは不可能である。 そこで本研究では,q-attentionを拡張可能で,q-attention深度毎にトップkボクセルの値推定値を蓄積できる木として想定する。 我々の拡張であるQ-attention with Tree Expansion (QTE)は、Attention-driven Robot Manipulation (ARM)システムにおける標準的なQ-attentionに取って代わるものである。 12のrlbenchタスクに対するアプローチの評価に加えて、小さなオブジェクトを含む現実世界のタスクでパフォーマンスが向上していることも示しています。

Coarse-to-fine Q-attention enables sample-efficient robot manipulation by discretizing the translation space in a coarse-to-fine manner, where the resolution gradually increases at each layer in the hierarchy. Although effective, Q-attention suffers from "coarse ambiguity" - when voxelization is significantly coarse, it is not feasible to distinguish similar-looking objects without first inspecting at a finer resolution. To combat this, we propose to envision Q-attention as a tree that can be expanded and used to accumulate value estimates across the top-k voxels at each Q-attention depth. When our extension, Q-attention with Tree Expansion (QTE), replaces standard Q-attention in the Attention-driven Robot Manipulation (ARM) system, we are able to accomplish a larger set of tasks; especially on those that suffer from "coarse ambiguity". In addition to evaluating our approach across 12 RLBench tasks, we also show that the improved performance is visible in a real-world task involving small objects.
翻訳日:2022-04-27 13:00:17 公開日:2022-04-26
# 名前付きエンティティ認識のための境界平滑化

Boundary Smoothing for Named Entity Recognition ( http://arxiv.org/abs/2204.12031v1 )

ライセンス: Link先を確認
Enwei Zhu and Jinpeng Li(参考訳) ニューラルネームエンティティ認識(NER)モデルは、性能とキャリブレーションを低下させる過信問題に容易に遭遇する可能性がある。 NER工学における境界アノテーションのあいまいさにインスパイアされたラベル平滑化により,スパンベースニューラルNERモデルの正規化手法として境界平滑化を提案する。 注釈付きスパンから周囲のスパンへのエンティティの確率を再割り当てする。 我々のモデルは、単純だが強力なベースライン上に構築され、8つのよく知られたNERベンチマークにおいて、従来の最先端システムと競合する結果を得る。 さらに経験的な分析では、境界の平滑化は自信過剰を効果的に軽減し、モデルのキャリブレーションを改善し、より平坦なニューラルミニマとより滑らかなロスランドスケープをもたらすことを示唆している。

Neural named entity recognition (NER) models may easily encounter the over-confidence issue, which degrades the performance and calibration. Inspired by label smoothing and driven by the ambiguity of boundary annotation in NER engineering, we propose boundary smoothing as a regularization technique for span-based neural NER models. It re-assigns entity probabilities from annotated spans to the surrounding ones. Built on a simple but strong baseline, our model achieves results better than or competitive with previous state-of-the-art systems on eight well-known NER benchmarks. Further empirical analysis suggests that boundary smoothing effectively mitigates over-confidence, improves model calibration, and brings flatter neural minima and more smoothed loss landscapes.
翻訳日:2022-04-27 12:41:17 公開日:2022-04-26
# Event Detection Explorer: イベント検出探索のためのインタラクティブツール

Event Detection Explorer: An Interactive Tool for Event Detection Exploration ( http://arxiv.org/abs/2204.12456v1 )

ライセンス: Link先を確認
Wenlong Zhang, Bhagyashree Ingale, Hamza Shabir, Tianyi Li, Tian Shi, Ping Wang(参考訳) イベント検出(ED)は自然言語処理において重要なタスクである。 過去数年間、ed機械学習モデルの進歩のために多くのデータセットが導入された。 しかし、これらのデータセットの多くは、人々がイベント、トリガーワード、イベント参照インスタンスを体系的かつ効率的に研究できるツールがあまり多くないため、未調査である。 本稿では,EDデータセットとモデル探索のためのインタラクティブで使いやすいツールであるED Explorerを提案する。 ED Explorerは対話型Webアプリケーション、API、NLPツールキットで構成されており、ドメインの専門家と非専門家の両方がEDタスクをよりよく理解するのに役立ちます。 EDエクスプローラーを使用して、最近提案された大規模EDデータセット(MAVENと呼ばれる)を分析し、スパーシリティ、ラベルバイアス、ラベルの不均衡、デバタブルアノテーションなど、いくつかの根本的な問題を発見し、MAVENデータセットを改善するためのガイダンスを提供する。 ED Explorer は http://edx.leafnlp.org/ を通じて公開することができる。 デモビデオはhttps://www.youtube.com/watch? v=6QPnxPwxg50。

Event Detection (ED) is an important task in natural language processing. In the past few years, many datasets have been introduced for advancing ED machine learning models. However, most of these datasets are under-explored because not many tools are available for people to study events, trigger words, and event mention instances systematically and efficiently. In this paper, we present an interactive and easy-to-use tool, namely ED Explorer, for ED dataset and model exploration. ED Explorer consists of an interactive web application, an API, and an NLP toolkit, which can help both domain experts and non-experts to better understand the ED task. We use ED Explorer to analyze a recent proposed large-scale ED datasets (referred to as MAVEN), and discover several underlying problems, including sparsity, label bias, label imbalance, and debatable annotations, which provide us with directions to improve the MAVEN dataset. The ED Explorer can be publicly accessed through http://edx.leafnlp.org/. The demonstration video is available here https://www.youtube.com/watch?v=6QPnxPwxg50.
翻訳日:2022-04-27 12:40:59 公開日:2022-04-26
# マージン損失に対するバイアス分散分解

Bias-Variance Decompositions for Margin Losses ( http://arxiv.org/abs/2204.12155v1 )

ライセンス: Link先を確認
Danny Wood and Tingting Mu and Gavin Brown(参考訳) 本稿では,ロジスティック損失(古典的なLogitBoostアルゴリズムで最小化される)を含む厳密な凸マージン損失に対する新たなバイアス分散分解と,正方形マージン損失と正準昇降損失について紹介する。 さらに,すべての厳密な凸マージン損失に対して,期待されるリスクは「中央」モデルのリスクと,トレーニングデータの変化に関して機能マージンの変動を定量化する項に分解することを示した。 これらの分解は、モデルオーバーフィッティング/アンダーフィッティングを理解するための診断ツールを提供し、付加的なアンサンブルモデル(例えば、バイアス分散分解が成り立つ場合、モデルの多様性を定量化するために使用できる対応する「あいまいさ」分解がある。

We introduce a novel bias-variance decomposition for a range of strictly convex margin losses, including the logistic loss (minimized by the classic LogitBoost algorithm), as well as the squared margin loss and canonical boosting loss. Furthermore, we show that, for all strictly convex margin losses, the expected risk decomposes into the risk of a "central" model and a term quantifying variation in the functional margin with respect to variations in the training data. These decompositions provide a diagnostic tool for practitioners to understand model overfitting/underfitting, and have implications for additive ensemble models -- for example, when our bias-variance decomposition holds, there is a corresponding "ambiguity" decomposition, which can be used to quantify model diversity.
翻訳日:2022-04-27 12:37:20 公開日:2022-04-26
# シェープリー分解を用いた信用判断における逆作用の説明

Explaining Adverse Actions in Credit Decisions Using Shapley Decomposition ( http://arxiv.org/abs/2204.12365v1 )

ライセンス: Link先を確認
Vijayan N. Nair, Tianshu Feng, Linwei Hu, Zach Zhang, Jie Chen and Agus Sudjianto(参考訳) 金融機関が債権申請を辞退した場合は、有害行為(AA)が発生するとされる。 申請者は、その否定的決定の説明を受けることができる。 本稿では、デフォルト確率の予測モデルに基づく信用決定に焦点を当て、AA説明のための方法論を提案する。 問題は、負の決定に責任を負う重要な予測子を識別することであり、基礎となるモデルが加法的である場合、単純である。 しかし、相互作用を持つ線型モデルであっても非自明になる。 低次相互作用を持つモデルを検討し、第一原理に基づくシンプルで直感的なアプローチを開発する。 次に,最近提案されているベースライン・シャプリー (b-shap) の概念と形状分解の一般化について述べる。 機械学習結果の局所的解釈可能性に関する文献における他のShapley技術とは異なり、B-Shapは関数評価のみを含むため、計算可能である。 本手法の有用性を示すために例証的な事例研究が用いられる。 また,単調性や連続性などの信用貸出状況において,高い相関性のある予測器と適合モデルの望ましい特性を持つ状況についても論じる。

When a financial institution declines an application for credit, an adverse action (AA) is said to occur. The applicant is then entitled to an explanation for the negative decision. This paper focuses on credit decisions based on a predictive model for probability of default and proposes a methodology for AA explanation. The problem involves identifying the important predictors responsible for the negative decision and is straightforward when the underlying model is additive. However, it becomes non-trivial even for linear models with interactions. We consider models with low-order interactions and develop a simple and intuitive approach based on first principles. We then show how the methodology generalizes to the well-known Shapely decomposition and the recently proposed concept of Baseline Shapley (B-Shap). Unlike other Shapley techniques in the literature for local interpretability of machine learning results, B-Shap is computationally tractable since it involves just function evaluations. An illustrative case study is used to demonstrate the usefulness of the method. The paper also discusses situations with highly correlated predictors and desirable properties of fitted models in the credit-lending context, such as monotonicity and continuity.
翻訳日:2022-04-27 12:37:07 公開日:2022-04-26
# RadioPathomics: 適応放射線治療のための非小細胞肺癌のマルチモーダルラーニング

RadioPathomics: Multimodal Learning in Non-Small Cell Lung Cancer for Adaptive Radiotherapy ( http://arxiv.org/abs/2204.12423v1 )

ライセンス: Link先を確認
Matteo Tortora, Ermanno Cordelli, Rosa Sicilia, Lorenzo Nibid, Edy Ippolito, Giuseppe Perrone, Sara Ramella and Paolo Soda(参考訳) 現在のがん治療プラクティスは、放射線画像、病理組織学スライド、ゲノム、臨床データなどのマルチモーダルデータを収集する。 これらのデータソースの重要性は、放射線学と病理学の最近の隆盛、すなわち臨床結果を予測するために定期的に収集された放射線学と病理学画像からの定量的特徴の抽出、または人工知能アルゴリズムを用いた臨床判断の指導を助長した。 それでも、それらを単一のマルチモーダルフレームワークに統合する方法は、まだ未解決の問題である。 そこで本研究では,非小細胞肺癌患者に対する放射線治療成績を予測するために,放射線学,病理学,臨床データから計算した手作り特徴を組み合わせたマルチモーダルレイトフュージョン法を開発した。 この文脈では,8種類の後期融合規則(製品,最大,最小,平均,決定テンプレート,デンプスター・シェーファー,多数決,信頼ルール)と,コンピュータ断層画像と全スライディングスキャンから得られる情報の豊かさを活用する2つの患者関連集約規則について検討する。 33例の家庭内コホートにおける非患者間相互評価実験により, auc が 90.9\%$ のマルチモーダルパラダイムが各ユニモーダルアプローチを上回っており,データ統合が精密医学を進歩させる可能性が示唆された。 さらに,手作り表現とディープネットワークで自動的に計算される特徴,後期融合パラダイムと,他の一般的なマルチモーダルアプローチであるearly fusionとの比較を行った。 いずれの場合においても,提案するマルチモーダルアプローチが最良の結果をもたらすことを示す実験を行った。

The current cancer treatment practice collects multimodal data, such as radiology images, histopathology slides, genomics and clinical data. The importance of these data sources taken individually has fostered the recent raise of radiomics and pathomics, i.e. the extraction of quantitative features from radiology and histopathology images routinely collected to predict clinical outcomes or to guide clinical decisions using artificial intelligence algorithms. Nevertheless, how to combine them into a single multimodal framework is still an open issue. In this work we therefore develop a multimodal late fusion approach that combines hand-crafted features computed from radiomics, pathomics and clinical data to predict radiation therapy treatment outcomes for non-small-cell lung cancer patients. Within this context, we investigate eight different late fusion rules (i.e. product, maximum, minimum, mean, decision template, Dempster-Shafer, majority voting, and confidence rule) and two patient-wise aggregation rules leveraging the richness of information given by computer tomography images and whole-slide scans. The experiments in leave-one-patient-out cross-validation on an in-house cohort of 33 patients show that the proposed multimodal paradigm with an AUC equal to $90.9\%$ outperforms each unimodal approach, suggesting that data integration can advance precision medicine. As a further contribution, we also compare the hand-crafted representations with features automatically computed by deep networks, and the late fusion paradigm with early fusion, another popular multimodal approach. In both cases, the experiments show that the proposed multimodal approach provides the best results.
翻訳日:2022-04-27 12:36:50 公開日:2022-04-26
# 3次元物体検出のための焦点スパース畳み込みネットワーク

Focal Sparse Convolutional Networks for 3D Object Detection ( http://arxiv.org/abs/2204.12463v1 )

ライセンス: Link先を確認
Yukang Chen, Yanwei Li, Xiangyu Zhang, Jian Sun, Jiaya Jia(参考訳) 非均一な3Dスパースデータ(例えば、異なる空間位置にある点雲やボクセル)は、異なる方法で3Dオブジェクト検出のタスクに寄与する。 スパース畳み込みネットワーク(スパースcnn)の既存の基本コンポーネントは、正規またはサブマニフォールドのスパース畳み込みに関係なく、スパースデータを全て処理する。 本稿では,sparse cnnの機能を向上させるための2つのモジュールについて紹介する。 focal sparse convolution (focals conv) であり、focal sparse convolution with fusion または focals conv-f の多変種である。 新しいモジュールは、既存のスパースcnnに簡単に置き換えることができ、エンドツーエンドで共同でトレーニングすることができる。 複雑な3次元物体検出に空間的に学習可能な疎結合性が不可欠であることを示す。 KITTI、nuScenes、Waymoベンチマークに関する大規模な実験は、我々のアプローチの有効性を検証する。 論文提出時点のnuscenesテストベンチマークでは,既存の単一モデルのエントリをすべて上回っています。 コードとモデルはhttps://github.com/dvlab-research/focalsconvにある。

Non-uniformed 3D sparse data, e.g., point clouds or voxels in different spatial positions, make contribution to the task of 3D object detection in different ways. Existing basic components in sparse convolutional networks (Sparse CNNs) process all sparse data, regardless of regular or submanifold sparse convolution. In this paper, we introduce two new modules to enhance the capability of Sparse CNNs, both are based on making feature sparsity learnable with position-wise importance prediction. They are focal sparse convolution (Focals Conv) and its multi-modal variant of focal sparse convolution with fusion, or Focals Conv-F for short. The new modules can readily substitute their plain counterparts in existing Sparse CNNs and be jointly trained in an end-to-end fashion. For the first time, we show that spatially learnable sparsity in sparse convolution is essential for sophisticated 3D object detection. Extensive experiments on the KITTI, nuScenes and Waymo benchmarks validate the effectiveness of our approach. Without bells and whistles, our results outperform all existing single-model entries on the nuScenes test benchmark at the paper submission time. Code and models are at https://github.com/dvlab-research/FocalsConv.
翻訳日:2022-04-27 12:36:00 公開日:2022-04-26
# Science Checker: 科学的ファクトチェックに答える抽出的ブールな質問

Science Checker: Extractive-Boolean Question Answering For Scientific Fact Checking ( http://arxiv.org/abs/2204.12263v1 )

ライセンス: Link先を確認
Lo\"ic Rakotoson, Charles Letaillieur, Sylvain Massip, Fr\'ejus Laleye(参考訳) 科学出版物の爆発的な成長に伴い、科学知識と事実チェックの合成はますます複雑なタスクになっている。 本稿では,研究論文における事実と証拠からの連立的推論に基づいて,科学的疑問を検証するためのマルチタスクアプローチを提案する。 本稿では,(1)自動情報要約と(2)要約後に得られた抽出物のみから科学的質問への回答を生成できるブール質問応答のインテリジェントな組み合わせを提案する。 そこで,本稿では,論文要約に基づく構造化コンテンツモデリングを実施し,そのトピックを議論する論文のテキストを強調表示しながら,科学的疑問に答える。 最終システムは,3つの出力分類モデルを組み合わせたエンドツーエンド抽出質問応答(eqa)に基づいて,質問の詳細な意味理解を行い,複数の回答の集約を説明する。 提案した軽量かつ高速なアーキテクチャにより、平均エラー率は4%、F1スコアは95.6%に達した。 本研究は,欧州PMCの医療・医療分野における3万件以上のオープンアクセス(OA)に関する2つのQAモデル(BERT,RoBERTa)を用いて実施した。

With the explosive growth of scientific publications, making the synthesis of scientific knowledge and fact checking becomes an increasingly complex task. In this paper, we propose a multi-task approach for verifying the scientific questions based on a joint reasoning from facts and evidence in research articles. We propose an intelligent combination of (1) an automatic information summarization and (2) a Boolean Question Answering which allows to generate an answer to a scientific question from only extracts obtained after summarization. Thus on a given topic, our proposed approach conducts structured content modeling based on paper abstracts to answer a scientific question while highlighting texts from paper that discuss the topic. We based our final system on an end-to-end Extractive Question Answering (EQA) combined with a three outputs classification model to perform in-depth semantic understanding of a question to illustrate the aggregation of multiple responses. With our light and fast proposed architecture, we achieved an average error rate of 4% and a F1-score of 95.6%. Our results are supported via experiments with two QA models (BERT, RoBERTa) over 3 Million Open Access (OA) articles in the medical and health domains on Europe PMC.
翻訳日:2022-04-27 12:16:05 公開日:2022-04-26
# ソース埋め込みの教師なし重み付き連結によるメタ単語埋め込みの学習

Learning Meta Word Embeddings by Unsupervised Weighted Concatenation of Source Embeddings ( http://arxiv.org/abs/2204.12386v1 )

ライセンス: Link先を確認
Danushka Bollegala(参考訳) 複数のソースワード埋め込みが多様なアルゴリズムと語彙リソースを使って学習すると、メタワード埋め込み学習手法は、より正確で広範囲の単語埋め込みを学習しようとする。 メタ埋め込みに関する以前の研究は、ソース埋め込みの単純なベクトル連結が競合するベースラインになることを何度も発見してきた。 しかし、なぜ、いつ単純なベクトル結合が正確なメタ埋め込みを生成するのかは、まだ不明である。 重み付き結合は,各ソース埋め込みとメタ埋め込みのスペクトル整合操作と見なすことができ,両者の内積損失を最小化することができる。 この理論解析に続いて、与えられたソース埋め込みからメタ埋め込みを生成するための最適結合重みを学習するための2つのemph{unsupervised}法を提案する。 複数のベンチマークデータセットによる実験結果から,提案手法は従来提案したメタ埋め込み学習法よりも優れていた。

Given multiple source word embeddings learnt using diverse algorithms and lexical resources, meta word embedding learning methods attempt to learn more accurate and wide-coverage word embeddings. Prior work on meta-embedding has repeatedly discovered that simple vector concatenation of the source embeddings to be a competitive baseline. However, it remains unclear as to why and when simple vector concatenation can produce accurate meta-embeddings. We show that weighted concatenation can be seen as a spectrum matching operation between each source embedding and the meta-embedding, minimising the pairwise inner-product loss. Following this theoretical analysis, we propose two \emph{unsupervised} methods to learn the optimal concatenation weights for creating meta-embeddings from a given set of source embeddings. Experimental results on multiple benchmark datasets show that the proposed weighted concatenated meta-embedding methods outperform previously proposed meta-embedding learning methods.
翻訳日:2022-04-27 12:15:42 公開日:2022-04-26
# ガウス混合分布に対するニューラルネットワークの収束性

Convergence of neural networks to Gaussian mixture distribution ( http://arxiv.org/abs/2204.12100v1 )

ライセンス: Link先を確認
Yasuhiko Asao, Ryotaro Sakamoto, Shiro Takagi(参考訳) 比較的穏やかな条件下では、最後の隠れ層の幅だけ無限大になるため、完全連結フィードフォワード深層ニューラルネットワークがガウス混合分布に収束することを示す。 結果を支援するシンプルなモデルの実験を行った。 さらに、この収束の詳細な説明、すなわち最後の隠れた層の成長は、ガウス混合物に近い分布となり、他の層は、ガウス混合物を正規分布に次々に近づける。

We give a proof that, under relatively mild conditions, fully-connected feed-forward deep random neural networks converge to a Gaussian mixture distribution as only the width of the last hidden layer goes to infinity. We conducted experiments for a simple model which supports our result. Moreover, it gives a detailed description of the convergence, namely, the growth of the last hidden layer gets the distribution closer to the Gaussian mixture, and the other layer successively get the Gaussian mixture closer to the normal distribution.
翻訳日:2022-04-27 12:15:15 公開日:2022-04-26
# 時空間表現学習による因果推論--前向き研究

Causal Reasoning with Spatial-temporal Representation Learning: A Prospective Study ( http://arxiv.org/abs/2204.12037v1 )

ライセンス: Link先を確認
Yang Liu, Yushen Wei, Hong Yan, Guanbin Li, Liang Lin(参考訳) 空間-時間表現学習は、視覚理解、ビデオ理解、マルチモーダル分析、人間とコンピュータの相互作用、都市コンピューティングなど、様々な現実のアプリケーションにおいてユビキタスである。 ビッグデータ時代のマルチモーダルな異種空間・時空間・時空間データの存在により,既存の視覚的手法は大規模データアノテーションと教師付き学習に大きく依存している。 しかし、解釈可能性、堅牢性、分布外一般化の欠如がこれらのモデルのボトルネックとなり、解釈可能で信頼性の高い人工知能の進歩を妨げる。 既存の手法の大半は、データが独立で同一に分散しているという仮定と相関学習に基づいており、現代の時空間表現学習法が解釈可能性に制限があり、データセットバイアスに容易に崩壊する理由に関する統一的なガイダンスや分析が欠けている。 人レベルのエージェントの強い推論能力にインスパイアされた近年では、堅牢な表現を実現するための因果推論パラダイムの開発や、優れた解釈可能性を持つモデル学習に多大な努力が注がれている。 本稿では,空間-時間表現学習のための既存の因果推論法を包括的に検討し,基本理論,モデル,データセットについて述べる。 現在のメソッドやデータセットの制限についても議論する。 さらに,時空間表現学習における因果推論アルゴリズムのベンチマークのための主な課題,機会,今後の研究方向性を提案する。

Spatial-temporal representation learning is ubiquitous in various real-world applications, including visual comprehension, video understanding, multi-modal analysis, human-computer interaction, and urban computing. Due to the emergence of huge amounts of multi-modal heterogeneous spatial/temporal/spatial-temporal data in big data era, the existing visual methods rely heavily on large-scale data annotations and supervised learning to learn a powerful big model. However, the lack of interpretability, robustness, and out-of-distribution generalization are becoming the bottleneck problems of these models, which hinders the progress of interpretable and reliable artificial intelligence. The majority of the existing methods are based on correlation learning with the assumption that the data are independent and identically distributed, which lack an unified guidance and analysis about why modern spatial-temporal representation learning methods have limited interpretability and easily collapse into dataset bias. Inspired by the strong inference ability of human-level agents, recent years have therefore witnessed great effort in developing causal reasoning paradigms to realize robust representation and model learning with good interpretability. In this paper, we conduct a comprehensive review of existing causal reasoning methods for spatial-temporal representation learning, covering fundamental theories, models, and datasets. The limitations of current methods and datasets are also discussed. Moreover, we propose some primary challenges, opportunities, and future research directions for benchmarking causal reasoning algorithms in spatial-temporal representation learning.
翻訳日:2022-04-27 12:13:48 公開日:2022-04-26
# ビデオストリームにおける連続学習のための注意軌道上の確率的コヒーレンス

Stochastic Coherence Over Attention Trajectory For Continuous Learning In Video Streams ( http://arxiv.org/abs/2204.12193v1 )

ライセンス: Link先を確認
Matteo Tiezzi, Simone Marullo, Lapo Faggi, Enrico Meloni, Alessandro Betti and Stefano Melacci(参考訳) 環境に住み、周囲を観察して学ぶ知的エージェントを考案することは、人工知能の長年の目標である。 素の機械学習の観点からは、エージェントが大きな完全に注釈付けされたデータセットを活用するのを防ぎ、むしろ監督的な信号との相互作用は、空間と時間にわたってわずかに分散される。 本稿では,ビデオストリーム内の画素単位表現を漸進的かつ自律的に開発するためのニューラルネットワークに基づく新しい手法を提案する。 提案手法は,参加者の移動を観察することで,エージェントが学習できる,人間のような注意機構に基づいている。 注意軌道に沿った時空間的確率的コヒーレンス(英語版)は、対照的な用語と組み合わせて、自然に考慮された設定に対処する教師なし学習基準につながる。 ほとんどの既存の作品とは異なり、学習された表現は各フレームピクセルのオープンセットのクラス・インクリメンタルな分類に使われ、わずかな監督に依存する。 実験では,3次元仮想環境を活用し,提案するエージェントが映像ストリームを観察するだけで物体を識別できることを示す。 最先端のアートモデルから機能を継承することは、期待するほど強力ではない。

Devising intelligent agents able to live in an environment and learn by observing the surroundings is a longstanding goal of Artificial Intelligence. From a bare Machine Learning perspective, challenges arise when the agent is prevented from leveraging large fully-annotated dataset, but rather the interactions with supervisory signals are sparsely distributed over space and time. This paper proposes a novel neural-network-based approach to progressively and autonomously develop pixel-wise representations in a video stream. The proposed method is based on a human-like attention mechanism that allows the agent to learn by observing what is moving in the attended locations. Spatio-temporal stochastic coherence along the attention trajectory, paired with a contrastive term, leads to an unsupervised learning criterion that naturally copes with the considered setting. Differently from most existing works, the learned representations are used in open-set class-incremental classification of each frame pixel, relying on few supervisions. Our experiments leverage 3D virtual environments and they show that the proposed agents can learn to distinguish objects just by observing the video stream. Inheriting features from state-of-the art models is not as powerful as one might expect.
翻訳日:2022-04-27 12:13:22 公開日:2022-04-26
# 対人訓練におけるき裂の特徴とバッチ正規化について

On Fragile Features and Batch Normalization in Adversarial Training ( http://arxiv.org/abs/2204.12393v1 )

ライセンス: Link先を確認
Nils Philipp Walter, David Stutz, Bernt Schiele(参考訳) 最新のディープラーニングアーキテクチャでは、トレーニングの安定化と精度向上にバッチ正規化(bn)を採用している。 BN層のみが驚くほど表現力が高いことが示されている。 しかし、敵の例に対する堅牢性という文脈では、BNは脆弱性を増加させると主張している。 つまり、BNは脆弱な機能を学ぶのに役立ちます。 それでもBNは、堅牢な特徴を学ぶためのデファクト標準である敵の訓練で今も使われている。 逆行訓練におけるBNの役割を明らかにするために, BNの表現性が, ランダムな特徴と比較して脆弱な特徴の強固化にどの程度有効かを検討する。 CIFAR10では、BN層のみを逆向きに微調整することで、非自明な逆向き堅牢性が得られる。 逆行訓練は、スクラッチからBN層のみを訓練するが、対照的に、意味のある逆行性を伝えることはできない。 結果から,脆弱な特徴は適度な対向的頑健性を持つモデルを学ぶのに使えるが,ランダムな特徴はできないことが示唆された。

Modern deep learning architecture utilize batch normalization (BN) to stabilize training and improve accuracy. It has been shown that the BN layers alone are surprisingly expressive. In the context of robustness against adversarial examples, however, BN is argued to increase vulnerability. That is, BN helps to learn fragile features. Nevertheless, BN is still used in adversarial training, which is the de-facto standard to learn robust features. In order to shed light on the role of BN in adversarial training, we investigate to what extent the expressiveness of BN can be used to robustify fragile features in comparison to random features. On CIFAR10, we find that adversarially fine-tuning just the BN layers can result in non-trivial adversarial robustness. Adversarially training only the BN layers from scratch, in contrast, is not able to convey meaningful adversarial robustness. Our results indicate that fragile features can be used to learn models with moderate adversarial robustness, while random features cannot
翻訳日:2022-04-27 12:12:23 公開日:2022-04-26
# skillnet-nlg:sparsely activated approachを用いた汎用自然言語生成

SkillNet-NLG: General-Purpose Natural Language Generation with a Sparsely Activated Approach ( http://arxiv.org/abs/2204.12184v1 )

ライセンス: Link先を確認
Junwei Liao, Duyu Tang, Fan Zhang, Shuming Shi(参考訳) 自然言語生成タスクを1つのモデルで処理する疎結合なアプローチであるskillnet-nlgを提案する。 すべてのパラメータを常に活性化する従来の密集モデルとは異なり、SkillNet-NLGはパラメータの関連部分を選択的に活性化してタスクを達成する。 このようなモデル設計の強みは、関連するスキルを正確に適用して新しいタスクを効果的に学習する機会を提供することです。 我々は中国語の自然言語生成タスクを評価する。 その結果、skillnet-nlgは1つのモデルファイルだけで、5つのタスクのうち4つで以前の最高のパフォーマンスメソッドを上回っている。 SkillNet-NLGは2つのマルチタスク学習ベースライン(密集モデルとMixture-of-Expertモデル)より優れ、タスク固有のモデルと同等のパフォーマンスを達成する。 最後に、SkillNet-NLGは、新しいタスクに適応する際にベースラインシステムを上回る。

We present SkillNet-NLG, a sparsely activated approach that handles many natural language generation tasks with one model. Different from traditional dense models that always activate all the parameters, SkillNet-NLG selectively activates relevant parts of the parameters to accomplish a task, where the relevance is controlled by a set of predefined skills. The strength of such model design is that it provides an opportunity to precisely adapt relevant skills to learn new tasks effectively. We evaluate on Chinese natural language generation tasks. Results show that, with only one model file, SkillNet-NLG outperforms previous best performance methods on four of five tasks. SkillNet-NLG performs better than two multi-task learning baselines (a dense model and a Mixture-of-Expert model) and achieves comparable performance to task-specific models. Lastly, SkillNet-NLG surpasses baseline systems when being adapted to new tasks.
翻訳日:2022-04-27 12:11:23 公開日:2022-04-26
# EmpHi:人間のようなインテントによる共感反応の生成

EmpHi: Generating Empathetic Responses with Human-like Intents ( http://arxiv.org/abs/2204.12191v1 )

ライセンス: Link先を確認
Mao Yan Chen, Siheng Li, Yujiu Yang(参考訳) 共感的な会話では、人間は共感的な意図で他人に共感を表現する。 しかし、既存の共感的会話法のほとんどは共感的意図の欠如に悩まされ、単調な共感につながる。 共感的対話モデルと人間との共感的意図分布のバイアスに対処するために,人間に一貫性のある共感的意図を持つ共感的反応を生成する新しいモデルを提案する。 正確には、EmpHiは潜在的な共感的意図の分布と離散的な潜伏変数を学習し、暗黙的意図表現と明示的意図表現を組み合わせて様々な共感的意図を生成する。 実験により、emphiは、自動評価と人間評価の両方において、共感、関連性、多様性の観点から最先端のモデルを上回ることが示された。 さらに,本モデルでは高い解釈性と優れた性能を示す。

In empathetic conversations, humans express their empathy to others with empathetic intents. However, most existing empathetic conversational methods suffer from a lack of empathetic intents, which leads to monotonous empathy. To address the bias of the empathetic intents distribution between empathetic dialogue models and humans, we propose a novel model to generate empathetic responses with human-consistent empathetic intents, EmpHi for short. Precisely, EmpHi learns the distribution of potential empathetic intents with a discrete latent variable, then combines both implicit and explicit intent representation to generate responses with various empathetic intents. Experiments show that EmpHi outperforms state-of-the-art models in terms of empathy, relevance, and diversity on both automatic and human evaluation. Moreover, the case studies demonstrate the high interpretability and outstanding performance of our model.
翻訳日:2022-04-27 12:11:06 公開日:2022-04-26
# (参考訳) Graph-DETR3D:マルチビュー3Dオブジェクト検出のための重複領域の再考

Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object Detection ( http://arxiv.org/abs/2204.11582v2 )

ライセンス: CC BY 4.0
Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Zhao(参考訳) 複数の画像ビューから3Dオブジェクトを検出することは、視覚的シーン理解の基本的な課題である。 低コストかつ高効率であるため、マルチビュー3dオブジェクト検出は有望な応用可能性を示している。 しかし,3次元空間における視点視による物体の正確な検出は,深度情報の欠如により極めて困難である。 近年,DETR3Dは3次元オブジェクト検出のための多視点画像を集約する新しい3D-2Dクエリパラダイムを導入し,最先端の性能を実現する。 本稿では,集中的なパイロット実験を行い,異なる領域にある物体を定量化し,各画像の境界領域における「侵入インスタンス」がdetr3dの性能を阻害する主なボトルネックであることを示す。 重複する領域の2つの隣接するビューから複数の特徴をマージするが、DETR3Dは依然として機能集約が不十分であり、検出性能を完全に向上する機会を欠いている。 そこで本稿では,グラフ構造学習(GSL)による多視点画像情報を自動的に集約するグラフDETR3Dを提案する。 各オブジェクトクエリと2d特徴マップの間の動的3dグラフを構築し、特に境界領域におけるオブジェクト表現を強化する。 さらに、Graph-DETR3Dは、画像サイズとオブジェクト深度を同時にスケーリングすることで視覚深度一貫性を維持する、新しい深度不変のマルチスケールトレーニング戦略の恩恵を受ける。 nuScenesデータセットに関する大規模な実験は、Graph-DETR3Dの有効性と効率を実証している。 特に,我々の最良のモデルでは,nuScenesテストリーダボード上で49.5 NDSを達成し,様々な画像ビュー3Dオブジェクト検出器と比較して新しい最先端技術を実現している。

3D object detection from multiple image views is a fundamental and challenging task for visual scene understanding. Due to its low cost and high efficiency, multi-view 3D object detection has demonstrated promising application prospects. However, accurately detecting objects through perspective views in the 3D space is extremely difficult due to the lack of depth information. Recently, DETR3D introduces a novel 3D-2D query paradigm in aggregating multi-view images for 3D object detection and achieves state-of-the-art performance. In this paper, with intensive pilot experiments, we quantify the objects located at different regions and find that the "truncated instances" (i.e., at the border regions of each image) are the main bottleneck hindering the performance of DETR3D. Although it merges multiple features from two adjacent views in the overlapping regions, DETR3D still suffers from insufficient feature aggregation, thus missing the chance to fully boost the detection performance. In an effort to tackle the problem, we propose Graph-DETR3D to automatically aggregate multi-view imagery information through graph structure learning (GSL). It constructs a dynamic 3D graph between each object query and 2D feature maps to enhance the object representations, especially at the border regions. Besides, Graph-DETR3D benefits from a novel depth-invariant multi-scale training strategy, which maintains the visual depth consistency by simultaneously scaling the image size and the object depth. Extensive experiments on the nuScenes dataset demonstrate the effectiveness and efficiency of our Graph-DETR3D. Notably, our best model achieves 49.5 NDS on the nuScenes test leaderboard, achieving new state-of-the-art in comparison with various published image-view 3D object detectors.
翻訳日:2022-04-27 10:45:01 公開日:2022-04-26
# 音素レベル特徴抽出に基づくリアルタイム音声感情認識

Real-time Speech Emotion Recognition Based on Syllable-Level Feature Extraction ( http://arxiv.org/abs/2204.11382v2 )

ライセンス: Link先を確認
Abdul Rehman, Zhen-Tao Liu, Min Wu, Wei-Hua Cao, and Cheng-Shan Jiang(参考訳) 音声感情認識システムは、ディープラーニングモデルに対する高い計算要求と、主に複数のコーパスにわたる感情計測の信頼性の低いため、高い予測遅延を有する。 そこで本研究では,音節レベルの特徴を分解・分析する還元主義的アプローチに基づく音声感情認識システムを提案する。 音声ストリームのメルスペクトログラムは音節レベルのコンポーネントに分解され、統計的特徴を抽出するために分析される。 提案手法では, フォルマント注意, ノイズゲートフィルタリング, ローリング正規化コンテキストを用いて, 特徴処理速度と可逆性の向上を図る。 一組の音節レベルのフォルマント特徴を抽出し、音節ごとの予測を行う単一の階層ニューラルネットワークに入力し、洗練されたディープラーニングを用いて文幅の予測を行う従来のアプローチとは対照的に、音節ごとの予測を行う。 音節レベルの予測は、リアルタイムのレイテンシの実現と、発話レベルのクロスコーパス予測における集約エラーの低減に役立つ。 IEMOCAP (IE) や MSP-Improv (MI) や RAVDESS (RA) のデータベースでの実験では、最先端のクロスコーパスでIEからMIに47.6%、MIからIEに56.2%の精度で予測しながら、リアルタイムのレイテンシをアーカイブしている。

Speech emotion recognition systems have high prediction latency because of the high computational requirements for deep learning models and low generalizability mainly because of the poor reliability of emotional measurements across multiple corpora. To solve these problems, we present a speech emotion recognition system based on a reductionist approach of decomposing and analyzing syllable-level features. Mel-spectrogram of an audio stream is decomposed into syllable-level components, which are then analyzed to extract statistical features. The proposed method uses formant attention, noise-gate filtering, and rolling normalization contexts to increase feature processing speed and tolerance to adversity. A set of syllable-level formant features is extracted and fed into a single hidden layer neural network that makes predictions for each syllable as opposed to the conventional approach of using a sophisticated deep learner to make sentence-wide predictions. The syllable level predictions help to achieve the real-time latency and lower the aggregated error in utterance level cross-corpus predictions. The experiments on IEMOCAP (IE), MSP-Improv (MI), and RAVDESS (RA) databases show that the method archives real-time latency while predicting with state-of-the-art cross-corpus unweighted accuracy of 47.6% for IE to MI and 56.2% for MI to IE.
翻訳日:2022-04-27 10:28:24 公開日:2022-04-26
# 映像・言語接地のための多レベルアライメント訓練手法

A Multi-level Alignment Training Scheme for Video-and-Language Grounding ( http://arxiv.org/abs/2204.10938v2 )

ライセンス: Link先を確認
Yubo Zhang, Feiyang Niu, Qing Ping, Govind Thattai(参考訳) ビデオと言語の接地課題を解決するために、ネットワークが2つのモード間の接続を理解することが鍵となる。 一対のビデオと言語の記述では、それらの意味関係はエンコーディングの類似性によって反映される。 優れたマルチモダリティエンコーダは、入力の両方のセマンティクスをうまく捉えて、埋め込み距離がそれらのセマンティクスの類似性に適切に変換される共有機能空間にエンコードできるべきです。 本研究では,ビデオと言語間のセマンティックな関係に着目し,符号化プロセスを直接形作る多段階アライメントトレーニング手法を開発した。 ビデオ言語アライメントペアのグローバルレベルとセグメントレベルは、高レベルコンテキストから細粒度セマンティクスまでの情報類似性に基づいて設計された。 対照的な損失は、正のアライメント対と負のアライメント対のエンコーディングの類似性を対比し、異なるセマンティクスの情報を保持しながら、類似情報が共有特徴空間に密にエンコードされるようにネットワークを訓練するために用いられた。 マルチレベルアライメントトレーニングは,様々なビデオ・言語グラウンドタスクに適用できる。 タスク固有のトレーニング損失とともに、我々のフレームワークは、複数のビデオQAおよび検索データセットにおける過去の最先端技術と同等のパフォーマンスを達成した。

To solve video-and-language grounding tasks, the key is for the network to understand the connection between the two modalities. For a pair of video and language description, their semantic relation is reflected by their encodings' similarity. A good multi-modality encoder should be able to well capture both inputs' semantics and encode them in the shared feature space where embedding distance gets properly translated into their semantic similarity. In this work, we focused on this semantic connection between video and language, and developed a multi-level alignment training scheme to directly shape the encoding process. Global and segment levels of video-language alignment pairs were designed, based on the information similarity ranging from high-level context to fine-grained semantics. The contrastive loss was used to contrast the encodings' similarities between the positive and negative alignment pairs, and to ensure the network is trained in such a way that similar information is encoded closely in the shared feature space while information of different semantics is kept apart. Our multi-level alignment training can be applied to various video-and-language grounding tasks. Together with the task-specific training loss, our framework achieved comparable performance to previous state-of-the-arts on multiple video QA and retrieval datasets.
翻訳日:2022-04-27 10:26:11 公開日:2022-04-26
# 自然言語モデル理解における局所的特徴の帰属

Locally Aggregated Feature Attribution on Natural Language Model Understanding ( http://arxiv.org/abs/2204.10893v2 )

ライセンス: Link先を確認
Sheng Zhang, Jin Wang, Haitao Jiang, Rui Song(参考訳) ディープラーニングモデルの人気が高まり、モデル理解がより重要になる。 深いニューラルネットワークを解釈しやすくするために、多くの努力が注がれている。 いくつかの特徴帰属法はコンピュータビジョンにおいて有望な結果を示しており、特に基準データによる勾配の円滑化が堅牢で忠実な結果の鍵となっている。 しかし、nlpタスクへの勾配に基づくメソッドの直接適用は、入力が離散トークンで構成され、「参照」トークンが明示的に定義されていないため、自明ではない。 本研究では,NLPモデルのための新しい勾配に基づく特徴属性法である局所集約特徴属性(LAFA)を提案する。 あいまいな参照トークンに頼る代わりに、言語モデル埋め込みから派生した類似参照テキストを集約することで勾配を滑らかにする。 評価目的として,公開データセットのエンティティ認識や感情分析,構築したamazonカタログデータセットにおけるキー特徴検出など,さまざまなnlpタスクに関する実験も設計する。 提案手法の優れた性能を実験により実証した。

With the growing popularity of deep-learning models, model understanding becomes more important. Much effort has been devoted to demystify deep neural networks for better interpretability. Some feature attribution methods have shown promising results in computer vision, especially the gradient-based methods where effectively smoothing the gradients with reference data is key to a robust and faithful result. However, direct application of these gradient-based methods to NLP tasks is not trivial due to the fact that the input consists of discrete tokens and the "reference" tokens are not explicitly defined. In this work, we propose Locally Aggregated Feature Attribution (LAFA), a novel gradient-based feature attribution method for NLP models. Instead of relying on obscure reference tokens, it smooths gradients by aggregating similar reference texts derived from language model embeddings. For evaluation purpose, we also design experiments on different NLP tasks including Entity Recognition and Sentiment Analysis on public datasets as well as key feature detection on a constructed Amazon catalogue dataset. The superior performance of the proposed method is demonstrated through experiments.
翻訳日:2022-04-27 10:25:47 公開日:2022-04-26
# 分子と自然言語間の翻訳

Translation between Molecules and Natural Language ( http://arxiv.org/abs/2204.11817v2 )

ライセンス: Link先を確認
Carl Edwards, Tuan Lai, Kevin Ros, Garrett Honke, Heng Ji(参考訳) 画像とテキストの結合表現は文献で深く研究されている。 コンピュータビジョンでは、画像のセマンティックレベル制御を可能にするために自然言語を組み込むことの利点が明確になっている。 本稿では,大量のラベルなし自然言語テキストと分子文字列を事前学習するための自己教師付き学習フレームワークである,$\textbf{molt5}-$aを提案する。 $\textbf{MolT5}$は、分子キャプションやテキストベースのdenovo分子生成(分子と言語間の翻訳)といった従来の視覚言語タスクの新しい、有用な、挑戦的なアナログを可能にします。 さらに、$\textbf{MolT5}$はシングルモーダルデータの事前トレーニングモデルであるため、データ不足の化学領域の欠点を克服するのに役立ちます。 さらに,分子キャプションやテキストベースの分子生成のタスクを評価するために,新たなクロスモーダル埋め込みベースメトリクスなど,いくつかの指標を検討する。 分子と自然言語を相互作用させることにより、分子の発見と理解をより高い意味レベルで制御することができる。 その結果、$\textbf{molt5}$ベースのモデルは分子とテキストの両方の出力を生成でき、それは多くの場合、高品質で入力のモダリティに合致する。 分子生成において, 最適モデルでは, 30%の精度で一致試験を行う(つまり, 保持試験セットの約3分の1のキャプションに対して正しい構造を生成する)。

Joint representations between images and text have been deeply investigated in the literature. In computer vision, the benefits of incorporating natural language have become clear for enabling semantic-level control of images. In this work, we present $\textbf{MolT5}-$a self-supervised learning framework for pretraining models on a vast amount of unlabeled natural language text and molecule strings. $\textbf{MolT5}$ allows for new, useful, and challenging analogs of traditional vision-language tasks, such as molecule captioning and text-based de novo molecule generation (altogether: translation between molecules and language), which we explore for the first time. Furthermore, since $\textbf{MolT5}$ pretrains models on single-modal data, it helps overcome the chemistry domain shortcoming of data scarcity. Additionally, we consider several metrics, including a new cross-modal embedding-based metric, to evaluate the tasks of molecule captioning and text-based molecule generation. By interfacing molecules with natural language, we enable a higher semantic level of control over molecule discovery and understanding--a critical task for scientific domains such as drug discovery and material design. Our results show that $\textbf{MolT5}$-based models are able to generate outputs, both molecule and text, which in many cases are high quality and match the input modality. On molecule generation, our best model achieves 30% exact matching test accuracy (i.e., it generates the correct structure for about one-third of the captions in our held-out test set).
翻訳日:2022-04-27 10:25:31 公開日:2022-04-26
# PVNAS:ポイントボクセル畳み込みによる3次元ニューラルネットワーク探索

PVNAS: 3D Neural Architecture Search with Point-Voxel Convolution ( http://arxiv.org/abs/2204.11797v2 )

ライセンス: Link先を確認
Zhijian Liu, Haotian Tang, Shengyu Zhao, Kevin Shao, Song Han(参考訳) 3Dニューラルネットワークは現実世界のアプリケーション(AR/VRヘッドセットや自動運転車など)で広く利用されている。 しかし、エッジデバイス上の限られたハードウェアリソースは、これらの要求をかなり困難にしている。 以前の作業では、ボクセルベースまたはポイントベースニューラルネットワークを使用して3Dデータを処理していたが、大きなメモリフットプリントとランダムメモリアクセスのため、どちらのタイプの3Dモデルもハードウェア効率が良くない。 本稿では,効率の観点から3次元深層学習について検討する。 まず,従来の3D手法のボトルネックを系統的に解析する。 次に,ポイントベースモデルとボクセルモデルを組み合わせて,新しいハードウェア効率の3DプリミティブであるPoint-Voxel Convolution(PVConv)を提案する。 我々はさらにこのプリミティブをスパース畳み込みで強化し、大きな(ドア外)シーンの処理をより効果的にします。 設計した3dプリミティブに基づき、3dニューラルネットワーク探索(3d-nas)を導入し、リソース制約を与えられた最適な3dネットワークアーキテクチャを探索する。 提案手法を6つの代表ベンチマークデータセットで評価し,1.8~23.7倍の高速化で最新性能を得た。 さらに、我々の手法はMIT Driverlessの自動運転車に展開され、より大きな検出範囲、高い精度、低レイテンシを実現している。

3D neural networks are widely used in real-world applications (e.g., AR/VR headsets, self-driving cars). They are required to be fast and accurate; however, limited hardware resources on edge devices make these requirements rather challenging. Previous work processes 3D data using either voxel-based or point-based neural networks, but both types of 3D models are not hardware-efficient due to the large memory footprint and random memory access. In this paper, we study 3D deep learning from the efficiency perspective. We first systematically analyze the bottlenecks of previous 3D methods. We then combine the best from point-based and voxel-based models together and propose a novel hardware-efficient 3D primitive, Point-Voxel Convolution (PVConv). We further enhance this primitive with the sparse convolution to make it more effective in processing large (outdoor) scenes. Based on our designed 3D primitive, we introduce 3D Neural Architecture Search (3D-NAS) to explore the best 3D network architecture given a resource constraint. We evaluate our proposed method on six representative benchmark datasets, achieving state-of-the-art performance with 1.8-23.7x measured speedup. Furthermore, our method has been deployed to the autonomous racing vehicle of MIT Driverless, achieving larger detection range, higher accuracy and lower latency.
翻訳日:2022-04-27 10:25:06 公開日:2022-04-26
# 学習画像圧縮のためのアイデンティティ保存損失

Identity Preserving Loss for Learned Image Compression ( http://arxiv.org/abs/2204.10869v2 )

ライセンス: Link先を確認
Jiuhong Xiao, Lavisha Aggarwal, Prithviraj Banerjee, Manoj Aggarwal and Gerard Medioni(参考訳) 組み込みデバイス上でのディープラーニングモデル推論は、計算リソースが限られているため、難しい。 一般的な代替手段は、組み込みデバイスからクラウドにイメージを送信する必要があるクラウド上でモデル推論を実行することである。 画像圧縮技術は、低帯域幅ネットワーク上の伝送遅延を低減するために、クラウドベースのアーキテクチャで一般的に用いられている。 本研究は、ダウンストリームタスク(認識など)の精度を維持しながら、標準HEVC/JPEG圧縮技術よりも高い圧縮比を達成するために、ドメイン固有の特徴を学習するエンドツーエンド画像圧縮フレームワークを提案する。 私たちのフレームワークでは、ダウンストリームタスクの微調整は必要ありません。 代表的なダウンストリームタスクとして、データセットとオフセット認識モデルが利用可能であるため、アプリケーションドメインとして顔を選択します。 本稿では,lfw (low- resolution) とceleba-hq (high- resolution) データセットに対する crf-23 hevc 圧縮の ~38% と ~42% のビット毎ピクセル (bpp) の圧縮を,認識精度のパリティを保ちながら達成する,ipr損失関数を提案する。 モデルがドメイン固有の特徴(例えば顔の特徴)を保持することを学習し、背景の詳細を犠牲にして、優れた圧縮比を達成する。 さらに,提案した圧縮モデルにより再構成された画像は,下流モデルアーキテクチャの変化に対して堅牢である。 CRF-23 HEVC圧縮の38%程度の低いBPP値を維持しながら、未確認の認識モデルを用いてLFWデータセット上での at-par 認識性能を示す。

Deep learning model inference on embedded devices is challenging due to the limited availability of computation resources. A popular alternative is to perform model inference on the cloud, which requires transmitting images from the embedded device to the cloud. Image compression techniques are commonly employed in such cloud-based architectures to reduce transmission latency over low bandwidth networks. This work proposes an end-to-end image compression framework that learns domain-specific features to achieve higher compression ratios than standard HEVC/JPEG compression techniques while maintaining accuracy on downstream tasks (e.g., recognition). Our framework does not require fine-tuning of the downstream task, which allows us to drop-in any off-the-shelf downstream task model without retraining. We choose faces as an application domain due to the ready availability of datasets and off-the-shelf recognition models as representative downstream tasks. We present a novel Identity Preserving Reconstruction (IPR) loss function which achieves Bits-Per-Pixel (BPP) values that are ~38% and ~42% of CRF-23 HEVC compression for LFW (low-resolution) and CelebA-HQ (high-resolution) datasets, respectively, while maintaining parity in recognition accuracy. The superior compression ratio is achieved as the model learns to retain the domain-specific features (e.g., facial features) while sacrificing details in the background. Furthermore, images reconstructed by our proposed compression model are robust to changes in downstream model architectures. We show at-par recognition performance on the LFW dataset with an unseen recognition model while retaining a lower BPP value of ~38% of CRF-23 HEVC compression.
翻訳日:2022-04-27 10:24:43 公開日:2022-04-26
# 探索型拡散モデル

Retrieval-Augmented Diffusion Models ( http://arxiv.org/abs/2204.11824v2 )

ライセンス: Link先を確認
Andreas Blattmann, Robin Rombach, Kaan Oktay, Bj\"orn Ommer(参考訳) 拡散モデルを用いた生成画像合成は,テキストベースやクラス条件画像合成などのタスクにおいて,視覚的品質に優れる。 この成功の大部分は、これらのモデルのトレーニングに費やされた計算能力の劇的な増加によるものである。 本稿では,自然言語処理におけるその成功にインスパイアされた代替手法として,拡散モデルを検索に基づくアプローチで補完し,外部データベースの形式で明示的なメモリを導入することを提案する。 トレーニング中、我々の拡散モデルは、CLIPおよび各トレーニングインスタンスの近傍から取得した同様の視覚的特徴で訓練される。 クリップのジョイント画像テキスト埋め込み空間を利用することで,クラス条件合成やテキスト画像合成など,明示的に訓練されていないタスクにおいて高い競合性能を達成し,テキストと画像の埋め込みの両方で条件付けすることができる。 さらに、この手法を非条件生成に適用し、最先端の性能を実現する。 我々の手法は計算とメモリのオーバーヘッドが低く、実装が容易である。 コンカレントな作業との関係を議論し、間もなくコードと事前訓練されたモデルを公開する。

Generative image synthesis with diffusion models has recently achieved excellent visual quality in several tasks such as text-based or class-conditional image synthesis. Much of this success is due to a dramatic increase in the computational capacity invested in training these models. This work presents an alternative approach: inspired by its successful application in natural language processing, we propose to complement the diffusion model with a retrieval-based approach and to introduce an explicit memory in the form of an external database. During training, our diffusion model is trained with similar visual features retrieved via CLIP and from the neighborhood of each training instance. By leveraging CLIP's joint image-text embedding space, our model achieves highly competitive performance on tasks for which it has not been explicitly trained, such as class-conditional or text-image synthesis, and can be conditioned on both text and image embeddings. Moreover, we can apply our approach to unconditional generation, where it achieves state-of-the-art performance. Our approach incurs low computational and memory overheads and is easy to implement. We discuss its relationship to concurrent work and will publish code and pretrained models soon.
翻訳日:2022-04-27 10:24:11 公開日:2022-04-26
# 時間差学習の解析:線形システムアプローチ

Analysis of Temporal Difference Learning: Linear System Approach ( http://arxiv.org/abs/2204.10479v2 )

ライセンス: Link先を確認
Donghwan Lee and Do Wan Kim(参考訳) 本技術の目的は,確率線形系モデルに基づく時間差分学習(TD)の新しい有限時間収束解析を導入することである。 TD学習は、マルコフ決定過程の対応する値関数を推定することにより、所定のポリシーを評価するための基本的な強化学習(RL)である。 tdラーニングの理論解析に成功している研究はいくつかあるが、研究者たちが有限時間誤差境界の開発による統計効率の保証を発見したのは近年になってからである。 本稿では,線形システムモデルと線形システムコミュニティにおける標準概念を利用したTD学習の簡易制御理論有限時間解析を提案する。 提案した研究は、RL解析のための新しいシンプルなアレントを提供し、制御理論のアイデアに基づくTD学習とRLに関するさらなる洞察を提供する。

The goal of this technical note is to introduce a new finite-time convergence analysis of temporal difference (TD) learning based on stochastic linear system models. TD-learning is a fundamental reinforcement learning (RL) to evaluate a given policy by estimating the corresponding value function for a Markov decision process. While there has been a series of successful works in theoretical analysis of TDlearning, it was not until recently that researchers found some guarantees on its statistical efficiency by developing finite-time error bounds. In this paper, we propose a simple control theoretic finite-time analysis of TD-learning, which exploits linear system models and standard notions in linear system communities. The proposed work provides new simple templets for RL analysis, and additional insights on TD-learning and RL based on ideas in control theory.
翻訳日:2022-04-27 10:23:55 公開日:2022-04-26