このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220405となっている論文です。

PDF登録状況(公開日: 20220405)

TitleAuthorsAbstract論文公表日・翻訳日
# 分布目標による治療勧告

Treatment recommendation with distributional targets ( http://arxiv.org/abs/2005.09717v4 )

ライセンス: Link先を確認
Anders Bredahl Kock and David Preinerstorfer and Bezirgen Veliyev(参考訳) 実験に基づいて最善の治療法を推奨しなければならない意思決定者の問題を考察する。 政策推薦の結果生じる成果分布の望ましさを、意思決定者が最適化に関心を持つ分布特性を機能的に捉えて測定する。 これは、例えば、固有の不平等、福祉、貧困のレベル、または望ましい結果分布との距離などである。 興味の関数が準凸でない場合や制約がある場合、最適な推奨は治療の混合である。 これは考慮すべきレコメンデーションのセットを大幅に拡大します。 我々は,最大残差を低くすることで問題の難しさを特徴づける。 さらに,後悔の最適化策を2つ提案する。 第1の方針は静的であり、実験段階の経過に順次到着するか否かに関わらず適用可能である。 第2の方針は、劣等な治療を順次排除することで被験者が順次到着し、最も必要なサンプリングに費やすというものである。

We study the problem of a decision maker who must provide the best possible treatment recommendation based on an experiment. The desirability of the outcome distribution resulting from the policy recommendation is measured through a functional capturing the distributional characteristic that the decision maker is interested in optimizing. This could be, e.g., its inherent inequality, welfare, level of poverty or its distance to a desired outcome distribution. If the functional of interest is not quasi-convex or if there are constraints, the optimal recommendation may be a mixture of treatments. This vastly expands the set of recommendations that must be considered. We characterize the difficulty of the problem by obtaining maximal expected regret lower bounds. Furthermore, we propose two (near) regret-optimal policies. The first policy is static and thus applicable irrespectively of subjects arriving sequentially or not in the course of the experimentation phase. The second policy can utilize that subjects arrive sequentially by successively eliminating inferior treatments and thus spends the sampling effort where it is most needed.
翻訳日:2022-12-01 14:44:22 公開日:2022-04-05
# コスト変動に伴う確率的最短経路

Stochastic Shortest Path with Adversarially Changing Costs ( http://arxiv.org/abs/2006.11561v4 )

ライセンス: Link先を確認
Aviv Rosenberg and Yishay Mansour(参考訳) 確率的最短経路 (SSP) は計画と制御においてよく知られた問題であり、エージェントは最小の総コストで目標状態に到達する必要がある。 本稿では,コストの時間的変動を考慮した逆SSPモデルを提案するが,その基礎となる遷移関数は変化しない。 正式には、エージェントは$K$のエピソードに対してSSP環境と対話し、コスト関数はエピソード間で任意に変化し、エージェントへの遷移は未知となる。 我々は,逆sspに対する最初のアルゴリズムを開発し,すべてのコストが厳密に正であるとして$\widetilde o (\sqrt{k})$ と$\widetilde o (k^{3/4})$ という高い確率の後悔限界を証明する。 我々は、この自然な逆SSPの設定を最初に検討し、それに対するサブ線形後悔を得る。

Stochastic shortest path (SSP) is a well-known problem in planning and control, in which an agent has to reach a goal state in minimum total expected cost. In this paper we present the adversarial SSP model that also accounts for adversarial changes in the costs over time, while the underlying transition function remains unchanged. Formally, an agent interacts with an SSP environment for $K$ episodes, the cost function changes arbitrarily between episodes, and the transitions are unknown to the agent. We develop the first algorithms for adversarial SSPs and prove high probability regret bounds of $\widetilde O (\sqrt{K})$ assuming all costs are strictly positive, and $\widetilde O (K^{3/4})$ in the general case. We are the first to consider this natural setting of adversarial SSP and obtain sub-linear regret for it.
翻訳日:2022-11-18 22:10:28 公開日:2022-04-05
# Approximate PageRankによるグラフニューラルネットワークのスケーリング

Scaling Graph Neural Networks with Approximate PageRank ( http://arxiv.org/abs/2007.01570v2 )

ライセンス: Link先を確認
Aleksandar Bojchevski, Johannes Gasteiger, Bryan Perozzi, Amol Kapoor, Martin Blais, Benedek R\'ozemberczki, Michal Lukasik, Stephan G\"unnemann(参考訳) グラフニューラルネットワーク(GNN)は多くのネットワークマイニングタスクを解決するための強力なアプローチとして登場した。 しかし、大きなグラフでの学習は依然として課題であり、最近提案されたスケーラブルなGNNアプローチの多くは、グラフを通じて情報を伝達するために高価なメッセージパッシング手順に依存している。 本稿では,gnnにおける情報拡散の効率良く近似し,最先端の予測性能を維持しつつ,大幅な高速化を実現するpprgoモデルを提案する。 高速であることに加えて、PPRGoは本質的にスケーラブルであり、業界設定で見られるような大規模なデータセットに対して、自明に並列化することができる。 PPRGoは、分散学習環境とシングルマシン学習環境の両方において、多くの一般的な学術グラフ上でベースラインよりも優れていることを示す。 大規模グラフ学習法のスケーラビリティをよりよく解析するために,1240万ノード,173万エッジ,280万ノード機能を備えた新しいベンチマークグラフを導入する。 PPRGoをスクラッチからトレーニングし、このグラフのすべてのノードのラベルを予測するには、1つのマシンで2分以下かかり、同じグラフ上の他のベースラインをはるかに上回ります。 Googleにおける大規模ノード分類問題に対するPPRGoの実践的応用について論じる。

Graph neural networks (GNNs) have emerged as a powerful approach for solving many network mining tasks. However, learning on large graphs remains a challenge - many recently proposed scalable GNN approaches rely on an expensive message-passing procedure to propagate information through the graph. We present the PPRGo model which utilizes an efficient approximation of information diffusion in GNNs resulting in significant speed gains while maintaining state-of-the-art prediction performance. In addition to being faster, PPRGo is inherently scalable, and can be trivially parallelized for large datasets like those found in industry settings. We demonstrate that PPRGo outperforms baselines in both distributed and single-machine training environments on a number of commonly used academic graphs. To better analyze the scalability of large-scale graph learning methods, we introduce a novel benchmark graph with 12.4 million nodes, 173 million edges, and 2.8 million node features. We show that training PPRGo from scratch and predicting labels for all nodes in this graph takes under 2 minutes on a single machine, far outpacing other baselines on the same graph. We discuss the practical application of PPRGo to solve large-scale node classification problems at Google.
翻訳日:2022-11-14 05:02:19 公開日:2022-04-05
# 逐次対応型学習可能なフィルタ

Semantically Adversarial Learnable Filters ( http://arxiv.org/abs/2008.06069v3 )

ライセンス: Link先を確認
Ali Shahin Shamsabadi, Changjae Oh, Andrea Cavallaro(参考訳) 本稿では,ラベルのイメージ内容と意味を考慮し,分類器を誤解させるような摂動を創り出すための敵対的枠組みを提案する。 提案するフレームワークは,マルチタスク目的関数における構造損失と意味的対立損失を組み合わせて,完全な畳み込みニューラルネットワークを訓練する。 構造損失は、ターゲット画像処理フィルタによって型と大きさが定義される摂動を生成するのに役立つ。 意味的敵対的損失は、(セマンティックな)ラベルの群を、フィルター画像 {from} が同じグループのラベルで分類されるのを防ぐための摂動を作ろうと考えている。 我々は,imagenetで事前学習した3つの分類器,resnet50,resnet18,alexnetに対して,詳細な拡張,ログ変換,ガンマ補正フィルタの3つのターゲットフィルタによる検証を行った。 提案手法は, 高い成功率, 頑健性, および未知の分類器への転送性を有するフィルタ画像を生成する。 対人摂動の客観的および主観的評価についても論じる。

We present an adversarial framework to craft perturbations that mislead classifiers by accounting for the image content and the semantics of the labels. The proposed framework combines a structure loss and a semantic adversarial loss in a multi-task objective function to train a fully convolutional neural network. The structure loss helps generate perturbations whose type and magnitude are defined by a target image processing filter. The semantic adversarial loss considers groups of (semantic) labels to craft perturbations that prevent the filtered image {from} being classified with a label in the same group. We validate our framework with three different target filters, namely detail enhancement, log transformation and gamma correction filters; and evaluate the adversarially filtered images against three classifiers, ResNet50, ResNet18 and AlexNet, pre-trained on ImageNet. We show that the proposed framework generates filtered images with a high success rate, robustness, and transferability to unseen classifiers. We also discuss objective and subjective evaluations of the adversarial perturbations.
翻訳日:2022-10-30 22:47:06 公開日:2022-04-05
# 非平衡分子に対する高速かつ不確実な指向性メッセージパッシング

Fast and Uncertainty-Aware Directional Message Passing for Non-Equilibrium Molecules ( http://arxiv.org/abs/2011.14115v3 )

ライセンス: Link先を確認
Johannes Gasteiger, Shankari Giri, Johannes T. Margraf, Stephan G\"unnemann(参考訳) 化学における多くの重要なタスクは反応中に分子を取り巻く。 これは平衡から遠ざかる予測を必要とするが、最近の分子の機械学習の研究は平衡状態や準平衡状態に焦点を当てている。 本稿では,この範囲を3つの方法で拡張することを目的とする。 まず, 平衡分子のqm9ベンチマークにおいて, 元のdimenetよりも8倍高速で10%精度のdimenet++モデルを提案する。 第2に,衝突時の小分子の歪んだ配置を含むcollデータセットの開発により,高い反応性を持つ分子上でdimenet++を検証する。 最後に,不確実性定量化のためのアンサンブルと平均分散推定について検討し,非平衡構造の広大な空間の探索を加速することを目的とした。 私たちのDimeNet++実装とCOLLデータセットはオンラインで利用可能です。

Many important tasks in chemistry revolve around molecules during reactions. This requires predictions far from the equilibrium, while most recent work in machine learning for molecules has been focused on equilibrium or near-equilibrium states. In this paper we aim to extend this scope in three ways. First, we propose the DimeNet++ model, which is 8x faster and 10% more accurate than the original DimeNet on the QM9 benchmark of equilibrium molecules. Second, we validate DimeNet++ on highly reactive molecules by developing the challenging COLL dataset, which contains distorted configurations of small molecules during collisions. Finally, we investigate ensembling and mean-variance estimation for uncertainty quantification with the goal of accelerating the exploration of the vast space of non-equilibrium structures. Our DimeNet++ implementation as well as the COLL dataset are available online.
翻訳日:2022-09-19 20:04:29 公開日:2022-04-05
# (参考訳) 光通信のための連成確率と幾何形状のモデルベース深層学習

Model-Based Deep Learning of Joint Probabilistic and Geometric Shaping for Optical Communication ( http://arxiv.org/abs/2204.07457v1 )

ライセンス: CC BY 4.0
Vladislav Neskorniuk, Andrea Carnio, Domenico Marsella, Sergei K. Turitsyn, Jaroslaw E. Prilepsky, Vahid Aref(参考訳) オートエンコーダベースのディープラーニングは、光学コヒーレント通信のための幾何学的および確率的星座形成を共同で最適化する。 最適化された星座の形状は、256 QAM Maxwell-Boltzmann 確率分布より優れており、170 km SMF リンク上で64 GBd 伝送のための 0.05 ビット/4D シンボル相互情報が得られる。

Autoencoder-based deep learning is applied to jointly optimize geometric and probabilistic constellation shaping for optical coherent communication. The optimized constellation shaping outperforms the 256 QAM Maxwell-Boltzmann probabilistic distribution with extra 0.05 bits/4D-symbol mutual information for 64 GBd transmission over 170 km SMF link.
翻訳日:2022-05-01 09:43:33 公開日:2022-04-05
# (参考訳) LAMNER:文字言語モデルと名前付きエンティティ認識を用いたコードコメント生成

LAMNER: Code Comment Generation Using Character Language Model and Named Entity Recognition ( http://arxiv.org/abs/2204.09654v1 )

ライセンス: CC BY 4.0
Rishab Sharma and Fuxiang Chen and Fatemeh Fard(参考訳) コードコメント生成は、与えられたコードメソッドや関数の高レベルな自然言語記述を生成するタスクである。 研究者は、コードコメントを自動的に生成する方法をいくつか研究しているが、以前の研究は主に、コードトークンを全体意味論形式で表現すること(例えば、コードトークンの意味を学ぶために言語モデルが使用される)を検討しており、コードのツリー構造のような追加的なコードプロパティがモデルの補助入力として含まれている。 制限は2つある。 1)全形式のコードトークンを学習しても,ソースコード内で簡潔に情報を取得できない場合がある。 2) コードトークンには、本質的にプログラミング言語で重要な構文情報が含まれない。 本稿では、コード構造を効果的に符号化し、コードトークンの構造特性をキャプチャできるコードコメント生成装置であるLAnguage Model and Named Entity Recognition (LAMNER)を提案する。 文字レベルの言語モデルは、コードトークンをエンコードする意味表現を学ぶために使用される。 トークンの構造特性については、異なるタイプのコードトークンを学ぶために、名前付きエンティティ認識モデルを訓練する。 これらの表現はエンコーダ-デコーダアーキテクチャに入力され、コードコメントを生成する。 LAMNERや他のベースラインから生成されたコメントを、一般的な4つのメトリクスを持つ人気のあるJavaデータセットで評価する。 LAMNERは, BLEU-1, BLEU-2, BLEU-3, BLEU-4, ROUGE-L, METEOR, CIDErにおいて, それぞれ14.34%, 18.98%, 21.55%, 23.00%, 10.52%, 1.44%, 25.86%のベースラインモデルに対して有効であり, 改善されている。 さらに、LAMNERのコード表現をベースラインモデルと融合させ、融合モデルは非融合モデルよりも一貫して改善した。 人的評価により、lamnerは高品質のコードコメントを生成する。

Code comment generation is the task of generating a high-level natural language description for a given code method or function. Although researchers have been studying multiple ways to generate code comments automatically, previous work mainly considers representing a code token in its entirety semantics form only (e.g., a language model is used to learn the semantics of a code token), and additional code properties such as the tree structure of a code are included as an auxiliary input to the model. There are two limitations: 1) Learning the code token in its entirety form may not be able to capture information succinctly in source code, and 2) The code token does not contain additional syntactic information, inherently important in programming languages. In this paper, we present LAnguage Model and Named Entity Recognition (LAMNER), a code comment generator capable of encoding code constructs effectively and capturing the structural property of a code token. A character-level language model is used to learn the semantic representation to encode a code token. For the structural property of a token, a Named Entity Recognition model is trained to learn the different types of code tokens. These representations are then fed into an encoder-decoder architecture to generate code comments. We evaluate the generated comments from LAMNER and other baselines on a popular Java dataset with four commonly used metrics. Our results show that LAMNER is effective and improves over the best baseline model in BLEU-1, BLEU-2, BLEU-3, BLEU-4, ROUGE-L, METEOR, and CIDEr by 14.34%, 18.98%, 21.55%, 23.00%, 10.52%, 1.44%, and 25.86%, respectively. Additionally, we fused LAMNER's code representation with the baseline models, and the fused models consistently showed improvement over the non-fused models. The human evaluation further shows that LAMNER produces high-quality code comments.
翻訳日:2022-04-24 21:56:19 公開日:2022-04-05
# (参考訳) 低リソースプログラミング言語における事前学習言語モデルの転送可能性について

On the Transferability of Pre-trained Language Models for Low-Resource Programming Languages ( http://arxiv.org/abs/2204.09653v1 )

ライセンス: CC BY 4.0
Fuxiang Chen and Fatemeh Fard and David Lo and Timofey Bryksin(参考訳) Ahmed氏とDevanbu氏の最近の研究によると、多言語データセットで記述されたコードのコーパスを使用して、PLM(Multilingual Pre-trained Language Model)を微調整することで、1つのプログラミング言語で書かれたコードコーパスを使用するよりも高いパフォーマンスを実現する。 しかし, 微調整単言語 PLM の解析は行われなかった。 さらに、いくつかのプログラミング言語は本質的に異なるものであり、ある言語で書かれたコードは、通常他の言語と交換することはできない。 多言語plmと単言語plmの違いがプログラミング言語に与える影響をよく理解するために,検討する。 1) コード要約とコード検索という2つの人気のあるソフトウェアエンジニアリングタスクに対するrubyでのplmsのパフォーマンス。 2) Ruby用の微調整多言語PLMでうまく機能する(プログラミング言語を選択する)戦略、そして 3) Ruby上での微調整 PLM のパフォーマンスにはコードの長さが異なる。 本研究では,100以上の事前学習モデルと微調整モデルを分析する。 私たちの結果は 1)多言語 PLM は単言語 PLM と比較して性能-時間比 (BLEU, METEOR, MRR スコア) が低い。 2)多言語 PLM を微調整するためのターゲット言語を選択する戦略は効果的である。 3)提案した戦略は,コード長の異なる場合に常に優れた性能を示す。

A recent study by Ahmed and Devanbu reported that using a corpus of code written in multilingual datasets to fine-tune multilingual Pre-trained Language Models (PLMs) achieves higher performance as opposed to using a corpus of code written in just one programming language. However, no analysis was made with respect to fine-tuning monolingual PLMs. Furthermore, some programming languages are inherently different and code written in one language usually cannot be interchanged with the others, i.e., Ruby and Java code possess very different structure. To better understand how monolingual and multilingual PLMs affect different programming languages, we investigate 1) the performance of PLMs on Ruby for two popular Software Engineering tasks: Code Summarization and Code Search, 2) the strategy (to select programming languages) that works well on fine-tuning multilingual PLMs for Ruby, and 3) the performance of the fine-tuned PLMs on Ruby given different code lengths. In this work, we analyze over a hundred of pre-trained and fine-tuned models. Our results show that 1) multilingual PLMs have a lower Performance-to-Time Ratio (the BLEU, METEOR, or MRR scores over the fine-tuning duration) as compared to monolingual PLMs, 2) our proposed strategy to select target programming languages to fine-tune multilingual PLMs is effective: it reduces the time to fine-tune yet achieves higher performance in Code Summarization and Code Search tasks, and 3) our proposed strategy consistently shows good performance on different code lengths.
翻訳日:2022-04-24 21:34:18 公開日:2022-04-05
# (参考訳) BERTにおけるコード注意に関する探索的研究

An Exploratory Study on Code Attention in BERT ( http://arxiv.org/abs/2204.10200v1 )

ライセンス: CC BY 4.0
Rishab Sharma and Fuxiang Chen and Fatemeh Fard and David Lo(参考訳) ソフトウェア工学における最近の多くのモデルは、トランスフォーマーアーキテクチャに基づいたディープニューラルモデルを導入したり、コードに基づいてトレーニングされたtransformer-based pre-trained language model (plm)を使用している。 これらのモデルは、コード要約やバグ検出など、多くのダウンストリームタスクを達成しているが、主に自然言語処理(NLP)の分野で研究されているTransformerとPLMに基づいている。 現在の研究では、自然言語とプログラミング言語の違いにもかかわらず、コード内のこれらのモデルに対するNLPの推論と実践に依存している。 コードのモデル化方法を説明する文献も限られている。 本稿では,plmのコードに対する注意行動を調査し,自然言語と比較する。 私たちは、トランスフォーマーベースのplmであるbertをコードで事前トレーニングし、セマンティックと構文の両方で学習する情報の種類を調べました。 コード構成の注目値とBERTが各レイヤで何を学ぶかを分析するために、いくつかの実験を実施しました。 解析の結果,ntp のトークン [cls] とは対照的に,bert は構文的実体,特に識別子やセパレータにもっと注意を払っていることがわかった。 この観察は、コードクローン検出に使用する場合、[CLS]トークンの代わりにコードシーケンスを表現するために識別子を活用する動機となった。 その結果,識別子からの埋め込みにより,下層および上層におけるbertの性能は605%向上し,f1-scoreは4%向上した。 コードベースのPLMであるCodeBERTに識別子の埋め込みを使用すると、クローン検出のF1スコアで21~24%の性能が向上する。 この発見は、nlpで使われる共通の埋め込みを適用するのではなく、コード固有の表現を使用することで研究コミュニティに利益をもたらすことができ、同様のパフォーマンスの小さなモデルを開発するための新しい方向を開くことができる。

Many recent models in software engineering introduced deep neural models based on the Transformer architecture or use transformer-based Pre-trained Language Models (PLM) trained on code. Although these models achieve the state of the arts results in many downstream tasks such as code summarization and bug detection, they are based on Transformer and PLM, which are mainly studied in the Natural Language Processing (NLP) field. The current studies rely on the reasoning and practices from NLP for these models in code, despite the differences between natural languages and programming languages. There is also limited literature on explaining how code is modeled. Here, we investigate the attention behavior of PLM on code and compare it with natural language. We pre-trained BERT, a Transformer based PLM, on code and explored what kind of information it learns, both semantic and syntactic. We run several experiments to analyze the attention values of code constructs on each other and what BERT learns in each layer. Our analyses show that BERT pays more attention to syntactic entities, specifically identifiers and separators, in contrast to the most attended token [CLS] in NLP. This observation motivated us to leverage identifiers to represent the code sequence instead of the [CLS] token when used for code clone detection. Our results show that employing embeddings from identifiers increases the performance of BERT by 605% and 4% F1-score in its lower layers and the upper layers, respectively. When identifiers' embeddings are used in CodeBERT, a code-based PLM, the performance is improved by 21-24% in the F1-score of clone detection. The findings can benefit the research community by using code-specific representations instead of applying the common embeddings used in NLP, and open new directions for developing smaller models with similar performance.
翻訳日:2022-04-24 21:17:06 公開日:2022-04-05
# CGC: コミュニティ検出とトラッキングのためのコントラストグラフクラスタリング

CGC: Contrastive Graph Clustering for Community Detection and Tracking ( http://arxiv.org/abs/2204.08504v1 )

ライセンス: Link先を確認
Namyong Park, Ryan Rossi, Eunyee Koh, Iftikhar Ahamath Burhanuddin, Sungchul Kim, Fan Du, Nesreen Ahmed, Christos Faloutsos(参考訳) 異なるタイミングで発生した可能性があるwebデータ内のエンティティとそのインタラクションを考えると、どのようにしてエンティティのコミュニティを見つけて、それらの進化を追跡できるのか? 本稿では,グラフクラスタリングの観点から,この重要な課題にアプローチする。 近年,深層クラスタリング手法により,様々な領域における最先端クラスタリング性能が達成されている。 特に、ディープグラフクラスタリング(DGC)手法は、ノード表現とクラスタ割り当てを共同最適化フレームワークで学習することで、グラフ構造化データにディープクラスタリングをうまく拡張した。 モデリングの選択(例えばエンコーダアーキテクチャ)にいくつかの違いがあるが、既存のDGCメソッドは主にオートエンコーダに基づいており、比較的小さな適応で同じクラスタリングの目的を使用する。 また、多くの実世界のグラフは動的であるが、従来のDGC法は静的グラフのみを考慮していた。 本研究では,既存の手法と根本的に異なる,グラフクラスタリングのための新たなエンドツーエンドフレームワークであるcgcを開発した。 CGCは、ノード埋め込みとクラスタ割り当てを対照的なグラフ学習フレームワークで学習し、正と負のサンプルを階層的なコミュニティ構造やネットワークホモフィリーを反映するように、多段階のスキームで慎重に選択する。 また,時間発展データに対してcgcを拡張し,時間的グラフクラスタリングを漸進的学習方式で実施し,変化点の検出を可能にする。 実世界のグラフに対する広範囲な評価は、提案したCGCが既存の手法より一貫して優れていることを示す。

Given entities and their interactions in the web data, which may have occurred at different time, how can we find communities of entities and track their evolution? In this paper, we approach this important task from graph clustering perspective. Recently, state-of-the-art clustering performance in various domains has been achieved by deep clustering methods. Especially, deep graph clustering (DGC) methods have successfully extended deep clustering to graph-structured data by learning node representations and cluster assignments in a joint optimization framework. Despite some differences in modeling choices (e.g., encoder architectures), existing DGC methods are mainly based on autoencoders and use the same clustering objective with relatively minor adaptations. Also, while many real-world graphs are dynamic, previous DGC methods considered only static graphs. In this work, we develop CGC, a novel end-to-end framework for graph clustering, which fundamentally differs from existing methods. CGC learns node embeddings and cluster assignments in a contrastive graph learning framework, where positive and negative samples are carefully selected in a multi-level scheme such that they reflect hierarchical community structures and network homophily. Also, we extend CGC for time-evolving data, where temporal graph clustering is performed in an incremental learning fashion, with the ability to detect change points. Extensive evaluation on real-world graphs demonstrates that the proposed CGC consistently outperforms existing methods.
翻訳日:2022-04-24 16:47:56 公開日:2022-04-05
# テキストランキングのための事前学習されたトランスフォーマーは、どう違うのか?

How Different are Pre-trained Transformers for Text Ranking? ( http://arxiv.org/abs/2204.07233v1 )

ライセンス: Link先を確認
David Rau and Jaap Kamps(参考訳) 近年、大規模な事前学習型トランスフォーマーは、従来の検索モデルやフィードバックアプローチよりも性能が大幅に向上している。 しかし、これらの結果は主にMS Marco/TREC Deep Learning Trackのセットアップに基づいており、そのセットアップは非常に特化しています。 本稿では, BERT ベースのクロスエンコーダと従来の BM25 ランキングを比較し, 2 つの主要な問題について検討する。 一方、類似点は何か? 従来のランク付けの能力はすでにどの程度まで含まれていますか? 同じ文書のランキング(優先順位付けの精度)が良くなったことで、パフォーマンスが向上するのでしょうか? それに対して、何が違うのか? 従来のシステムでは見落としていたドキュメント(リコール優先)を効果的に取得できるのでしょうか? BERTの強度と弱さを識別する関連性の概念には,今後の改善に向けた研究を促す重要な違いがある。 この結果は,MS-Marcoをベースとしたテストコレクションの特定の実験的な設定を理解する上で,従来の(十分に理解された)ランキングに対する(ブラックボックス)ニューラルネットワークローダの理解に寄与する。

In recent years, large pre-trained transformers have led to substantial gains in performance over traditional retrieval models and feedback approaches. However, these results are primarily based on the MS Marco/TREC Deep Learning Track setup, with its very particular setup, and our understanding of why and how these models work better is fragmented at best. We analyze effective BERT-based cross-encoders versus traditional BM25 ranking for the passage retrieval task where the largest gains have been observed, and investigate two main questions. On the one hand, what is similar? To what extent does the neural ranker already encompass the capacity of traditional rankers? Is the gain in performance due to a better ranking of the same documents (prioritizing precision)? On the other hand, what is different? Can it retrieve effectively documents missed by traditional systems (prioritizing recall)? We discover substantial differences in the notion of relevance identifying strengths and weaknesses of BERT that may inspire research for future improvement. Our results contribute to our understanding of (black-box) neural rankers relative to (well-understood) traditional rankers, help understand the particular experimental setting of MS-Marco-based test collections.
翻訳日:2022-04-24 16:10:32 公開日:2022-04-05
# 脳にインスパイアされた超次元コンピューティング:エッジコンピューティングに熱的フレンドリか?

Brain-Inspired Hyperdimensional Computing: How Thermal-Friendly for Edge Computing? ( http://arxiv.org/abs/2204.03739v1 )

ライセンス: Link先を確認
Paul R. Genssler, Austin Vas, Hussam Amrouch(参考訳) 脳にインスパイアされた超次元コンピューティング(HDC)は、新しい機械学習(ML)手法である。 双極記号や双極記号の大きなベクトルと、いくつかの単純な数学的演算に基づいている。 HDCの約束は、ウェアラブルのような組み込みシステムに対する非常に効率的な実装である。 高速実装が提案されているが、エッジコンピューティングには他の制約は考慮されていない。 本稿では,エッジコンピューティングにおける熱的フレンドリなhdcについて述べる。 スマートウォッチ、スマートグラス、さらにはモバイルシステムといったデバイスは、容量制限のために冷却予算が制限されている。 HDC操作は単純だが、ベクトルは大きいためCPU操作が多くなり、システム全体の負荷が大きいため、温度違反を引き起こす可能性がある。 本研究では,HDCがチップ温度に与える影響を初めて検討した。 商用組込みシステムの温度と消費電力を測定し,HDCと従来のCNNを比較した。 我々はHDCが最大6.8{\deg}Cの高温の原因となり、最大で47%のCPUスロットリングを引き起こすことを明らかにした。 HDCとCNNの両方が同じスループット(つまり、同じ数の分類を毎秒実行している)を目指していても、HDCは消費電力が大きいため、チップ上の温度が高くなる。

Brain-inspired hyperdimensional computing (HDC) is an emerging machine learning (ML) methods. It is based on large vectors of binary or bipolar symbols and a few simple mathematical operations. The promise of HDC is a highly efficient implementation for embedded systems like wearables. While fast implementations have been presented, other constraints have not been considered for edge computing. In this work, we aim at answering how thermal-friendly HDC for edge computing is. Devices like smartwatches, smart glasses, or even mobile systems have a restrictive cooling budget due to their limited volume. Although HDC operations are simple, the vectors are large, resulting in a high number of CPU operations and thus a heavy load on the entire system potentially causing temperature violations. In this work, the impact of HDC on the chip's temperature is investigated for the first time. We measure the temperature and power consumption of a commercial embedded system and compare HDC with conventional CNN. We reveal that HDC causes up to 6.8{\deg}C higher temperatures and leads to up to 47% more CPU throttling. Even when both HDC and CNN aim for the same throughput (i.e., perform a similar number of classifications per second), HDC still causes higher on-chip temperatures due to the larger power consumption.
翻訳日:2022-04-17 07:09:27 公開日:2022-04-05
# (参考訳) ミキシング信号:深層学習に基づく変調認識のためのデータ拡張手法

Mixing Signals: Data Augmentation Approach for Deep Learning Based Modulation Recognition ( http://arxiv.org/abs/2204.03737v1 )

ライセンス: CC BY 4.0
Xinjie Xu, Zhuangzhi Chen, Dongwei Xu, Huaji Zhou, Shanqing Yu, Shilian Zheng, Qi Xuan, Xiaoniu Yang(参考訳) ディープラーニングの急速な発展に伴い、認知無線の重要な課題である自動変調認識(AMR)は、従来の特徴抽出や分類からディープラーニング技術による自動分類へと徐々に変化してきた。 しかし、ディープラーニングモデルはデータ駆動型であり、トレーニングサポートとして大量のデータを必要とすることが多い。 データ拡張は、データセットを拡張する戦略として、ディープラーニングモデルの一般化を改善し、モデルの精度をある程度向上することができる。 本稿では,無線信号のamrに対して,混合信号に基づくデータ拡張戦略を提案し,データ拡張を実現するための4つの方法(ランダム混合,最大相似混合,$\theta-$ similarity mix,n-times random mixing)を検討する。 実験により,本手法はフルパブリックデータセットrml2016.10aにおいて,深層学習に基づくamrモデルの分類精度を向上させることができることを示した。 特に、単一信号対雑音比信号セットの場合、分類精度が大幅に向上し、その方法の有効性が検証される。

With the rapid development of deep learning, automatic modulation recognition (AMR), as an important task in cognitive radio, has gradually transformed from traditional feature extraction and classification to automatic classification by deep learning technology. However, deep learning models are data-driven methods, which often require a large amount of data as the training support. Data augmentation, as the strategy of expanding dataset, can improve the generalization of the deep learning models and thus improve the accuracy of the models to a certain extent. In this paper, for AMR of radio signals, we propose a data augmentation strategy based on mixing signals and consider four specific methods (Random Mixing, Maximum-Similarity-Mixing, $\theta-$Similarity Mixing and n-times Random Mixing) to achieve data augmentation. Experiments show that our proposed method can improve the classification accuracy of deep learning based AMR models in the full public dataset RML2016.10a. In particular, for the case of a single signal-to-noise ratio signal set, the classification accuracy can be significantly improved, which verifies the effectiveness of the methods.
翻訳日:2022-04-17 07:02:02 公開日:2022-04-05
# 総合的脳接続マッピングのためのマルチグラフ統合法の比較調査

Comparative Survey of Multigraph Integration Methods for Holistic Brain Connectivity Mapping ( http://arxiv.org/abs/2204.05110v1 )

ライセンス: Link先を確認
Nada Chaari and Hatice Camgoz Akdag and Islem Rekik(参考訳) ネットワーク神経科学における最大の科学的課題の1つは、接続指紋として機能する異種脳ネットワークの人口の代表マップを作成することである。 ネットワークアトラスとも呼ばれる接続脳テンプレート(CBT)は、そのトポロジカルなパターンを保ちながら、与えられた個体群の最も代表的で差別的な特徴を捉える強力なツールを提供する。 CBTの考え方は、様々な神経画像モダリティや脳のビュー(例えば構造と機能)から派生した、異種脳接続ネットワークの集団を統一された全体的表現に統合することである。 本稿では,一視点脳ネットワークと多視点脳ネットワークの個体群について,良心的かつ代表的cbtを推定する手法について概説する。 まず,各cbt学習法を概観し,単視点および多面的統合法で生成された集団のcbt代表性を比較する評価手法を,中心性,バイオマーカー再現性,ノードレベルの類似性,グローバルレベルの類似性,距離ベースの類似性という基準に基づいて別々に導入する。 深層グラフ正規化器 (dgn) 法は, 重心性, 再現性 (グラフ由来バイオマーカーの再現性) の観点から, cbt 推定のための他の多面的および全単視点統合法を著しく上回り, 局所的およびグローバルグラフレベルで位相的特徴を保存できることを実証した。

One of the greatest scientific challenges in network neuroscience is to create a representative map of a population of heterogeneous brain networks, which acts as a connectional fingerprint. The connectional brain template (CBT), also named network atlas, presents a powerful tool for capturing the most representative and discriminative traits of a given population while preserving its topological patterns. The idea of a CBT is to integrate a population of heterogeneous brain connectivity networks, derived from different neuroimaging modalities or brain views (e.g., structural and functional), into a unified holistic representation. Here we review current state-of-the-art methods designed to estimate well-centered and representative CBT for populations of single-view and multi-view brain networks. We start by reviewing each CBT learning method, then we introduce the evaluation measures to compare CBT representativeness of populations generated by single-view and multigraph integration methods, separately, based on the following criteria: centeredness, biomarker-reproducibility, node-level similarity, global-level similarity, and distance-based similarity. We demonstrate that the deep graph normalizer (DGN) method significantly outperforms other multi-graph and all single-view integration methods for estimating CBTs using a variety of healthy and disordered datasets in terms of centeredness, reproducibility (i.e., graph-derived biomarkers reproducibility that disentangle the typical from the atypical connectivity variability), and preserving the topological traits at both local and global graph-levels.
翻訳日:2022-04-17 06:41:20 公開日:2022-04-05
# 材料異方性と異方性を考慮した経路依存塑性予測のための単一長期短期記憶ネットワーク

A single Long Short-Term Memory network for enhancing the prediction of path-dependent plasticity with material heterogeneity and anisotropy ( http://arxiv.org/abs/2204.01466v2 )

ライセンス: Link先を確認
Ehsan Motevali Haghighi and SeonHong Na(参考訳) 本研究は, 物質不均一性および異方性に関連する経路依存性の可塑性を予測するために, 従来のディープリカレントニューラルネットワーク(RNN)の適用性を示す。 RNNのアーキテクチャは、時間とともに情報に対する帰納的バイアスを持つが、弾塑性から弾塑性への変化を考慮したロードパスの機能として、経路依存的な物質挙動を学ぶことは依然として困難である。 本研究の目的は,材料の異質性と異方性を考慮した弾塑性挙動を再現できる簡易な機械学習モデルの開発である。 入力変数を操作することにより、過去の情報に対する帰納バイアスを高めることにより、二次元空間における塑性のモデリングにLSTM(Long-Short Term Memory Unit)を用いる。 以上の結果から,単一のlstmモデルが単調および任意の荷重経路下でj2塑性応答を捕捉できることが判明した。 提案するニューラルネットワークアーキテクチャは、計算均質化(fe2)に関連する二次元横異方性物質の弾塑性応答のモデル化に使用される。 また, 任意の機械的負荷条件下での異方性および異方性ミクロ構造の経路依存応答を正確に, 効果的に把握するために, 単一LSTMモデルを用いることも見いだされた。

This study presents the applicability of conventional deep recurrent neural networks (RNN) to predict path-dependent plasticity associated with material heterogeneity and anisotropy. Although the architecture of RNN possesses inductive biases toward information over time, it is still challenging to learn the path-dependent material behavior as a function of the loading path considering the change from elastic to elastoplastic regimes. Our attempt is to develop a simple machine-learning-based model that can replicate elastoplastic behaviors considering material heterogeneity and anisotropy. The basic Long-Short Term Memory Unit (LSTM) is adopted for the modeling of plasticity in the two-dimensional space by enhancing the inductive bias toward the past information through manipulating input variables. Our results find that a single LSTM based model can capture the J2 plasticity responses under both monotonic and arbitrary loading paths provided the material heterogeneity. The proposed neural network architecture is then used to model elastoplastic responses of a two-dimensional transversely anisotropic material associated with computational homogenization (FE2). It is also found that a single LSTM model can be used to accurately and effectively capture the path-dependent responses of heterogeneous and anisotropic microstructures under arbitrary mechanical loading conditions.
翻訳日:2022-04-10 11:13:41 公開日:2022-04-05
# (参考訳) 分類用マルチタスク非並列サポートベクターマシン

Multi-task nonparallel support vector machine for classification ( http://arxiv.org/abs/2204.02972v1 )

ライセンス: CC BY 4.0
Zongmin Liu and Yitian Xu(参考訳) 直接マルチタスクツインサポートベクトルマシン(DMTSVM)は,複数の関連タスク間の共有情報を探索し,より優れた一般化性能を実現する。 しかし、二重問題を解く際に行列反転演算を含むため、実行時間が非常にかかる。 さらに、カーネルトリックは非線形の場合では直接利用できない。 上記の問題を効果的に回避するために,線形および非線形ケースを含む新しいマルチタスク非並列サポートベクトルマシン(MTNPSVM)を提案する。 DMTSVMの2乗損失の代わりにエプシロン非感受性損失を導入することで、MTNPSVMは行列反転操作を効果的に回避し、カーネルのトリックを最大限に活用する。 モデルの理論的な意味をさらに議論する。 計算効率をさらに向上するため、二重問題を解く際に乗算器の交互方向法(ADMM)を用いる。 計算の複雑さとアルゴリズムの収束性を提供する。 さらに,モデルにおけるパラメータの特性と感度についても検討した。 15のベンチマークデータセットと12の画像データセットの実験結果は、最先端のアルゴリズムと比較してMTNPSVMの有効性を示している。 最後に、実際の中国ワインデータセットに適用され、その効果を検証する。

Direct multi-task twin support vector machine (DMTSVM) explores the shared information between multiple correlated tasks, then it produces better generalization performance. However, it contains matrix inversion operation when solving the dual problems, so it costs much running time. Moreover, kernel trick cannot be directly utilized in the nonlinear case. To effectively avoid above problems, a novel multi-task nonparallel support vector machine (MTNPSVM) including linear and nonlinear cases is proposed in this paper. By introducing epsilon-insensitive loss instead of square loss in DMTSVM, MTNPSVM effectively avoids matrix inversion operation and takes full advantage of the kernel trick. Theoretical implication of the model is further discussed. To further improve the computational efficiency, the alternating direction method of multipliers (ADMM) is employed when solving the dual problem. The computational complexity and convergence of the algorithm are provided. In addition, the property and sensitivity of the parameter in model are further explored. The experimental results on fifteen benchmark datasets and twelve image datasets demonstrate the validity of MTNPSVM in comparison with the state-of-the-art algorithms. Finally, it is applied to real Chinese Wine dataset, and also verifies its effectiveness.
翻訳日:2022-04-09 10:11:58 公開日:2022-04-05
# (参考訳) API学習における事前学習モデルの有効性について

On the Effectiveness of Pretrained Models for API Learning ( http://arxiv.org/abs/2204.03498v1 )

ライセンス: CC BY 4.0
Mohammad Abdul Hadi, Imam Nur Bani Yusuf, Ferdian Thung, Kien Gia Luong, Jiang Lingxiao, Fatemeh H. Fard, David Lo(参考訳) 開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。 開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。 既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。 最初のアプローチでは、クエリとAPI名を単語の袋として扱う。 クエリのセマンティクスの深い理解が欠けている。 後者のアプローチでは、ユーザクエリを固定長コンテキストベクトルにエンコードし、コンテキストベクトルからapiシーケンスを生成するために、ニューラルネットワークモデルを採用する。 我々は、API学習タスクにおける最近の事前学習トランスフォーマーベースモデル(PTM)の有効性を理解したい。 これらのPTMは、言語に関する文脈的知識を維持するために教師なしの方法で大きな自然言語コーパスで訓練されており、同様の自然言語処理(NLP)の問題を解決することに成功した。 しかしながら、APIシーケンス生成タスクに対して、PTMの適用性はまだ検討されていない。 GitHubから収集された700万のアノテーションを含むデータセットを使用して、PTMを実証的に評価しています。 このデータセットは、以前のアプローチを評価するためにも使われた。 その結果,PTMはより正確なAPIシーケンスを生成し,関連するメソッドを約11%上回った。 私たちはまた、apiシーケンス生成タスクにおけるptmsのパフォーマンスを著しく向上させる2つの異なるトークン化アプローチも特定しました。

Developers frequently use APIs to implement certain functionalities, such as parsing Excel Files, reading and writing text files line by line, etc. Developers can greatly benefit from automatic API usage sequence generation based on natural language queries for building applications in a faster and cleaner manner. Existing approaches utilize information retrieval models to search for matching API sequences given a query or use RNN-based encoder-decoder to generate API sequences. As it stands, the first approach treats queries and API names as bags of words. It lacks deep comprehension of the semantics of the queries. The latter approach adapts a neural language model to encode a user query into a fixed-length context vector and generate API sequences from the context vector. We want to understand the effectiveness of recent Pre-trained Transformer based Models (PTMs) for the API learning task. These PTMs are trained on large natural language corpora in an unsupervised manner to retain contextual knowledge about the language and have found success in solving similar Natural Language Processing (NLP) problems. However, the applicability of PTMs has not yet been explored for the API sequence generation task. We use a dataset that contains 7 million annotations collected from GitHub to evaluate the PTMs empirically. This dataset was also used to assess previous approaches. Based on our results, PTMs generate more accurate API sequences and outperform other related methods by around 11%. We have also identified two different tokenization approaches that can contribute to a significant boost in PTMs' performance for the API sequence generation task.
翻訳日:2022-04-09 09:41:19 公開日:2022-04-05
# 高次元関数近似のためのスライス勾配強化クリグ

Sliced gradient-enhanced Kriging for high-dimensional function approximation ( http://arxiv.org/abs/2204.03562v1 )

ライセンス: Link先を確認
Kai Cheng, Ralf Zimmermann(参考訳) Gradient-enhanced Kriging (GE-Kriging)は、高価な計算モデルを近似するために確立されたサロゲートモデリング技術である。 しかし、大きな固有相関行列と関連する高次元ハイパーパラメータチューニング問題により、高次元問題には実用的でない傾向がある。 これらの問題に対処するため,本論文では,相関行列のサイズとハイパーパラメータ数の両方を削減するスライスされたGE-Kriging (SGE-Kriging) という新しい手法を提案する。 まず,モデル応答に対する各入力変数の相対的重要性を検出するために,デリバティブに基づく大域的感度解析を行う。 そこで,本論文では,サンプル集合を複数のスライスに分割し,ベイズの定理を導出し,スライス可能なスライス関数を用いて全確率関数を近似し,複数の小さな相関行列を用いてサンプル集合の相関関係を記述する。 さらに,高パラメータと大域感度指標の関係を学習することで,従来の高次元ハイパーパラメータチューニング問題を低次元に置き換える。 最後に,いくつかのベンチマーク問題を用いた数値実験によりSGE-Krigingを検証する。 その結果,SGE-Krigingモデルでは,標準モデルに匹敵する精度と堅牢性を特徴とするが,トレーニングコストの低減が図られた。 この利点は高次元問題において最も顕著である。

Gradient-enhanced Kriging (GE-Kriging) is a well-established surrogate modelling technique for approximating expensive computational models. However, it tends to get impractical for high-dimensional problems due to the large inherent correlation matrix and the associated high-dimensional hyper-parameter tuning problem. To address these issues, we propose a new method in this paper, called sliced GE-Kriging (SGE-Kriging) for reducing both the size of the correlation matrix and the number of hyper-parameters. Firstly, we perform a derivative-based global sensitivity analysis to detect the relative importance of each input variable with respect to model response. Then, we propose to split the training sample set into multiple slices, and invoke Bayes' theorem to approximate the full likelihood function via a sliced likelihood function, in which multiple small correlation matrices are utilized to describe the correlation of the sample set. Additionally, we replace the original high-dimensional hyper-parameter tuning problem with a low-dimensional counterpart by learning the relationship between the hyper-parameters and the global sensitivity indices. Finally, we validate SGE-Kriging by means of numerical experiments with several benchmarks problems. The results show that the SGE-Kriging model features an accuracy and robustness that is comparable to the standard one but comes at much less training costs. The benefits are most evident in high-dimensional problems.
翻訳日:2022-04-08 16:04:10 公開日:2022-04-05
# ピアレビューにおけるランキングの量子スコアへの統合

Integrating Rankings into Quantized Scores in Peer Review ( http://arxiv.org/abs/2204.03505v1 )

ライセンス: Link先を確認
Yusha Liu, Yichong Xu, Nihar B. Shah and Aarti Singh(参考訳) ピアレビューでは、レビュアーは通常、論文のスコアを提供するよう求められる。 スコアは、意思決定過程において、エリアチェアまたはプログラムチェアによって様々な方法で使用される。 スコアは通常、人間の認知能力に制限を課し、数値的な値で意見を記述するために、定量化された形で引き出される。 定量化されたスコアには多くの関連があり、結果としてかなりの情報を失うことが判明している。 この問題を軽減するため、カンファレンスはレビュアーにレビューした論文のランキングを付加するように求め始めている。 しかし、主な課題は2つある。 まず、このランキング情報を使用するための標準的な手順はなく、エリアチェアは(単に無視するなど)異なる方法で使用することができるため、ピアレビュープロセスにおける任意性につながる。 第二に、このデータや既存のワークフローに組み込むメソッドを司法的に使用するのに適したインターフェースは存在しないため、非効率になる。 スコアにランキング情報を統合するための原則的なアプローチを取ります。 本手法のアウトプットは,各レビューに関連する更新スコアであり,ランキングも組み込んだものである。 我々のアプローチは、以下の2つの課題に対処します。 (i)すべての論文の更新スコアにランクが組み込まれていることを保証することにより、任意性を緩和し、 (ii) スコア用に設計された既存のインターフェースとワークフローをシームレスに使用できる。 ICLR 2017 カンファレンスでは,合成データセットとピアレビューの手法を実証的に評価し,ICLR 2017 データの最高のパフォーマンスベースラインと比較して,誤差を約30%削減できることを確認した。

In peer review, reviewers are usually asked to provide scores for the papers. The scores are then used by Area Chairs or Program Chairs in various ways in the decision-making process. The scores are usually elicited in a quantized form to accommodate the limited cognitive ability of humans to describe their opinions in numerical values. It has been found that the quantized scores suffer from a large number of ties, thereby leading to a significant loss of information. To mitigate this issue, conferences have started to ask reviewers to additionally provide a ranking of the papers they have reviewed. There are however two key challenges. First, there is no standard procedure for using this ranking information and Area Chairs may use it in different ways (including simply ignoring them), thereby leading to arbitrariness in the peer-review process. Second, there are no suitable interfaces for judicious use of this data nor methods to incorporate it in existing workflows, thereby leading to inefficiencies. We take a principled approach to integrate the ranking information into the scores. The output of our method is an updated score pertaining to each review that also incorporates the rankings. Our approach addresses the two aforementioned challenges by: (i) ensuring that rankings are incorporated into the updates scores in the same manner for all papers, thereby mitigating arbitrariness, and (ii) allowing to seamlessly use existing interfaces and workflows designed for scores. We empirically evaluate our method on synthetic datasets as well as on peer reviews from the ICLR 2017 conference, and find that it reduces the error by approximately 30% as compared to the best performing baseline on the ICLR 2017 data.
翻訳日:2022-04-08 15:21:35 公開日:2022-04-05
# 動的不完全多視点データに対する教師なし特徴選択

Incremental Unsupervised Feature Selection for Dynamic Incomplete Multi-view Data ( http://arxiv.org/abs/2204.02973v1 )

ライセンス: Link先を確認
Yanyong Huang, Kejun Guo, Xiuwen Yi, Zhong Li, Tianrui Li(参考訳) マルチビュー非教師付き特徴選択は、高次元のマルチビュー非ラベルデータの次元性を低減するのに効率的であることが証明されている。 以前の方法は、すべてのビューが完了したと仮定します。 しかし、実際のアプリケーションでは、マルチビューデータは、しばしば不完全であり、例えば、いくつかのインスタンスのビューが欠落しており、結果としてこれらのメソッドが失敗する。 さらに、データはストリーム形式で提供されるが、これらの既存の方法は、高いストレージコストと高価な計算時間の問題に悩まされる。 そこで本研究では,不完全多視点ストリーミングデータに対するインクリメンタル不完全多視点非教師なし特徴選択法(i$^2$mufs)を提案する。 I$^2$MUFSは、異なるビューの一貫性と相補的な情報を共同で検討することにより、教師なし特徴選択を拡張重み付き非負行列分解モデルに組み込み、コンセンサスクラスタリング指標行列を学習し、異なる潜在特徴行列を適応的なビュー重みで融合させることができる。 さらに、スクラッチから更新データ全体を再計算するのではなく、特徴選択行列をインクリメンタルに更新する別の反復アルゴリズムを開発するための漸進的傾き機構を導入する。 提案手法の有効性を,いくつかの最先端手法との比較により検証する実験を行った。 実験により,クラスタリング指標と計算コストの観点から,提案手法の有効性と有効性を示した。

Multi-view unsupervised feature selection has been proven to be efficient in reducing the dimensionality of multi-view unlabeled data with high dimensions. The previous methods assume all of the views are complete. However, in real applications, the multi-view data are often incomplete, i.e., some views of instances are missing, which will result in the failure of these methods. Besides, while the data arrive in form of streams, these existing methods will suffer the issues of high storage cost and expensive computation time. To address these issues, we propose an Incremental Incomplete Multi-view Unsupervised Feature Selection method (I$^2$MUFS) on incomplete multi-view streaming data. By jointly considering the consistent and complementary information across different views, I$^2$MUFS embeds the unsupervised feature selection into an extended weighted non-negative matrix factorization model, which can learn a consensus clustering indicator matrix and fuse different latent feature matrices with adaptive view weights. Furthermore, we introduce the incremental leaning mechanisms to develop an alternative iterative algorithm, where the feature selection matrix is incrementally updated, rather than recomputing on the entire updated data from scratch. A series of experiments are conducted to verify the effectiveness of the proposed method by comparing with several state-of-the-art methods. The experimental results demonstrate the effectiveness and efficiency of the proposed method in terms of the clustering metrics and the computational cost.
翻訳日:2022-04-08 15:21:11 公開日:2022-04-05
# (参考訳) 行列補完アルゴリズムの調査

Survey of Matrix Completion Algorithms ( http://arxiv.org/abs/2204.01532v2 )

ライセンス: CC BY 4.0
Jafar Jafarov(参考訳) NetflixがNetflix Prize問題を発表して以来、マトリックスのコンプリート問題はさまざまな条件で調査されてきた。 多くの研究がこの分野で行われ、多くの実生活データセットが低ランクの行列で推定できることが発見された。 それ以来、適応信号検出は多くの研究者の注目を集めている。 本稿では, パッシブ方向と適応方向の方向を中心に, 行列補完法のいくつかを考察する。 まず, 凸最適化によるパッシブマトリクス補完法と, 適応信号検出法による第2のアクティブマトリクス補完法について考察する。 伝統的に、多くの機械学習問題は受動的環境で解決される。 しかし、後にアダプティブ・センシング・アルゴリズムが従来のアルゴリズムよりも効率的に動作することが観測された。 したがって、この設定におけるアルゴリズムは広く研究されている。 そこで本論文では, 受動的手法を用いて, 最新の適応行列補完アルゴリズムを提示する。

Matrix completion problem has been investigated under many different conditions since Netflix announced the Netflix Prize problem. Many research work has been done in the field once it has been discovered that many real life dataset could be estimated with a low-rank matrix. Since then compressed sensing, adaptive signal detection has gained the attention of many researchers. In this survey paper we are going to visit some of the matrix completion methods, mainly in the direction of passive and adaptive directions. First, we discuss passive matrix completion methods with convex optimization, and the second active matrix completion techniques with adaptive signal detection methods. Traditionally many machine learning problems are solved in passive environment. However, later it has been observed that adaptive sensing algorithms many times performs more efficiently than former algorithms. Hence algorithms in this setting has been extensively studied. Therefore, we are going to present some of the latest adaptive matrix completion algorithms in this paper meanwhile providing passive methods.
翻訳日:2022-04-08 07:26:05 公開日:2022-04-05
# (参考訳) Sparse Noisyows を用いたマトリックスコンプリート

Matrix Completion with Sparse Noisy Rows ( http://arxiv.org/abs/2204.01530v2 )

ライセンス: CC BY 4.0
Jafar Jafarov(参考訳) 厳密な行列完了と低位行列推定問題は、異なる基底条件で研究されている。 本研究では, 非縮退性雑音モデルを用いて, 完全低ランク化について検討する。 非退化ランダムノイズモデルはこれまで、ノイズがスパースであり、いくつかの列に存在するという条件の下で多くの研究者によって研究されてきた。 本稿では,各行が列の代わりにランダムノイズを受信できると仮定し,この雑音に対して頑健な対話型アルゴリズムを提案する。 本研究では,パラメータ化手法を用いて,基礎となる行列を復元可能な条件を与え,基礎となる行列を復元するアルゴリズムを提案する。

Exact matrix completion and low rank matrix estimation problems has been studied in different underlying conditions. In this work we study exact low-rank completion under non-degenerate noise model. Non-degenerate random noise model has been previously studied by many researchers under given condition that the noise is sparse and existing in some of the columns. In this paper, we assume that each row can receive random noise instead of columns and propose an interactive algorithm that is robust to this noise. We show that we use a parametrization technique to give a condition when the underlying matrix could be recoverable and suggest an algorithm which recovers the underlying matrix.
翻訳日:2022-04-08 07:13:56 公開日:2022-04-05
# (参考訳) 心エコー法による冠動脈病変による不完全川崎病の鑑別のための深部学習アルゴリズム

Explainable Deep Learning Algorithm for Distinguishing Incomplete Kawasaki Disease by Coronary Artery Lesions on Echocardiographic Imaging ( http://arxiv.org/abs/2204.02403v1 )

ライセンス: CC0 1.0
Haeyun Lee, Yongsoon Eun, Jae Youn Hwang, Lucy Youngmin Eun(参考訳) 背景と目的:川崎病(KD)は古典的KDの臨床症状が欠如していることから誤診されることが多い。 しかし、冠動脈病変の有病率は著しく高い。 心エコー法による冠動脈病変の診断はkdの適時診断および良好な予後に重要である。 さらに、KDと同様、現在世界規模のパンデミックを引き起こしている新型コロナウイルス感染症2019も発熱を呈しており、現在、KDは小児の発熱性疾患の中でも明確に区別されるべきである。 本研究では,KDおよび他の急性発熱性疾患の分類のための深層学習アルゴリズムを検証することを目的とした。 方法: 小児の心エコー図(KDはn = 88,肺炎はn = 65)により冠動脈像を得た。 収集したデータを用いて6つのディープラーニングネットワーク(VGG19、Xception、ResNet50、ResNext50、SE-ResNet50、SE-ResNext50)をトレーニングした。 結果: SE-ResNext50は, 精度, 特異性, 精度で最高の性能を示した。 SE-ResNext50の精度は76.35%、感度は82.64%、特異性は58.12%であった。 結論: 本研究の結果, 深層学習アルゴリズムは, KDの診断を容易にするため, 冠状動脈病変の検出において, 経験者の心臓科医と類似した性能を示した。

Background and Objective: Incomplete Kawasaki disease (KD) has often been misdiagnosed due to a lack of the clinical manifestations of classic KD. However, it is associated with a markedly higher prevalence of coronary artery lesions. Identifying coronary artery lesions by echocardiography is important for the timely diagnosis of and favorable outcomes in KD. Moreover, similar to KD, coronavirus disease 2019, currently causing a worldwide pandemic, also manifests with fever; therefore, it is crucial at this moment that KD should be distinguished clearly among the febrile diseases in children. In this study, we aimed to validate a deep learning algorithm for classification of KD and other acute febrile diseases. Methods: We obtained coronary artery images by echocardiography of children (n = 88 for KD; n = 65 for pneumonia). We trained six deep learning networks (VGG19, Xception, ResNet50, ResNext50, SE-ResNet50, and SE-ResNext50) using the collected data. Results: SE-ResNext50 showed the best performance in terms of accuracy, specificity, and precision in the classification. SE-ResNext50 offered a precision of 76.35%, a sensitivity of 82.64%, and a specificity of 58.12%. Conclusions: The results of our study suggested that deep learning algorithms have similar performance to an experienced cardiologist in detecting coronary artery lesions to facilitate the diagnosis of KD.
翻訳日:2022-04-08 04:21:49 公開日:2022-04-05
# (参考訳) この道を歩け! RDF2vecのエンティティウォークとプロパティウォーク

Walk this Way! Entity Walks and Property Walks for RDF2vec ( http://arxiv.org/abs/2204.02777v1 )

ライセンス: CC BY 4.0
Jan Portisch, Heiko Paulheim(参考訳) RDF2vecは、まずランダムウォークを実行して知識グラフからシーケンスを抽出し、その後、エンティティのベクトル表現を計算するためのワード埋め込みアルゴリズムWord2vecにフィードする知識グラフ埋め込み機構である。 本ポスターでは,e-walks と p-walks という2種類の新しいフレーバーを紹介し,それぞれが実体の構造や近傍を強調し,類似性や関連性を重視した埋め込みを作成できるようにする。 歩行戦略と秩序認識および古典的なrdf2vec,およびcbowおよびskip-gram word2vec埋め込みを組み合わせることにより,合計12種類のrdf2vec変異体を用いて予備評価を行う。

RDF2vec is a knowledge graph embedding mechanism which first extracts sequences from knowledge graphs by performing random walks, then feeds those into the word embedding algorithm word2vec for computing vector representations for entities. In this poster, we introduce two new flavors of walk extraction coined e-walks and p-walks, which put an emphasis on the structure or the neighborhood of an entity respectively, and thereby allow for creating embeddings which focus on similarity or relatedness. By combining the walk strategies with order-aware and classic RDF2vec, as well as CBOW and skip-gram word2vec embeddings, we conduct a preliminary evaluation with a total of 12 RDF2vec variants.
翻訳日:2022-04-08 04:05:39 公開日:2022-04-05
# (参考訳) OccamNets: 単純な仮説によるデータセットバイアスの緩和

OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses ( http://arxiv.org/abs/2204.02426v1 )

ライセンス: CC BY 4.0
Robik Shrestha, Kushal Kafle, Christopher Kanan(参考訳) データセットバイアスとスプリアス相関は、ディープニューラルネットワークの一般化を著しく損なう可能性がある。 従来の多くの取り組みでは、代替損失関数や稀なパターンに焦点を当てたサンプリング戦略を用いてこの問題に対処してきた。 ネットワークアーキテクチャを改良して帰納バイアスを課し、ネットワークをデータセットバイアスに頑健にする、という新たな方向性を提案する。 具体的には,設計によりより単純なソリューションを好むように偏りのあるoccamnetを提案する。 OccamNetには2つの帰納バイアスがある。 まず、個々の例で必要最小限のネットワーク深度を使用するようにバイアスがかかる。 第二に、画像の位置を減らして予測する傾向にある。 OccamNetsは単純な仮説に偏っているが、必要であればより複雑な仮説を学ぶことができる。 実験では、occamnetsは、これらの帰納的バイアスを含まないアーキテクチャ上で動作する最先端のメソッドよりも優れています。 さらに,最先端のデバイアス法とoccamnetsを組み合わせるとさらに改善することを示す。

Dataset bias and spurious correlations can significantly impair generalization in deep neural networks. Many prior efforts have addressed this problem using either alternative loss functions or sampling strategies that focus on rare patterns. We propose a new direction: modifying the network architecture to impose inductive biases that make the network robust to dataset bias. Specifically, we propose OccamNets, which are biased to favor simpler solutions by design. OccamNets have two inductive biases. First, they are biased to use as little network depth as needed for an individual example. Second, they are biased toward using fewer image locations for prediction. While OccamNets are biased toward simpler hypotheses, they can learn more complex hypotheses if necessary. In experiments, OccamNets outperform or rival state-of-the-art methods run on architectures that do not incorporate these inductive biases. Furthermore, we demonstrate that when the state-of-the-art debiasing methods are combined with OccamNets results further improve.
翻訳日:2022-04-08 04:00:53 公開日:2022-04-05
# (参考訳) AAAI SSS-22 Symposium on Closing the Assessment Loop: Communicating prociency and Intent in Human-Robot Teaming

AAAI SSS-22 Symposium on Closing the Assessment Loop: Communicating Proficiency and Intent in Human-Robot Teaming ( http://arxiv.org/abs/2204.02437v1 )

ライセンス: CC BY 4.0
Michael Goodrich, Jacob Crandall, Aaron Steinfeld, Holly Yanco(参考訳) シンポジウムは, 有効性を理解し, モデル化し, 改善することに焦点を当てた。 (a)人間からロボットへのコミュニケーション能力 (b)人間からロボットに意思を伝えること。 例えば、ロボットは新しいタスクで予測能力を伝えるにはどうすればよいのか? 完了したタスクのパフォーマンスをどうやって報告するべきか? ロボットは人間の意図や価値観に基づいて、その習熟度基準をどう順応すべきか? AI、ロボティクス、HRI、認知科学のコミュニティは関連する問題に対処しているが、熟練度と意図に基づくインタラクションを評価するための標準に合意していない。 これは、さまざまな理由から、人間とロボットの相互作用を迫られる課題だ。 これまでの研究によると、その性能を評価するロボットは、ロボットの人間の知覚と制御割り当ての決定を変えることができる。 ロボット工学においては、人間の期待を正確に設定することが重要な証拠である。 さらに、熟練度評価は文脈や意図に依存しており、人間のチームメイトはパフォーマンス基準を引き上げたり下げたり、リスクや不確実性に対する耐性を適合させたり、注意の配分に影響する予測評価を要求したり、意図の再評価や適応をしたりすることができる。

The proposed symposium focuses understanding, modeling, and improving the efficacy of (a) communicating proficiency from human to robot and (b) communicating intent from a human to a robot. For example, how should a robot convey predicted ability on a new task? How should it report performance on a task that was just completed? How should a robot adapt its proficiency criteria based on human intentions and values? Communities in AI, robotics, HRI, and cognitive science have addressed related questions, but there are no agreed upon standards for evaluating proficiency and intent-based interactions. This is a pressing challenge for human-robot interaction for a variety of reasons. Prior work has shown that a robot that can assess its performance can alter human perception of the robot and decisions on control allocation. There is also significant evidence in robotics that accurately setting human expectations is critical, especially when proficiency is below human expectations. Moreover, proficiency assessment depends on context and intent, and a human teammate might increase or decrease performance standards, adapt tolerance for risk and uncertainty, demand predictive assessments that affect attention allocation, or otherwise reassess or adapt intent.
翻訳日:2022-04-08 04:00:00 公開日:2022-04-05
# (参考訳) CHORE:1枚のRGB画像からの接触・人間・物体再構成

CHORE: Contact, Human and Object REconstruction from a single RGB image ( http://arxiv.org/abs/2204.02445v1 )

ライセンス: CC BY 4.0
Xianghui Xie, Bharat Lal Bhatnagar, Gerard Pons-Moll(参考訳) コンピュータビジョンと学習におけるほとんどの仕事は、単独の画像から3d人間を知覚することに集中しているが、本研究では、物体と相互作用する3d人間を捉えることに焦点を当てている。 この問題は、人間と物体の間の激しい閉塞、多様な相互作用タイプと深さの曖昧さのために非常に困難である。 本稿では,1つの画像から人間と物体を協調的に再構築する新しい手法であるchoreを提案する。 CHOREは、暗黙的な表面学習と古典的なモデルベースのフィッティングの最近の進歩から着想を得ている。 2つの無符号距離場で暗黙的に表現された人間と物体の神経再構成を計算し、さらにパラメトリック体と物体ポーズ場との対応フィールドを予測した。 これにより、対話を推論しながらパラメトリックなボディモデルと3Dオブジェクトテンプレートをしっかりと適合させることができる。 さらに,従来の画素アライメント型暗黙学習手法では合成データを使用し,実データに満たない仮定を行う。 実データ上でより効率的な形状学習を実現するための,単純かつ効果的な深度認識スケーリングを提案する。 実験の結果,提案手法で学習した関節再建術は sota を有意に上回っていた。 私たちのコードとモデルは、この方向への将来の研究を促進するためにリリースされます。

While most works in computer vision and learning have focused on perceiving 3D humans from single images in isolation, in this work we focus on capturing 3D humans interacting with objects. The problem is extremely challenging due to heavy occlusions between human and object, diverse interaction types and depth ambiguity. In this paper, we introduce CHORE, a novel method that learns to jointly reconstruct human and object from a single image. CHORE takes inspiration from recent advances in implicit surface learning and classical model-based fitting. We compute a neural reconstruction of human and object represented implicitly with two unsigned distance fields, and additionally predict a correspondence field to a parametric body as well as an object pose field. This allows us to robustly fit a parametric body model and a 3D object template, while reasoning about interactions. Furthermore, prior pixel-aligned implicit learning methods use synthetic data and make assumptions that are not met in real data. We propose a simple yet effective depth-aware scaling that allows more efficient shape learning on real data. Our experiments show that our joint reconstruction learned with the proposed strategy significantly outperforms the SOTA. Our code and models will be released to foster future research in this direction.
翻訳日:2022-04-08 03:58:58 公開日:2022-04-05
# (参考訳) 視覚モデルと相性解析によるモバイルUIのユーザビリティの予測と説明

Predicting and Explaining Mobile UI Tappability with Vision Modeling and Saliency Analysis ( http://arxiv.org/abs/2204.02448v1 )

ライセンス: CC BY 4.0
Eldon Schoop, Xin Zhou, Gang Li, Zhourong Chen, Bj\"orn Hartmann, Yang Li(参考訳) モバイルuiのスクリーンショットから選択した要素がタップ可能と認識されるかどうかを、過去の作業に必要な階層ではなくピクセルのみに基づいて予測するために、ディープラーニングベースのアプローチを使用する。 モデル予測の理解を深め、予測のみよりも実行可能な設計フィードバックを提供するために、モデルの結果を説明するのにml解釈技術も使用します。 我々はXRAIを用いて、選択した領域のタップ可能性予測に最も強い影響を与える領域をハイライトし、k-Nearest Neighborsを使用して、タップ可能性知覚に反する影響を持つデータセットから最もよく似たモバイルUIを提示する。

We use a deep learning based approach to predict whether a selected element in a mobile UI screenshot will be perceived by users as tappable, based on pixels only instead of view hierarchies required by previous work. To help designers better understand model predictions and to provide more actionable design feedback than predictions alone, we additionally use ML interpretability techniques to help explain the output of our model. We use XRAI to highlight areas in the input screenshot that most strongly influence the tappability prediction for the selected region, and use k-Nearest Neighbors to present the most similar mobile UIs from the dataset with opposing influences on tappability perception.
翻訳日:2022-04-08 03:40:39 公開日:2022-04-05
# (参考訳) 医学画像分割のための連合クロスラーニング

Federated Cross Learning for Medical Image Segmentation ( http://arxiv.org/abs/2204.02450v1 )

ライセンス: CC BY 4.0
Xuanang Xu, Tianyi Chen, Han Deng, Tianshu Kuang, Joshua C. Barber, Daeseung Kim, Jaime Gateno, Pingkun Yan, James J. Xia(参考訳) federated learning(fl)は、医療画像分割を含むさまざまな臨床応用のために、異なる病院が所有する分離された患者データを使用して、ディープラーニングモデルを協調的にトレーニングすることができる。 しかし、FLの大きな問題は、独立で同一に分散されていないデータ(非ID)を扱う際の性能劣化である。 本稿では,まずflアルゴリズムの理論的解析を行い,非iidデータのトレーニングにおけるモデル集約の問題を明らかにする。 そこで本研究では,この課題に取り組むために,単純かつ効果的な手法であるフェデレートクロス学習(federated cross learning, fedcross)を提案する。 サーバノード上で複数の個別にトレーニングされたローカルモデルを結合する従来のflメソッドとは異なり、feedcrossでは、異なるクライアント間のグローバルモデルをラウンドロビン方式でシーケンシャルにトレーニングする。 そこで本研究では,federated cross ensemble learning (fedcrossens) 法を構成するために,federated cross ensemble learning機構とfederated cross ensemble learning機構を組み合わせた。 最後に、公開データセットを用いて広範な実験を行う。 実験の結果,提案したFedCrossトレーニング戦略は,非IDデータ上での主流FL法よりも優れていた。 また, セグメンテーション性能の向上に加えて, モデル不確かさを定量的に推定し, 設計の有効性と臨床的意義を示すことができる。 ソースコードは、論文発表後に公開されます。

Federated learning (FL) can collaboratively train deep learning models using isolated patient data owned by different hospitals for various clinical applications, including medical image segmentation. However, a major problem of FL is its performance degradation when dealing with the data that are not independently and identically distributed (non-iid), which is often the case in medical images. In this paper, we first conduct a theoretical analysis on the FL algorithm to reveal the problem of model aggregation during training on non-iid data. With the insights gained through the analysis, we propose a simple and yet effective method, federated cross learning (FedCross), to tackle this challenging problem. Unlike the conventional FL methods that combine multiple individually trained local models on a server node, our FedCross sequentially trains the global model across different clients in a round-robin manner, and thus the entire training procedure does not involve any model aggregation steps. To further improve its performance to be comparable with the centralized learning method, we combine the FedCross with an ensemble learning mechanism to compose a federated cross ensemble learning (FedCrossEns) method. Finally, we conduct extensive experiments using a set of public datasets. The experimental results show that the proposed FedCross training strategy outperforms the mainstream FL methods on non-iid data. In addition to improving the segmentation performance, our FedCrossEns can further provide a quantitative estimation of the model uncertainty, demonstrating the effectiveness and clinical significance of our designs. Source code will be made publicly available after paper publication.
翻訳日:2022-04-08 03:15:30 公開日:2022-04-05
# (参考訳) 低リソース音声認識と翻訳のためのスペクトルと自己監督機能の組み合わせ

Combining Spectral and Self-Supervised Features for Low Resource Speech Recognition and Translation ( http://arxiv.org/abs/2204.02470v1 )

ライセンス: CC BY 4.0
Dan Berrebbi, Jiatong Shi, Brian Yan, Osbel Lopez-Francisco, Jonathan D. Amith, Shinji Watanabe(参考訳) 自己教師付き学習(SSL)モデルは様々なディープラーニングベースの音声タスク、特に限られた量のデータに適用されている。 しかし、SSL表現の品質は、SSLトレーニングドメインとターゲットデータドメインの関連性に大きく依存する。 反対に、log mel-filterbanksのようなスペクトル特徴(sf)抽出器は手作りの非学習可能なコンポーネントであり、ドメインシフトに対してより堅牢である。 本研究では,非学習可能なSF抽出器をSSLモデルに組み込むことが,低リソース音声タスクに対する効果的なアプローチであることを示す。 SFとSSLの表現を組み合わせるための学習可能かつ解釈可能なフレームワークを提案する。 提案フレームワークは,3つの低リソースデータセット上での音声認識(ASR)タスクと音声翻訳(ST)タスクにおいて,ベースラインモデルとSSLモデルの両方を大幅に上回っている。 さらに、専門家ベースのコンビネーションモデルを組み合わせて設計する。 この最終モデルは、SSLトレーニングセットと対象言語データとのドメインミスマッチの場合、従来のSF抽出器に対するSSLモデルの相対的な寄与が非常に小さいことを示している。

Self-Supervised Learning (SSL) models have been successfully applied in various deep learning-based speech tasks, particularly those with a limited amount of data. However, the quality of SSL representations depends highly on the relatedness between the SSL training domain(s) and the target data domain. On the contrary, spectral feature (SF) extractors such as log Mel-filterbanks are hand-crafted non-learnable components, and could be more robust to domain shifts. The present work examines the assumption that combining non-learnable SF extractors to SSL models is an effective approach to low resource speech tasks. We propose a learnable and interpretable framework to combine SF and SSL representations. The proposed framework outperforms significantly both baseline and SSL models on Automatic Speech Recognition (ASR) and Speech Translation (ST) tasks on three low resource datasets. We additionally design a mixture of experts based combination model. This last model reveals that the relative contribution of SSL models over conventional SF extractors is very small in case of domain mismatch between SSL training set and the target language data.
翻訳日:2022-04-08 03:05:34 公開日:2022-04-05
# (参考訳) 多言語ウィキペディア研究への考察

Considerations for Multilingual Wikipedia Research ( http://arxiv.org/abs/2204.02483v1 )

ライセンス: CC BY 4.0
Isaac Johnson and Emily Lescak(参考訳) 英語のwikipediaは長い間、多くの研究と自然言語機械学習モデリングの重要なデータソースだった。 ウィキペディアの英語以外の版の増加、より大きな計算資源、言語とマルチモーダルモデルのパフォーマンスにおける公平性の要求により、ウィキペディアのより多くの言語版がデータセットやモデルに含まれるようになった。 より良い多言語モデルとマルチモーダルモデルを構築するには、拡張データセットへのアクセスだけでなく、データに何があるのか、どのようにコンテンツが生成されたのかをよりよく理解する必要がある。 この論文は、ウィキペディアの異なる言語版と、それがモデルにどのように影響するかを研究者が考えるのに役立つ背景を提供しようとしている。 言語版間のコンテンツの違い(ローカルコンテキスト、コミュニティとガバナンス、技術)が生じる3つの主要な方法と、研究とモデリングに多言語およびマルチモーダルデータを使用する際の良いプラクティスの推奨について詳述する。

English Wikipedia has long been an important data source for much research and natural language machine learning modeling. The growth of non-English language editions of Wikipedia, greater computational resources, and calls for equity in the performance of language and multimodal models have led to the inclusion of many more language editions of Wikipedia in datasets and models. Building better multilingual and multimodal models requires more than just access to expanded datasets; it also requires a better understanding of what is in the data and how this content was generated. This paper seeks to provide some background to help researchers think about what differences might arise between different language editions of Wikipedia and how that might affect their models. It details three major ways in which content differences between language editions arise (local context, community and governance, and technology) and recommendations for good practices when using multilingual and multimodal data for research and modeling.
翻訳日:2022-04-08 02:54:38 公開日:2022-04-05
# (参考訳) Text2LIVE: テキスト駆動のレイヤーイメージとビデオ編集

Text2LIVE: Text-Driven Layered Image and Video Editing ( http://arxiv.org/abs/2204.02491v1 )

ライセンス: CC BY 4.0
Omer Bar-Tal, Dolev Ofri-Amar, Rafail Fridman, Yoni Kasten, Tali Dekel(参考訳) 自然画像やビデオにおけるゼロショット・テキスト駆動の外観操作法を提案する。 入力画像やビデオ、対象テキストプロンプトが与えられた場合、既存のオブジェクト(例えば、オブジェクトのテクスチャ)の外観を編集したり、視覚的な効果(例えば煙や火)を意味的に意味のある方法で増やすことが目的です。 単一入力(画像またはビデオおよびターゲットテキストプロンプト)から抽出したトレーニングサンプルの内部データセットを使用してジェネレータをトレーニングし、外部トレーニング済みのCLIPモデルを利用して損失を確定する。 編集された出力を直接生成するのではなく、編集層(カラー+オパシティ)を生成し、元の入力に合成する。 これにより、編集層に直接適用される新しいテキスト駆動の損失を通じて、生成過程を制約し、元の入力に対する高い忠実性を維持することができる。 本手法は,事前学習したジェネレータや編集マスクを必要としない。 様々なオブジェクトやシーンにまたがる高解像度自然画像や動画に対して,局所的で意味的な編集を行う。

We present a method for zero-shot, text-driven appearance manipulation in natural images and videos. Given an input image or video and a target text prompt, our goal is to edit the appearance of existing objects (e.g., object's texture) or augment the scene with visual effects (e.g., smoke, fire) in a semantically meaningful manner. We train a generator using an internal dataset of training examples, extracted from a single input (image or video and target text prompt), while leveraging an external pre-trained CLIP model to establish our losses. Rather than directly generating the edited output, our key idea is to generate an edit layer (color+opacity) that is composited over the original input. This allows us to constrain the generation process and maintain high fidelity to the original input via novel text-driven losses that are applied directly to the edit layer. Our method neither relies on a pre-trained generator nor requires user-provided edit masks. We demonstrate localized, semantic edits on high-resolution natural images and videos across a variety of objects and scenes.
翻訳日:2022-04-08 02:36:45 公開日:2022-04-05
# (参考訳) エンドツーエンドの教師なし音声認識に向けて

Towards End-to-end Unsupervised Speech Recognition ( http://arxiv.org/abs/2204.02492v1 )

ライセンス: CC BY 4.0
Alexander H. Liu, Wei-Ning Hsu, Michael Auli, Alexei Baevski(参考訳) 教師なし音声認識は、すべての言語で自動音声認識(ASR)システムを実現する大きな可能性を示している。 しかし、既存の手法は手作りの前処理に大きく依存している。 教師付き音声認識のエンド・ツー・エンド化の傾向と同様に,すべての音声処理を廃止し,より優れたアーキテクチャによる精度の向上を実現している。 さらに,モデル予測を入力に関連付ける補助的自己教師付き目標を提案する。 実験により、 \wvu は概念的に単純でありながら、異なる言語間で教師なしの認識結果を改善できることが示されている。

Unsupervised speech recognition has shown great potential to make Automatic Speech Recognition (ASR) systems accessible to every language. However, existing methods still heavily rely on hand-crafted pre-processing. Similar to the trend of making supervised speech recognition end-to-end, we introduce \wvu~which does away with all audio-side pre-processing and improves accuracy through better architecture. In addition, we introduce an auxiliary self-supervised objective that ties model predictions back to the input. Experiments show that \wvu~improves unsupervised recognition results across different languages while being conceptually simpler.
翻訳日:2022-04-08 02:35:41 公開日:2022-04-05
# (参考訳) 低データ環境下での視覚に基づくキーストローク推論攻撃改善のためのディスタングル表現の活用

Leveraging Disentangled Representations to Improve Vision-Based Keystroke Inference Attacks Under Low Data ( http://arxiv.org/abs/2204.02494v1 )

ライセンス: CC BY 4.0
John Lim, Jan-Michael Frahm, Fabian Monrose(参考訳) キーストローク推論攻撃(英: key stroke inference attack)は、攻撃者がユーザーのキーストロークを回復するために様々なテクニックを利用するサイドチャネル攻撃の一種である(例えば、テキストメッセージの送信やピンの入力など)。 通常、これらの攻撃は機械学習のアプローチを活用するが、脅威空間の現実性を評価することは、機械学習の進歩のペースに遅れを取っている。 本研究では,教師付き不連続学習により合成データを活用できる映像領域適応手法を導入することで,実データ数を限定する課題を克服することを目的とする。 具体的には、あるドメインについて、観察したデータを、スタイルとコンテンツの2つの要因に分解する。 これにより、実生活スタイル、合成スタイル、実生活コンテンツ、合成コンテンツの4つの学習された表現が得られる。 次に、それらをドメイン間のスタイル・コンテントのペアリングのすべての組み合わせから特徴表現に組み合わせ、これらの組み合わせ表現でモデルを訓練して、あるデータポイントの内容(すなわちラベル)を別のドメインのスタイルで分類する。 本手法は,様々な指標を用いて実生活データに対する評価を行い,攻撃者が回復できる情報量を定量化する。 本手法は,実生活の小さなトレーニングセットへの過剰適合を防止し,本手法がデータ拡張の効果的な形態であることを示し,キーストローク推論攻撃をより実用的なものにすることを示す。

Keystroke inference attacks are a form of side-channel attacks in which an attacker leverages various techniques to recover a user's keystrokes as she inputs information into some display (e.g., while sending a text message or entering her pin). Typically, these attacks leverage machine learning approaches, but assessing the realism of the threat space has lagged behind the pace of machine learning advancements, due in-part, to the challenges in curating large real-life datasets. We aim to overcome the challenge of having limited number of real data by introducing a video domain adaptation technique that is able to leverage synthetic data through supervised disentangled learning. Specifically, for a given domain, we decompose the observed data into two factors of variation: Style and Content. Doing so provides four learned representations: real-life style, synthetic style, real-life content and synthetic content. Then, we combine them into feature representations from all combinations of style-content pairings across domains, and train a model on these combined representations to classify the content (i.e., labels) of a given datapoint in the style of another domain. We evaluate our method on real-life data using a variety of metrics to quantify the amount of information an attacker is able to recover. We show that our method prevents our model from overfitting to a small real-life training set, indicating that our method is an effective form of data augmentation, thereby making keystroke inference attacks more practical.
翻訳日:2022-04-08 02:21:48 公開日:2022-04-05
# (参考訳) システムインマージョンとランダムマトリックス暗号化によるプライバシ保護フェデレーション学習

Privacy-Preserving Federated Learning via System Immersion and Random Matrix Encryption ( http://arxiv.org/abs/2204.02497v1 )

ライセンス: CC BY 4.0
Haleh Hayati, Carlos Murguia, Nathan van de Wouw(参考訳) フェデレーション学習(FL)は、クライアントが中央集権的な(潜在的に敵対的な)サーバとデータを共有するのではなく、デバイス上でAIモデルをトレーニングする、コラボレーティブな分散学習のためのプライバシソリューションとして登場した。 FLはローカルデータのプライバシをある程度保持するが、クライアントのデータに関する情報はモデル更新から推測可能であることが示されている。 近年、このプライバシー漏洩に対処する様々なプライバシー保護スキームが開発されている。 しかし、モデル性能やシステム効率を犠牲にしてプライバシを提供することが多く、これらのトレードオフはFLスキームを実装する上で重要な課題である。 本稿では,制御理論に基づく行列暗号とシステム浸漬ツールの相乗効果に基づいて,プライバシ保護フェデレーションラーニング(PPFL)フレームワークを提案する。 学習アルゴリズムSGD(Stochastic Gradient Decent)を高次元システム(いわゆるターゲットシステム)にマージし、ターゲットシステムのダイナミクスを設計することを目的としている。 行列暗号は、元のパラメータを高次元のパラメータ空間にマッピングし、ターゲットのSGDが元のSGD最適解の暗号化バージョンに収束することを強制する座標のランダムな変更としてサーバで再構成される。 サーバは没入マップの左逆を用いて集約モデルを復号する。 提案アルゴリズムは,クライアントのデータについて何も明らかにすることなく,計算コストが無視できる標準FLと同等の精度と収束率を提供することを示す。

Federated learning (FL) has emerged as a privacy solution for collaborative distributed learning where clients train AI models directly on their devices instead of sharing their data with a centralized (potentially adversarial) server. Although FL preserves local data privacy to some extent, it has been shown that information about clients' data can still be inferred from model updates. In recent years, various privacy-preserving schemes have been developed to address this privacy leakage. However, they often provide privacy at the expense of model performance or system efficiency and balancing these tradeoffs is a crucial challenge when implementing FL schemes. In this manuscript, we propose a Privacy-Preserving Federated Learning (PPFL) framework built on the synergy of matrix encryption and system immersion tools from control theory. The idea is to immerse the learning algorithm, a Stochastic Gradient Decent (SGD), into a higher-dimensional system (the so-called target system) and design the dynamics of the target system so that: the trajectories of the original SGD are immersed/embedded in its trajectories, and it learns on encrypted data (here we use random matrix encryption). Matrix encryption is reformulated at the server as a random change of coordinates that maps original parameters to a higher-dimensional parameter space and enforces that the target SGD converges to an encrypted version of the original SGD optimal solution. The server decrypts the aggregated model using the left inverse of the immersion map. We show that our algorithm provides the same level of accuracy and convergence rate as the standard FL with a negligible computation cost while revealing no information about the clients' data.
翻訳日:2022-04-08 02:05:55 公開日:2022-04-05
# (参考訳) 映画・テレビ番組の奥行き誘導スパース構造

Depth-Guided Sparse Structure-from-Motion for Movies and TV Shows ( http://arxiv.org/abs/2204.02509v1 )

ライセンス: CC BY 4.0
Sheng Liu, Xiaohan Nie, Raffay Hamid(参考訳) structure from motion(sfm)の既存のアプローチは、特に大きな視差で撮影された画像を用いて、印象的な3次元再構成結果を生成する。 しかし、映画やテレビ番組で魅力的な映像コンテンツを作成するには、特定の撮影を撮影しながらカメラを移動できる量は限られることが多い。 ビデオフレーム間の小さな動きのパララックスによって、標準的な幾何学ベースのSfMアプローチは、映画やテレビ番組ほど効果的ではない。 この課題に対処するために,プレトレーニングネットワークから得られた単一フレーム深度優先手法を用いて,小パララックス設定のための幾何ベースのSfMを大幅に改善する,単純かつ効果的なアプローチを提案する。 この目的のために,検出したキーポイントの深さ推定値を用いて点雲とカメラ位置を復元し,最初の2視点再構成を行う。 次に,新たなイメージを登録し,インクリメンタルな再構成を行うために,深度調整最適化を行う。 アプローチを総合的に評価するために,プロのCGスタジオが手動で注釈付けした15のスタジオ制作ビデオから,130枚のショットと21Kフレームからなる新しいデータセット(StudioSfM)を導入する。 私たちのアプローチを例示します。 a)小視差設定における3次元再構成の質を著しく向上させる。 (b)大視差を伴うデータの劣化を起こさず、 (c) 幾何学に基づくスパースSfMの一般化性と拡張性を維持する。 データセットはhttps://github.com/amazon-research/small-baseline-camera-trackingで取得できます。

Existing approaches for Structure from Motion (SfM) produce impressive 3-D reconstruction results especially when using imagery captured with large parallax. However, to create engaging video-content in movies and TV shows, the amount by which a camera can be moved while filming a particular shot is often limited. The resulting small-motion parallax between video frames makes standard geometry-based SfM approaches not as effective for movies and TV shows. To address this challenge, we propose a simple yet effective approach that uses single-frame depth-prior obtained from a pretrained network to significantly improve geometry-based SfM for our small-parallax setting. To this end, we first use the depth-estimates of the detected keypoints to reconstruct the point cloud and camera-pose for initial two-view reconstruction. We then perform depth-regularized optimization to register new images and triangulate the new points during incremental reconstruction. To comprehensively evaluate our approach, we introduce a new dataset (StudioSfM) consisting of 130 shots with 21K frames from 15 studio-produced videos that are manually annotated by a professional CG studio. We demonstrate that our approach: (a) significantly improves the quality of 3-D reconstruction for our small-parallax setting, (b) does not cause any degradation for data with large-parallax, and (c) maintains the generalizability and scalability of geometry-based sparse SfM. Our dataset can be obtained at https://github.com/amazon-research/small-baseline-camera-tracking.
翻訳日:2022-04-08 01:49:00 公開日:2022-04-05
# (参考訳) 文脈における言語からの報復

Inferring Rewards from Language in Context ( http://arxiv.org/abs/2204.02515v1 )

ライセンス: CC BY 4.0
Jessy Lin, Daniel Fried, Dan Klein, Anca Dragan(参考訳) 古典的な命令では、"JetBlue Flight"のような言語はアクション(例えば、そのフライトを選択する)にマップする。 しかし、言語はまた、ユーザーが持つ報酬関数(例えば、JetBlueの一般的な嗜好)に関する情報も伝達し、モデルが新しいコンテキストで望ましいアクションを実行できるようにする。 本稿では,話者が発話をどう選択するかを推論し,所望の行動を誘発するだけでなく,その嗜好に関する情報を明らかにするモデルを提案する。 自然言語を用いた新しい対話型フライト予約タスクにおいて,我々は,まず言語を行動にマップし(指示に従う),次にアクションを報酬にマップした過去の研究(逆強化学習)と比較して,学習環境における最適行動の予測と予測をより正確に行う。

In classic instruction following, language like "I'd like the JetBlue flight" maps to actions (e.g., selecting that flight). However, language also conveys information about a user's underlying reward function (e.g., a general preference for JetBlue), which can allow a model to carry out desirable actions in new contexts. We present a model that infers rewards from language pragmatically: reasoning about how speakers choose utterances not only to elicit desired actions, but also to reveal information about their preferences. On a new interactive flight-booking task with natural language, our model more accurately infers rewards and predicts optimal actions in unseen environments, in comparison to past work that first maps language to actions (instruction following) and then maps actions to rewards (inverse reinforcement learning).
翻訳日:2022-04-08 01:34:55 公開日:2022-04-05
# (参考訳) iot駆動型パーソナライズ医療情報プラットフォームにおけるサービスリソース割り当て問題

Service resource allocation problem in the IoT driven personalized healthcare information platform ( http://arxiv.org/abs/2204.02521v1 )

ライセンス: CC BY 4.0
Ji Fang, Vincent CS Lee, Haiyan Wang(参考訳) パーソナライズされた医療状況のリアルタイム監視によって、iotウェアラブルは健康データを収集し、医療情報プラットフォームに転送する。 プラットフォームはデータをヘルスケアのレコメンデーションに処理し、ユーザに配信する。 パーソナライズされた医療情報サービスのIoT構造により、新型コロナウイルスのパンデミックにおいて、ユーザーはより便利なサービテーションのループに参加することができる。 しかしながら、個人間の関与行動の不確実性は、サービスリソースの割り当ての効率を損なう可能性がある。 本稿では、サービス容量を制御し、サービスをアクティブユーザへ自動的にプッシュすることで、サービスリソースを割り当てる効率的な方法を求める。 本研究では,ppo(proximal policy optimization)アルゴリズムに基づくサービス資源割当問題を解決するための深層強化学習手法を提案する。 実世界(オープンソース)のスポーツデータセットを用いた実験結果から,提案手法はユーザの行動変化に順応し,固定されたサービスリソースポリシよりも性能が向上することが明らかとなった。

With real-time monitoring of the personalized healthcare condition, the IoT wearables collect the health data and transfer it to the healthcare information platform. The platform processes the data into healthcare recommendations and then delivers them to the users. The IoT structures in the personalized healthcare information service allows the users to engage in the loop in servitization more convenient in the COVID-19 pandemic. However, the uncertainty of the engagement behavior among the individual may result in inefficient of the service resource allocation. This paper seeks an efficient way to allocate the service resource by controlling the service capacity and pushing the service to the active users automatically. In this study, we propose a deep reinforcement learning method to solve the service resource allocation problem based on the proximal policy optimization (PPO) algorithm. Experimental results using the real world (open source) sport dataset reveal that our proposed proximal policy optimization adapts well to the users' changing behavior and with improved performance over fixed service resource policies.
翻訳日:2022-04-08 01:13:28 公開日:2022-04-05
# ニューラルネットワークを用いた電流密度マグニチュードからのイメージング導電率

Imaging Conductivity from Current Density Magnitude using Neural Networks ( http://arxiv.org/abs/2204.02441v1 )

ライセンス: Link先を確認
Bangti Jin and Xiyao Li and Xiliang Lu(参考訳) 伝導率イメージングは、医療画像における最も重要なタスクの1つである。 本研究では,内部電流密度の大きさから導電率をイメージングするニューラルネットワークを用いた再構成手法を開発した。 緩和された重み付き最小勾配問題として問題を定式化し、標準の完全連結フィードフォワードニューラルネットワークによって最小値の近似を行うことで実現される。 一般化誤差の2つの成分、すなわち近似誤差と統計誤差に基づいて、ニューラルネットワークの特性(例えば、深さ、パラメータの総数、およびネットワークパラメータの境界)を明示的に導出する。 いくつかの数値実験において,本手法の性能と特徴について述べる。 数値的には、このアプローチはデータノイズの存在に関して著しく堅牢性が保たれていることが観察される。

Conductivity imaging represents one of the most important tasks in medical imaging. In this work we develop a neural network based reconstruction technique for imaging the conductivity from the magnitude of the internal current density. It is achieved by formulating the problem as a relaxed weighted least-gradient problem, and then approximating its minimizer by standard fully connected feedforward neural networks. We derive bounds on two components of the generalization error, i.e., approximation error and statistical error, explicitly in terms of properties of the neural networks (e.g., depth, total number of parameters, and the bound of the network parameters). We illustrate the performance and distinct features of the approach on several numerical experiments. Numerically, it is observed that the approach enjoys remarkable robustness with respect to the presence of data noise.
翻訳日:2022-04-07 15:27:35 公開日:2022-04-05
# メトリック学習による音声トリガー検出の改善

Improving Voice Trigger Detection with Metric Learning ( http://arxiv.org/abs/2204.02455v1 )

ライセンス: Link先を確認
Prateeth Nayak, Takuya Higuchi, Anmol Gupta, Shivesh Ranjan, Stephen Shum, Siddharth Sigtia, Erik Marchi, Varun Lakshminarasimhan, Minsik Cho, Saurabh Adya, Chandra Dhir, Ahmed Tewfik(参考訳) 音声トリガー検出は重要なタスクであり、ターゲットユーザーがキーワードフレーズを話すときに音声アシスタントを活性化することができる。 検出器は通常、話者情報に依存しない音声データに基づいて訓練され、音声トリガー検出タスクに使用される。 しかし、そのような話者独立音声トリガー検出器は、アクセント付き話者のような低表示グループによる音声の性能低下に苦しむ。 そこで本研究では,ターゲット話者からの発話を少数使用して検出精度を向上させる新しい音声トリガ検出器を提案する。 提案モデルはエンコーダ-デコーダアーキテクチャを用いる。 エンコーダは従来の検出器と同様に話者独立音声トリガー検出を行うが、デコーダは発話毎にパーソナライズされた埋め込みを予測する。 次に、登録発話の埋め込みとテスト発話との類似度スコアとしてパーソナライズされた音声トリガースコアを得る。 パーソナライズされた埋め込みは、音声トリガスコアを計算するときに話者の音声に適応できるため、音声トリガ検出精度が向上する。 実験の結果,提案手法は,ベースライン話者独立音声トリガーモデルと比較して,偽拒絶率 (frr) の38%の相対的低減を達成した。

Voice trigger detection is an important task, which enables activating a voice assistant when a target user speaks a keyword phrase. A detector is typically trained on speech data independent of speaker information and used for the voice trigger detection task. However, such a speaker independent voice trigger detector typically suffers from performance degradation on speech from underrepresented groups, such as accented speakers. In this work, we propose a novel voice trigger detector that can use a small number of utterances from a target speaker to improve detection accuracy. Our proposed model employs an encoder-decoder architecture. While the encoder performs speaker independent voice trigger detection, similar to the conventional detector, the decoder predicts a personalized embedding for each utterance. A personalized voice trigger score is then obtained as a similarity score between the embeddings of enrollment utterances and a test utterance. The personalized embedding allows adapting to target speaker's speech when computing the voice trigger score, hence improving voice trigger detection accuracy. Experimental results show that the proposed approach achieves a 38% relative reduction in a false rejection rate (FRR) compared to a baseline speaker independent voice trigger model.
翻訳日:2022-04-07 15:27:16 公開日:2022-04-05
# 構成経路制御

Configuration Path Control ( http://arxiv.org/abs/2204.02471v1 )

ライセンス: Link先を確認
Sergey Pankov(参考訳) 強化学習法は、訓練中にうまく機能するが、直接訓練経験を超越して、小さな乱れの中で不安定になるような不安定な政策をしばしば生み出す。 この問題に対処するために,構成経路の空間における制御ポリシーの安定化手法を提案する。 トレーニング後に適用され、トレーニング中に生成されたデータと、即時のコントロール行列推定に依存する。 このアプローチは、様々な摂動を受ける平面二足歩行者に実験的に評価される。 強化学習によって得られる制御方針を、安定化した相手と比較する。 異なる実験により、摂動振幅で測定すると、安定性は2倍から4倍に向上することがわかった。 また、このアプローチのゼロダイナミックス解釈も提供する。

Reinforcement learning methods often produce brittle policies -- policies that perform well during training, but generalize poorly beyond their direct training experience, thus becoming unstable under small disturbances. To address this issue, we propose a method for stabilizing a control policy in the space of configuration paths. It is applied post-training and relies purely on the data produced during training, as well as on an instantaneous control-matrix estimation. The approach is evaluated empirically on a planar bipedal walker subjected to a variety of perturbations. The control policies obtained via reinforcement learning are compared against their stabilized counterparts. Across different experiments, we find two- to four-fold increase in stability, when measured in terms of the perturbation amplitudes. We also provide a zero-dynamics interpretation of our approach.
翻訳日:2022-04-07 15:26:57 公開日:2022-04-05
# 小分子生成におけるLigand-Targetの適合性を高めるIn-Pocket 3Dグラフ

In-Pocket 3D Graphs Enhance Ligand-Target Compatibility in Generative Small-Molecule Creation ( http://arxiv.org/abs/2204.02513v1 )

ライセンス: Link先を確認
Seung-gu Kang, Jeffrey K. Weber, Joseph A. Morrone, Leili Zhang, Tien Huynh, Wendy D. Cornell(参考訳) 小さな分子リガンドを持つタンパク質は、構造に基づく薬物発見の核となる。 しかし、3次元表現は多くの深層学習に基づく生成モデルに欠如している。 本稿では,関係グラフアーキテクチャ内の3次元タンパク質-リガンド接触を符号化したグラフベース生成モデリング技術を提案する。 これらのモデルは、活性特異的な分子生成を可能にする条件付き変分オートエンコーダと、ターゲットの結合ポケット内の分子相互作用の予測を提供する配置接触生成を組み合わせる。 3d法で生成した分子は、ドッキングスコア、期待立体化学、商業化学データベースの回復性によって測定されるように、同等のリガンドベースの2d生成法で生成されるものよりもドーパミンd2受容体の結合ポケットと互換性がある。 高い回収率のドッキングポーズのうち、予測されたタンパク質-リガンド接触が見つかった。 本研究は、タンパク質標的の構造的文脈が分子生成の促進にどのように役立つかを示す。

Proteins in complex with small molecule ligands represent the core of structure-based drug discovery. However, three-dimensional representations are absent from most deep-learning-based generative models. We here present a graph-based generative modeling technology that encodes explicit 3D protein-ligand contacts within a relational graph architecture. The models combine a conditional variational autoencoder that allows for activity-specific molecule generation with putative contact generation that provides predictions of molecular interactions within the target binding pocket. We show that molecules generated with our 3D procedure are more compatible with the binding pocket of the dopamine D2 receptor than those produced by a comparable ligand-based 2D generative method, as measured by docking scores, expected stereochemistry, and recoverability in commercial chemical databases. Predicted protein-ligand contacts were found among highest-ranked docking poses with a high recovery rate. This work shows how the structural context of a protein target can be used to enhance molecule generation.
翻訳日:2022-04-07 15:26:46 公開日:2022-04-05
# スポーツ医療におけるブラックボックス予測手法とレッドカード : スポーツケアの推進に戦術の変更が必要である」とのコメント

Comment on "Black Box Prediction Methods in Sports Medicine Deserve a Red Card for Reckless Practice: A Change of Tactics is Needed to Advance Athlete Care" ( http://arxiv.org/abs/2204.02402v1 )

ライセンス: Link先を確認
Jakim Berndsen and Derek McHugh(参考訳) 本稿では,Bullockらによる主張について考察する。 al. スポーツ障害領域におけるブラックボックス障害リスクアプローチの適用性について 全体として、この分野で機械学習モデルが役に立つためには、透明性が必要であることに同意します。 しかし、著者の懸念に正確に対処し、結論を強く誘惑する研究分野がある。 以下に示すのは、機械学習コミュニティによるこれらの問題への取り組みについてである。

In this paper we examine the claims made by Bullock et. al. on the applicability of black-box injury risk approaches in the sports injury domain. Overall, we agree that transparency is necessary for Machine Learning models to be useful in this field. However, there are areas of research that address precisely the concerns of the authors and strongly temper their conclusions. In the following we look at how these issues are being tackled by the Machine Learning community.
翻訳日:2022-04-07 14:59:49 公開日:2022-04-05
# BeeTS:BluetoothとIPブロードキャストを利用したエージェントを組み合わせたスマート分散センサタプルスペース

BeeTS: Smart Distributed Sensor Tuple Spaces combined with Agents using Bluetooth and IP Broadcasting ( http://arxiv.org/abs/2204.02464v1 )

ライセンス: Link先を確認
Stefan Bosse(参考訳) ほとんどのiot(internet-of-things)デバイスとスマートセンサーは、センサー情報を定期的に収集するサーバやイベントベースでip通信を介してインターネットを介して接続される。 インターネットアクセスは広く利用できるが、カバーされていない場所があり、WLANと携帯電話通信は、必ずしも利用できない電力の降下を必要とする。 最後に、インターネット接続によって空間的文脈(センサやデバイスが配置される環境)は考慮されない(または失われる)。 本研究では,スマートフォンや組込みコンピュータ,例えばraspberry piデバイスで利用可能な低エネルギーbluetoothブロードキャストを用いて,スマートデバイスが接続性やアドホックな通信を行う。 広告と走査モードを介して双方向接続レス通信を確立する。 通信ノードは、各ノード上のタプルスペースサービスを使用して、機能タプルを介してデータを交換することができる。 タプルスペースアクセスは単純で均等なエージェントによって行われる。 モバイルデバイスは、異なる場所間でタプルを運ぶタプルキャリアとして機能する。 さらに、UDPベースのイントラネット通信は、より広い空間範囲のタプル空間にアクセスできる。 Bluetooth Low Energy Tuple Space (BeeTS) サービスにより、空間的コンテキストとの機会的、アドホックで疎結合なデバイス通信が可能になる。

Most Internet-of-Things (IoT) devices and smart sensors are connected via the Internet using IP communication driectly accessed by a server that collect sensor information periodically or event-based. Although, Internet access is widely available, there are places that are not covered and WLAN and mobile cell communication requires a descent amount of power not always available. Finally, the spatial context (the environment in which the sensor or devices is situated) is not considered (or lost) by Internet connectivity. In this work, smart devices communicate connectionless and ad-hoc by using low-energy Bluetooth broadcasting available in any smartphone and in most embedded computers, e.g., the Raspberry PI devices. Bi-directional connectionless communication is established via the advertisements and scanning modes. The communication nodes can exchange data via functional tuples using a tuple space service on each node. Tuple space access is performed by simple evenat-based agents. Mobile devices act as tuple carriers that can carry tuples between different locations. Additionally, UDP-based Intranet communication can be used to access tuple spaces on a wider spatial range. The Bluetooth Low Energy Tuple Space (BeeTS) service enables opportunistic, ad-hoc and loosely coupled device communication with a spatial context.
翻訳日:2022-04-07 14:56:08 公開日:2022-04-05
# 「黒色ですか?」 CLIPライクなモデルはゼロショットレコメンデーター

"Does it come in black?" CLIP-like models are zero-shot recommenders ( http://arxiv.org/abs/2204.02473v1 )

ライセンス: Link先を確認
Patrick John Chia, Jacopo Tagliabue, Federico Bianchi, Ciro Greco, Diogo Goncalves(参考訳) 商品発見はオンラインショッピングの重要な要素である。 しかし、今日では、項目から項目へのレコメンデーションでは、ユーザが選択したディメンデーションに沿って変更を探索することはできません。 比較的な性質(例えば "より暗いもの" など)の項目レコメンデーションを検討し、CLIPベースのモデルがこのユースケースをゼロショットでサポートする方法を示している。 ファッションのために構築された大きなモデルを活用して、GradRECとその業界ポテンシャルを導入し、その強みと弱さを第一ラウンドで評価します。

Product discovery is a crucial component for online shopping. However, item-to-item recommendations today do not allow users to explore changes along selected dimensions: given a query item, can a model suggest something similar but in a different color? We consider item recommendations of the comparative nature (e.g. "something darker") and show how CLIP-based models can support this use case in a zero-shot manner. Leveraging a large model built for fashion, we introduce GradREC and its industry potential, and offer a first rounded assessment of its strength and weaknesses.
翻訳日:2022-04-07 14:55:47 公開日:2022-04-05
# texturify: 3d形状表面上のテクスチャの生成

Texturify: Generating Textures on 3D Shape Surfaces ( http://arxiv.org/abs/2204.02411v1 )

ライセンス: Link先を確認
Yawar Siddiqui, Justus Thies, Fangchang Ma, Qi Shan, Matthias Nie{\ss}ner, Angela Dai(参考訳) 3dオブジェクトのテクスチャのヒントは、魅力的な視覚的表現の鍵であり、異なるビューにまたがる内在的な空間的一貫性を備えた高い視覚的忠実性を生み出すことができる。 テクスチャ付き3d形状の利用可能性は非常に限られているため、3d入力に基づいてテクスチャを予測する3d教師付きデータ駆動方式の学習は非常に困難である。 そこで本研究では,オブジェクトクラスの3次元形状データセットを活用し,高品質テクスチャ生成により実画像に観察された外観の分布を再現するganに基づく手法であるtexturifyを提案する。 特に,本手法では3次元オブジェクトのテクスチャを学習するために,形状形状と画像間の色調整や対応を一切必要としない。 texturifyは3dオブジェクトの表面上で直接動作し、階層的な4-rosyパラメトリゼーション上に顔畳み込み演算子を導入し、可能なオブジェクト特有のテクスチャを生成する。 個々のビューとビュー間の一貫性を批判する異なるレンダリングと逆方向の損失を利用して、実世界の画像から高品質な表面テクスチャ分布を効果的に学習する。 車体形状と椅子形状の収集実験により,FIDスコアが平均22%向上していることが判明した。

Texture cues on 3D objects are key to compelling visual representations, with the possibility to create high visual fidelity with inherent spatial consistency across different views. Since the availability of textured 3D shapes remains very limited, learning a 3D-supervised data-driven method that predicts a texture based on the 3D input is very challenging. We thus propose Texturify, a GAN-based method that leverages a 3D shape dataset of an object class and learns to reproduce the distribution of appearances observed in real images by generating high-quality textures. In particular, our method does not require any 3D color supervision or correspondence between shape geometry and images to learn the texturing of 3D objects. Texturify operates directly on the surface of the 3D objects by introducing face convolutional operators on a hierarchical 4-RoSy parametrization to generate plausible object-specific textures. Employing differentiable rendering and adversarial losses that critique individual views and consistency across views, we effectively learn the high-quality surface texturing distribution from real-world images. Experiments on car and chair shape collections show that our approach outperforms state of the art by an average of 22% in FID score.
翻訳日:2022-04-07 14:53:25 公開日:2022-04-05
# 物理インフォームドニューラルネットワークを用いた最適K空間獲得と再構成の学習

Learning Optimal K-space Acquisition and Reconstruction using Physics-Informed Neural Networks ( http://arxiv.org/abs/2204.02480v1 )

ライセンス: Link先を確認
Wei Peng, Li Feng, Guoying Zhao, Fang Liu(参考訳) 磁気共鳴画像(mri)の固有低速撮像速度は、様々な加速法の開発を加速させ、典型的には、k空間として知られるmri測定領域をヒューリスティックに過小評価している。 近年,深層ニューラルネットワークがk空間データの再構成に応用され,再構成性能が向上している。 これらの手法のほとんどは、新しい再構成ネットワークの設計や、所定のアンダーサンプリングパターンである \textit{e.g.}, cartesian undersampling or non-cartesian samplingに対する新しいトレーニング戦略に焦点を当てているが、深層ニューラルネットワークを用いたk空間サンプリング戦略の学習と最適化を目的とした研究は限られている。 本研究では,k空間サンプリング軌道をニューラルODEを用いて解ける正規微分方程式(ODE)問題として考慮し,新しい最適化手法を提案する。 特に、k空間データのサンプリングは、MRI物理に制約を加えることで、システムを近似するためにニューラルODEを定式化した動的システムとしてフレーム化される。 また, トラジェクトリ最適化と画像再構成を協調的に学習することで, 画像の効率と再構成性能を向上させることも実証した。 異なるシーケンスで取得した異なる in-vivo データセット (\textit{e}, 脳と膝の画像) について実験を行った。 提案手法は,従来のデカルトおよび非カルト買収のアンダーサンプリング方式よりも高速MRIで画像品質を向上できることを示す。

The inherent slow imaging speed of Magnetic Resonance Image (MRI) has spurred the development of various acceleration methods, typically through heuristically undersampling the MRI measurement domain known as k-space. Recently, deep neural networks have been applied to reconstruct undersampled k-space data and have shown improved reconstruction performance. While most of these methods focus on designing novel reconstruction networks or new training strategies for a given undersampling pattern, \textit{e.g.}, Cartesian undersampling or Non-Cartesian sampling, to date, there is limited research aiming to learn and optimize k-space sampling strategies using deep neural networks. This work proposes a novel optimization framework to learn k-space sampling trajectories by considering it as an Ordinary Differential Equation (ODE) problem that can be solved using neural ODE. In particular, the sampling of k-space data is framed as a dynamic system, in which neural ODE is formulated to approximate the system with additional constraints on MRI physics. In addition, we have also demonstrated that trajectory optimization and image reconstruction can be learned collaboratively for improved imaging efficiency and reconstruction performance. Experiments were conducted on different in-vivo datasets (\textit{e.g.}, brain and knee images) acquired with different sequences. Initial results have shown that our proposed method can generate better image quality in accelerated MRI than conventional undersampling schemes in Cartesian and Non-Cartesian acquisitions.
翻訳日:2022-04-07 14:53:02 公開日:2022-04-05
# 拡張ドメイン知識による分子設計のためのジェネレイティブエンリッチ・シーケンシャル・ラーニング(esl)アプローチ

Generative Enriched Sequential Learning (ESL) Approach for Molecular Design via Augmented Domain Knowledge ( http://arxiv.org/abs/2204.02474v1 )

ライセンス: Link先を確認
Mohammad Sajjad Ghaemi, Karl Grantham, Isaac Tamblyn, Yifeng Li, Hsu Kiang Ooi(参考訳) 分子指紋表現に基づく新しい化学構造を生成するための生成機械学習技術が分子設計において確立されている。 典型的には、隠れマルコフモデル(HMM)のようなシーケンシャルラーニング(SL)スキームや、最近ではシーケンシャルディープラーニングの文脈において、リカレントニューラルネットワーク(RNN)と長寿命メモリ(LSTM)が前例のない分子を発見するための生成モデルとして広く用いられた。 この目的のために、2つの原子状態の間の放出確率は、特定の化学的または物理的性質を考慮せずに中心的な役割を果たす。 教師付きドメイン知識の欠如は、学習手順が必ずしも興味が持たない訓練データに見られる一般的な分子に比較的偏っていることを誤解させる可能性がある。 この欠点は、例えば薬物類似度スコア(QED)の定量的推定など、ドメイン知識でトレーニングデータを増強することで軽減した。 そこで本実験では, 強化逐次学習(enriched sequence learning, ESL)と呼ばれる微妙な手法を用いて, 特定の興味のパターンをよりよく学習し, 改良されたQEDでデノボ分子を生成できることを実証した。

Deploying generative machine learning techniques to generate novel chemical structures based on molecular fingerprint representation has been well established in molecular design. Typically, sequential learning (SL) schemes such as hidden Markov models (HMM) and, more recently, in the sequential deep learning context, recurrent neural network (RNN) and long short-term memory (LSTM) were used extensively as generative models to discover unprecedented molecules. To this end, emission probability between two states of atoms plays a central role without considering specific chemical or physical properties. Lack of supervised domain knowledge can mislead the learning procedure to be relatively biased to the prevalent molecules observed in the training data that are not necessarily of interest. We alleviated this drawback by augmenting the training data with domain knowledge, e.g. quantitative estimates of the drug-likeness score (QEDs). As such, our experiments demonstrated that with this subtle trick called enriched sequential learning (ESL), specific patterns of particular interest can be learnt better, which led to generating de novo molecules with ameliorated QEDs.
翻訳日:2022-04-07 14:49:15 公開日:2022-04-05
# オピニオンダイナミクス確率制御のための深部グラフFBSDE

Deep Graphic FBSDEs for Opinion Dynamics Stochastic Control ( http://arxiv.org/abs/2204.02506v1 )

ライセンス: Link先を確認
Tianrong Chen, Ziyi Wang, Evangelos A. Theodorou(参考訳) 本稿では,意見力学と確率論的最適制御問題と平均場項結合とを動的・コスト関数で解くためのスケーラブルな深層学習手法を提案する。 このアプローチはハミルトン・ヤコビ・ベルマン偏微分方程式の解の確率的表現に依存する。 ファインマン・カック補題の非線形バージョンに基づいて、ハミルトン・ヤコビ・ベルマン偏微分方程式の解は前方の確率微分方程式の解と関係している。 これらの方程式は、問題を考慮したアーキテクチャを備えた新しいディープニューラルネットワークを用いて数値的に解くことができる。 得られたアルゴリズムは偏極的意見コンセンサス実験で検証される。 大規模(10K)エージェント実験は,アルゴリズムのスケーラビリティと一般化性を検証する。 提案したフレームワークは,超大規模問題に対する将来の応用の可能性を開く。

In this paper, we present a scalable deep learning approach to solve opinion dynamics stochastic optimal control problems with mean field term coupling in the dynamics and cost function. Our approach relies on the probabilistic representation of the solution of the Hamilton-Jacobi-Bellman partial differential equation. Grounded on the nonlinear version of the Feynman-Kac lemma, the solutions of the Hamilton-Jacobi-Bellman partial differential equation are linked to the solution of Forward-Backward Stochastic Differential Equations. These equations can be solved numerically using a novel deep neural network with architecture tailored to the problem in consideration. The resulting algorithm is tested on a polarized opinion consensus experiment. The large-scale (10K) agents experiment validates the scalability and generalizability of our algorithm. The proposed framework opens up the possibility for future applications on extremely large-scale problems.
翻訳日:2022-04-07 14:48:52 公開日:2022-04-05
# ニューラル演算子の能動的学習による極端な事象の発見と予測

Discovering and forecasting extreme events via active learning in neural operators ( http://arxiv.org/abs/2204.02488v1 )

ライセンス: Link先を確認
Ethan Pickering, George Em Karniadakis, Themistoklis P. Sapsis(参考訳) パンデミック・スパイクやローグ・ウェーブのような社会や自然の極端な出来事は破滅的な結果をもたらす可能性がある。 極端を特徴づけることは稀に起こるため困難であり、一見良性な状態から生じ、複雑でしばしば未知の無限次元系に属する。 このような課題は、それらをムートとして特徴づけようとする試みである。 ベイズ実験設計(BED)における新しいトレーニングスキームとディープニューラル演算子(DNO)のアンサンブルを組み合わせることで,これらの課題に対処する。 このモデルに依存しないフレームワークは、無限次元非線形作用素を近似するDNOのアンサンブルと、極端な事象を定量化するデータを積極的に選択するBEDスキームと組み合わせる。 このフレームワークがガウス過程(GP)を明らかに上回っているだけでなく、 1) わずか2人の浅いアンサンブルが最善を尽くす。 2 極端は、初期データの状態(極端値の有無)にかかわらず、明らかにされる。 3)本手法は「二重発光」現象を除去する。 4) ステップバイステップのグローバル・オプティマと比較して,サブ・オプティマ・ポイントのバッチの使用は,ベッド性能を阻害しない。 5)モンテカルロ買収は高次元の標準最小値を上回る。 これらの結論が組み合わさって、物理的なシステムから社会的システムまで、多くの領域にわたる重要な状況を効率的に推論し、特定できるAI支援の実験インフラの基礎となる。

Extreme events in society and nature, such as pandemic spikes or rogue waves, can have catastrophic consequences. Characterizing extremes is difficult as they occur rarely, arise from seemingly benign conditions, and belong to complex and often unknown infinite-dimensional systems. Such challenges render attempts at characterizing them as moot. We address each of these difficulties by combining novel training schemes in Bayesian experimental design (BED) with an ensemble of deep neural operators (DNOs). This model-agnostic framework pairs a BED scheme that actively selects data for quantifying extreme events with an ensemble of DNOs that approximate infinite-dimensional nonlinear operators. We find that not only does this framework clearly beat Gaussian processes (GPs) but that 1) shallow ensembles of just two members perform best; 2) extremes are uncovered regardless of the state of initial data (i.e. with or without extremes); 3) our method eliminates "double-descent" phenomena; 4) the use of batches of suboptimal acquisition points compared to step-by-step global optima does not hinder BED performance; and 5) Monte Carlo acquisition outperforms standard minimizers in high-dimensions. Together these conclusions form the foundation of an AI-assisted experimental infrastructure that can efficiently infer and pinpoint critical situations across many domains, from physical to societal systems.
翻訳日:2022-04-07 14:19:34 公開日:2022-04-05
# 主決定論的情報ボトルネックを用いたパレート最適クラスタリング

Pareto-optimal clustering with the primal deterministic information bottleneck ( http://arxiv.org/abs/2204.02489v1 )

ライセンス: Link先を確認
Andrew K. Tan and Max Tegmark and Isaac L. Chuang(参考訳) 損失のある圧縮とクラスタリングの両方の中心は、学習された表現の忠実度とサイズの間のトレードオフである。 私たちの目標は、このトレードオフを定量化するParetoフロンティアをマップアウトし、研究することにあります。 本稿では,クラスタ化問題として解釈可能な,損失圧縮のための決定論的情報ボトルネック(dib)の定式化に注目する。 この目的のために、我々は、以前に研究された双対問題よりもはるかにリッチなフロンティアの結果を示す、 {\it primal} DIB問題を導入する。 本稿では,他の2目的クラスタリング問題にも適用可能なプライマルdibトレードオフのparetoフロンティアをマッピングするアルゴリズムを提案する。 我々は,パレートフロンティアの一般特性を調査し,フロンティアの対数的スパース性に関する解析的および数値的証拠を与える。 超指数探索空間にも拘わらず,本アルゴリズムが多項式スケーリングを持つことを示すとともに,サンプリングノイズが重要と期待される場合に使用できるアルゴリズムの修正を提案する。 最後に、我々のアルゴリズムを用いて、3つの異なるタスクのDIBフロンティアをマッピングする: 英語アルファベットを圧縮し、自然画像から情報的カラークラスを抽出し、グループ理論にインスパイアされたデータセットを圧縮し、フロンティアの興味深い特徴を明らかにする。

At the heart of both lossy compression and clustering is a trade-off between the fidelity and size of the learned representation. Our goal is to map out and study the Pareto frontier that quantifies this trade-off. We focus on the Deterministic Information Bottleneck (DIB) formulation of lossy compression, which can be interpreted as a clustering problem. To this end, we introduce the {\it primal} DIB problem, which we show results in a much richer frontier than its previously studied dual counterpart. We present an algorithm for mapping out the Pareto frontier of the primal DIB trade-off that is also applicable to most other two-objective clustering problems. We study general properties of the Pareto frontier, and give both analytic and numerical evidence for logarithmic sparsity of the frontier in general. We provide evidence that our algorithm has polynomial scaling despite the super-exponential search space; and additionally propose a modification to the algorithm that can be used where sampling noise is expected to be significant. Finally, we use our algorithm to map the DIB frontier of three different tasks: compressing the English alphabet, extracting informative color classes from natural images, and compressing a group theory inspired dataset, revealing interesting features of frontier, and demonstrating how the structure of the frontier can be used for model selection with a focus on points previously hidden by the cloak of the convex hull.
翻訳日:2022-04-07 14:19:13 公開日:2022-04-05
# サンプルワイズジャコビアン正規化による学習自由ロバストマルチモーダル学習

Training-Free Robust Multimodal Learning via Sample-Wise Jacobian Regularization ( http://arxiv.org/abs/2204.02485v1 )

ライセンス: Link先を確認
Zhengqi Gao, Sucheng Ren, Zihui Xue, Siting Li, Hang Zhao(参考訳) マルチモーダル融合は多くのタスクにおけるモデル性能を改善するための魅力的な手法として現れる。 しかしながら、そのような融合法の堅牢性は、現代文献にはほとんど関与していない。 本稿では条件付き独立性仮定とジャコビアン正則化を生かしたトレーニングフリーなロバスト・レイトフュージョン法を提案する。 我々の鍵はヤコビ行列のフロベニウスノルムを最小化することであり、そこで得られる最適化問題は可搬なシルベスター方程式に緩和される。 さらに,本手法の理論的エラーバウンドと,余剰モダリティの関数に関するいくつかの知見を提供する。 AV-MNIST, RAVDESS, VGGsound の数値実験により, 対向攻撃とランダムな汚職の両方による手法の有効性が示された。

Multimodal fusion emerges as an appealing technique to improve model performances on many tasks. Nevertheless, the robustness of such fusion methods is rarely involved in the present literature. In this paper, we propose a training-free robust late-fusion method by exploiting conditional independence assumption and Jacobian regularization. Our key is to minimize the Frobenius norm of a Jacobian matrix, where the resulting optimization problem is relaxed to a tractable Sylvester equation. Furthermore, we provide a theoretical error bound of our method and some insights about the function of the extra modality. Several numerical experiments on AV-MNIST, RAVDESS, and VGGsound demonstrate the efficacy of our method under both adversarial attacks and random corruptions.
翻訳日:2022-04-07 14:17:07 公開日:2022-04-05
# 情報仕様を用いた効率的な実用プログラム合成

Efficient Pragmatic Program Synthesis with Informative Specifications ( http://arxiv.org/abs/2204.02495v1 )

ライセンス: Link先を確認
Saujas Vaduguru, Kevin Ellis, Yewen Pu(参考訳) サンプルを提供することは、エンドユーザがプログラムシンセサイザーと対話する最も一般的な方法の1つである。 しかし、プログラム合成システムは、プログラムに一貫性のある例がランダムに選択されていると仮定し、ユーザが実際に例を選択するという事実を活用しない。 以前はプログラム合成を実用的コミュニケーションとしてモデル化していたが、プログラム空間全体の非効率な列挙が必要であった。 本稿では,個別要因の積とプログラムの結合分布を近似し,各因子を個別に実用的推論することにより,実用的かつ効率的なプログラムシンセサイザを構築することが可能であることを示す。 この因子分布は、実例が実用的に与えられるときの正確な関節分布をよく近似し、基本的ニューロシンボリックプログラム合成アルゴリズムと互換性がある。 意外なことに、因子近似を仮定する合成器は、自然な人間の入力に対して正確な関節分布を仮定する合成器よりも優れていた。 これは、人間がプログラムを通信しながら因子分布を仮定している可能性を示唆している。

Providing examples is one of the most common way for end-users to interact with program synthesizers. However, program synthesis systems assume that examples consistent with the program are chosen at random, and do not exploit the fact that users choose examples pragmatically. Prior work modeled program synthesis as pragmatic communication, but required an inefficient enumeration of the entire program space. In this paper, we show that it is possible to build a program synthesizer that is both pragmatic and efficient by approximating the joint distribution of programs with a product of independent factors, and performing pragmatic inference on each factor separately. This factored distribution approximates the exact joint distribution well when the examples are given pragmatically, and is compatible with a basic neuro-symbolic program synthesis algorithm. Surprisingly, we find that the synthesizer assuming a factored approximation performs better than a synthesizer assuming an exact joint distribution when evaluated on natural human inputs. This suggests that humans may be assuming a factored distribution while communicating programs.
翻訳日:2022-04-07 14:13:56 公開日:2022-04-05
# デジタル病理における病院別画像表現学習

Hospital-Agnostic Image Representation Learning in Digital Pathology ( http://arxiv.org/abs/2204.02404v1 )

ライセンス: Link先を確認
Milad Sikaroudi, Shahryar Rahnamayan, H.R. Tizhoosh(参考訳) デジタル病理学における全スライド画像(WSI)は、がんの亜型を診断するために用いられる。 各種試験場でのWSIの取得手順の違いは,病理像の多様性を生じさせ,一貫した診断を困難にしている。 これらの違いは、マルチベンダースキャナーによる画像取得のばらつき、可変取得パラメータ、染色手順の違いに起因する可能性がある。 これらの変動は、異なる病院の画像にドメインシフトを引き起こすと仮定される。 理想的な機械学習モデルは、取得センタとは独立して、さまざまな画像ソースで動作可能である必要があるため、このドメインシフトを克服することが不可欠である。 本研究では,DNN(Deep Neural Network, ディープニューラルネットワーク)の一般化能力を改善するために, ドメインシフトの有無に応じて, 未確認の病理像セット(すなわち, 病院や診療所から)にドメイン一般化技術を適用した。 実験結果によると、従来の教師あり学習体制は、異なる病院から収集したデータに乏しく一般化している。 しかし,低次元潜在空間表現の可視化と分類精度を考慮し,病院非依存の学習により一般化が向上する。

Whole Slide Images (WSIs) in digital pathology are used to diagnose cancer subtypes. The difference in procedures to acquire WSIs at various trial sites gives rise to variability in the histopathology images, thus making consistent diagnosis challenging. These differences may stem from variability in image acquisition through multi-vendor scanners, variable acquisition parameters, and differences in staining procedure; as well, patient demographics may bias the glass slide batches before image acquisition. These variabilities are assumed to cause a domain shift in the images of different hospitals. It is crucial to overcome this domain shift because an ideal machine-learning model must be able to work on the diverse sources of images, independent of the acquisition center. A domain generalization technique is leveraged in this study to improve the generalization capability of a Deep Neural Network (DNN), to an unseen histopathology image set (i.e., from an unseen hospital/trial site) in the presence of domain shift. According to experimental results, the conventional supervised-learning regime generalizes poorly to data collected from different hospitals. However, the proposed hospital-agnostic learning can improve the generalization considering the low-dimensional latent space representation visualization, and classification accuracy results.
翻訳日:2022-04-07 13:01:00 公開日:2022-04-05
# 光コヒーレンストモグラフィによるdrusenとreticular pseudodrusenの検出と定量化のためのディープラーニングフレームワーク

A deep learning framework for the detection and quantification of drusen and reticular pseudodrusen on optical coherence tomography ( http://arxiv.org/abs/2204.02406v1 )

ライセンス: Link先を確認
Roy Schwartz, Hagar Khalid, Sandra Liakopoulos, Yanling Ouyang, Coen de Vente, Cristina Gonz\'alez-Gonzalo, Aaron Y. Lee, Robyn Guymer, Emily Y. Chew, Catherine Egan, Zhichao Wu, Himeesh Kumar, Joseph Farrington, Clara I. S\'anchez, Adnan Tufail(参考訳) 目的 - 光コヒーレンストモグラフィーによるドライセンおよびレティキュラー擬似ドライセン(RPD)の検出と定量化のための深層学習(DL)フレームワークの開発と検証を行う。 設計 - 分類と特徴分割のためのディープラーニングモデルの開発と検証。 方法 - 非分解性スキャンを識別するための分類モデルとood(out-of-distribution)検出モデル、drusenまたはrpdでスキャンを識別する分類モデル、rpdまたはdrusenとして個別に病変を区分する画像分割モデルからなるdlフレームワークを開発した。 年齢関連黄斑変性症(AMD)と250UKBBコントロールを自己報告したUK Biobank(UKBB)の1284人の参加者からデータを得た。 ドルーゼンとPDは5人の網膜専門家によって手動で脱線された。 その結果, 感度, 特異性, ROC曲線 (AUC) 下の面積, カッパ, 精度, クラス内相関係数 (ICC) が得られた。 結果) 分類モデルは, 各課題において, 分解不能スキャン分類器, OODモデル, RPD分類器に対してそれぞれ0.95, 0.93, 0.99 AUC) を強く実施した。 drusen と rpd 領域の平均 icc はそれぞれ 0.74 と 0.61 であり、一方 は 0.69 と 0.68 である。 FROC曲線は、モデルの感度が人間の性能に近いことを示した。 結論 - モデルは人間のパフォーマンスと同様、高い分類とセグメンテーションのパフォーマンスを達成した。 このロバストなフレームワークの適用は、研究と臨床の両方において、drusenとは別のエンティティとしてのrpdをさらに理解するでしょう。

Purpose - To develop and validate a deep learning (DL) framework for the detection and quantification of drusen and reticular pseudodrusen (RPD) on optical coherence tomography scans. Design - Development and validation of deep learning models for classification and feature segmentation. Methods - A DL framework was developed consisting of a classification model and an out-of-distribution (OOD) detection model for the identification of ungradable scans; a classification model to identify scans with drusen or RPD; and an image segmentation model to independently segment lesions as RPD or drusen. Data were obtained from 1284 participants in the UK Biobank (UKBB) with a self-reported diagnosis of age-related macular degeneration (AMD) and 250 UKBB controls. Drusen and RPD were manually delineated by five retina specialists. The main outcome measures were sensitivity, specificity, area under the ROC curve (AUC), kappa, accuracy and intraclass correlation coefficient (ICC). Results - The classification models performed strongly at their respective tasks (0.95, 0.93, and 0.99 AUC, respectively, for the ungradable scans classifier, the OOD model, and the drusen and RPD classification model). The mean ICC for drusen and RPD area vs. graders was 0.74 and 0.61, respectively, compared with 0.69 and 0.68 for intergrader agreement. FROC curves showed that the model's sensitivity was close to human performance. Conclusions - The models achieved high classification and segmentation performance, similar to human performance. Application of this robust framework will further our understanding of RPD as a separate entity from drusen in both research and clinical settings.
翻訳日:2022-04-07 13:00:39 公開日:2022-04-05
# ディープラーニングモデルを組み合わせたクラウドベースのフィッシング攻撃の検出

Detecting Cloud-Based Phishing Attacks by Combining Deep Learning Models ( http://arxiv.org/abs/2204.02446v1 )

ライセンス: Link先を確認
Medha Atre, Birendra Jha, Ashwini Rao(参考訳) Webベースのフィッシング攻撃は、今日では人気のクラウドホスティングサービスやGoogle SitesやTypeformなどのアプリを利用して攻撃をホストしている。 これらの攻撃は、クラウドサービスの信頼できるドメインとIPアドレスに由来するため、IP評価監視やブラックリストのような従来のフィッシング検出方法は、あまり効果的ではない。 本稿では,クラウドベースのフィッシング攻撃の検出におけるディープラーニングモデルの有効性を検討する。 具体的には,URL解析のためのLSTMモデル,ロゴ解析のためのYOLOv2モデル,視覚的類似性解析のためのトリプルトネットワークモデルという3つのフィッシング検出手法のディープラーニングモデルを評価する。 私たちはよく知られたデータセットを使ってモデルをトレーニングし、野生のフィッシング攻撃でパフォーマンスをテストします。 私たちの結果は、なぜモデルが成功するか失敗するのかを定性的に説明します。 さらに,個々のモデルの結果を組み合わせることで,クラウドベースのフィッシング攻撃の検出効率が向上することを示す。

Web-based phishing attacks nowadays exploit popular cloud web hosting services and apps such as Google Sites and Typeform for hosting their attacks. Since these attacks originate from reputable domains and IP addresses of the cloud services, traditional phishing detection methods such as IP reputation monitoring and blacklisting are not very effective. Here we investigate the effectiveness of deep learning models in detecting this class of cloud-based phishing attacks. Specifically, we evaluate deep learning models for three phishing detection methods--LSTM model for URL analysis, YOLOv2 model for logo analysis, and triplet network model for visual similarity analysis. We train the models using well-known datasets and test their performance on phishing attacks in the wild. Our results qualitatively explain why the models succeed or fail. Furthermore, our results highlight how combining results from the individual models can improve the effectiveness of detecting cloud-based phishing attacks.
翻訳日:2022-04-07 13:00:08 公開日:2022-04-05
# 数発手話認識のためのトランスフォーマティブ型コントラスト学習手法

A Transformer-Based Contrastive Learning Approach for Few-Shot Sign Language Recognition ( http://arxiv.org/abs/2204.02803v1 )

ライセンス: Link先を確認
Silvan Ferreira, Esdras Costa, M\'arcio Dahia, Jampierre Rocha(参考訳) 単眼画像または2次元ポーズのシーケンスからの手話認識は,2次元データから3次元情報を推測することが困難であるだけでなく,情報のシーケンス間の時間的関係によっても困難である。 さらに、様々な兆候や生産環境に新しいものを追加する必要があるため、従来の分類技術を使うことは不可能である。 本稿では,鍵点列からリッチな表現を学習し,ベクトル埋め込みのより良い比較を可能にするContrastive Transformerベースのモデルを提案する。 これにより、分類や翻訳などのワンショットタスクや少数ショットタスクにこれらのテクニックを適用することができます。 実験の結果,学習過程にない手話のクラスに対して,モデルが十分に一般化され,競争結果が得られた。

Sign language recognition from sequences of monocular images or 2D poses is a challenging field, not only due to the difficulty to infer 3D information from 2D data, but also due to the temporal relationship between the sequences of information. Additionally, the wide variety of signs and the constant need to add new ones on production environments makes it infeasible to use traditional classification techniques. We propose a novel Contrastive Transformer-based model, which demonstrate to learn rich representations from body key points sequences, allowing better comparison between vector embedding. This allows us to apply these techniques to perform one-shot or few-shot tasks, such as classification and translation. The experiments showed that the model could generalize well and achieved competitive results for sign classes never seen in the training process.
翻訳日:2022-04-07 12:39:14 公開日:2022-04-05
# 暗黙的神経表現によるゼロショットブラインド画像

Zero-shot Blind Image Denoising via Implicit Neural Representations ( http://arxiv.org/abs/2204.02405v1 )

ライセンス: Link先を確認
Chaewon Kim, Jaeho Lee and Jinwoo Shin(参考訳) 近年の"blind-spot"戦略に基づくデノージングアルゴリズムでは、外部データセットを使用せずに、目隠し画像のデノージング性能が印象的である。 これらの手法は, 高い汚染画像の復元に優れるが, 低雑音や実雑音下では, このようなアルゴリズムは効果が低いことが多い。 このギャップに対処するために,(1)inrは高周波ノイズよりも低周波のクリーン画像信号に早く適合し,(2)出力に近いinr層は高周波部品の適合においてより重要な役割を果たす,という2つの知見に基づいて,暗黙的神経表現(inrs)のアーキテクチャ的帰納的バイアスを生かした別の分別戦略を提案する。 これらの観測に基づいて,より深い層重みの生長をペナル化することにより,INRの自然デノナイジング能力を最大化するデノナイジングアルゴリズムを提案する。 提案手法は,低雑音シナリオや実雑音シナリオにおいて,既存のゼロショット復調手法よりも優れることを示す。

Recent denoising algorithms based on the "blind-spot" strategy show impressive blind image denoising performances, without utilizing any external dataset. While the methods excel in recovering highly contaminated images, we observe that such algorithms are often less effective under a low-noise or real noise regime. To address this gap, we propose an alternative denoising strategy that leverages the architectural inductive bias of implicit neural representations (INRs), based on our two findings: (1) INR tends to fit the low-frequency clean image signal faster than the high-frequency noise, and (2) INR layers that are closer to the output play more critical roles in fitting higher-frequency parts. Building on these observations, we propose a denoising algorithm that maximizes the innate denoising capability of INRs by penalizing the growth of deeper layer weights. We show that our method outperforms existing zero-shot denoising methods under an extensive set of low-noise or real-noise scenarios.
翻訳日:2022-04-07 12:38:38 公開日:2022-04-05
# 畳み込みフィルタのレンズによる対向ロバスト性

Adversarial Robustness through the Lens of Convolutional Filters ( http://arxiv.org/abs/2204.02481v1 )

ライセンス: Link先を確認
Paul Gavrikov and Janis Keuper(参考訳) ディープラーニングモデルは、入力データの分散シフトに本質的に敏感である。 特に、入力データに対する小さな、ほとんど知覚できない摂動は、モデルに高い信頼性で誤った予測を強いる可能性がある。 一般的な防御機構は、最悪の場合の摂動をトレーニングに注入し、決定境界を強化し、過剰フィッティングを減らす敵訓練による正規化である。 そこで,本研究では,逆訓練モデルで生成する3x3畳み込みフィルタについて検討する。 フィルタは、Linf-RobustBench CIFAR-10/100とImageNet1kのリーダーボードの71のパブリックモデルから抽出され、同じアーキテクチャ上に構築されたモデルから抽出されたフィルタと比較される。 我々は、逆回転するモデルが通常のモデルよりも多様で、スパースが少なく、直交の畳み込みフィルタを形成するのを観察する。 ロバストモデルと正規モデルの間の最大の違いは最深層層と、アーキテクチャに関係なく部分的に摂動を除去できるフィルターを一貫して主に形成する第1畳み込み層である。 Data & Project website: https://github.com/paulgavrikov/cvpr22w_RobustnessThroughTheLens

Deep learning models are intrinsically sensitive to distribution shifts in the input data. In particular, small, barely perceivable perturbations to the input data can force models to make wrong predictions with high confidence. An common defense mechanism is regularization through adversarial training which injects worst-case perturbations back into training to strengthen the decision boundaries, and to reduce overfitting. In this context, we perform an investigation of 3x3 convolution filters that form in adversarially-trained models. Filters are extracted from 71 public models of the linf-RobustBench CIFAR-10/100 and ImageNet1k leaderboard and compared to filters extracted from models built on the same architectures but trained without robust regularization. We observe that adversarially-robust models appear to form more diverse, less sparse, and more orthogonal convolution filters than their normal counterparts. The largest differences between robust and normal models are found in the deepest layers, and the very first convolution layer, which consistently and predominantly forms filters that can partially eliminate perturbations, irrespective of the architecture. Data & Project website: https://github.com/paulgavrikov/cvpr22w_RobustnessThroughTheLens
翻訳日:2022-04-07 12:38:17 公開日:2022-04-05
# 信頼できるAIに対するDempster-Shaferアプローチと胎児脳MRI領域への応用

A Dempster-Shafer approach to trustworthy AI with application to fetal brain MRI segmentation ( http://arxiv.org/abs/2204.02779v1 )

ライセンス: Link先を確認
Lucas Fidon, Michael Aertsen, Florian Kofler, Andrea Bink, Anna L. David, Thomas Deprest, Doaa Emam, Fr/'ed/'eric Guffens, Andr\'as Jakab, Gregor Kasprian, Patric Kienast, Andrew Melbourne, Bjoern Menze, Nada Mufti, Ivana Pogledic, Daniela Prayer, Marlene Stuempflen, Esther Van Elslander, S\'ebastien Ourselin, Jan Deprest, Tom Vercauteren(参考訳) 医学画像セグメンテーションのための深層学習モデルは、解剖学や領域の強度分布に関する専門家の知識に反するラベル付きエラーで、病理学的ケースやトレーニングで使用されるものとは異なるセンターで取得された画像に対して、予期せず、驚くほど失敗する可能性がある。 このようなエラーは、医学画像分割のために開発されたディープラーニングモデルの信頼性を損なう。 このような障害を検知し修正するためのフォールバック方式のメカニズムは、この技術を診療所へ安全に翻訳するために不可欠であり、人工知能(AI)に関する将来の規制の要件である可能性が高い。 本稿では,Dempster-Shafer理論に基づくフォールバック手法とフェールセーフ機構を用いて,任意のバックボーンAIシステムを拡張可能な,信頼性の高いAI理論フレームワークと実用的なシステムを提案する。 私たちのアプローチは、信頼できるAIの実用的な定義に依存しています。 提案手法は,専門知識に反する可能性のあるバックボーンAIによって予測されるボクセルレベルのラベルを自動的に破棄し,それらのボクセルに対するフォールバックアトラスに基づくセグメンテーション手法に依存する。 今回提案した信頼度の高いAIアプローチが,神経型または異常な脳発達を伴う540個の手指の胎児脳3DMRIからなり,6か国で13個のデータソースから得られた最も大きな胎児T2w MRIのアノテートデータセットに対して有効であることを示す。 以上の結果から,我々の信頼できるAI手法は,脳の様々な部位で取得されたMRIの胎児脳MRI領域に対する最先端のバックボーンAIの堅牢性を向上させることが示唆された。

Deep learning models for medical image segmentation can fail unexpectedly and spectacularly for pathological cases and for images acquired at different centers than those used for training, with labeling errors that violate expert knowledge about the anatomy and the intensity distribution of the regions to be segmented. Such errors undermine the trustworthiness of deep learning models developed for medical image segmentation. Mechanisms with a fallback method for detecting and correcting such failures are essential for safely translating this technology into clinics and are likely to be a requirement of future regulations on artificial intelligence (AI). Here, we propose a principled trustworthy AI theoretical framework and a practical system that can augment any backbone AI system using a fallback method and a fail-safe mechanism based on Dempster-Shafer theory. Our approach relies on an actionable definition of trustworthy AI. Our method automatically discards the voxel-level labeling predicted by the backbone AI that are likely to violate expert knowledge and relies on a fallback atlas-based segmentation method for those voxels. We demonstrate the effectiveness of the proposed trustworthy AI approach on the largest reported annotated dataset of fetal T2w MRI consisting of 540 manually annotated fetal brain 3D MRIs with neurotypical or abnormal brain development and acquired from 13 sources of data across 6 countries. We show that our trustworthy AI method improves the robustness of a state-of-the-art backbone AI for fetal brain MRI segmentation on MRIs acquired across various centers and for fetuses with various brain abnormalities.
翻訳日:2022-04-07 12:37:55 公開日:2022-04-05
# (参考訳) トラフィック予測のための時空間グラフニューラルネットワークにおけるディープエンサンブルに基づく不確かさの定量化

Deep-Ensemble-Based Uncertainty Quantification in Spatiotemporal Graph Neural Networks for Traffic Forecasting ( http://arxiv.org/abs/2204.01618v2 )

ライセンス: CC BY 4.0
Tanwi Mallick, Prasanna Balaprakash, Jane Macfarlane(参考訳) 深層学習に基づくデータ駆動予測手法は,交通予測に顕著な結果をもたらした。 しかし、これらの手法の大きな制限は、リアルタイムデプロイメントに不可欠な不確実性を見積もることなく予測を提供することである。 本稿では,短期交通予測のための最先端手法である拡散畳み込みリカレントニューラルネットワーク(DCRNN)に注目した。 我々はDCRNNの不確実性を定量化するスケーラブルなディープアンサンブル手法を開発した。 提案手法は,超パラメータ最適化を行うためにスケーラブルベイズ最適化手法を使用し,高パフォーマンスな構成の集合を選択し,超パラメータ構成のジョイント分布をキャプチャする生成モデルに適合し,生成モデルから新しいハイパーパラメータ構成集合をサンプリングしてモデルのアンサンブルを訓練する。 提案手法を他の不確実性推定手法と比較することにより,提案手法の有効性を示す。 当社の汎用的でスケーラブルなアプローチは,現在の最先端のベイジアンや,その他の一般的な頻繁なテクニックよりも優れています。

Deep-learning-based data-driven forecasting methods have produced impressive results for traffic forecasting. A major limitation of these methods, however, is that they provide forecasts without estimates of uncertainty, which are critical for real-time deployments. We focus on a diffusion convolutional recurrent neural network (DCRNN), a state-of-the-art method for short-term traffic forecasting. We develop a scalable deep ensemble approach to quantify uncertainties for DCRNN. Our approach uses a scalable Bayesian optimization method to perform hyperparameter optimization, selects a set of high-performing configurations, fits a generative model to capture the joint distributions of the hyperparameter configurations, and trains an ensemble of models by sampling a new set of hyperparameter configurations from the generative model. We demonstrate the efficacy of the proposed methods by comparing them with other uncertainty estimation techniques. We show that our generic and scalable approach outperforms the current state-of-the-art Bayesian and a number of other commonly used frequentist techniques.
翻訳日:2022-04-07 09:16:16 公開日:2022-04-05
# (参考訳) 手続きデータによるバイアスの調整

Adjusting for Bias with Procedural Data ( http://arxiv.org/abs/2204.01108v2 )

ライセンス: CC BY 4.0
Shesh Narayan Gupta, Nicholas Bear Brown(参考訳) 今や3dソフトウェアは、本物の画像とほとんど区別できないほどリアルな画像を生成できる。 実際のデータセットは3Dレンダリングデータで拡張できるのか? 私たちはこの質問を調査します。 本稿では,画像データセットにおけるバイアス調整のための3次元レンダリングデータ,手続きデータの利用について述べる。 動物画像の誤り解析を行い、いくつかの動物品種の誤分類が主にデータ問題であることを示す。 そして、分類の悪い品種の手続き的画像を作成し、手続き的データに基づいてさらに訓練されたモデルは、実データ上での成績の悪い品種の分類をより良くします。 このアプローチは、希少な疾患や、モデルの正確性や公平性を改善する可能性のあるデータバイアスを含む、未表現のグループの視覚的データ向上に有効であると考えています。 結果表現は実データから直接学習した表現に匹敵するか、あるいは優れていますが、優れた性能には3dレンダリングされた手続きデータ生成に注意が必要です。 3D画像データセットは、実際のデータセットの圧縮および整理されたコピーと見なすことができ、データセットがますます扱いにくくなり、欠落し、プライベートになりつつ、より手続き的なデータが増大する未来を想像する。 本稿では,このような未来において視覚表現学習を扱うためのいくつかの手法を提案する。

3D softwares are now capable of producing highly realistic images that look nearly indistinguishable from the real images. This raises the question: can real datasets be enhanced with 3D rendered data? We investigate this question. In this paper we demonstrate the use of 3D rendered data, procedural, data for the adjustment of bias in image datasets. We perform error analysis of images of animals which shows that the misclassification of some animal breeds is largely a data issue. We then create procedural images of the poorly classified breeds and that model further trained on procedural data can better classify poorly performing breeds on real data. We believe that this approach can be used for the enhancement of visual data for any underrepresented group, including rare diseases, or any data bias potentially improving the accuracy and fairness of models. We find that the resulting representations rival or even out-perform those learned directly from real data, but that good performance requires care in the 3D rendered procedural data generation. 3D image dataset can be viewed as a compressed and organized copy of a real dataset, and we envision a future where more and more procedural data proliferate while datasets become increasingly unwieldy, missing, or private. This paper suggests several techniques for dealing with visual representation learning in such a future.
翻訳日:2022-04-07 04:05:08 公開日:2022-04-05
# (参考訳) 実用的制約と代名詞参照の曖昧さ:可能性と不可能

Pragmatic constraints and pronoun reference disambiguation: the possible and the impossible ( http://arxiv.org/abs/2204.01166v2 )

ライセンス: CC BY-SA 4.0
Ernest Davis(参考訳) テキストと談話を理解することの曖昧さは、しばしば一般的な実践的知識と文脈固有の情報の両方を応用する必要がある。 AIと言語学の研究において、これは主に、参照者が近くの前のテキストで明示的に記述されている場合に研究されている。 しかし、自然文の代名詞は、しばしば暗黙的に言及される存在、コレクション、または出来事を指すことが多く、その場合、曖昧にするためにプラグマティックな知識を使う必要性が増し、知識の特徴づけがより困難になる。 時折拡張された文学テキストは、非常に複雑な参照パターンと非常に豊かな知識と微妙な知識の両方を用いる。 実際、テキスト中の参照語から遠く離れた代名詞を持つことも時々可能である。 反対の方向では、代名詞の使用は注意の焦点や、平行構文構造の好みのような形式的な制約の影響を受けており、これらは非常に強いので、現実的な知識がそれらを克服するのに十分ではない。

Pronoun disambiguation in understanding text and discourse often requires the application of both general pragmatic knowledge and context-specific information. In AI and linguistics research, this has mostly been studied in cases where the referent is explicitly stated in the preceding text nearby. However, pronouns in natural text often refer to entities, collections, or events that are only implicitly mentioned previously; in those cases the need to use pragmatic knowledge to disambiguate becomes much more acute and the characterization of the knowledge becomes much more difficult. Extended literary texts at times employ both extremely complex patterns of reference and extremely rich and subtle forms of knowledge. Indeed, it is occasionally possible to have a pronoun that is far separated from its referent in a text. In the opposite direction, pronoun use is affected by considerations of focus of attention and by formal constraints such as a preference for parallel syntactic structures; these can be so strong that no pragmatic knowledge suffices to overrule them.
翻訳日:2022-04-07 03:49:53 公開日:2022-04-05
# (参考訳) 画像再構成損失に基づく教師なし変化検出

Unsupervised Change Detection Based on Image Reconstruction Loss ( http://arxiv.org/abs/2204.01200v2 )

ライセンス: CC BY 4.0
Hyeoncheol Noh, Jingi Ju, Minseok Seo, Jongchan Park, Dong-Geol Choi(参考訳) 変化検出器の訓練には、同じ領域で異なるタイミングで撮影されたバイタイム画像を使用する。 しかし、ラベル付きバイテンポラル画像の収集は高価で時間を要する。 この問題を解決するために、様々な教師なしの変更検出方法が提案されているが、ラベルなしのバイタイム画像が必要である。 本稿では,ラベルなしの時間的単一画像のみを用いた画像再構成損失に基づく教師なし変化検出を提案する。 画像再構成モデルは、ソース画像とフォトメトリック変換されたソース画像とをペアとして受信して元のソース画像を再構築するように訓練される。 推論中、モデルは入力として双時間画像を受け取り、入力の1つを再構築しようとする。 両時間画像間の変化領域は高い再構成損失を示す。 変更検出は1つの時間的単一ソース画像のみを使用しても,様々な変更検出ベンチマークデータセットにおいて大きな性能を示した。 コードとトレーニングされたモデルは、再現性のために公開されます。

To train the change detector, bi-temporal images taken at different times in the same area are used. However, collecting labeled bi-temporal images is expensive and time consuming. To solve this problem, various unsupervised change detection methods have been proposed, but they still require unlabeled bi-temporal images. In this paper, we propose unsupervised change detection based on image reconstruction loss using only unlabeled single temporal single image. The image reconstruction model is trained to reconstruct the original source image by receiving the source image and the photometrically transformed source image as a pair. During inference, the model receives bi-temporal images as the input, and tries to reconstruct one of the inputs. The changed region between bi-temporal images shows high reconstruction loss. Our change detector showed significant performance in various change detection benchmark datasets even though only a single temporal single source image was used. The code and trained models will be publicly available for reproducibility.
翻訳日:2022-04-07 03:38:34 公開日:2022-04-05
# (参考訳) ROCKETを有効利用する: LightWaveS を用いた多変量時系列分類

Taking ROCKET on an Efficiency Mission: Multivariate Time Series Classification with LightWaveS ( http://arxiv.org/abs/2204.01379v2 )

ライセンス: CC BY 4.0
Leonardos Pantiskas, Kees Verstoep, Mark Hoogendoorn, Henri Bal(参考訳) 近年、医療や産業などの分野におけるセンサの増加に伴い、多変量時系列分類(MTSC)の問題がますます重要になってきており、機械学習やディープラーニングのアプローチの主要なターゲットとなっている。 現実の環境での採用の拡大は、複雑なモデルによるより高い予測精度の追求から、精度と予測速度などのパラメータのバランスをとる実用的なデプロイ可能なソリューションへの移行を招いている。 近年注目されているMTSCモデルは、非常に高速なトレーニングプロセスと最先端の精度の両方のため、ランダムな畳み込みカーネルに基づくROCKETである。 しかし、それが利用する多くの機能は推論時間に有害である可能性がある。 理論的背景と限界を理解することで潜在的な欠点に対処し、トレーニングと推論の両方で高速な正確なMTSCのためのフレームワークLightWaveSを提示する。 具体的には、ウェーブレット散乱変換と分散特徴選択を利用して、最近のディープラーニングモデルに匹敵する精度を保ちながら、ROCKET機能のわずか2.5%を利用するソリューションを作成する。 LightWaveSはまた、複数の計算ノードにまたがって、トレーニング中に入力チャネルの数でうまくスケールする。 さらに、最も有用なチャネルのみを保持することで、入力サイズを大幅に削減し、MTSC問題に対する洞察を与えることができる。 このアルゴリズムの3つのバージョンと,分散トレーニング時間とスケーラビリティ,精度,推論の高速化に関する結果を示す。 エッジデバイス上での推論において, ROCKETと比較して9倍から65倍の高速化を実現していることを示す。

Nowadays, with the rising number of sensors in sectors such as healthcare and industry, the problem of multivariate time series classification (MTSC) is getting increasingly relevant and is a prime target for machine and deep learning approaches. Their expanding adoption in real-world environments is causing a shift in focus from the pursuit of ever higher prediction accuracy with complex models towards practical, deployable solutions that balance accuracy and parameters such as prediction speed. An MTSC model that has attracted attention recently is ROCKET, based on random convolutional kernels, both because of its very fast training process and its state-of-the-art accuracy. However, the large number of features it utilizes may be detrimental to inference time. Examining its theoretical background and limitations enables us to address potential drawbacks and present LightWaveS: a framework for accurate MTSC, which is fast both during training and inference. Specifically, utilizing wavelet scattering transformation and distributed feature selection, we manage to create a solution which employs just 2.5% of the ROCKET features, while achieving accuracy comparable to recent deep learning models. LightWaveS also scales well across multiple compute nodes and with the number of input channels during training. In addition, it can significantly reduce the input size and provide insight to an MTSC problem by keeping only the most useful channels. We present three versions of our algorithm and their results on distributed training time and scalability, accuracy and inference speedup. We show that we achieve speedup ranging from 9x to 65x compared to ROCKET during inference on an edge device, on datasets with comparable accuracy.
翻訳日:2022-04-07 02:30:52 公開日:2022-04-05
# (参考訳) プリトレーニングニューラルネットワークのためのアライメント重み調整器

Aligned Weight Regularizers for Pruning Pretrained Neural Networks ( http://arxiv.org/abs/2204.01385v2 )

ライセンス: CC BY 4.0
James O' Neill and Sourav Dutta and Haytham Assem(参考訳) 反復的刈り取りのための様々な研究方法が検討されているが、刈り取りがゼロショットテスト性能にどのような影響を及ぼすか、そして刈り取り基準の選択にどのような影響があるかはほとんど知られていない。 このプルーニング設定は、プリトレーニング中に言語表現間のアライメントを暗黙的に学習するクロスリンガルモデルにとって特に重要であり、プルーニングによって歪んだ場合、再トレーニングに使用される言語データのパフォーマンスが低下するだけでなく、評価されるゼロショット言語も低下する。 本研究では,標準教師付き学習とゼロショット設定との比較において,等級ベースプルーニングにおける性能差が明らかであることを示す。 そこで本研究では,prunedクロスリンガルモデルのアライメント歪みを軽減するため,prunedネットワークとunprunedネットワークのアライメントを最大化することを目的とした2つの重み調整器を提案する。 我々はXLM-RoBERTa$_{\mathrm{Base}}$を用いてゼロショット設定のための言語間タスクの実験結果を提供する。 これは言語間モデル圧縮に焦点を当てた最初の研究でもある。

While various avenues of research have been explored for iterative pruning, little is known what effect pruning has on zero-shot test performance and its potential implications on the choice of pruning criteria. This pruning setup is particularly important for cross-lingual models that implicitly learn alignment between language representations during pretraining, which if distorted via pruning, not only leads to poorer performance on language data used for retraining but also on zero-shot languages that are evaluated. In this work, we show that there is a clear performance discrepancy in magnitude-based pruning when comparing standard supervised learning to the zero-shot setting. From this finding, we propose two weight regularizers that aim to maximize the alignment between units of pruned and unpruned networks to mitigate alignment distortion in pruned cross-lingual models and perform well for both non zero-shot and zero-shot settings. We provide experimental results on cross-lingual tasks for the zero-shot setting using XLM-RoBERTa$_{\mathrm{Base}}$, where we also find that pruning has varying degrees of representational degradation depending on the language corresponding to the zero-shot test set. This is also the first study that focuses on cross-lingual language model compression.
翻訳日:2022-04-07 02:14:48 公開日:2022-04-05
# (参考訳) Dynatask: 動的AIベンチマークタスク作成のためのフレームワーク

Dynatask: A Framework for Creating Dynamic AI Benchmark Tasks ( http://arxiv.org/abs/2204.01906v1 )

ライセンス: CC BY 4.0
Tristan Thrush, Kushal Tirumala, Anmol Gupta, Max Bartolo, Pedro Rodriguez, Tariq Kane, William Gaviria Rojas, Peter Mattson, Adina Williams, Douwe Kiela(参考訳) 我々はdynataskを紹介する。dynataskは,最先端nlpモデルのホスティングと評価に必要な技術知識と労力を大幅に削減することを目的とした,カスタムnlpタスクをセットアップするオープンソースシステムである。 dynataskは、ループデータ収集と評価で人間とモデルを促進するaiのベンチマークを再考する研究プラットフォームであるdynabenchと統合されている。 タスクを作成するには、関連するWebインターフェースとモデルホスティングインフラストラクチャが自動的に生成される短いタスク設定ファイルを記述するだけでよい。 システムはhttps://dynabench.org/で利用可能で、完全なライブラリはhttps://github.com/facebookresearch/dynabenchで見ることができる。

We introduce Dynatask: an open source system for setting up custom NLP tasks that aims to greatly lower the technical knowledge and effort required for hosting and evaluating state-of-the-art NLP models, as well as for conducting model in the loop data collection with crowdworkers. Dynatask is integrated with Dynabench, a research platform for rethinking benchmarking in AI that facilitates human and model in the loop data collection and evaluation. To create a task, users only need to write a short task configuration file from which the relevant web interfaces and model hosting infrastructure are automatically generated. The system is available at https://dynabench.org/ and the full library can be found at https://github.com/facebookresearch/dynabench.
翻訳日:2022-04-06 23:10:34 公開日:2022-04-05
# (参考訳) 感作的デジタル表現のためのアクティブラーニングの探索

An Exploration of Active Learning for Affective Digital Phenotyping ( http://arxiv.org/abs/2204.01915v1 )

ライセンス: CC BY 4.0
Peter Washington, Cezmi Mutlu, Aaron Kline, Cathy Hou, Kaitlyn Dunlap, Jack Kent, Arman Husic, Nate Stockham, Brianna Chrisman, Kelley Paskov, Jae-Yoon Jung, Dennis P. Wall(参考訳) 人間の行動に対する機械学習モデルの普及を阻止する最も深刻なボトルネックには、ラベル付きトレーニングデータの発掘や高品質なラベル取得の難しさなどがある。 アクティブラーニング(英: Active Learning)は、モデルの不確実性とデータ類似性の指標を用いて、データポイントの有用なサブセットを計算的に選択するアルゴリズムを使用するパラダイムである。 自然主義的コンピュータビジョン感情データに対するアクティブラーニングについて,本質的主観的ラベルによる,特に不均一で複雑なデータ空間について検討する。 自閉症児に対する治療用スマートフォンゲームから獲得したゲームプレイのフレームを用いて,ゲームプレイプロンプトをメタデータとして利用し,アクティブ学習プロセスを支援する。 ゲームプレイ中に生成された情報を用いた能動的学習は,同一数のラベル付きフレームのランダム選択よりも若干優れていた。 次に,情緒計算などの主観的データを用いてアクティブラーニングを行う手法と,複数のクラウドソースラベルを画像毎に取得できる手法について検討する。 児童感情表情(cafe)データセットを用いて,多数のラベルをクラウドソーシングするアクティブラーニングプロセスをシミュレートし,クラウドソーシングされたラベル分布のエントロピーを用いてフレームを優先順位付けすることで,ランダムフレーム選択に比べてカテゴリ間クロスエントロピー損失が低くなることを発見した。 これらの結果は,騒音条件下で収集した主観的感情データに対する2つの新しいアクティブ学習手法のパイロット評価を示す。

Some of the most severe bottlenecks preventing widespread development of machine learning models for human behavior include a dearth of labeled training data and difficulty of acquiring high quality labels. Active learning is a paradigm for using algorithms to computationally select a useful subset of data points to label using metrics for model uncertainty and data similarity. We explore active learning for naturalistic computer vision emotion data, a particularly heterogeneous and complex data space due to inherently subjective labels. Using frames collected from gameplay acquired from a therapeutic smartphone game for children with autism, we run a simulation of active learning using gameplay prompts as metadata to aid in the active learning process. We find that active learning using information generated during gameplay slightly outperforms random selection of the same number of labeled frames. We next investigate a method to conduct active learning with subjective data, such as in affective computing, and where multiple crowdsourced labels can be acquired for each image. Using the Child Affective Facial Expression (CAFE) dataset, we simulate an active learning process for crowdsourcing many labels and find that prioritizing frames using the entropy of the crowdsourced label distribution results in lower categorical cross-entropy loss compared to random frame selection. Collectively, these results demonstrate pilot evaluations of two novel active learning approaches for subjective affective data collected in noisy settings.
翻訳日:2022-04-06 22:59:19 公開日:2022-04-05
# (参考訳) 多領域不均衡データに対するドメイン対応コントラスト知識伝達

Domain-Aware Contrastive Knowledge Transfer for Multi-domain Imbalanced Data ( http://arxiv.org/abs/2204.01916v1 )

ライセンス: CC BY 4.0
Zixuan Ke, Mohammad Kachuee, Sungjin Lee(参考訳) 多くの実世界の機械学習アプリケーションでは、サンプルは一連のドメインに属し、例えば製品レビューでは、各レビューは製品カテゴリに属している。 本稿では,クラスだけでなくドメインにも不均衡が存在するというシナリオであるマルチドメイン不均衡学習(MIL)について検討する。 MIL設定では、異なるドメインが異なるパターンを示し、特に限られた訓練データや不十分な訓練データに直面する場合において、移行学習の機会や課題を示すドメイン間での類似性やばらつきの程度が異なる。 本稿では,(1)共有ドメイン知識を同定し,類似ドメイン(特にヘッドドメインからテールドメイン)間の正の移動を促進すること,(2)異なるドメイン間の負の移動を最小限に抑えるために,ドメイン固有の知識を分離すること,などを提案する。 我々は3つの異なるデータセット上でのDCMIの性能を評価し、異なるMILシナリオにおいて顕著な改善を示した。

In many real-world machine learning applications, samples belong to a set of domains e.g., for product reviews each review belongs to a product category. In this paper, we study multi-domain imbalanced learning (MIL), the scenario that there is imbalance not only in classes but also in domains. In the MIL setting, different domains exhibit different patterns and there is a varying degree of similarity and divergence among domains posing opportunities and challenges for transfer learning especially when faced with limited or insufficient training data. We propose a novel domain-aware contrastive knowledge transfer method called DCMI to (1) identify the shared domain knowledge to encourage positive transfer among similar domains (in particular from head domains to tail domains); (2) isolate the domain-specific knowledge to minimize the negative transfer from dissimilar domains. We evaluated the performance of DCMI on three different datasets showing significant improvements in different MIL scenarios.
翻訳日:2022-04-06 22:43:27 公開日:2022-04-05
# (参考訳) バイナリニューラルネットワークの非局所最適化

Nonlocal optimization of binary neural networks ( http://arxiv.org/abs/2204.01935v1 )

ライセンス: CC BY-SA 4.0
Amir Khoshaman, Giuseppe Castiglione, Christopher Srinivasa(参考訳) 我々は,因子グラフ上の離散変数推論問題として,バイナリニューラルネットワーク(bnns)を訓練する。 我々は,この変換の振る舞いをパラメータ下BNN設定で検討し,現在の定式化の難易度を克服するために,Belief Propagation(BP)およびSurvey Propagation(SP)メッセージパッシングアルゴリズムの確率バージョンを提案する。 従来のBNNの勾配法と比較すると, 確率BPとSPはともにBNNのパラメータのより優れた構成を求めることが示唆された。

We explore training Binary Neural Networks (BNNs) as a discrete variable inference problem over a factor graph. We study the behaviour of this conversion in an under-parameterized BNN setting and propose stochastic versions of Belief Propagation (BP) and Survey Propagation (SP) message passing algorithms to overcome the intractability of their current formulation. Compared to traditional gradient methods for BNNs, our results indicate that both stochastic BP and SP find better configurations of the parameters in the BNN.
翻訳日:2022-04-06 22:30:57 公開日:2022-04-05
# (参考訳) 統一暗黙的神経スタイライゼーション

Unified Implicit Neural Stylization ( http://arxiv.org/abs/2204.01943v1 )

ライセンス: CC BY 4.0
Zhiwen Fan, Yifan Jiang, Peihao Wang, Xinyu Gong, Dejia Xu, Zhangyang Wang(参考訳) 暗黙的な表現(例えば座標ベースのディープネットワーク)による視覚信号の表現は多くの視覚タスクで普及している。 様々な2dおよび3dシナリオに適用可能な一般的なアプローチを用いて、スタイル化された暗黙的な表現をトレーニングする。 本研究では,2次元座標に基づく表現,ニューラルラディアンス場,符号付き距離関数など,様々な暗黙関数に関するパイロット研究を行う。 我々のソリューションは、INSと呼ばれる統一暗黙的ニューラルスティル化フレームワークです。 バニラの暗黙の表現とは対照的に、INSは通常の暗黙の関数をスタイルの暗黙のモジュールとコンテンツ暗示のモジュールに分離し、スタイルの画像と入力シーンから表現を別々にエンコードする。 次にアマルガメーションモジュールを適用してこれらの情報を集約し、スタイリングされた出力を合成する。 3dシーンの幾何学を正則化するために,スタイリッシュなシーンの幾何学的忠実性を保つ新しい自己蒸留幾何学的一貫性損失を提案する。 複雑なシーンの新しいビュー合成、暗黙の面のスタイライゼーション、mlpによるフィッティング画像など、複数のタスク設定で包括的な実験が行われている。 さらに,学習表現が空間的にもスタイル的にも連続的であることを示し,異なるスタイル間を無益に補間し,新しい混合スタイルで画像を生成する。 より詳細なビュー合成結果については、プロジェクトページの動画を参照してください。

Representing visual signals by implicit representation (e.g., a coordinate based deep network) has prevailed among many vision tasks. This work explores a new intriguing direction: training a stylized implicit representation, using a generalized approach that can apply to various 2D and 3D scenarios. We conduct a pilot study on a variety of implicit functions, including 2D coordinate-based representation, neural radiance field, and signed distance function. Our solution is a Unified Implicit Neural Stylization framework, dubbed INS. In contrary to vanilla implicit representation, INS decouples the ordinary implicit function into a style implicit module and a content implicit module, in order to separately encode the representations from the style image and input scenes. An amalgamation module is then applied to aggregate these information and synthesize the stylized output. To regularize the geometry in 3D scenes, we propose a novel self-distillation geometry consistency loss which preserves the geometry fidelity of the stylized scenes. Comprehensive experiments are conducted on multiple task settings, including novel view synthesis of complex scenes, stylization for implicit surfaces, and fitting images using MLPs. We further demonstrate that the learned representation is continuous not only spatially but also style-wise, leading to effortlessly interpolating between different styles and generating images with new mixed styles. Please refer to the video on our project page for more view synthesis results: https://zhiwenfan.github.io/INS.
翻訳日:2022-04-06 22:06:29 公開日:2022-04-05
# (参考訳) 正準写像による自己回帰3次元形状生成

Autoregressive 3D Shape Generation via Canonical Mapping ( http://arxiv.org/abs/2204.01955v1 )

ライセンス: CC BY 4.0
An-Chieh Cheng, Xueting Li, Sifei Liu, Min Sun, Ming-Hsuan Yang(参考訳) シーケンシャルデータにおける長距離依存関係をモデル化する能力により、トランスフォーマーは画像、音声、テキスト生成など、様々な生成タスクにおいて顕著なパフォーマンスを示した。 しかし、不明瞭な逐次化プロセスと計算負荷のため、高解像度の点雲のような、より構造が低く、高輝度なデータ形式を生成するためにそれらを利用することはめったにない。 本稿では,変圧器のパワーをさらに活用し,それを3Dポイントクラウド生成のタスクに活用することを目的とする。 鍵となるアイデアは、学習された正準空間を通じて、あるカテゴリーの点雲を意味的に整列した形状合成の列に分解することである。 これらの形状合成は量子化し、点クラウド生成のための文脈に富んだ構成コードブックを学ぶのに使うことができる。 点雲再構成と非条件生成の実験結果から,我々のモデルは最先端のアプローチに対して良好に機能することが示された。 さらに, 条件付き形状生成への応用として, モデルを簡単にマルチモーダル形状完成に拡張することができる。

With the capacity of modeling long-range dependencies in sequential data, transformers have shown remarkable performances in a variety of generative tasks such as image, audio, and text generation. Yet, taming them in generating less structured and voluminous data formats such as high-resolution point clouds have seldom been explored due to ambiguous sequentialization processes and infeasible computation burden. In this paper, we aim to further exploit the power of transformers and employ them for the task of 3D point cloud generation. The key idea is to decompose point clouds of one category into semantically aligned sequences of shape compositions, via a learned canonical space. These shape compositions can then be quantized and used to learn a context-rich composition codebook for point cloud generation. Experimental results on point cloud reconstruction and unconditional generation show that our model performs favorably against state-of-the-art approaches. Furthermore, our model can be easily extended to multi-modal shape completion as an application for conditional shape generation.
翻訳日:2022-04-06 21:47:33 公開日:2022-04-05
# (参考訳) オフザシェルフ大言語モデルを用いたインテント分類のためのデータ拡張

Data Augmentation for Intent Classification with Off-the-shelf Large Language Models ( http://arxiv.org/abs/2204.01959v1 )

ライセンス: CC BY 4.0
Gaurav Sahu, Pau Rodriguez, Issam H. Laradji, Parmida Atighehchian, David Vazquez, Dzmitry Bahdanau(参考訳) データ拡張は、データ不足の問題を軽減するために広く使われている技術である。 本稿では, GPT-3 などの既成言語モデル (LM) を用いた意図分類のためのラベル付き学習データを生成する手法を提案する。 この方法の利点は、データ生成のためのタスク固有のlm-fine-tuningは不要である。そのため、ハイパーパラメータチューニングは不要であり、利用可能なトレーニングデータが極めて少ない場合でも適用できる。 提案手法を4つの多目的分類タスクにおいて数ショットで評価する。 GPT生成データにより、意図が互いに十分に異なる場合、意図分類器の性能が著しく向上することがわかった。 意味的に密接な意図を持つタスクでは、生成されたデータが役に立たないことが観察される。 我々の分析は、GPTが望まれるものではなく、密接に関連する意図に属する発話をしばしば生成するためである。 本稿では,プロンプトに基づくGPT分類器が生成したデータのフィルタリングに有効であることを示す。

Data augmentation is a widely employed technique to alleviate the problem of data scarcity. In this work, we propose a prompting-based approach to generate labelled training data for intent classification with off-the-shelf language models (LMs) such as GPT-3. An advantage of this method is that no task-specific LM-fine-tuning for data generation is required; hence the method requires no hyper-parameter tuning and is applicable even when the available training data is very scarce. We evaluate the proposed method in a few-shot setting on four diverse intent classification tasks. We find that GPT-generated data significantly boosts the performance of intent classifiers when intents in consideration are sufficiently distinct from each other. In tasks with semantically close intents, we observe that the generated data is less helpful. Our analysis shows that this is because GPT often generates utterances that belong to a closely-related intent instead of the desired one. We present preliminary evidence that a prompting-based GPT classifier could be helpful in filtering the generated data to enhance its quality.
翻訳日:2022-04-06 21:46:32 公開日:2022-04-05
# (参考訳) 制御可能なガーメント転送

Controllable Garment Transfer ( http://arxiv.org/abs/2204.01965v1 )

ライセンス: CC BY 4.0
Jooeun Son, Tomas Cabezon Pedroso, Carolene Siga, Jinsung Lee(参考訳) 画像に基づく衣服転送は、対象の人間の衣服を所望の衣服に置き換える。 この目的のために、生成モデルを用いて多くのアプローチが提案され、有望な結果を示している。 しかし、ほとんどのユーザーはオンザフライの衣服の修正機能をユーザーに提供できない。 我々は,スリーブ長,腰幅,衣服のテクスチャなどの衣服特性を制御するために,この「ガーメント調整」のカスタマイズ可能なオプションを,我々のモデルに追加することを目指している。

Image-based garment transfer replaces the garment on the target human with the desired garment; this enables users to virtually view themselves in the desired garment. To this end, many approaches have been proposed using the generative model and have shown promising results. However, most fail to provide the user with on the fly garment modification functionality. We aim to add this customizable option of "garment tweaking" to our model to control garment attributes, such as sleeve length, waist width, and garment texture.
翻訳日:2022-04-06 21:30:55 公開日:2022-04-05
# (参考訳) psdoodle:インタラクティブなスケッチによるアプリの画面検索

PSDoodle: Searching for App Screens via Interactive Sketching ( http://arxiv.org/abs/2204.01968v1 )

ライセンス: CC BY 4.0
Soumik Mohian, Christoph Csallner(参考訳) キーワードベースのモバイル画面検索は、画面コンテンツを考慮せず、あらゆるレベルのユーザーにとって普遍的なツールとして機能しない。 ビジュアル検索(画像やスケッチなど)は構造化され、容易に適用できる。 現在のビジュアル検索のアプローチは、完全な画面で数えられるので、遅くて面倒だ。 PSDoodleはディープニューラルネットワークを用いて、デジタル描画インタフェース上で部分画面要素の描画を瞬時に認識し、結果をリアルタイムで表示する。 PSDoodleは、部分的なスケッチと、インタラクティブな反復的な方法で画面の検索を利用する最初のツールである。 PSDoodleは、異なる描画スタイルをサポートし、ユーザのスケッチクエリに関連する検索結果を取得する。 短いビデオデモは、https://youtu.be/3cvlhfm5py4で公開されている。

Keyword-based mobile screen search does not account for screen content and fails to operate as a universal tool for all levels of users. Visual searching (e.g., image, sketch) is structured and easy to adopt. Current visual search approaches count on a complete screen and are therefore slow and tedious. PSDoodle employs a deep neural network to recognize partial screen element drawings instantly on a digital drawing interface and shows results in real-time. PSDoodle is the first tool that utilizes partial sketches and searches for screens in an interactive iterative way. PSDoodle supports different drawing styles and retrieves search results that are relevant to the user's sketch query. A short video demonstration is available online at: https://youtu.be/3cVLHFm5pY4
翻訳日:2022-04-06 21:21:30 公開日:2022-04-05
# (参考訳) gail-pt: 生成的敵意学習を用いた汎用的インテリジェント侵入テストフレームワーク

GAIL-PT: A Generic Intelligent Penetration Testing Framework with Generative Adversarial Imitation Learning ( http://arxiv.org/abs/2204.01975v1 )

ライセンス: CC BY 4.0
Jinyin Chen, Shulong Hu, Haibin Zheng, Changyou Xing, Guomin Zhang(参考訳) 侵入テスト(pt)は、ハッカーの攻撃を、いくつかの分野に適用する価値のある情報としてシミュレートすることで、効率的なネットワークテストと脆弱性マイニングツールである。 手動PTと比較すると、作業コストの削減と労働コストの削減により、インテリジェントPTが主流となっている。 残念ながら、RLをベースとしたPTは、エージェントのアクション空間が通常高次元離散であるため、実際の利用シナリオでは依然として挑戦されている。 さらに、ほとんどのPTメソッドはセキュリティ専門家の判断に依存している。 この課題に初めて対処し、rlベースのptにおいてエージェントがより良い意思決定を行うための専門家知識を導入し、セキュリティ専門家と高次元の個別行動空間の関与による高い労働コストの問題を解決するために、gail-ptと呼ばれるジェネリックインテリジェント侵入テストフレームワークを提案する。 具体的には、まず、事前学習されたRL/DRLモデルが浸透試験を成功させた場合に、状態-動作ペアを手動で収集し、専門家の知識ベースを構築する。 第2に、異なるRL/DRLモデルによってオンラインに生成されたエキスパート知識と状態-アクションペアをGAILの識別器に入力し、トレーニングを行う。 最後に, 判別器の出力報酬を適用し, エージェントがptの性能を改善するために, 高い浸透率で行動を行うように誘導する。 実対象ホストおよびシミュレーションネットワークシナリオを用いた広範な実験により,gail-ptは,ハニーポットネットワーク環境の有無にかかわらず,大規模仮想ネットワーク環境においても,実対象metasploitable2およびq-learningを活用し,deepexploitに対するsoma浸透性能を実現した。

Penetration testing (PT) is an efficient network testing and vulnerability mining tool by simulating a hacker's attack for valuable information applied in some areas. Compared with manual PT, intelligent PT has become a dominating mainstream due to less time-consuming and lower labor costs. Unfortunately, RL-based PT is still challenged in real exploitation scenarios because the agent's action space is usually high-dimensional discrete, thus leading to algorithm convergence difficulty. Besides, most PT methods still rely on the decisions of security experts. Addressing the challenges, for the first time, we introduce expert knowledge to guide the agent to make better decisions in RL-based PT and propose a Generative Adversarial Imitation Learning-based generic intelligent Penetration testing framework, denoted as GAIL-PT, to solve the problems of higher labor costs due to the involvement of security experts and high-dimensional discrete action space. Specifically, first, we manually collect the state-action pairs to construct an expert knowledge base when the pre-trained RL / DRL model executes successful penetration testings. Second, we input the expert knowledge and the state-action pairs generated online by the different RL / DRL models into the discriminator of GAIL for training. At last, we apply the output reward of the discriminator to guide the agent to perform the action with a higher penetration success rate to improve PT's performance. Extensive experiments conducted on the real target host and simulated network scenarios show that GAIL-PT achieves the SOTA penetration performance against DeepExploit in exploiting actual target Metasploitable2 and Q-learning in optimizing penetration path, not only in small-scale with or without honey-pot network environments but also in the large-scale virtual network environment.
翻訳日:2022-04-06 21:13:57 公開日:2022-04-05
# (参考訳) covmis-stanceデータセット:covid-19の誤った情報に対するtwitterのスタンス検出

The COVMis-Stance dataset: Stance Detection on Twitter for COVID-19 Misinformation ( http://arxiv.org/abs/2204.02000v1 )

ライセンス: CC BY 4.0
Yanfang Hou, Peter van der Putten, Suzan Verberne(参考訳) 新型コロナウイルス(COVID-19)のパンデミックの間、ソーシャルメディアでは大量の誤報が拡散している。 私たちはtwitterユーザーの新型コロナウイルス(covid-19)誤報に対するスタンスに興味があります。 しかし、パンデミックの比較的最近の性質から、私たちのタスクに適合するスタンス検出データセットはごくわずかです。 新型コロナウイルスの誤報に対する姿勢を示す2631のツイートからなる新しいスタンスデータセットを構築した。 ラベル付きデータに制限のあるコンテキストでは、MNLIデータセットと既存の2つのスタンス検出データセット(RumourEvalとCOVIDLies)を活用してモデルを微調整し、データセット上でのモデルパフォーマンスを評価する。 実験の結果,MNLIデータセットとアンダーサンプリングされたRumourEvalデータセットとCOVIDLiesデータセットの組み合わせを連続的に微調整すると,モデルが最高の性能を示すことがわかった。 私たちのコードとデータセットはhttps://github.com/yanfangh/covid-rumor-stanceで公開されている。

During the COVID-19 pandemic, large amounts of COVID-19 misinformation are spreading on social media. We are interested in the stance of Twitter users towards COVID-19 misinformation. However, due to the relative recent nature of the pandemic, only a few stance detection datasets fit our task. We have constructed a new stance dataset consisting of 2631 tweets annotated with the stance towards COVID-19 misinformation. In contexts with limited labeled data, we fine-tune our models by leveraging the MNLI dataset and two existing stance detection datasets (RumourEval and COVIDLies), and evaluate the model performance on our dataset. Our experimental results show that the model performs the best when fine-tuned sequentially on the MNLI dataset and the combination of the undersampled RumourEval and COVIDLies datasets. Our code and dataset are publicly available at https://github.com/yanfangh/covid-rumor-stance
翻訳日:2022-04-06 21:12:37 公開日:2022-04-05
# (参考訳) 不十分な証拠による事実確認

Fact Checking with Insufficient Evidence ( http://arxiv.org/abs/2204.02007v1 )

ライセンス: CC BY 4.0
Pepa Atanasova, Jakob Grue Simonsen, Christina Lioma, Isabelle Augenstein(参考訳) 事実チェック(FC)プロセスの自動化は、外部ソースから得られる情報に依存する。 本研究は,十分な証拠が得られない場合にのみ,検証精度の予測を行うことがFCモデルにとって重要であると仮定する。 この目的のために,我々は,新規タスクの導入と3つの貢献により,情報fcモデルが考慮すべき事項を初めて検討する。 まず, 課題の詳細な実験分析を, 構成および文レベルの証拠からの情報を削除するための新しい流布保存法を用いて実施する。 異なるトランスフォーマーアーキテクチャと3つのFCデータセットを持つ3つのトレーニングモデルに基づいて,残りの証拠をFCに十分とみなすモデルを同定する。 第2に,この省略された証拠がfcにとって重要であるかどうかを注釈官に問うことで,fcの新たな診断データセットである enoughfacts を省略した。 補足修飾子を省略した場合の欠落証拠の検出に最も成功したモデル(21%の精度)であるのに対し、省略された日付修飾子(63%の精度)は最も容易である。 最後に, 提案手法とトライトレーニングを組み合わせることで, 欠落した証拠の対比自己学習のための新しいデータ強化戦略を提案する。 これはEvidence Sufficiency Predictionのパフォーマンスを最大17.8F1スコアで改善し、FCのパフォーマンスを最大2.6F1スコアで改善する。

Automating the fact checking (FC) process relies on information obtained from external sources. In this work, we posit that it is crucial for FC models to make veracity predictions only when there is sufficient evidence and otherwise indicate when it is not enough. To this end, we are the first to study what information FC models consider sufficient by introducing a novel task and advancing it with three main contributions. First, we conduct an in-depth empirical analysis of the task with a new fluency-preserving method for omitting information from the evidence at the constituent and sentence level. We identify when models consider the remaining evidence (in)sufficient for FC, based on three trained models with different Transformer architectures and three FC datasets. Second, we ask annotators whether the omitted evidence was important for FC, resulting in a novel diagnostic dataset, SufficientFacts, for FC with omitted evidence. We find that models are least successful in detecting missing evidence when adverbial modifiers are omitted (21% accuracy), whereas it is easiest for omitted date modifiers (63% accuracy). Finally, we propose a novel data augmentation strategy for contrastive self-learning of missing evidence by employing the proposed omission method combined with tri-training. It improves performance for Evidence Sufficiency Prediction by up to 17.8 F1 score, which in turn improves FC performance by up to 2.6 F1 score.
翻訳日:2022-04-06 20:44:19 公開日:2022-04-05
# (参考訳) LatentGAN Autoencoder: 遠方分散学習

LatentGAN Autoencoder: Learning Disentangled Latent Distribution ( http://arxiv.org/abs/2204.02010v1 )

ライセンス: CC BY 4.0
Sanket Kalwar and Animikh Aich and Tanay Dixit(参考訳) オートエンコーダでは、エンコーダは一般的にデータセット上の潜時分布を近似し、デコーダはこの学習した潜時分布を用いてサンプルを生成する。 ランダムな潜在ベクトルを生成に使用すると、自明な出力につながるため、潜在ベクトルに対する制御はほとんどない。 本研究は、自動エンコーダの潜在分布を近似し、mnist、3d chair、celebaデータセットで有意義な結果を示すために、latentganジェネレータを用いて直接学習することでこの問題に対処しようとするものである。 これにより,MNISTの教師なし画像分類では2.38の誤差率が得られるが,InfoGANやAEに比べればよい。

In autoencoder, the encoder generally approximates the latent distribution over the dataset, and the decoder generates samples using this learned latent distribution. There is very little control over the latent vector as using the random latent vector for generation will lead to trivial outputs. This work tries to address this issue by using the LatentGAN generator to directly learn to approximate the latent distribution of the autoencoder and show meaningful results on MNIST, 3D Chair, and CelebA datasets, an additional information-theoretic constrain is used which successfully learns to control autoencoder latent distribution. With this, our model also achieves an error rate of 2.38 on MNIST unsupervised image classification, which is better as compared to InfoGAN and AAE.
翻訳日:2022-04-06 20:20:54 公開日:2022-04-05
# (参考訳) 航空機画像における物体検出のための情報量削減学習

Learning to Reduce Information Bottleneck for Object Detection in Aerial Images ( http://arxiv.org/abs/2204.02033v1 )

ライセンス: CC BY 4.0
Yuchen Shen and Zhihao Song and Liyong Fu and Xuesong Jiang and Qiaolin Ye(参考訳) 空中画像における物体検出は、地球科学とリモートセンシングの分野における基本的な研究テーマである。 しかしながら、このトピックの進歩は主にバックボーンネットワークやヘッダネットワークの設計に焦点を当てているが、驚くほどネックネットワークを無視している。 本稿では,まず,情報ボトルネックの理論から物体検出フレームワークにおけるネックネットワークの重要性を分析する。 次に,現在のネックネットワークにおける情報損失問題を軽減するため,双方向のグローバル畳み込み方式で,バックボーンからヘッドネットワークへのブリッジとして機能するグローバルセマンティックネットワークを提案する。 既存のネックネットワークと比較して,より詳細な情報と計算コストの低減という利点がある。 さらに,異なるスケールからの豊富な詳細を持つ機能融合に使用されるフュージョンリファインメントモジュールを提案する。 本手法の有効性と有効性を示すため,2つの挑戦的データセット(DOTAとHRSC2016)を用いて実験を行った。 精度と計算複雑性の両面から,本手法の優位性を検証できる。

Object detection in aerial images is a fundamental research topic in the domain of geoscience and remote sensing. However, advanced progresses on this topic are mainly focused on the designment of backbone networks or header networks, but surprisingly ignored the neck ones. In this letter, we first analyse the importance of the neck network in object detection frameworks from the theory of information bottleneck. Then, to alleviate the information loss problem in the current neck network, we propose a global semantic network, which acts as a bridge from the backbone to the head network in a bidirectional global convolution manner. Compared to the existing neck networks, our method has advantages of capturing rich detailed information and less computational costs. Moreover, we further propose a fusion refinement module, which is used for feature fusion with rich details from different scales. To demonstrate the effectiveness and efficiency of our method, experiments are carried out on two challenging datasets (i.e., DOTA and HRSC2016). Results in terms of accuracy and computational complexity both can verify the superiority of our method.
翻訳日:2022-04-06 20:14:24 公開日:2022-04-05
# (参考訳) DT2I:地域記述からのテキスト・画像の高密度生成

DT2I: Dense Text-to-Image Generation from Region Descriptions ( http://arxiv.org/abs/2204.02035v1 )

ライセンス: CC BY 4.0
Stanislav Frolov, Prateek Bansal, J\"orn Hees, Andreas Dengel(参考訳) 驚くべき進歩にもかかわらず、複雑なシーンの現実的なイメージを生成することは難しい問題である。 近年,境界ボックスと対応するクラスラベルのリストにジェネレータを条件付けることで,レイアウト・ツー・イメージ合成手法が注目されている。 しかし、ラベルの集合が事前に固定されているため、以前のアプローチは非常に制限的である。 一方,テキスト対画像合成法は大幅に改善され,条件付き画像生成のフレキシブルな方法を提供している。 本稿では,より直感的な画像生成への道を開くための新しいタスクとして,高密度テキストから画像への合成(dt2i)を導入する。 さらに,semanticly rich region descriptionsから画像を生成する新しい手法であるdtc-ganと,semantic image-text matchingを促進するマルチモーダル領域特徴マッチング損失を提案する。 本研究は,地域キャプションを用いて複雑なシーンの可視画像を生成する手法の有効性を示すものである。

Despite astonishing progress, generating realistic images of complex scenes remains a challenging problem. Recently, layout-to-image synthesis approaches have attracted much interest by conditioning the generator on a list of bounding boxes and corresponding class labels. However, previous approaches are very restrictive because the set of labels is fixed a priori. Meanwhile, text-to-image synthesis methods have substantially improved and provide a flexible way for conditional image generation. In this work, we introduce dense text-to-image (DT2I) synthesis as a new task to pave the way toward more intuitive image generation. Furthermore, we propose DTC-GAN, a novel method to generate images from semantically rich region descriptions, and a multi-modal region feature matching loss to encourage semantic image-text matching. Our results demonstrate the capability of our approach to generate plausible images of complex scenes using region captions.
翻訳日:2022-04-06 20:01:14 公開日:2022-04-05
# (参考訳) スプリット階層型変分圧縮

Split Hierarchical Variational Compression ( http://arxiv.org/abs/2204.02071v1 )

ライセンス: CC BY 4.0
Tom Ryder, Chen Zhang, Ning Kang, Shifeng Zhang(参考訳) 可変オートエンコーダ(VAE)は、画像データセットの圧縮を行う上で大きな成功を収めている。 この成功はビットバックコーディングフレームワークによって実現され、多くのベンチマークで競合する圧縮性能を生み出している。 しかしながら、VAEアーキテクチャは現在、コーディングの実用性と圧縮率の組み合わせによって制限されている。 つまり、フローの正規化のような最先端の手法を行うだけでなく、符号化に必要とされる初期ビットは、単一および並列画像圧縮を困難にしている。 そこで本研究では分割階層型変分圧縮(shvc)を提案する。 SHVCは2つのノベルティを紹介する。 まず,画素単位の自己回帰と完全分解確率モデルの一般化を可能にする,効率的な自己回帰型サブピクセル畳み込みを提案する。 次に、私たちはコーディングフレームワークである自己回帰初期ビットを定義します。これは、柔軟に並列コーディングをサポートし、初めて -- ビットバックコーディングに共通する多くの実用性を回避します。 我々の実験では、SHVCは、全解像度ロスレス画像圧縮タスクにまたがって最先端の圧縮性能を達成でき、競合するVAEのアプローチよりも100倍少ないモデルパラメータを持つことを示した。

Variational autoencoders (VAEs) have witnessed great success in performing the compression of image datasets. This success, made possible by the bits-back coding framework, has produced competitive compression performance across many benchmarks. However, despite this, VAE architectures are currently limited by a combination of coding practicalities and compression ratios. That is, not only do state-of-the-art methods, such as normalizing flows, often demonstrate out-performance, but the initial bits required in coding makes single and parallel image compression challenging. To remedy this, we introduce Split Hierarchical Variational Compression (SHVC). SHVC introduces two novelties. Firstly, we propose an efficient autoregressive prior, the autoregressive sub-pixel convolution, that allows a generalisation between per-pixel autoregressions and fully factorised probability models. Secondly, we define our coding framework, the autoregressive initial bits, that flexibly supports parallel coding and avoids -- for the first time -- many of the practicalities commonly associated with bits-back coding. In our experiments, we demonstrate SHVC is able to achieve state-of-the-art compression performance across full-resolution lossless image compression tasks, with up to 100x fewer model parameters than competing VAE approaches.
翻訳日:2022-04-06 19:49:08 公開日:2022-04-05
# (参考訳) トレーニングされたメタサーフェスエンコーダによるハードウェアのリアルタイムハイパースペクトルイメージング

Real-time Hyperspectral Imaging in Hardware via Trained Metasurface Encoders ( http://arxiv.org/abs/2204.02084v1 )

ライセンス: CC BY 4.0
Maksim Makarenko, Arturo Burguete-Lopez, Qizhou Wang, Fedor Getman, Silvio Giancola, Bernard Ghanem and Andrea Fratalocchi(参考訳) ハイパースペクトラルイメージングは、コンピュータビジョンにおける画像分類と自動パターン認識のためのスペクトルシグネチャを特定することに大きな注目を集めている。 スナップショットハイパースペクトルイメージングの現在の実装は、レンズ、分光計、フィルターを含む、かさばる、非統合的で高価な光学素子に依存している。 これらのマクロコンポーネントは、リアルタイムおよび高解像度ビデオなどの高速データ処理を許可しない。 上述した制限に対処する新しい統合アーキテクチャであるHyplexを紹介する。 HyplexはCMOS互換の高速ハイパースペクトルカメラで、バルク光学をナノスケールのメタ曲面に置き換える。 ハイプレックスは分光計を必要とせず、従来のモノクロカメラを使用し、安価でリアルタイムかつ高解像度のハイパースペクトルイメージングの可能性を開く。 Hyplexはモデル駆動最適化を利用して、物理的なメタ曲面層と、エンドツーエンドのトレーニングに基づく現代的なビジュアルコンピューティングアプローチを接続する。 我々はHyplexのプロトタイプを設計、実装し、スペクトル再構成やセマンティックセグメンテーションといった典型的な画像処理の最先端技術と比較する。 すべてのベンチマークにおいて、Hyplexは最小の再構成エラーを報告している。 さらに、私たちの知る限り、セマンティックセグメンテーションのための最大の公開ラベル付きハイパースペクトルデータセットを提示します。

Hyperspectral imaging has attracted significant attention to identify spectral signatures for image classification and automated pattern recognition in computer vision. State-of-the-art implementations of snapshot hyperspectral imaging rely on bulky, non-integrated, and expensive optical elements, including lenses, spectrometers, and filters. These macroscopic components do not allow fast data processing for, e.g real-time and high-resolution videos. This work introduces Hyplex, a new integrated architecture addressing the limitations discussed above. Hyplex is a CMOS-compatible, fast hyperspectral camera that replaces bulk optics with nanoscale metasurfaces inversely designed through artificial intelligence. Hyplex does not require spectrometers but makes use of conventional monochrome cameras, opening up the possibility for real-time and high-resolution hyperspectral imaging at inexpensive costs. Hyplex exploits a model-driven optimization, which connects the physical metasurfaces layer with modern visual computing approaches based on end-to-end training. We design and implement a prototype version of Hyplex and compare its performance against the state-of-the-art for typical imaging tasks such as spectral reconstruction and semantic segmentation. In all benchmarks, Hyplex reports the smallest reconstruction error. We additionally present what is, to the best of our knowledge, the largest publicly available labeled hyperspectral dataset for semantic segmentation.
翻訳日:2022-04-06 19:48:09 公開日:2022-04-05
# (参考訳) 自己指導型学習 -- 精密農業の時間と労力を最小限にする方法?

Self-supervised learning -- A way to minimize time and effort for precision agriculture? ( http://arxiv.org/abs/2204.02100v1 )

ライセンス: CC BY 4.0
Michael L. Marszalek, Bertrand Le Saux, Pierre-Philippe Mathieu, Artur Nowakowski, Daniel Springer(参考訳) 機械学習、衛星、またはローカルセンサーは農業の持続的かつ資源節約のための重要な要素であり、農地の管理にその価値を証明した。 これまでの主な焦点は、教師付き学習手法によって評価されたデータの拡大であった。 それにもかかわらず、ラベルの必要性は制限的かつ時間を要する要素であり、対照的に、進行中の技術開発は、既にラベルなしデータの量が増え続けている。 自己教師付き学習(SSL)は、この制限を克服し、既存のラベルなしデータを組み込むことができる。 そのため、作物型データセットを用いてSSLの実験を行い、教師付き手法と比較した。 2016年から2018年までのデータセットのユニークな特徴は、収量を減らすことと、植物のスペクトル指紋に影響を及ぼす、異なる気候条件であった。 実験では,新しいラベルが未知の年で収集されるべきかどうかを明らかにするために,SLLを使用した2018年の予測に焦点を当てた。 これらの困難な状況にもかかわらず、結果はSSLがより高い精度に寄与したことを示している。 この結果が、sslフレームワークとデータが公開される理由である精密農業の分野におけるさらなる改善を促すと信じている(marszalek, 2021)。

Machine learning, satellites or local sensors are key factors for a sustainable and resource-saving optimisation of agriculture and proved its values for the management of agricultural land. Up to now, the main focus was on the enlargement of data which were evaluated by means of supervised learning methods. Nevertheless, the need for labels is also a limiting and time-consuming factor, while in contrast, ongoing technological development is already providing an ever-increasing amount of unlabeled data. Self-supervised learning (SSL) could overcome this limitation and incorporate existing unlabeled data. Therefore, a crop type data set was utilized to conduct experiments with SSL and compare it to supervised methods. A unique feature of our data set from 2016 to 2018 was a divergent climatological condition in 2018 that reduced yields and affected the spectral fingerprint of the plants. Our experiments focused on predicting 2018 using SLL without or a few labels to clarify whether new labels should be collected for an unknown year. Despite these challenging conditions, the results showed that SSL contributed to higher accuracies. We believe that the results will encourage further improvements in the field of precision farming, why the SSL framework and data will be published (Marszalek, 2021).
翻訳日:2022-04-06 19:37:13 公開日:2022-04-05
# (参考訳) gp-bart:ガウス過程を用いた新しいベイズ加法回帰木アプローチ

GP-BART: a novel Bayesian additive regression trees approach using Gaussian processes ( http://arxiv.org/abs/2204.02112v1 )

ライセンス: CC BY 4.0
Mateus Maia, Keefe Murphy, Andrew C. Parnell(参考訳) ベイズ加法的回帰木(Bayesian additive Regressive Tree, BART)モデルは、連続的に強い予測性能と不確かさを定量化する能力により、回帰タスクにおいて広範囲にかつうまく使用されるアンサンブル法である。 BARTは「弱」ツリーモデルと一連の縮小前のモデルを組み合わせることで、各ツリーはデータの変動性のごく一部を説明する。 しかし、平滑さの欠如と標準バートでの観測よりも共分散構造がないことは、そのような仮定が必要となる場合、性能が低下する可能性がある。 ガウス過程 (gaussian process) は, ガウス過程 (gaussian process, gp) を前提とするbartの拡張として, ベイズ加法回帰木 (gp-bart) を提案する。 シミュレーションおよび実データに基づくモデルを説明し,その性能を従来のモデリング手法と比較し,多くのシナリオでそれを上回っている。 我々のメソッドの実装は、 https://github.com/MateusMaiaDS/gpbart.com/gpbartで利用可能である。

The Bayesian additive regression trees (BART) model is an ensemble method extensively and successfully used in regression tasks due to its consistently strong predictive performance and its ability to quantify uncertainty. BART combines "weak" tree models through a set of shrinkage priors, whereby each tree explains a small portion of the variability in the data. However, the lack of smoothness and the absence of a covariance structure over the observations in standard BART can yield poor performance in cases where such assumptions would be necessary. We propose Gaussian processes Bayesian additive regression trees (GP-BART) as an extension of BART which assumes Gaussian process (GP) priors for the predictions of each terminal node among all trees. We illustrate our model on simulated and real data and compare its performance to traditional modelling approaches, outperforming them in many scenarios. An implementation of our method is available in the \textsf{R} package \texttt{rGPBART} available at: https://github.com/MateusMaiaDS/gpbart
翻訳日:2022-04-06 19:26:45 公開日:2022-04-05
# (参考訳) 質問応答による会話スロットラベリングの改善と効率化

Improved and Efficient Conversational Slot Labeling through Question Answering ( http://arxiv.org/abs/2204.02123v1 )

ライセンス: CC BY 4.0
Gabor Fuisz, Ivan Vuli\'c, Samuel Gibbons, Inigo Casanueva, Pawe{\l} Budzianowski(参考訳) トランスフォーマティブベースの事前学習言語モデル(plms)は、自然言語理解(nlu)タスクの大部分にわたって、一連の質問応答(qa)タスクを含む、一致しないパフォーマンスを提供する。 ダイアログNLUでは,QA手法の改良も直接活用できるという仮説を立てるが,ダイアログタスクは「textit{reformatted>」をQAタスクに含めなければならない。 特に,対話用NLUの重要なコンポーネントである‘textit{slot labeling} (SL) のモデリングと研究に焦点をあて,その性能と効率性の向上をめざして,限られたタスクデータを扱う上でより効果的かつレジリエントにすることを目的とする。 この目的のために 一連の貢献をします 1)QA調整されたPLMがSLタスクにどのように適用され,新たな最先端性能を実現できるかを実証する。 2)自然言語を用いて,曖昧な値に取り組むために必要な文脈情報を活用することを提案する。 3)QA指向ファインチューニングの効率性とコンパクト性は,軽量で効果的なアダプタモジュールを用いることで向上する。 4)QAデータセットのサイズに関する品質のいくつかをトレードオフして,QAチューニングのためのより大規模な自動生成されたQAデータセットを実験する。 最後に,我々は,plm がサポートする新しい qa ベースのスロットラベリングモデルが,高データ環境におけるパフォーマンス天井に達し,今後の作業においてより困難でニュアンス的なベンチマークを求めることを示唆する。

Transformer-based pretrained language models (PLMs) offer unmatched performance across the majority of natural language understanding (NLU) tasks, including a body of question answering (QA) tasks. We hypothesize that improvements in QA methodology can also be directly exploited in dialog NLU; however, dialog tasks must be \textit{reformatted} into QA tasks. In particular, we focus on modeling and studying \textit{slot labeling} (SL), a crucial component of NLU for dialog, through the QA optics, aiming to improve both its performance and efficiency, and make it more effective and resilient to working with limited task data. To this end, we make a series of contributions: 1) We demonstrate how QA-tuned PLMs can be applied to the SL task, reaching new state-of-the-art performance, with large gains especially pronounced in such low-data regimes. 2) We propose to leverage contextual information, required to tackle ambiguous values, simply through natural language. 3) Efficiency and compactness of QA-oriented fine-tuning are boosted through the use of lightweight yet effective adapter modules. 4) Trading-off some of the quality of QA datasets for their size, we experiment with larger automatically generated QA datasets for QA-tuning, arriving at even higher performance. Finally, our analysis suggests that our novel QA-based slot labeling models, supported by the PLMs, reach a performance ceiling in high-data regimes, calling for more challenging and more nuanced benchmarks in future work.
翻訳日:2022-04-06 19:05:52 公開日:2022-04-05
# (参考訳) 弾性応答蒸留によるインクリメンタル物体検出における破滅的予測の克服

Overcoming Catastrophic Forgetting in Incremental Object Detection via Elastic Response Distillation ( http://arxiv.org/abs/2204.02136v1 )

ライセンス: CC BY 4.0
Tao Feng, Mang Wang, Hangjie Yuan(参考訳) 従来のオブジェクト検出器はインクリメンタル学習に不備がある。 しかし、新しいデータのみを訓練された検出モデルで直接微調整すると、破滅的な忘れることになる。 知識蒸留は壊滅的な忘れを和らげる柔軟な方法である。 インクリメンタルオブジェクト検出(iod)において、以前の研究は主に機能と応答の組み合わせの蒸留に焦点を当てている。 しかし、応答に含まれる情報を過小評価している。 本稿では,erd(elastic response distillation)と呼ばれる,分類ヘッドと回帰ヘッドからの弾性学習応答に着目した,応答ベースの漸進蒸留法を提案する。 まず,インクリメンタル学習中に,学生検出器に位置情報を保持する能力を持たせながら,カテゴリー知識を伝達する。 さらに,すべての場所の質を評価し,ERS(Elastic Response Selection)戦略による貴重な応答を提供する。 最後に,増分蒸留中に異なる応答からの知識を異なる重要性で割り当てるべきであることを解明した。 MS COCOを用いた大規模な実験により,本手法は最先端の成果を達成し,フルトレーニングに向けた性能ギャップを大幅に狭めることができた。

Traditional object detectors are ill-equipped for incremental learning. However, fine-tuning directly on a well-trained detection model with only new data will lead to catastrophic forgetting. Knowledge distillation is a flexible way to mitigate catastrophic forgetting. In Incremental Object Detection (IOD), previous work mainly focuses on distilling for the combination of features and responses. However, they under-explore the information that contains in responses. In this paper, we propose a response-based incremental distillation method, dubbed Elastic Response Distillation (ERD), which focuses on elastically learning responses from the classification head and the regression head. Firstly, our method transfers category knowledge while equipping student detector with the ability to retain localization information during incremental learning. In addition, we further evaluate the quality of all locations and provide valuable responses by the Elastic Response Selection (ERS) strategy. Finally, we elucidate that the knowledge from different responses should be assigned with different importance during incremental distillation. Extensive experiments conducted on MS COCO demonstrate our method achieves state-of-the-art result, which substantially narrows the performance gap towards full training.
翻訳日:2022-04-06 18:49:19 公開日:2022-04-05
# (参考訳) 自動画像コンテンツ抽出:大規模視覚アーカイブのヒューマニズム写真研究における機械学習の運用

Automatic Image Content Extraction: Operationalizing Machine Learning in Humanistic Photographic Studies of Large Visual Archives ( http://arxiv.org/abs/2204.02149v1 )

ライセンス: CC BY 4.0
Anssi M\"annist\"o, Mert Seker, Alexandros Iosifidis, Jenni Raitoharju(参考訳) デジタル化された画像アーカイブに機械学習ツールを適用することは、人文科学や社会科学における視覚研究の定量的研究に革命をもたらす可能性がある。 これまで可能だった100倍の写真を処理し、それらを広範囲の変数で分析する能力は、この素材の深い洞察に寄与する。 全体として、これらの変更はワークフローを単純な手動タスクからより要求の厳しいステージにシフトするのに役立ちます。 本稿では,機械学習による大規模画像アーカイブの検索と解析のための自動画像コンテンツ抽出(AICE)フレームワークを提案する。 従来の視覚コンテンツ分析手法を、現在および最先端の機械学習ツールと互換性のあるものに修正・拡張し、自動コンテンツ解析のための新しい機械学習機会をカバーし、将来の写真研究のためのフレームワークとして多分野研究プロジェクトにおいてこのフレームワークを開発した。 提案された枠組みは人文科学や社会科学のいくつかの分野に適用でき、様々な研究領域に調整・スケールすることができる。 また、さまざまな機械学習技術の現状に関する情報も提供し、より大規模な視覚コンテンツ分析タスクに適した様々な公開手法がすでに存在することを示す。

Applying machine learning tools to digitized image archives has a potential to revolutionize quantitative research of visual studies in humanities and social sciences. The ability to process a hundredfold greater number of photos than has been traditionally possible and to analyze them with an extensive set of variables will contribute to deeper insight into the material. Overall, these changes will help to shift the workflow from simple manual tasks to more demanding stages. In this paper, we introduce Automatic Image Content Extraction (AICE) framework for machine learning-based search and analysis of large image archives. We developed the framework in a multidisciplinary research project as framework for future photographic studies by reformulating and expanding the traditional visual content analysis methodologies to be compatible with the current and emerging state-of-the-art machine learning tools and to cover the novel machine learning opportunities for automatic content analysis. The proposed framework can be applied in several domains in humanities and social sciences, and it can be adjusted and scaled into various research settings. We also provide information on the current state of different machine learning techniques and show that there are already various publicly available methods that are suitable to a wide-scale of visual content analysis tasks.
翻訳日:2022-04-06 18:48:21 公開日:2022-04-05
# (参考訳) 意味対応のための特徴抽出とコスト集約の合同学習

Joint Learning of Feature Extraction and Cost Aggregation for Semantic Correspondence ( http://arxiv.org/abs/2204.02164v1 )

ライセンス: CC BY 4.0
Jiwon Kim, Youngjo Min, Mira Kim, and Seungryong Kim(参考訳) 意味的に類似した画像間の密接な対応を確立することは、クラス内の重要なバリエーションと背景のごちゃごちゃのために難しい課題の1つです。 これらの問題を解決するために,機能抽出あるいはコストアグリゲーションの学習に着目した手法が多数提案されている。 本稿では,意味対応のための特徴抽出とコスト集約を共同で学習する新しいフレームワークを提案する。 各モジュールから擬似ラベルを利用することで、特徴抽出とコスト集約モジュールからなるネットワークを同時に促進的に学習する。 さらに,信頼できない疑似ラベルを無視するために,ネットワークを弱教師付きで学習するための信頼度を考慮したコントラスト損失関数を提案する。 セマンティック対応のための標準ベンチマークの競争結果を示す。

Establishing dense correspondences across semantically similar images is one of the challenging tasks due to the significant intra-class variations and background clutters. To solve these problems, numerous methods have been proposed, focused on learning feature extractor or cost aggregation independently, which yields sub-optimal performance. In this paper, we propose a novel framework for jointly learning feature extraction and cost aggregation for semantic correspondence. By exploiting the pseudo labels from each module, the networks consisting of feature extraction and cost aggregation modules are simultaneously learned in a boosting fashion. Moreover, to ignore unreliable pseudo labels, we present a confidence-aware contrastive loss function for learning the networks in a weakly-supervised manner. We demonstrate our competitive results on standard benchmarks for semantic correspondence.
翻訳日:2022-04-06 18:20:09 公開日:2022-04-05
# (参考訳) semeval-2022 タスク11: 複雑なnerのためのトランスフォーマーベースのアーキテクチャ

Multilinguals at SemEval-2022 Task 11: Transformer Based Architecture for Complex NER ( http://arxiv.org/abs/2204.02173v1 )

ライセンス: CC BY-SA 4.0
Amit Pandey, Swayatta Daw and Vikram Pudi(参考訳) 英語における複雑なNERの課題について検討する。 この課題は、テキスト構造の意味的曖昧さと、一般的な文献におけるそのような実体の発生の希少さのため、非自明である。 BERTのような事前学習言語モデルを用いて,本課題における競合性能を得る。 このタスクのために複数のアーキテクチャのパフォーマンスを質的に分析する。 当社のモデルはすべて,ベースラインをかなりのマージンで上回ることができるのです。 私たちの最高のパフォーマンスモデルは、ベースラインのF1スコアを9%以上上回ります。

We investigate the task of complex NER for the English language. The task is non-trivial due to the semantic ambiguity of the textual structure and the rarity of occurrence of such entities in the prevalent literature. Using pre-trained language models such as BERT, we obtain a competitive performance on this task. We qualitatively analyze the performance of multiple architectures for this task. All our models are able to outperform the baseline by a significant margin. Our best performing model beats the baseline F1-score by over 9%.
翻訳日:2022-04-06 18:11:16 公開日:2022-04-05
# (参考訳) 3次元視覚接地用マルチビュートランス

Multi-View Transformer for 3D Visual Grounding ( http://arxiv.org/abs/2204.02174v1 )

ライセンス: CC BY 4.0
Shijia Huang, Yilun Chen, Jiaya Jia, Liwei Wang(参考訳) 3dビジュアルグラウンドタスクは、通常3dポイントクラウドで表現される3dシーン内の対象オブジェクトに自然言語記述をグラウンドすることを目的としている。 以前は、特定の視点で視覚的な接地を研究していた。 この方法で学習した視覚言語対応は、ビューが変わったら容易に失敗する。 本稿では,3次元視覚接地のためのマルチビュートランス (MVT) を提案する。 我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。 マルチビュー空間により、ネットワークはより堅牢な3次元ビジュアルグラウンドのマルチモーダル表現を学習でき、特定のビューへの依存を排除できる。 大規模な実験により,本手法はすべての最先端手法を著しく上回ることがわかった。 特に、nr3dとsr3dデータセットでは、最も優れた競合相手を11.2%と7.1%上回っており、最近の2dアシストを5.9%と6.6%上回っている。 私たちのコードはhttps://github.com/sega-hsj/MVT-3DVGで利用可能です。

The 3D visual grounding task aims to ground a natural language description to the targeted object in a 3D scene, which is usually represented in 3D point clouds. Previous works studied visual grounding under specific views. The vision-language correspondence learned by this way can easily fail once the view changes. In this paper, we propose a Multi-View Transformer (MVT) for 3D visual grounding. We project the 3D scene to a multi-view space, in which the position information of the 3D scene under different views are modeled simultaneously and aggregated together. The multi-view space enables the network to learn a more robust multi-modal representation for 3D visual grounding and eliminates the dependence on specific views. Extensive experiments show that our approach significantly outperforms all state-of-the-art methods. Specifically, on Nr3D and Sr3D datasets, our method outperforms the best competitor by 11.2% and 7.1% and even surpasses recent work with extra 2D assistance by 5.9% and 6.6%. Our code is available at https://github.com/sega-hsj/MVT-3DVG.
翻訳日:2022-04-06 18:03:37 公開日:2022-04-05
# (参考訳) 表情認識タスクにおけるニューラルリシライザを備えた視覚トランスフォーマ

Vision Transformer Equipped with Neural Resizer on Facial Expression Recognition Task ( http://arxiv.org/abs/2204.02181v1 )

ライセンス: CC BY 4.0
Hyeonbin Hwang, Soyeon Kim, Wei-Jin Park, Jiho Seo, Kyungtae Ko, Hyeon Yeo(参考訳) 野生の状況では、表情認識は低品質のデータと不均衡で曖昧なラベルでしばしば挑戦される。 この分野は、CNNベースのアプローチの恩恵を受けているが、CNNモデルは、遠方の顔領域を見るための構造的制限がある。 治療として、グローバル受容野を持つ視覚野にトランスフォーマーが導入されているが、強い誘導バイアスを味わうために、事前訓練されたモデルに入力空間サイズを調整する必要がある。 本稿では,決定論的補間法を用いることで,トランスフォーマーに低解像度データを供給できるかどうかを疑問視する。 本研究では,ノイズと不均衡のバランスをとる損失関数を訓練したデータ駆動方式で情報とダウンスケーリングを補償し,トランスフォーマティブをサポートするための新しいトレーニングフレームワークであるneural resizerを提案する。 実験の結果,F-PDLS損失関数を用いたニューラルリサイザはトランスフォーマーの変種での性能を向上し,最先端の性能をほぼ達成できることがわかった。

When it comes to wild conditions, Facial Expression Recognition is often challenged with low-quality data and imbalanced, ambiguous labels. This field has much benefited from CNN based approaches; however, CNN models have structural limitation to see the facial regions in distant. As a remedy, Transformer has been introduced to vision fields with global receptive field, but requires adjusting input spatial size to the pretrained models to enjoy their strong inductive bias at hands. We herein raise a question whether using the deterministic interpolation method is enough to feed low-resolution data to Transformer. In this work, we propose a novel training framework, Neural Resizer, to support Transformer by compensating information and downscaling in a data-driven manner trained with loss function balancing the noisiness and imbalance. Experiments show our Neural Resizer with F-PDLS loss function improves the performance with Transformer variants in general and nearly achieves the state-of-the-art performance.
翻訳日:2022-04-06 18:02:38 公開日:2022-04-05
# (参考訳) 時間変化制約によるFTRLの罰則

Penalised FTRL With Time-Varying Constraints ( http://arxiv.org/abs/2204.02197v1 )

ライセンス: CC BY 4.0
Douglas J. Leith, George Iosifidis(参考訳) 本稿では,古典的なFTRLアルゴリズムを拡張し,適応的なペナライゼーションによって時間的制約を包含する。 我々は,提案したPentalized FTRLアルゴリズムに対して,強いベンチマークである$\hat{X}^{max}_t$に対して,$O(\sqrt{t})$後悔と違反を達成するための十分な条件を確立する。 制約に関する事前の知識が欠如しているため、これはおそらく私たちが期待できる最大のベンチマークセットです。 我々の十分な条件は、それらが違反した場合、$O(\sqrt{t})$ regret and violationが達成されないような例が存在するという意味で必要である。 最上級の原始双対アルゴリズムと比較すると、Penalized FTRLは、$O(\sqrt{t})$ regret and violation performance が達成可能な問題のクラスを大幅に拡張する。

In this paper we extend the classical Follow-The-Regularized-Leader (FTRL) algorithm to encompass time-varying constraints, through adaptive penalization. We establish sufficient conditions for the proposed Penalized FTRL algorithm to achieve $O(\sqrt{t})$ regret and violation with respect to strong benchmark $\hat{X}^{max}_t$. Lacking prior knowledge of the constraints, this is probably the largest benchmark set that we can reasonably hope for. Our sufficient conditions are necessary in the sense that when they are violated there exist examples where $O(\sqrt{t})$ regret and violation is not achieved. Compared to the best existing primal-dual algorithms, Penalized FTRL substantially extends the class of problems for which $O(\sqrt{t})$ regret and violation performance is achievable.
翻訳日:2022-04-06 17:51:32 公開日:2022-04-05
# (参考訳) コヒーレントレーザーネットワークを用いたニューラルコンピューティング

Neural Computing with Coherent Laser Networks ( http://arxiv.org/abs/2204.02224v1 )

ライセンス: CC BY 4.0
Mohammad-Ali Miri, and Vinod Menon(参考訳) レーザーのコヒーレントなネットワークは、創発的なニューラルコンピューティング能力を示す。 提案手法は,複数の位相パターンを安定な動的方程式の固定点として保存し,適切な励起条件でそれらのパターンを検索し,連想記憶特性を示すためのレーザネットワークの集合的挙動を利用する。 連想記憶機能は、古典的XYモデルをシミュレートするパッシブ散逸結合レーザーのネットワークの強いポンプ機構で最初に議論される。 ネットワークの容量が大きいにもかかわらず,固定点パターン間の重なりが大きいため,2つの画像のみのパターン検索が効果的に制限される。 次に,レーザ間の非相互結合を用いることで,この制限を引き上げることが可能であることを示す。 この研究は、新しいアナログプロセッサとしてコヒーレントレーザーネットワークを用いたニューラル計算の新しい可能性を開く。 さらに、ここで議論されている動的モデルは、本質的に二元系であるホップフィールドネットワークやボルツマンマシンとは対照的に、連続データを扱う新しいエネルギーベースのリカレントニューラルネットワークを提案する。

We show that a coherent network of lasers exhibits emergent neural computing capabilities. The proposed scheme is built on harnessing the collective behavior of laser networks for storing a number of phase patterns as stable fixed points of the governing dynamical equations and retrieving such patterns through proper excitation conditions, thus exhibiting an associative memory property. The associative memory functionality is first discussed in the strong pumping regime of a network of passive dissipatively coupled lasers which simulate the classical XY model. It is discussed that despite the large storage capacity of the network, the large overlap between fixed-point patterns effectively limits pattern retrieval to only two images. Next, we show that this restriction can be uplifted by using nonreciprocal coupling between lasers and this allows for utilizing a large storage capacity. This work opens new possibilities for neural computation with coherent laser networks as novel analog processors. In addition, the underlying dynamical model discussed here suggests a novel energy-based recurrent neural network that handles continuous data as opposed to Hopfield networks and Boltzmann machines which are intrinsically binary systems.
翻訳日:2022-04-06 17:29:50 公開日:2022-04-05
# (参考訳) Sparsityが動的畳み込みに出会ったとき

When Sparsity Meets Dynamic Convolution ( http://arxiv.org/abs/2204.02227v1 )

ライセンス: CC BY 4.0
Shwai He, Yuhang Li, Chenbo Jiang, Shi Gu(参考訳) 動的畳み込みは、畳み込み重みの増大による効率の良いCNNの性能向上を実現する。 対照的に、マスクベースの非構造化プルーニングは、性能低下のリスクがある重ネットワークの冗長性を除去して軽量ネットワークを得る。 本稿では,これら2つの経路をコヒーレントに統合し,互いに不利益を補い合うための新しい枠組みを提案する。 まず、学習可能なしきい値から派生したバイナリマスクを設計し、パラメータと計算コストを大幅に削減するが、Imagenet-1K(0.6\%)では0.67GのFLOPでトップ1の精度が向上する。 この学習可能なマスクをベースラインよりもはるかに高い精度(2.63 %$)でMobileNetV1が90 %$間隔でトップ1の精度を向上する動的ルーチン機構を取り入れた新しい動的スパースネットワークを提案する。 その結果,提案手法はより効率のよい動的畳み込み効果を示す。

Dynamic convolution achieves a substantial performance boost for efficient CNNs at a cost of increased convolutional weights. Contrastively, mask-based unstructured pruning obtains a lightweight network by removing redundancy in the heavy network at risk of performance drop. In this paper, we propose a new framework to coherently integrate these two paths so that they can complement each other compensate for the disadvantages. We first design a binary mask derived from a learnable threshold to prune static kernels, significantly reducing the parameters and computational cost but achieving higher performance in Imagenet-1K(0.6\% increase in top-1 accuracy with 0.67G fewer FLOPs). Based on this learnable mask, we further propose a novel dynamic sparse network incorporating the dynamic routine mechanism, which exerts much higher accuracy than baselines ($2.63\%$ increase in top-1 accuracy for MobileNetV1 with $90\%$ sparsity). As a result, our method demonstrates a more efficient dynamic convolution with sparsity.
翻訳日:2022-04-06 17:16:09 公開日:2022-04-05
# (参考訳) IRON:光度画像からニューラルSDFと材料を最適化した逆レンダリング

IRON: Inverse Rendering by Optimizing Neural SDFs and Materials from Photometric Images ( http://arxiv.org/abs/2204.02232v1 )

ライセンス: CC BY 4.0
Kai Zhang and Fujun Luan and Zhengqi Li and Noah Snavely(参考訳) 本研究では,既存のグラフィックパイプラインに容易に展開可能なトライアングルメッシュと素材テクスチャのフォーマットで高品質な3dコンテンツを出力する,ironと呼ばれるニューラルネットワーク逆レンダリングパイプラインを提案する。 提案手法は,符号付き距離場 (SDF) としての幾何の表現と,その柔軟性とコンパクト性を楽しむために材料を最適化し,まず,体積的放射場アプローチを用いてトポロジを復元し,さらにエッジウェア物理に基づく表面レンダリングを用いて,材料や照明の幾何学的洗練とアンタングルメントを最適化する。 第2段階では、メッシュベースの微分レンダリングからインスピレーションを得て、ニューラルネットワークSDFのための新しいエッジサンプリングアルゴリズムを設計し、パフォーマンスをさらに向上する。 我々のIRONは、以前の作品に比べて、逆レンダリング品質が大幅に向上していることを示す。 プロジェクトページはこちら。https://kai-46.github.io/IRON-website/

We propose a neural inverse rendering pipeline called IRON that operates on photometric images and outputs high-quality 3D content in the format of triangle meshes and material textures readily deployable in existing graphics pipelines. Our method adopts neural representations for geometry as signed distance fields (SDFs) and materials during optimization to enjoy their flexibility and compactness, and features a hybrid optimization scheme for neural SDFs: first, optimize using a volumetric radiance field approach to recover correct topology, then optimize further using edgeaware physics-based surface rendering for geometry refinement and disentanglement of materials and lighting. In the second stage, we also draw inspiration from mesh-based differentiable rendering, and design a novel edge sampling algorithm for neural SDFs to further improve performance. We show that our IRON achieves significantly better inverse rendering quality compared to prior works. Our project page is here: https://kai-46.github.io/IRON-website/
翻訳日:2022-04-06 16:59:58 公開日:2022-04-05
# (参考訳) ウィンドファーム・オペレーターによる生産・信頼性評価のためのフローベースデイアヘッド風力発電の標準化

Normalizing Flow-based Day-Ahead Wind Power Scenario Generation for Profitable and Reliable Delivery Commitments by Wind Farm Operators ( http://arxiv.org/abs/2204.02242v1 )

ライセンス: CC BY 4.0
Eike Cramer, Leonard Paeleke, Alexander Mitsos, Manuel Dahmen(参考訳) 本稿では,日帰りスケジューリング問題における特定の利用シナリオを予測情報を用いて生成する専用シナリオ生成手法を提案する。 特に,日頭風速予測を用いて,そのシナリオを特定の日に合わせて調整する条件分布から,正規化フローを用いて風力発電シナリオを生成する。 我々は,風力発電業者の確率的日頭入札問題に生成シナリオを適用し,そのシナリオが有益で信頼性の高い意思決定をもたらすかどうかに焦点をあてた統計分析を行う。 ガウスコプラやワッサーシュタイン生成逆数ネットワークから生じる条件付きシナリオと比較して、正規化フローシナリオは、多様性を維持しながら日々の傾向をより正確に、より低い範囲で識別する。 確率的日頭入札問題では、すべての手法による条件付きシナリオは、歴史的シナリオの無条件選択に比べて、はるかに利益が高く信頼性の高い結果をもたらす。 正規化フローシナリオを用いた得られる利益は、特に5つのシナリオからなる小さなセットにおいて、完全なフォアテアソリューションに一貫して最も近い。

We present a specialized scenario generation method that utilizes forecast information to generate scenarios for the particular usage in day-ahead scheduling problems. In particular, we use normalizing flows to generate wind power generation scenarios by sampling from a conditional distribution that uses day-ahead wind speed forecasts to tailor the scenarios to the specific day. We apply the generated scenarios in a simple stochastic day-ahead bidding problem of a wind electricity producer and run a statistical analysis focusing on whether the scenarios yield profitable and reliable decisions. Compared to conditional scenarios generated from Gaussian copulas and Wasserstein-generative adversarial networks, the normalizing flow scenarios identify the daily trends more accurately and with a lower spread while maintaining a diverse variety. In the stochastic day-ahead bidding problem, the conditional scenarios from all methods lead to significantly more profitable and reliable results compared to an unconditional selection of historical scenarios. The obtained profits using the normalizing flow scenarios are consistently closest to the perfect foresight solution, in particular, for small sets of only five scenarios.
翻訳日:2022-04-06 16:35:16 公開日:2022-04-05
# (参考訳) ゼロデイ侵入検出人工免疫システムの十分な理由

Sufficient Reasons for A Zero-Day Intrusion Detection Artificial Immune System ( http://arxiv.org/abs/2204.02255v1 )

ライセンス: CC BY 4.0
Qianru Zhou, Rongzhen Li, Lei Xu, Arumugam Nallanathan, Jian Yanga, Anmin Fu(参考訳) インターネットは人類が構築した最も複雑なマシンであり、侵入から防御する方法はさらに複雑である。 新たな侵入の増加に伴い、侵入検知タスクはますます人工知能に依存している。 機械学習モデルの解釈可能性と透明性は、AIによる侵入検出結果に対する信頼の基盤である。 現在の侵入検知における人工知能技術はヒューリスティックであり、正確でも十分でもない。 本稿では,人工免疫システムに基づく厳密な解釈可能な人工知能による侵入検出手法を提案する。 決定木モデルに対する厳密な解釈計算過程の詳細を述べる。 良性トラフィックフローの素因的説明は、サイバー免疫系の否定的な選択の規則として詳細に与えられる。 実生活における交通実験を行う。

The Internet is the most complex machine humankind has ever built, and how to defense it from intrusions is even more complex. With the ever increasing of new intrusions, intrusion detection task rely on Artificial Intelligence more and more. Interpretability and transparency of the machine learning model is the foundation of trust in AI-driven intrusion detection results. Current interpretation Artificial Intelligence technologies in intrusion detection are heuristic, which is neither accurate nor sufficient. This paper proposed a rigorous interpretable Artificial Intelligence driven intrusion detection approach, based on artificial immune system. Details of rigorous interpretation calculation process for a decision tree model is presented. Prime implicant explanation for benign traffic flow are given in detail as rule for negative selection of the cyber immune system. Experiments are carried out in real-life traffic.
翻訳日:2022-04-06 16:20:34 公開日:2022-04-05
# (参考訳) 概念活性化ベクトルを用いた難読言語検出における一般化性の向上

Improving Generalizability in Implicitly Abusive Language Detection with Concept Activation Vectors ( http://arxiv.org/abs/2204.02261v1 )

ライセンス: CC BY 4.0
Isar Nejadgholi, Kathleen C. Fraser, Svetlana Kiritchenko(参考訳) 特にコンテンツモデレーションのような人間の健康に影響を与えるアプリケーションにとって、常に変化する現実世界のデータ上での機械学習モデルのロバスト性は重要だ。 新たな種類の乱用言語は、現在の出来事(例えば、COVID-19)に対応するオンラインの議論において絶えず現れ、デプロイされた乱用検知システムは、正確性を維持するために定期的に更新されるべきである。 本稿では,一般的な乱用言語分類器は,ドメイン外乱用発話の検出には極めて信頼性が高いが,新しいタイプの微妙で暗黙的な乱用は検出できないことを示す。 次に,コンピュータビジョンによるテスト概念活性化ベクター(tcav)法に基づく解釈手法を提案する。この手法を用いて,訓練されたモデルから明示的・暗黙的な乱用言語の人間定義概念への感受性を定量化し,新型データを用いたモデルの一般化可能性を説明する。 このテクニックを拡張して、新しいメトリクスである明示性の度合を導入し、新しいメトリクスがドメイン外無ラベルの例を提案し、有益で暗黙的に乱用されたテキストでトレーニングデータを効果的に強化するのに役立つことを示す。

Robustness of machine learning models on ever-changing real-world data is critical, especially for applications affecting human well-being such as content moderation. New kinds of abusive language continually emerge in online discussions in response to current events (e.g., COVID-19), and the deployed abuse detection systems should be updated regularly to remain accurate. In this paper, we show that general abusive language classifiers tend to be fairly reliable in detecting out-of-domain explicitly abusive utterances but fail to detect new types of more subtle, implicit abuse. Next, we propose an interpretability technique, based on the Testing Concept Activation Vector (TCAV) method from computer vision, to quantify the sensitivity of a trained model to the human-defined concepts of explicit and implicit abusive language, and use that to explain the generalizability of the model on new data, in this case, COVID-related anti-Asian hate speech. Extending this technique, we introduce a novel metric, Degree of Explicitness, for a single instance and show that the new metric is beneficial in suggesting out-of-domain unlabeled examples to effectively enrich the training data with informative, implicitly abusive texts.
翻訳日:2022-04-06 16:08:31 公開日:2022-04-05
# (参考訳) 長期にわたる学習: 繰り返し競売競技における長期・スパースリワードによるマルチエージェント強化学習

Learning to Bid Long-Term: Multi-Agent Reinforcement Learning with Long-Term and Sparse Reward in Repeated Auction Games ( http://arxiv.org/abs/2204.02268v1 )

ライセンス: CC BY 4.0
Jing Tan and Ramin Khalili and Holger Karl(参考訳) 本研究では,短期的報酬と分散的報酬のバランスをとるマルチエージェント分散強化学習アルゴリズムを提案し,動的環境において部分的情報を用いて学習する。 我々は、個人報酬と社会福祉全体の最大化のためにアルゴリズムにインセンティブを与えるために、異なる長期報酬を比較する。 2つの模擬オークションゲームでアルゴリズムをテストし、それを実証する。 1)本アルゴリズムは,社会福祉に費用がかかる直接競争において,ベンチマークアルゴリズムを2つ上回る。 2) アルゴリズムの積極的な競争行動は, 個人報酬と社会福祉の両面を最大化するために, 長期報酬信号で導かれる。

We propose a multi-agent distributed reinforcement learning algorithm that balances between potentially conflicting short-term reward and sparse, delayed long-term reward, and learns with partial information in a dynamic environment. We compare different long-term rewards to incentivize the algorithm to maximize individual payoff and overall social welfare. We test the algorithm in two simulated auction games, and demonstrate that 1) our algorithm outperforms two benchmark algorithms in a direct competition, with cost to social welfare, and 2) our algorithm's aggressive competitive behavior can be guided with the long-term reward signal to maximize both individual payoff and overall social welfare.
翻訳日:2022-04-06 15:51:01 公開日:2022-04-05
# (参考訳) 音声模倣による音響-音声間マッピングの自己教師あり学習

Repeat after me: Self-supervised learning of acoustic-to-articulatory mapping by vocal imitation ( http://arxiv.org/abs/2204.02269v1 )

ライセンス: CC BY 4.0
Marc-Antoine Georges, Julien Diard, Laurent Girin, Jean-Luc Schwartz, Thomas Hueber(参考訳) 音声入力から調音コマンドを回復するリカレントニューラルネットワークに基づく内部逆モデルと、限定された解釈可能な調音パラメータのセットから複雑な音声刺激を再現できる事前学習されたニューラルネットワーク合成器と、調音コマンドの知覚結果を予測するdnnベースの内部フォワードモデルとを組み合わせた音声生成の計算モデルを提案する。 前方モデルと逆モデルの両方が、異なる話者からの生の音響のみによる音声データから自己教師ありの方法で共同で訓練される。 模倣シミュレーションは客観的かつ主観的に評価され、非常に奨励的なパフォーマンスを示す。

We propose a computational model of speech production combining a pre-trained neural articulatory synthesizer able to reproduce complex speech stimuli from a limited set of interpretable articulatory parameters, a DNN-based internal forward model predicting the sensory consequences of articulatory commands, and an internal inverse model based on a recurrent neural network recovering articulatory commands from the acoustic speech input. Both forward and inverse models are jointly trained in a self-supervised way from raw acoustic-only speech data from different speakers. The imitation simulations are evaluated objectively and subjectively and display quite encouraging performances.
翻訳日:2022-04-06 15:37:25 公開日:2022-04-05
# (参考訳) 包括的話者検証評価データセットの設計ガイドライン

Design Guidelines for Inclusive Speaker Verification Evaluation Datasets ( http://arxiv.org/abs/2204.02281v1 )

ライセンス: CC BY 4.0
Wiebke Toussaint Hutiri, Lauriane Gorce, Aaron Yi Ding(参考訳) 話者認証(sv)は何十億もの音声対応デバイスにアクセス制御を提供し、音声駆動技術の安全性を保証する。 バイオメトリックスの一種として、svは、その人口、社会的、経済的属性に関係なく、話者間で一貫性があり、信頼性の高いパフォーマンスを持つ。 現在のSV評価プラクティスは、過度に単純化され、ユーザを集約し、実際の使用シナリオを代表していないため、バイアスを評価するには不十分である。 本稿では,これらの欠点に対処するsv評価データセットを構築するための設計ガイドラインを提案する。 本稿では,発話ペアの難易度を評価するためのスキーマを提案し,包括的SVデータセットを生成するアルゴリズムを提案する。 voxceleb1データセットの一連の実験において,提案手法を実証的に検証した。 その結果, 発話対/話者数, 発声対の格付けの難しさは, 評価性能と変動性に有意な影響を及ぼすことがわかった。 私たちの仕事は、包括的で公平なsv評価プラクティスの開発に寄与します。

Speaker verification (SV) provides billions of voice-enabled devices with access control, and ensures the security of voice-driven technologies. As a type of biometrics, it is necessary that SV is unbiased, with consistent and reliable performance across speakers irrespective of their demographic, social and economic attributes. Current SV evaluation practices are insufficient for evaluating bias: they are over-simplified and aggregate users, not representative of real-life usage scenarios, and consequences of errors are not accounted for. This paper proposes design guidelines for constructing SV evaluation datasets that address these short-comings. We propose a schema for grading the difficulty of utterance pairs, and present an algorithm for generating inclusive SV datasets. We empirically validate our proposed method in a set of experiments on the VoxCeleb1 dataset. Our results confirm that the count of utterance pairs/speaker, and the difficulty grading of utterance pairs have a significant effect on evaluation performance and variability. Our work contributes to the development of SV evaluation practices that are inclusive and fair.
翻訳日:2022-04-06 15:28:38 公開日:2022-04-05
# (参考訳) 動的システムのデータ駆動型影響に基づくクラスタリング

Data-driven Influence Based Clustering of Dynamical Systems ( http://arxiv.org/abs/2204.02373v1 )

ライセンス: CC0 1.0
Subhrajit Sinha(参考訳) コミュニティ検出は、電力システム、遺伝子調節ネットワーク、ソーシャルネットワーク、金融ネットワーク、天文学など、科学と工学の様々な分野において、困難かつ関連する問題である。 さらに、これらのアプリケーションの多くでは、基盤となるシステムは本質的に動的であり、関連するシステムの複雑さのため、クラスタリングやコミュニティ検出に使用できる数学的モデルを導出することはしばしば不可能である。 さらに、動的システムをクラスタリングする一方で、基盤となるシステムの動的性質を考慮に入れることが不可欠である。 本稿では,基盤となるシステムの動的進化を本質的に考慮した時系列データから動的システムをクラスタリングする新しい手法を提案する。 特に、状態が相互に与える影響の関数である系の状態間の 'emph{distance/similarity' 測度を定義し、提案した測度を力学系のクラスタリングに使用する。 データ駆動計算では、基盤となるシステムの非線形性(もし存在するなら)を考慮したkoopman演算子フレームワークを活用して、提案フレームワークを幅広いアプリケーション領域に適用する。 本稿では,3つの異なる力学系,すなわち,概念実証として機能する線形システム,高度に非線形なieee 39バス伝送ネットワーク,アマゾン熱帯雨林の大気データから得られた動的変数をクラスタリングして,提案手法の有効性を示す。

Community detection is a challenging and relevant problem in various disciplines of science and engineering like power systems, gene-regulatory networks, social networks, financial networks, astronomy etc. Furthermore, in many of these applications the underlying system is dynamical in nature and because of the complexity of the systems involved, deriving a mathematical model which can be used for clustering and community detection, is often impossible. Moreover, while clustering dynamical systems, it is imperative that the dynamical nature of the underlying system is taken into account. In this paper, we propose a novel approach for clustering dynamical systems purely from time-series data which inherently takes into account the dynamical evolution of the underlying system. In particular, we define a \emph{distance/similarity} measure between the states of the system which is a function of the influence that the states have on each other, and use the proposed measure for clustering of the dynamical system. For data-driven computation we leverage the Koopman operator framework which takes into account the nonlinearities (if present) of the underlying system, thus making the proposed framework applicable to a wide range of application areas. We illustrate the efficacy of the proposed approach by clustering three different dynamical systems, namely, a linear system, which acts like a proof of concept, the highly non-linear IEEE 39 bus transmission network and dynamic variables obtained from atmospheric data over the Amazon rain forest.
翻訳日:2022-04-06 15:19:22 公開日:2022-04-05
# 音声・視覚多チャンネル音声分離, 残響, 認識

Audio-visual multi-channel speech separation, dereverberation and recognition ( http://arxiv.org/abs/2204.01977v1 )

ライセンス: Link先を確認
Guinan Li, Jianwei Yu, Jiajun Deng, Xunying Liu, Helen Meng(参考訳) 音声認識(ASR)技術の急速な進歩にもかかわらず、重なり合う話者からの干渉によって特徴付けられるカクテルパーティー音声の正確な認識、背景雑音、室内残響は現在でも非常に困難な課題である。 音声信号の劣化に対する視覚的モダリティの相違により、音声-視覚的音声強調技術が開発されているが、主に重なり合う音声分離と認識タスクを対象としている。 本稿では,システムの全3段階に視覚情報の完全な組み入れを特徴とする音声・視覚多チャンネル音声分離,残響・認識手法を提案する。 DNN-WPEとスペクトルマッピングに基づく2つのニューラルデバーベレーション手法において,音声のみを用いた場合の視覚的モダリティの利点が示された。 MSE基準とLF-MMI基準を微調整することにより,分離と収差モデル間の学習コスト関数のミスマッチとバックエンド認識システムとの統合を最小化する。 LRS2データセットを用いて行った実験により、提案手法は、統計的に有意な単語誤り率 (WER) の2.06%の絶対値(8.77%)で、ベースラインの音声-視覚多チャンネル音声分離認識システムよりも優れていたことが示唆された。

Despite the rapid advance of automatic speech recognition (ASR) technologies, accurate recognition of cocktail party speech characterised by the interference from overlapping speakers, background noise and room reverberation remains a highly challenging task to date. Motivated by the invariance of visual modality to acoustic signal corruption, audio-visual speech enhancement techniques have been developed, although predominantly targeting overlapping speech separation and recognition tasks. In this paper, an audio-visual multi-channel speech separation, dereverberation and recognition approach featuring a full incorporation of visual information into all three stages of the system is proposed. The advantage of the additional visual modality over using audio only is demonstrated on two neural dereverberation approaches based on DNN-WPE and spectral mapping respectively. The learning cost function mismatch between the separation and dereverberation models and their integration with the back-end recognition system is minimised using fine-tuning on the MSE and LF-MMI criteria. Experiments conducted on the LRS2 dataset suggest that the proposed audio-visual multi-channel speech separation, dereverberation and recognition system outperforms the baseline audio-visual multi-channel speech separation and recognition system containing no dereverberation module by a statistically significant word error rate (WER) reduction of 2.06% absolute (8.77% relative).
翻訳日:2022-04-06 15:02:50 公開日:2022-04-05
# VocaLiST: 唇と声のオーディオ・ビジュアル同期モデル

VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices ( http://arxiv.org/abs/2204.02090v1 )

ライセンス: Link先を確認
Venkatesh S. Kadandale, Juan F. Montesinos, Gloria Haro(参考訳) 本稿では,人間の顔と声を含むビデオにおける唇声の同期の問題に対処する。 提案手法は,映像中の唇の動きと音声が,音声と視覚の対応スコアに応じて同期しているかどうかを判定するものである。 本稿では,標準リップリード音声ベンチマークデータセットlrs2における音声-視覚同期タスクにおいて,複数のベースラインモデルを上回る音声-視覚クロスモーダルトランスフォーマモデルを提案する。 既存の手法は主に音声映像における唇同期に焦点をあてるが,歌唱音声の特殊な場合も考慮する。 歌声は持続母音音による同期のより困難なユースケースである。 また,歌唱音声の文脈における音声データセットに基づくリップ同期モデルの妥当性について検討した。 最後に,歌声分離作業における唇同期モデルで学習した凍結視覚特徴を用いて,エンドツーエンドに訓練したベースライン音声・視覚モデルより優れていた。 デモ、ソースコード、事前トレーニングされたモデルはhttps://ipcv.github.io/VocaLiST/で利用可能になる。

In this paper, we address the problem of lip-voice synchronisation in videos containing human face and voice. Our approach is based on determining if the lips motion and the voice in a video are synchronised or not, depending on their audio-visual correspondence score. We propose an audio-visual cross-modal transformer-based model that outperforms several baseline models in the audio-visual synchronisation task on the standard lip-reading speech benchmark dataset LRS2. While the existing methods focus mainly on the lip synchronisation in speech videos, we also consider the special case of singing voice. Singing voice is a more challenging use case for synchronisation due to sustained vowel sounds. We also investigate the relevance of lip synchronisation models trained on speech datasets in the context of singing voice. Finally, we use the frozen visual features learned by our lip synchronisation model in the singing voice separation task to outperform a baseline audio-visual model which was trained end-to-end. The demos, source code, and the pre-trained model will be made available on https://ipcv.github.io/VocaLiST/
翻訳日:2022-04-06 15:02:23 公開日:2022-04-05
# 異常音検出における小ショットサンプルによる領域シフト適応の学習

Learning to Adapt to Domain Shifts with Few-shot Samples in Anomalous Sound Detection ( http://arxiv.org/abs/2204.01905v1 )

ライセンス: Link先を確認
Bingqing Chen, Luca Bondi, Samarjit Das(参考訳) 異常検出は、産業機器の監視など、多くの重要な応用がある。 ディープラーニング手法による異常検出の最近の進歩にもかかわらず、機械の負荷や環境騒音の変化などにより、既存のソリューションが分散シナリオの下でどのように機能するかは不明である。 マシンヘルスモニタリングの応用を基礎として,数発のサンプルで新しい状況に適応するフレームワークを提案する。 先行研究に基づいて, 異常検出のための分類に基づくアプローチを採用し, 正常試料の混合密度推定と等価性を示す。 推論中の最小ショット設定に適合するエピソディクス訓練手順を組み込んだ。 メタ情報に基づく複数の補助的分類タスクを定義し,勾配に基づくメタ学習を活用し,異なるシフトへの一般化を改善する。 提案手法は,最近リリースされた異なるマシンタイプからの音響計測データセット上で評価する。 2つのベースラインで約10%改善され、データセットで報告された最高のパフォーマンスモデルと同等である。

Anomaly detection has many important applications, such as monitoring industrial equipment. Despite recent advances in anomaly detection with deep-learning methods, it is unclear how existing solutions would perform under out-of-distribution scenarios, e.g., due to shifts in machine load or environmental noise. Grounded in the application of machine health monitoring, we propose a framework that adapts to new conditions with few-shot samples. Building upon prior work, we adopt a classification-based approach for anomaly detection and show its equivalence to mixture density estimation of the normal samples. We incorporate an episodic training procedure to match the few-shot setting during inference. We define multiple auxiliary classification tasks based on meta-information and leverage gradient-based meta-learning to improve generalization to different shifts. We evaluate our proposed method on a recently-released dataset of audio measurements from different machine types. It improved upon two baselines by around 10% and is on par with best-performing model reported on the dataset.
翻訳日:2022-04-06 15:00:54 公開日:2022-04-05
# RL4ReAl:レジスタ割り当てのための強化学習

RL4ReAl: Reinforcement Learning for Register Allocation ( http://arxiv.org/abs/2204.02013v1 )

ライセンス: Link先を確認
S. VenkataKeerthy, Siddharth Jain, Rohit Aggarwal, Albert Cohen, Ramakrishna Upadrasta(参考訳) マルチエージェント階層強化学習を利用したレジスタ配置問題に対する新しい解を提案する。 与えられた命令セットアーキテクチャの問題を正確に定義する制約を定式化し、生成したコードが意味的正当性を保持することを保証する。 また、トレーニングと推論のためのモジュール的で効率的なコンパイラインターフェースを提供するgRPCベースのフレームワークも開発しています。 実験結果は、intel x86とarm aarch64をターゲットにしたllvmレジスタアロケータに匹敵する。

We propose a novel solution for the Register Allocation problem, leveraging multi-agent hierarchical Reinforcement Learning. We formalize the constraints that precisely define the problem for a given instruction-set architecture, while ensuring that the generated code preserves semantic correctness. We also develop a gRPC based framework providing a modular and efficient compiler interface for training and inference. Experimental results match or outperform the LLVM register allocators, targeting Intel x86 and ARM AArch64.
翻訳日:2022-04-06 15:00:39 公開日:2022-04-05
# metaaudio: 数ショットオーディオ分類ベンチマーク

MetaAudio: A Few-Shot Audio Classification Benchmark ( http://arxiv.org/abs/2204.02121v1 )

ライセンス: Link先を確認
Calum Heggan, Sam Budgett, Timothy Hospedales, Mehrdad Yaghoobi(参考訳) 現在利用可能な、少数ショット学習(トレーニング例の少ない機械学習)のベンチマークは、主に画像分類に焦点を当てたドメインに限定されている。 この研究は、様々な音領域と実験的な設定をカバーし、初めて包括的で公開され、完全に再現可能なオーディオベースの代替手段を提供することで、画像ベースのベンチマークへの依存を軽減することを目的としている。 7つのオーディオデータセット(環境音と人間の音声)上で,様々な手法のマイナショット分類性能を比較した。 これを拡張して,共同学習(トレーニング中にすべてのデータセットが使用される)とクロスデータセット適応プロトコルの詳細な分析を行い,一般化された音声マイナショット分類アルゴリズムの可能性を確立した。 実験では,MAMLやMeta-Curvatureのような勾配に基づくメタ学習法が,測定法とベースライン法の両方で一貫して優れていた。 また, 共同学習ルーチンは, 環境音データベースの総合的な一般化に役立ち, クロスデータセット/ドメイン設定に何らかの効果的な手法であることを示す。

Currently available benchmarks for few-shot learning (machine learning with few training examples) are limited in the domains they cover, primarily focusing on image classification. This work aims to alleviate this reliance on image-based benchmarks by offering the first comprehensive, public and fully reproducible audio based alternative, covering a variety of sound domains and experimental settings. We compare the few-shot classification performance of a variety of techniques on seven audio datasets (spanning environmental sounds to human-speech). Extending this, we carry out in-depth analyses of joint training (where all datasets are used during training) and cross-dataset adaptation protocols, establishing the possibility of a generalised audio few-shot classification algorithm. Our experimentation shows gradient-based meta-learning methods such as MAML and Meta-Curvature consistently outperform both metric and baseline methods. We also demonstrate that the joint training routine helps overall generalisation for the environmental sound databases included, as well as being a somewhat-effective method of tackling the cross-dataset/domain setting.
翻訳日:2022-04-06 15:00:31 公開日:2022-04-05
# 分散オフロード決定のためのマルチエージェント分散強化学習

Multi-Agent Distributed Reinforcement Learning for Making Decentralized Offloading Decisions ( http://arxiv.org/abs/2204.02267v1 )

ライセンス: Link先を確認
Jing Tan and Ramin Khalili and Holger Karl and Artur Hecker(参考訳) 自律エージェントによる分散意思決定問題として計算オフロードを定式化する。 我々は、競争と協力のバランスをとることで、エージェントにプライベートとシステム目標の整合を動機付けるインタラクションメカニズムを設計する。 この機構は、静的な場合において最適な資源割り当てを伴うナッシュ平衡を持つ。 動的環境下では,部分的,遅延的,ノイズの多い状態情報を用いて学習する新しいマルチエージェントオンライン学習アルゴリズムと,情報の必要量を大幅に削減する報奨信号を提案する。 例えば、40%のオフロード障害率の削減、32%の通信オーバヘッドの削減、38%の計算リソースの低競合化、8%の利用増加、高競合化による負荷変動の低減、公平性の向上などである。 結果は、異なる環境下でのアルゴリズムの優れた収束性と一般化性も確認する。

We formulate computation offloading as a decentralized decision-making problem with autonomous agents. We design an interaction mechanism that incentivizes agents to align private and system goals by balancing between competition and cooperation. The mechanism provably has Nash equilibria with optimal resource allocation in the static case. For a dynamic environment, we propose a novel multi-agent online learning algorithm that learns with partial, delayed and noisy state information, and a reward signal that reduces information need to a great extent. Empirical results confirm that through learning, agents significantly improve both system and individual performance, e.g., 40% offloading failure rate reduction, 32% communication overhead reduction, up to 38% computation resource savings in low contention, 18% utilization increase with reduced load variation in high contention, and improvement in fairness. Results also confirm the algorithm's good convergence and generalization property in significantly different environments.
翻訳日:2022-04-06 15:00:14 公開日:2022-04-05
# 回転ディスク系における時空間熱フラックスのベイズ推定のためのディープサロゲート加速遅延受容HMC

Deep surrogate accelerated delayed-acceptance HMC for Bayesian inference of spatio-temporal heat fluxes in rotating disc systems ( http://arxiv.org/abs/2204.02272v1 )

ライセンス: Link先を確認
Teo Deveney, Eike Mueller, Tony Shardlow(参考訳) PDEモデルにおける時空間熱流パラメータであるBiot数を推定するベイズ逆問題について検討する。 これは、標準最適化が非物理的推論をもたらす誤った問題である。 本稿では、温度データを用いてニューラルネットワークサロゲートを適応的にトレーニングし、パラメトリックフォワードモデルをシミュレートするトレーニング手法を提案する。 このアプローチは、Biot数上の近似後続分布を同時に同定し、この近似に基づいて前方トレーニング損失を重み付けすることにより、前方および逆解を同時に近似する。 ランダムなチェビシェフ級数を用いて、任意のガウス過程を事前に近似する方法を概説し、サロゲートを用いてハミルトニアンモンテカルロ(hmc)を適用し、対応する後方分布から効率的にサンプリングする。 我々は、適応損失関数がゼロに近づくにつれて、ヘリンガー計量の真の後方分布へのサーロゲートの収束を導出する。 さらに,このサロゲート加速HMC手法を,遅延アクセプタンス方式で従来のPDEソルバと組み合わせて,非凸トレーニングにより保証された精度が得られない深層学習に基づくサロゲート手法の大幅な制限を克服する方法について述べる。 バイオト数計算には安全性が重要であり, 高度に制御されたターボ機械設計が関与しているため, このような数学的保証が重要である。 提案手法は,従来のPDEソルバの収束保証を維持しつつも,高次元パラメータ空間での高速な混合を実現する。 数値的な結果は、適応的および一般的な訓練体制の精度と効率、およびマルコフ連鎖モンテカルロ提案戦略の比較である。

We study the Bayesian inverse problem of inferring the Biot number, a spatio-temporal heat-flux parameter in a PDE model. This is an ill-posed problem where standard optimisation yields unphysical inferences. We introduce a training scheme that uses temperature data to adaptively train a neural-network surrogate to simulate the parametric forward model. This approach approximates forward and inverse solution together, by simultaneously identifying an approximate posterior distribution over the Biot number, and weighting the forward training loss according to this approximation. Utilising random Chebyshev series, we outline how to approximate an arbitrary Gaussian process prior, and using the surrogate we apply Hamiltonian Monte Carlo (HMC) to efficiently sample from the corresponding posterior distribution. We derive convergence of the surrogate posterior to the true posterior distribution in the Hellinger metric as our adaptive loss function approaches zero. Furthermore, we describe how this surrogate-accelerated HMC approach can be combined with a traditional PDE solver in a delayed-acceptance scheme to a-priori control the posterior accuracy, thus overcoming a major limitation of deep learning-based surrogate approaches, which do not achieve guaranteed accuracy a-priori due to their non-convex training. Biot number calculations are involved turbo-machinery design, which is safety critical and highly regulated, therefore it is important that our results have such mathematical guarantees. Our approach achieves fast mixing in high-dimensional parameter spaces, whilst retaining the convergence guarantees of a traditional PDE solver, and without the burden of evaluating this solver for proposals that are likely to be rejected. Numerical results compare the accuracy and efficiency of the adaptive and general training regimes, as well as various Markov chain Monte Carlo proposals strategies.
翻訳日:2022-04-06 14:59:59 公開日:2022-04-05
# 非パラメトリック手法による新しい物理の学習

Learning new physics efficiently with nonparametric methods ( http://arxiv.org/abs/2204.02317v1 )

ライセンス: Link先を確認
Marco Letizia, Gianvito Losapio, Marco Rando, Gaia Grosso, Andrea Wulzer, Maurizio Pierini, Marco Zanetti, Lorenzo Rosasco(参考訳) モデルに依存しない新しい物理探索のための機械学習手法を提案する。 対応するアルゴリズムは、十分なデータを与えられた任意の連続関数を近似できる非パラメトリック学習アルゴリズムであるカーネルメソッドの最近の大規模実装によって駆動される。 d'agnolo と wulzer (arxiv:1806.02350) による最初の提案に基づき、このモデルでは、確率比に基づく仮説検証手順を実行し、実験データと参照モデルとの互換性を評価する。 モデル独立性は、測定における新しい物理成分の存在や形状に関する事前の仮定を避けて実施される。 学習時間と計算資源の面ではニューラルネットワークの実装に比べて,同等の性能を維持しながら,このアプローチは劇的なアドバンテージを示す。 特に,より高次元のデータセットに対するテストを行い,従来の研究を一歩進める。

We present a machine learning approach for model-independent new physics searches. The corresponding algorithm is powered by recent large-scale implementations of kernel methods, nonparametric learning algorithms that can approximate any continuous function given enough data. Based on the original proposal by D'Agnolo and Wulzer (arXiv:1806.02350), the model evaluates the compatibility between experimental data and a reference model, by implementing a hypothesis testing procedure based on the likelihood ratio. Model-independence is enforced by avoiding any prior assumption about the presence or shape of new physics components in the measurements. We show that our approach has dramatic advantages compared to neural network implementations in terms of training times and computational resources, while maintaining comparable performances. In particular, we conduct our tests on higher dimensional datasets, a step forward with respect to previous studies.
翻訳日:2022-04-06 14:59:26 公開日:2022-04-05
# 反復スペクトル次元減少法による平均ベクトルの極小ロバスト推定器

Nearly minimax robust estimator of the mean vector by iterative spectral dimension reduction ( http://arxiv.org/abs/2204.02323v1 )

ライセンス: Link先を確認
Amir-Hossein Bateni, Arshak Minasyan, Arnak S. Dalalyan(参考訳) サブガウス分布の平均ベクトルのロバスト推定の問題点について検討する。 スペクトル次元減少(SDR)に基づく推定器を導入し,その誤差に基づいて,対数係数までの最小最適値である有限標本上限を確立する。 さらに、SDR推定器の分解点が、分解点の最大値である1/2$に等しいことを証明した。 さらに、SDR推定器は類似性変換により不変であり、計算複雑性が低い。 より正確には、次元 $p$ の $n$ ベクトルの場合 -- 最大$\varepsilon n$ の内、少なくとも$\varepsilon n$ は逆腐敗している -- SDR 推定器は位数 $\big(\frac{r_\Sigma}{n} + \varepsilon^2\log(1/\varepsilon)\big){\log p}$ と位数 $p^3 + n p^2$ のランニング時間を持つ。 ここで、$r_\Sigma\le p$ は基準分布の共分散行列の有効ランクである。 SDR推定器のもう1つの利点は、汚染率の知識を必要とせず、サンプル分割を伴わないことである。 また、提案アルゴリズムの拡張と、(部分的に)未知の共分散行列の場合の結果についても検討する。

We study the problem of robust estimation of the mean vector of a sub-Gaussian distribution. We introduce an estimator based on spectral dimension reduction (SDR) and establish a finite sample upper bound on its error that is minimax-optimal up to a logarithmic factor. Furthermore, we prove that the breakdown point of the SDR estimator is equal to $1/2$, the highest possible value of the breakdown point. In addition, the SDR estimator is equivariant by similarity transforms and has low computational complexity. More precisely, in the case of $n$ vectors of dimension $p$ -- at most $\varepsilon n$ out of which are adversarially corrupted -- the SDR estimator has a squared error of order $\big(\frac{r_\Sigma}{n} + \varepsilon^2\log(1/\varepsilon)\big){\log p}$ and a running time of order $p^3 + n p^2$. Here, $r_\Sigma\le p$ is the effective rank of the covariance matrix of the reference distribution. Another advantage of the SDR estimator is that it does not require knowledge of the contamination rate and does not involve sample splitting. We also investigate extensions of the proposed algorithm and of the obtained results in the case of (partially) unknown covariance matrix.
翻訳日:2022-04-06 14:59:11 公開日:2022-04-05
# 四元数領域における音声感情表現の学習

Learning Speech Emotion Representations in the Quaternion Domain ( http://arxiv.org/abs/2204.02385v1 )

ライセンス: Link先を確認
Eric Guizzo, Tillman Weyde, Simone Scardapane, Danilo Comminiello(参考訳) 音声信号における人間の感情表現のモデル化は重要でありながら難しい課題である。 音声感情認識モデルの高い資源需要と、感情標識データの全般的不足は、この分野における効果的な解の開発と適用の障害となっている。 本稿では,これらの困難を共同回避するためのアプローチを提案する。 rh-emoと呼ばれる手法は,実数値のモノオーラルスペクトログラムから四分法埋め込みを抽出することを目的とした,新しい半教師付きアーキテクチャである。 RH-emoは、実値の感情分類器と四元値のデコーダと並行して、実値のエンコーダからなるハイブリッドリアル/四元値オートエンコーダネットワークである。 一方、分類器は、特定の感情関連特性(原子価、覚醒、支配、全体感情)を分類するために、埋め込みの各潜伏軸を最適化することができる。 一方、四元数再構成により、潜在次元は四元数実体として有効な表現に必要なチャネル内相関を発達させることができる。 我々は、iemocap、ravedess、emodb、tessの4つの一般的なデータセットを用いて、音声感情認識タスクのアプローチをテストし、rh-emoで生成された埋め込みで供給される3つの確立された実数値cnnアーキテクチャ(alexnet、resnet-50、vgg)と4元価値等価性のパフォーマンスを比較した。 すべてのデータセットのテスト精度が一貫した改善を実現し、モデルに対するリソースの需要を大幅に削減します。 さらに,本手法の有効性を確認するため,追加実験およびアブレーション実験を行った。 RH-emoリポジトリは以下の通りである。

The modeling of human emotion expression in speech signals is an important, yet challenging task. The high resource demand of speech emotion recognition models, combined with the the general scarcity of emotion-labelled data are obstacles to the development and application of effective solutions in this field. In this paper, we present an approach to jointly circumvent these difficulties. Our method, named RH-emo, is a novel semi-supervised architecture aimed at extracting quaternion embeddings from real-valued monoaural spectrograms, enabling the use of quaternion-valued networks for speech emotion recognition tasks. RH-emo is a hybrid real/quaternion autoencoder network that consists of a real-valued encoder in parallel to a real-valued emotion classifier and a quaternion-valued decoder. On the one hand, the classifier permits to optimize each latent axis of the embeddings for the classification of a specific emotion-related characteristic: valence, arousal, dominance and overall emotion. On the other hand, the quaternion reconstruction enables the latent dimension to develop intra-channel correlations that are required for an effective representation as a quaternion entity. We test our approach on speech emotion recognition tasks using four popular datasets: Iemocap, Ravdess, EmoDb and Tess, comparing the performance of three well-established real-valued CNN architectures (AlexNet, ResNet-50, VGG) and their quaternion-valued equivalent fed with the embeddings created with RH-emo. We obtain a consistent improvement in the test accuracy for all datasets, while drastically reducing the resources' demand of models. Moreover, we performed additional experiments and ablation studies that confirm the effectiveness of our approach. The RH-emo repository is available at: https://github.com/ispamm/rhemo.
翻訳日:2022-04-06 14:58:15 公開日:2022-04-05
# (参考訳) 言語横断検索と多言語検索のためのパラメータ効率の良いニューラルリグレード

Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual Retrieval ( http://arxiv.org/abs/2204.02292v1 )

ライセンス: CC BY-SA 4.0
Robert Litschko and Ivan Vuli\'c and Goran Glava\v{s}(参考訳) 最先端のニューラルネットワーク(リランカ)は、英語以外の言語で大規模なトレーニングデータが不足していることを考えると、多言語や言語横断の検索設定ではほとんど使われない、という悪名高いデータである。 したがって、現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダによって他言語に転送し、英語の関連判断に基づいて事前訓練された多言語変換器(MMT、例えば多言語BERT)のパラメータをすべて微調整し、ターゲット言語に展開する。 本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) という,多言語・多言語検索タスクへのより軽量で効果的なゼロショット転送を実現するためのパラメータ効率のよい2つの手法を提案する。 まず、Masked Language Modellingを介して言語アダプタ(またはSFTM)をトレーニングし、次に、他のすべてのパラメータを固定しながら、その上に再ランク付けされたアダプタ(SFTM)をトレーニングします。 このモジュラー設計により、ターゲット言語の言語アダプタ(SFTM)とともに、ソースコードデータで訓練されたタスクアダプタ(SFTM)を適用することで、ローダを構成することができる。 転送性能の改善に加えて、これらの2つのアプローチはより高速なローダトレーニングを提供する。 CLEF-2003ベンチマークでは,パラメータ効率が標準ゼロショット転送より優れ,MMTファインチューニングに優れ,モジュラリティを実現し,トレーニング時間を短縮した。 さらに、スワヒリとソマリの例において、低(er)リソース言語では、パラメータ効率のよいニューラルリランカが競合機械翻訳に基づくランク付けを向上できることを示す。

State-of-the-art neural (re)rankers are notoriously data hungry which - given the lack of large-scale training data in languages other than English - makes them rarely used in multilingual and cross-lingual retrieval settings. Current approaches therefore typically transfer rankers trained on English data to other languages and cross-lingual setups by means of multilingual encoders: they fine-tune all the parameters of a pretrained massively multilingual Transformer (MMT, e.g., multilingual BERT) on English relevance judgments and then deploy it in the target language. In this work, we show that two parameter-efficient approaches to cross-lingual transfer, namely Sparse Fine-Tuning Masks (SFTMs) and Adapters, allow for a more lightweight and more effective zero-shot transfer to multilingual and cross-lingual retrieval tasks. We first train language adapters (or SFTMs) via Masked Language Modelling and then train retrieval (i.e., reranking) adapters (SFTMs) on top while keeping all other parameters fixed. At inference, this modular design allows us to compose the ranker by applying the task adapter (or SFTM) trained with source language data together with the language adapter (or SFTM) of a target language. Besides improved transfer performance, these two approaches offer faster ranker training, with only a fraction of parameters being updated compared to full MMT fine-tuning. We benchmark our models on the CLEF-2003 benchmark, showing that our parameter-efficient methods outperform standard zero-shot transfer with full MMT fine-tuning, while enabling modularity and reducing training times. Further, we show on the example of Swahili and Somali that, for low(er)-resource languages, our parameter-efficient neural re-rankers can improve the ranking of the competitive machine translation-based ranker.
翻訳日:2022-04-06 14:56:16 公開日:2022-04-05
# IoTと5Gネットワークを越えた機械学習によるディジタルツイン仮想化 - セキュリティと最適制御のための研究方向

Digital Twin Virtualization with Machine Learning for IoT and Beyond 5G Networks: Research Directions for Security and Optimal Control ( http://arxiv.org/abs/2204.01950v1 )

ライセンス: Link先を確認
Jithin Jagannath, Keyvan Ramezanpour, Anu Jagannath(参考訳) デジタルツイン(DT)技術は、IoT(Internet of Things)ネットワークで利用可能な膨大なデータを使用して、サイバー物理システム(CPS)のリアルタイムデータ駆動モデリングのソリューションとして登場した。 本稿では,物理環境のオンライン学習,資産のリアルタイムモニタリング,モンテカルロ・ヒューリスティックサーチによる予測防止,オンポリシー,オフポリシー強化学習などを実現するdtフレームワークの特徴と能力を明らかにする。 我々は,クラウドコンピューティング上での分散実装によるDTフレームワークの概念階層アーキテクチャを構築し,モデリング,イベント検出,意思決定プロセスのための人工知能(AI)サービスによって実現した。 DTフレームワークは、第5世代(5G)無線ネットワークにおけるソフトウェア定義ネットワーク(SDN)のように、論理的に集中したプロセスのシステムとしてデプロイされる制御機能を、制御対象の物理デバイスから分離する。 我々は、ネットワークベースの制御プロセスの実装を容易にするdtフレームワークのモーメントと、その重要なインフラへの影響について論じる。 既存のシステム上での革新的な技術開発・展開のリスクを下げることにおけるDTの重要性を明らかにするため,将来データ駆動通信ネットワークにおけるセキュリティフレームワークとしてのゼロ信頼アーキテクチャ(ZTA)の適用について論じる。

Digital twin (DT) technologies have emerged as a solution for real-time data-driven modeling of cyber physical systems (CPS) using the vast amount of data available by Internet of Things (IoT) networks. In this position paper, we elucidate unique characteristics and capabilities of a DT framework that enables realization of such promises as online learning of a physical environment, real-time monitoring of assets, Monte Carlo heuristic search for predictive prevention, on-policy, and off-policy reinforcement learning in real-time. We establish a conceptual layered architecture for a DT framework with decentralized implementation on cloud computing and enabled by artificial intelligence (AI) services for modeling, event detection, and decision-making processes. The DT framework separates the control functions, deployed as a system of logically centralized process, from the physical devices under control, much like software-defined networking (SDN) in fifth generation (5G) wireless networks. We discuss the moment of the DT framework in facilitating implementation of network-based control processes and its implications for critical infrastructure. To clarify the significance of DT in lowering the risk of development and deployment of innovative technologies on existing system, we discuss the application of implementing zero trust architecture (ZTA) as a necessary security framework in future data-driven communication networks.
翻訳日:2022-04-06 14:42:48 公開日:2022-04-05
# レコメンデーションにおけるドロップアウト法と実験的検証に関する調査

A Survey on Dropout Methods and Experimental Verification in Recommendation ( http://arxiv.org/abs/2204.02027v1 )

ライセンス: Link先を確認
Yangkun Li, Weizhi Ma, Chong Chen, Min Zhang, Yiqun Liu, Shaoping Ma, Yuekui Yang(参考訳) オーバーフィッティングは機械学習の一般的な問題であり、モデルがテストデータのパフォーマンスを損なうことなく、トレーニングデータにあまりにも密接に適合することを意味する。 オーバーフィッティングを扱う様々な方法の中で、ドロップアウトは代表的な方法の1つである。 ランダムにニューロンを落とすことから神経構造を落とすことまで、ドロップアウトはモデルの性能を改善することに成功している。 これまで様々なドロップアウト手法が設計され、広く適用されてきたが、その効果、アプリケーションシナリオ、コントリビューションは包括的に要約され、実証的に比較されていない。 総合的な調査を行うのが正しい時です。 本稿では,従来のドロップアウト手法を体系的にレビューし,ドロップアウト操作を行う段階に応じて3つの主要なカテゴリに分類する。 具体的には、トップAIカンファレンスやジャーナル(TKDE、KDD、TheWebConf、SIGIRなど)で発行される70以上のドロップアウトメソッドが関与している。 設計された分類学は容易に理解でき、新しいドロップアウト法を含むことができる。 次に、アプリケーションシナリオ、コネクション、コントリビューションについてさらに議論する。 異なるドロップアウト手法の有効性を検証するため,多種多様な情報を含む推薦シナリオについて広範な実験を行った。 最後に,より深く検討する価値のあるドロップアウトに関するオープンな問題と潜在的な研究方向を提案する。

Overfitting is a common problem in machine learning, which means the model too closely fits the training data while performing poorly in the test data. Among various methods of coping with overfitting, dropout is one of the representative ways. From randomly dropping neurons to dropping neural structures, dropout has achieved great success in improving model performances. Although various dropout methods have been designed and widely applied in past years, their effectiveness, application scenarios, and contributions have not been comprehensively summarized and empirically compared by far. It is the right time to make a comprehensive survey. In this paper, we systematically review previous dropout methods and classify them into three major categories according to the stage where dropout operation is performed. Specifically, more than seventy dropout methods published in top AI conferences or journals (e.g., TKDE, KDD, TheWebConf, SIGIR) are involved. The designed taxonomy is easy to understand and capable of including new dropout methods. Then, we further discuss their application scenarios, connections, and contributions. To verify the effectiveness of distinct dropout methods, extensive experiments are conducted on recommendation scenarios with abundant heterogeneous information. Finally, we propose some open problems and potential research directions about dropout that worth to be further explored.
翻訳日:2022-04-06 14:42:24 公開日:2022-04-05
# サンプルベースリセットによる強化学習の自動化

Automating Reinforcement Learning with Example-based Resets ( http://arxiv.org/abs/2204.02041v1 )

ライセンス: Link先を確認
Jigang Kim, J. Hyeon Park, Daesol Cho and H. Jin Kim(参考訳) 深層強化学習により、ロボットは最小から無の知識で環境相互作用から運動スキルを学習できるようになった。 しかし、既存の強化学習アルゴリズムでは、エージェントが各エピソードの最後に固定された初期状態分布にリセットし、繰り返し試行からエージェントを訓練するエピソード設定を前提としている。 このようなリセット機構は、シミュレーションタスクでは簡単なものの、現実のロボットタスクでは難しい。 ロボットシステムのリセットは、ロボットの自律学習の目標と矛盾する、広範な人間の監督とタスク固有の回避を必要とすることが多い。 本稿では,自己指導型リセット学習を付加するエージェントを導入することで,従来の強化学習をより大きな自律性に向けて拡張することを提案する。 リセットエージェントは、予めリセットをトリガーして手動リセットを防止し、フォワードエージェントのカリキュラムを暗黙的に強制する。 シミュレーションおよび実世界の連続制御タスクのスイートをスクラッチから学習するために本手法を適用し,リセットエージェントが手動リセットの削減に成功し,フォワードポリシーが時間とともに徐々に改善されることを実証する。

Deep reinforcement learning has enabled robots to learn motor skills from environmental interactions with minimal to no prior knowledge. However, existing reinforcement learning algorithms assume an episodic setting, in which the agent resets to a fixed initial state distribution at the end of each episode, to successfully train the agents from repeated trials. Such reset mechanism, while trivial for simulated tasks, can be challenging to provide for real-world robotics tasks. Resets in robotic systems often require extensive human supervision and task-specific workarounds, which contradicts the goal of autonomous robot learning. In this paper, we propose an extension to conventional reinforcement learning towards greater autonomy by introducing an additional agent that learns to reset in a self-supervised manner. The reset agent preemptively triggers a reset to prevent manual resets and implicitly imposes a curriculum for the forward agent. We apply our method to learn from scratch on a suite of simulated and real-world continuous control tasks and demonstrate that the reset agent successfully learns to reduce manual resets whilst also allowing the forward policy to improve gradually over time.
翻訳日:2022-04-06 14:42:05 公開日:2022-04-05
# SemanticCAP: 言語モデルから学ぶ機能によって強化されたクロマチンアクセシビリティ予測

SemanticCAP: Chromatin Accessibility Prediction Enhanced by Features Learning from a Language Model ( http://arxiv.org/abs/2204.02130v1 )

ライセンス: Link先を確認
Yikang Zhang, Xiaomin Chu, Yelu Jiang, Hongjie Wu and Lijun Quan(参考訳) 多くの無機化合物や有機化合物がDNAと結合して複合体を形成し、その中の薬物関連分子が重要である。 クロマチンアクセシビリティーの変化は、薬物とDNAの相互作用に直接影響を及ぼすだけでなく、TFと転写調節因子のDNA結合能に影響を与えることにより、薬物耐性に関連する重要な遺伝子の発現を促進または阻害する。 しかし、測定のための生物学的実験技術は高価で時間を要する。 近年、ゲノムのアクセス可能な領域を特定するために、いくつかの計算手法が提案されている。 既存の計算モデルは、主に塩基配列の文脈情報を無視する。 これらの問題に対処するため、我々はSemanticCAPという新しいソリューションを提案しました。 遺伝子配列の文脈をモデル化する遺伝子言語モデルを導入し、遺伝子配列における特定の部位の効果的な表現を可能にする。 基本的に、遺伝子モデルが提供する機能をクロマチンアクセシビリティモデルにマージします。 プロセス中、私たちは機能融合をよりスムーズにする方法を設計しました。 公開ベンチマークの他のシステムと比較すると、我々のモデルはより良い性能を示した。

A large number of inorganic and organic compounds are able to bind DNA and form complexes, among which drug-related molecules are important. Chromatin accessibility changes not only directly affects drug-DNA interactions, but also promote or inhibit the expression of critical genes associated with drug resistance by affecting the DNA binding capacity of TFs and transcriptional regulators. However, Biological experimental techniques for measuring it are expensive and time consuming. In recent years, several kinds of computational methods have been proposed to identify accessible regions of the genome. Existing computational models mostly ignore the contextual information of bases in gene sequences. To address these issues, we proposed a new solution named SemanticCAP. It introduces a gene language model which models the context of gene sequences, thus being able to provide an effective representation of a certain site in gene sequences. Basically, we merge the features provided by the gene language model into our chromatin accessibility model. During the process, we designed some methods to make feature fusion smoother. Compared with other systems under public benchmarks, our model proved to have better performance.
翻訳日:2022-04-06 14:40:27 公開日:2022-04-05
# SAFARI: 限られたコミュニケーションと信頼できないコミュニケーションによるフェデレーション学習の実現

SAFARI: Sparsity enabled Federated Learning with Limited and Unreliable Communications ( http://arxiv.org/abs/2204.02321v1 )

ライセンス: Link先を確認
Yuzhu Mao, Zihao Zhao, Meilin Yang, Le Liang, Yang Liu, Wenbo Ding, Tian Lan, Xiao-Ping Zhang(参考訳) フェデレーション学習(fl)は、エッジデバイスが分散形式で協調的にモデルを学習することを可能にする。 多くの既存研究は、高次元モデルの通信効率の向上と局所的な更新によるバイアスへの対処に重点を置いている。 しかし、ほとんどのFLアルゴリズムは信頼性の高い通信に基づくか、固定性と既知の信頼性の低い特性を仮定する。 実際には、ネットワークは動的チャネル条件と非決定論的破壊に悩まされ、時間的および未知の特性を持つ。 そこで本稿では,SAFARIと呼ばれる通信効率とバイアス低減の両面を兼ね備えたFLフレームワークを提案する。 信頼できない通信から生じるバイアスの修正と補償のために、クライアントモデル間の類似性を新規に使用します。 より正確には、信頼できない通信に対処しながら、通信オーバーヘッドを軽減するために、ローカルクライアントにスパースラーニングを実装し、類似性に基づく補償手法を提案し、モデル更新を欠くサロゲートを提供する。 境界相似性とスパースモデルに関するSAFARIの解析を行う。 信頼できない通信におけるSAFARIは、完全通信の標準FedAvgと同じ速度で収束することが保証されている。 CIFAR-10データセットの実装と評価は、完全な通信でFedAvgと同じ収束速度と精度を達成できることを示すことでSAFARIの有効性を検証する。

Federated learning (FL) enables edge devices to collaboratively learn a model in a distributed fashion. Many existing researches have focused on improving communication efficiency of high-dimensional models and addressing bias caused by local updates. However, most of FL algorithms are either based on reliable communications or assume fixed and known unreliability characteristics. In practice, networks could suffer from dynamic channel conditions and non-deterministic disruptions, with time-varying and unknown characteristics. To this end, in this paper we propose a sparsity enabled FL framework with both communication efficiency and bias reduction, termed as SAFARI. It makes novel use of a similarity among client models to rectify and compensate for bias that is resulted from unreliable communications. More precisely, sparse learning is implemented on local clients to mitigate communication overhead, while to cope with unreliable communications, a similarity-based compensation method is proposed to provide surrogates for missing model updates. We analyze SAFARI under bounded dissimilarity and with respect to sparse models. It is demonstrated that SAFARI under unreliable communications is guaranteed to converge at the same rate as the standard FedAvg with perfect communications. Implementations and evaluations on CIFAR-10 dataset validate the effectiveness of SAFARI by showing that it can achieve the same convergence speed and accuracy as FedAvg with perfect communications, with up to 80% of the model weights being pruned and a high percentage of client updates missing in each round.
翻訳日:2022-04-06 14:40:12 公開日:2022-04-05
# mgdcf: ニューラルコラボレーティブフィルタリングのためのマルコフグラフ拡散による距離学習

MGDCF: Distance Learning via Markov Graph Diffusion for Neural Collaborative Filtering ( http://arxiv.org/abs/2204.02338v1 )

ライセンス: Link先を確認
Jun Hu, Shengsheng Qian, Quan Fang, Changsheng Xu(参考訳) コラボレーティブ・フィルタリング (CF) は, 個人化されたレコメンデーションシステムで広く利用されており, 歴史的ユーザ・イテムインタラクションによるユーザの嗜好を予測することを目的としている。 近年、グラフニューラルネットワーク(gnns)がcfモデルの構築に利用され、有望なパフォーマンスを示している。 最近のGNNに基づくCF手法は、GNNの高次隣接集約能力にその性能改善を反映している。 しかし、JKNetやDropEdgeのような強力な深層GNNでは、他のグラフタスクの高次隣接情報を効果的に活用できるが、CFタスクでは不十分であり、これらのGNNベースのCF研究の説明と矛盾する。 これらの研究と異なり、マルコフグラフ拡散協調フィルタリング(MGDCF)という統合フレームワークを用いて、距離学習のためのマルコフ過程の観点からGNNベースのCFについて検討する。 マルコフグラフ拡散ネットワーク(MGDN)をMGDCFのGNNエンコーダとして設計し、マルコフプロセスを介して2種類の距離をトレードオフすることで頂点表現を学習する。 本研究では,mgdnの出力と距離損失関数の最適解との理論的等価性を示し,cfモデルの最適化を促進する。 MGDNは異種GNNであるLightGCNやAPPNPといった最先端モデルを一般化することができる。 さらに, MGDNは同種GNNにも拡張可能である。 MGDCFの最適化のために,広く使用されているBPR損失を拡張したInfoBPR損失関数を提案する。 mgdcfの詳細な分析を行う実験を行った。 ソースコードはhttps://github.com/hujunxianligong/MGDCFで公開されている。

Collaborative filtering (CF) is widely used by personalized recommendation systems, which aims to predict the preference of users with historical user-item interactions. In recent years, Graph Neural Networks (GNNs) have been utilized to build CF models and have shown promising performance. Recent state-of-the-art GNN-based CF approaches simply attribute their performance improvement to the high-order neighbor aggregation ability of GNNs. However, we observe that some powerful deep GNNs such as JKNet and DropEdge, can effectively exploit high-order neighbor information on other graph tasks but perform poorly on CF tasks, which conflicts with the explanation of these GNN-based CF research. Different from these research, we investigate the GNN-based CF from the perspective of Markov processes for distance learning with a unified framework named Markov Graph Diffusion Collaborative Filtering (MGDCF). We design a Markov Graph Diffusion Network (MGDN) as MGDCF's GNN encoder, which learns vertex representations by trading off two types of distances via a Markov process. We show the theoretical equivalence between MGDN's output and the optimal solution of a distance loss function, which can boost the optimization of CF models. MGDN can generalize state-of-the-art models such as LightGCN and APPNP, which are heterogeneous GNNs. In addition, MGDN can be extended to homogeneous GNNs with our sparsification technique. For optimizing MGDCF, we propose the InfoBPR loss function, which extends the widely used BPR loss to exploit multiple negative samples for better performance. We conduct experiments to perform detailed analysis on MGDCF. The source code is publicly available at https://github.com/hujunxianligong/MGDCF.
翻訳日:2022-04-06 14:39:43 公開日:2022-04-05
# 聴覚の悪:マルチタスク学習による自動音声認識の逆ロバスト性を目指して

Hear No Evil: Towards Adversarial Robustness of Automatic Speech Recognition via Multi-Task Learning ( http://arxiv.org/abs/2204.02381v1 )

ライセンス: Link先を確認
Nilaksh Das, Duen Horng Chau(参考訳) 現在、自動音声認識(ASR)システムが広く普及しているため、敵攻撃の脅威の増大は、そのようなシステムを使用する際のセキュリティと信頼性に関する深刻な疑問を引き起こす。 一方で、マルチタスク学習(mtl)は、コンピュータビジョン領域における敵対的攻撃に抵抗できるトレーニングモデルでの成功を示している。 本研究では,このようなマルチタスク学習が音声領域におけるASRモデルの対角的堅牢性に与える影響について検討する。 我々はアクセント分類やASRといった意味論的に多様なタスクを組み合わせることで広範囲なMTL実験を行い、幅広い敵対的設定を評価する。 我々の徹底的な分析によると、意味的に多様なタスクでMLLを実行すると、敵攻撃が成功しにくくなる。 また,MTLモデルの堅牢性に大きな影響を及ぼす深刻な落とし穴とその対策についても詳細に論じる。 提案するmtlアプローチは,単タスク学習ベースライン(それぞれアテンションデコーダとctc)と比較して,17.25から59.90まで,対向的ターゲットwerの絶対的改善を示す。 我々の研究は、ASRのマルチタスク学習による敵の堅牢性向上を明らかにする最初の詳細な研究である。

As automatic speech recognition (ASR) systems are now being widely deployed in the wild, the increasing threat of adversarial attacks raises serious questions about the security and reliability of using such systems. On the other hand, multi-task learning (MTL) has shown success in training models that can resist adversarial attacks in the computer vision domain. In this work, we investigate the impact of performing such multi-task learning on the adversarial robustness of ASR models in the speech domain. We conduct extensive MTL experimentation by combining semantically diverse tasks such as accent classification and ASR, and evaluate a wide range of adversarial settings. Our thorough analysis reveals that performing MTL with semantically diverse tasks consistently makes it harder for an adversarial attack to succeed. We also discuss in detail the serious pitfalls and their related remedies that have a significant impact on the robustness of MTL models. Our proposed MTL approach shows considerable absolute improvements in adversarially targeted WER ranging from 17.25 up to 59.90 compared to single-task learning baselines (attention decoder and CTC respectively). Ours is the first in-depth study that uncovers adversarial robustness gains from multi-task learning for ASR.
翻訳日:2022-04-06 14:39:14 公開日:2022-04-05
# (参考訳) iSDF:ロボット知覚のためのリアルタイムニューラルネットワーク距離場

iSDF: Real-Time Neural Signed Distance Fields for Robot Perception ( http://arxiv.org/abs/2204.02296v1 )

ライセンス: CC0 1.0
Joseph Ortiz, Alexander Clegg, Jing Dong, Edgar Sucar, David Novotny, Michael Zollhoefer, Mustafa Mukadam(参考訳) 実時間符号距離場(SDF)再構成のための連続学習システムiSDFを提案する。 移動カメラからのポーズされた深度画像のストリームが与えられると、ランダムに初期化されたニューラルネットワークをトレーニングし、入力3D座標を符号付き距離に近似する。 モデルは、積極的にサンプリングされるクエリポイントのバッチにおいて、最も近いサンプリングポイントまでの距離を用いて、予測された署名された距離を束縛する損失を最小化する。 ボクセル格子に基づく先行研究とは対照的に,本手法は,よりコンパクトな表現を持ちながら,部分的観測領域の充満と観測の分別を可能とした適応的詳細レベルを提供することができる。 屋内環境の現実的, 合成的データセットに対する代替手法の評価において, iSDFはより正確な再構成を行い, ナビゲーションから操作まで, ドメインの下流プランナーに有用な衝突コストと勾配の近似精度が向上することがわかった。 コードとビデオの結果は、プロジェクトのページで確認できます。

We present iSDF, a continual learning system for real-time signed distance field (SDF) reconstruction. Given a stream of posed depth images from a moving camera, it trains a randomly initialised neural network to map input 3D coordinate to approximate signed distance. The model is self-supervised by minimising a loss that bounds the predicted signed distance using the distance to the closest sampled point in a batch of query points that are actively sampled. In contrast to prior work based on voxel grids, our neural method is able to provide adaptive levels of detail with plausible filling in of partially observed regions and denoising of observations, all while having a more compact representation. In evaluations against alternative methods on real and synthetic datasets of indoor environments, we find that iSDF produces more accurate reconstructions, and better approximations of collision costs and gradients useful for downstream planners in domains from navigation to manipulation. Code and video results can be found at our project page: https://joeaortiz.github.io/iSDF/ .
翻訳日:2022-04-06 14:36:22 公開日:2022-04-05
# 不確定な特徴位置におけるフレーム間回転最適化のための確率論的正規エピポーラ制約

The Probabilistic Normal Epipolar Constraint for Frame-To-Frame Rotation Optimization under Uncertain Feature Positions ( http://arxiv.org/abs/2204.02256v1 )

ライセンス: Link先を確認
Dominik Muhle, Lukas Koestler, Nikolaus Demmel, Florian Bernard and Daniel Cremers(参考訳) 2つのカメラビューの相対的なポーズの推定は、コンピュータビジョンの基本的な問題である。 Kneipらは、通常の極性制約(NEC)を導入してこの問題を解決することを提案した。 しかし、それらのアプローチは不確かさを考慮せず、推定された相対的なポーズの精度はターゲットフレームの正確な特徴位置に大きく依存する。 本研究では,この制約を克服する確率論的正規極性制約(PNEC)を導入する。 そこで本研究では,実時間性能を維持しながら目的を効果的に最小化する最適化手法とともに,新たな目的関数を提案する。 合成データ実験において、新しいPNECは元のNECといくつかの一般的な相対回転推定アルゴリズムよりも正確な回転推定値が得られることを示した。 さらに,提案手法を最先端のモノクロ回転オンリーオドメトリーシステムに統合し,実世界のKITTIデータセットに対して一貫した改良を行った。

The estimation of the relative pose of two camera views is a fundamental problem in computer vision. Kneip et al. proposed to solve this problem by introducing the normal epipolar constraint (NEC). However, their approach does not take into account uncertainties, so that the accuracy of the estimated relative pose is highly dependent on accurate feature positions in the target frame. In this work, we introduce the probabilistic normal epipolar constraint (PNEC) that overcomes this limitation by accounting for anisotropic and inhomogeneous uncertainties in the feature positions. To this end, we propose a novel objective function, along with an efficient optimization scheme that effectively minimizes our objective while maintaining real-time performance. In experiments on synthetic data, we demonstrate that the novel PNEC yields more accurate rotation estimates than the original NEC and several popular relative rotation estimation algorithms. Furthermore, we integrate the proposed method into a state-of-the-art monocular rotation-only odometry system and achieve consistently improved results for the real-world KITTI dataset.
翻訳日:2022-04-06 14:16:40 公開日:2022-04-05
# 産業タスクにおける機能的オブジェクト指向ネットワークのグラウンド化

Grounding of the Functional Object-Oriented Network in Industrial Tasks ( http://arxiv.org/abs/2204.02274v1 )

ライセンス: Link先を確認
Rafik Ayari, Matteo Pantano, David Paulius(参考訳) 本稿では,ロボット協調作業における実演(lfd)から学ぶことに着目し,産業用4.0(i4.0)アプリケーションに適した行動認識システムを設計することを提案する。 より正確には、活動認識システムと協調ロボットシステムとの間のデータ交換の問題に焦点を当てる。 本稿では,機能的オブジェクト指向ネットワーク(FOON)を用いたリンクデータを用いた活動認識システムを提案する。 当初、ユースケースのためにFOONをドラフトしました。 その後、フォオンオブジェクトと状態を参照するリカレントニューラルネットワークとを結合したオブジェクトおよびハンド認識システムを用いて動作を推定する。 最後に、検出されたアクションは、既存のリンクデータモデルを使用してコンテキストブローカーを介して共有され、ロボットシステムがアクションを解釈して実行することができる。 最初の結果から, FOONは産業用として利用でき, 既存のリンクデータモデルをLfDアプリケーションで利用することができることがわかった。

In this preliminary work, we propose to design an activity recognition system that is suitable for Industrie 4.0 (I4.0) applications, especially focusing on Learning from Demonstration (LfD) in collaborative robot tasks. More precisely, we focus on the issue of data exchange between an activity recognition system and a collaborative robotic system. We propose an activity recognition system with linked data using functional object-oriented network (FOON) to facilitate industrial use cases. Initially, we drafted a FOON for our use case. Afterwards, an action is estimated by using object and hand recognition systems coupled with a recurrent neural network, which refers to FOON objects and states. Finally, the detected action is shared via a context broker using an existing linked data model, thus enabling the robotic system to interpret the action and execute it afterwards. Our initial results show that FOON can be used for an industrial use case and that we can use existing linked data models in LfD applications.
翻訳日:2022-04-06 14:16:22 公開日:2022-04-05
# ニューラル畳み込み表面

Neural Convolutional Surfaces ( http://arxiv.org/abs/2204.02289v1 )

ライセンス: Link先を確認
Luca Morreale and Noam Aigerman and Paul Guerrero and Vladimir G. Kim and Niloy J. Mitra(参考訳) この研究は、大域的、粗い構造から、微細で局所的で、おそらく繰り返される幾何学を歪める形状の表現に関係している。 このような絡み合いの達成は、無関係な2つの利点をもたらす。 一 所定の幾何学を表すのに必要なパラメータの数を大幅に圧縮すること。 二 地球の地形又は局地的な詳細を他方に害を加えることなく操作することができること。 このアプローチのコアには、新しいパイプラインとニューラルアーキテクチャがあり、それは1つの特定のアトラスを表現するように最適化され、1つの3D表面を表す。 我々のパイプラインとアーキテクチャは、局所的な細部からのグローバルな幾何学の切り離しが、完全に教師なしの方法で最適化によって達成されるよう設計されている。 このアプローチは, 最先端技術よりも優れた神経形状圧縮を実現するとともに, 形状詳細の操作と伝達を可能にする。 プロジェクトページ http://geometry.cs.ucl.ac.uk/projects/2022/cnnmaps/

This work is concerned with a representation of shapes that disentangles fine, local and possibly repeating geometry, from global, coarse structures. Achieving such disentanglement leads to two unrelated advantages: i) a significant compression in the number of parameters required to represent a given geometry; ii) the ability to manipulate either global geometry, or local details, without harming the other. At the core of our approach lies a novel pipeline and neural architecture, which are optimized to represent one specific atlas, representing one 3D surface. Our pipeline and architecture are designed so that disentanglement of global geometry from local details is accomplished through optimization, in a completely unsupervised manner. We show that this approach achieves better neural shape compression than the state of the art, as well as enabling manipulation and transfer of shape details. Project page at http://geometry.cs.ucl.ac.uk/projects/2022/cnnmaps/ .
翻訳日:2022-04-06 14:16:07 公開日:2022-04-05
# ゴール指向ネットワークのためのエンドツーエンド統合型計算・通信アーキテクチャ:ライブ監視ビデオの展望

An End-to-End Integrated Computation and Communication Architecture for Goal-oriented Networking: A Perspective on Live Surveillance Video ( http://arxiv.org/abs/2204.01987v1 )

ライセンス: Link先を確認
Suvadip Batabyal, Ozgur Ercetin(参考訳) リアルタイムビデオサーベイランスは、モバイルおよび固定ビデオカメラの大規模展開を通じて、スマートシティにとって重要な技術となっている。 本稿では,クラウドベースの分析ではなく,ソースのライブフィードから重要なイベントをリアルタイムに識別する,状況対応型ストリーミングを提案する。 そこで我々はまず,特定の状況を含むフレームを識別し,それらを高尺度(SI)に割り当てる。 この識別は(少数の隠れた層を持つ)小さなニューラルネットワークを使用してソースで行われ、精度の犠牲はあるものの、小さな計算リソースを発生させる。 高いSI値のフレームは、フレーム品質を維持するために所要のSNR(Signal-to-Noise-Ratio)でストリームされ、残りのフレームは小さなSNRで送信される。 受信されたフレームはディープニューラルネットワーク(多くの隠れレイヤを含む)を使用して分析され、状況を正確に抽出する。 提案手法は,2160p (uhd) 映像に対して, 送信機に必要な消費電力を38.5%削減できると同時に, 97.5%の識別精度が得られることを示した。

Real-time video surveillance has become a crucial technology for smart cities, made possible through the large-scale deployment of mobile and fixed video cameras. In this paper, we propose situation-aware streaming, for real-time identification of important events from live-feeds at the source rather than a cloud based analysis. For this, we first identify the frames containing a specific situation and assign them a high scale-of-importance (SI). The identification is made at the source using a tiny neural network (having a small number of hidden layers), which incurs a small computational resource, albeit at the cost of accuracy. The frames with a high SI value are then streamed with a certain required Signal-to-Noise-Ratio (SNR) to retain the frame quality, while the remaining ones are transmitted with a small SNR. The received frames are then analyzed using a deep neural network (with many hidden layers) to extract the situation accurately. We show that the proposed scheme is able to reduce the required power consumption of the transmitter by 38.5% for 2160p (UHD) video, while achieving a classification accuracy of 97.5%, for the given situation.
翻訳日:2022-04-06 14:15:51 公開日:2022-04-05
# 児童福祉における人間-AI連携の改善 : アルゴリズム決定支援のための労働者の実践・課題・欲求の理解

Improving Human-AI Partnerships in Child Welfare: Understanding Worker Practices, Challenges, and Desires for Algorithmic Decision Support ( http://arxiv.org/abs/2204.02310v1 )

ライセンス: Link先を確認
Anna Kawakami, Venkatesh Sivaraman, Hao-Fei Cheng, Logan Stapleton, Yanghuidi Cheng, Diana Qing, Adam Perer, Zhiwei Steven Wu, Haiyi Zhu, Kenneth Holstein(参考訳) AIベースの意思決定支援ツール(ADS)は、ハイテイクな社会的文脈において、人間の意思決定を強化するためにますます利用されている。 公共セクターがADSを採用し始めるにつれ、実際にこれらのシステムにおける労働者の経験を理解することが重要である。 本稿では,児童福祉機関における一連の面接と状況調査から,現在ai支援児童虐待スクリーニングの意思決定を行っているかを明らかにする。 全体として,(1)AIモデルが捉える以上の豊かな文脈情報,(2)ADSの能力と限界に対する信念,(3)ADSの使用に関する組織的プレッシャーとインセンティブ,(4)アルゴリズム的予測とそれ自身の意思決定目標との相違点の認識によって,労働者のADSへの信頼がいかに導かれるかが観察される。 これらの知見をもとに,より効果的な人間-AI意思決定を支援するための設計上の意義について考察する。

AI-based decision support tools (ADS) are increasingly used to augment human decision-making in high-stakes, social contexts. As public sector agencies begin to adopt ADS, it is critical that we understand workers' experiences with these systems in practice. In this paper, we present findings from a series of interviews and contextual inquiries at a child welfare agency, to understand how they currently make AI-assisted child maltreatment screening decisions. Overall, we observe how workers' reliance upon the ADS is guided by (1) their knowledge of rich, contextual information beyond what the AI model captures, (2) their beliefs about the ADS's capabilities and limitations relative to their own, (3) organizational pressures and incentives around the use of the ADS, and (4) awareness of misalignments between algorithmic predictions and their own decision-making objectives. Drawing upon these findings, we discuss design implications towards supporting more effective human-AI decision-making.
翻訳日:2022-04-06 14:15:30 公開日:2022-04-05
# ディープインタラクティブモーション予測と計画:モーション予測モデルを用いたゲーム

Deep Interactive Motion Prediction and Planning: Playing Games with Motion Prediction Models ( http://arxiv.org/abs/2204.02392v1 )

ライセンス: Link先を確認
Jose L. Vazquez, Alexander Liniger, Wilko Schwarting, Daniela Rus, Luc Van Gool(参考訳) 多くの古典的な自律走行車(AV)スタックでは、予測層と計画層が分離され、計画者はAVの計画された軌道で知らせられていない予測に反応する。 本研究は、ゲーム理論モデル予測コントローラ(mpc)を介してこれらの層を密結合するモジュールを示し、その予測モデルの一部として、新しい対話型マルチエージェントニューラルネットワークポリシを使用する。 我々の設定では、MPCプランナーは、計画された状態シーケンスでマルチエージェントポリシーを通知することで、周囲のエージェントをすべて考慮します。 本手法の成功の基盤は,周辺エージェントの状況と地図情報を考慮し,車両を操縦することのできる,新たなマルチエージェント・ポリシー・ネットワークの設計である。 ポリシーネットワークは、時間を通じてバックプロパゲーションと微分可能なダイナミクスモデルを使用して、地対地観測データで暗黙的に訓練され、軌道を時間内にロールアウトする。 最後に,我々のマルチエージェントポリシネットワークは,環境と対話しながら運転を学習し,ゲーム理論のMPCプランナと組み合わせることで,インタラクティブな動作を実現できることを示す。

In most classical Autonomous Vehicle (AV) stacks, the prediction and planning layers are separated, limiting the planner to react to predictions that are not informed by the planned trajectory of the AV. This work presents a module that tightly couples these layers via a game-theoretic Model Predictive Controller (MPC) that uses a novel interactive multi-agent neural network policy as part of its predictive model. In our setting, the MPC planner considers all the surrounding agents by informing the multi-agent policy with the planned state sequence. Fundamental to the success of our method is the design of a novel multi-agent policy network that can steer a vehicle given the state of the surrounding agents and the map information. The policy network is trained implicitly with ground-truth observation data using backpropagation through time and a differentiable dynamics model to roll out the trajectory forward in time. Finally, we show that our multi-agent policy network learns to drive while interacting with the environment, and, when combined with the game-theoretic MPC planner, can successfully generate interactive behaviors.
翻訳日:2022-04-06 14:15:09 公開日:2022-04-05
# (参考訳) PaLM: パスによる言語モデリングのスケールアップ

PaLM: Scaling Language Modeling with Pathways ( http://arxiv.org/abs/2204.02311v1 )

ライセンス: CC BY 4.0
Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, Noah Fiedel(参考訳) 大規模な言語モデルでは、わずかな学習でさまざまな自然言語タスクで顕著なパフォーマンスを実現することが示されており、特定のアプリケーションにモデルを適用するのに必要なタスク固有のトレーニング例の数を劇的に削減している。 そこで我々は,Pathways Language Model PaLM(パスウェイズ言語モデルPaLM)と呼ばれる,高密度に活性化されたトランスフォーマー言語モデルである540ビリオンパラメータを訓練した。 我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。 数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを示す。 これらのタスクで、palm 540bは画期的なパフォーマンスを達成し、マルチステップ推論タスクのスイートで最先端を上回り、最近リリースされたbig-benchベンチマークで平均的なヒューマンパフォーマンスを上回った。 かなりの数のBIG-benchタスクでは、モデルスケールから不連続な改善が見られたため、我々の最大のモデルにスケールするにつれて、性能が急激に向上した。 PaLMはまた、多言語タスクやソースコード生成において強力な能力を持ち、幅広いベンチマークで示しています。 さらに,バイアスと毒性に関する総合的な分析を行い,モデルスケールに関するデータ記憶の訓練の程度について検討した。 最後に,大規模言語モデルに関する倫理的考察を議論し,潜在的な緩和戦略について論じる。

Large language models have been shown to achieve remarkable performance across a variety of natural language tasks using few-shot learning, which drastically reduces the number of task-specific training examples needed to adapt the model to a particular application. To further our understanding of the impact of scale on few-shot learning, we trained a 540-billion parameter, densely activated, Transformer language model, which we call Pathways Language Model PaLM. We trained PaLM on 6144 TPU v4 chips using Pathways, a new ML system which enables highly efficient training across multiple TPU Pods. We demonstrate continued benefits of scaling by achieving state-of-the-art few-shot learning results on hundreds of language understanding and generation benchmarks. On a number of these tasks, PaLM 540B achieves breakthrough performance, outperforming the finetuned state-of-the-art on a suite of multi-step reasoning tasks, and outperforming average human performance on the recently released BIG-bench benchmark. A significant number of BIG-bench tasks showed discontinuous improvements from model scale, meaning that performance steeply increased as we scaled to our largest model. PaLM also has strong capabilities in multilingual tasks and source code generation, which we demonstrate on a wide array of benchmarks. We additionally provide a comprehensive analysis on bias and toxicity, and study the extent of training data memorization with respect to model scale. Finally, we discuss the ethical considerations related to large language models and discuss potential mitigation strategies.
翻訳日:2022-04-06 14:14:50 公開日:2022-04-05
# 注意散逸:選択的フォーミングによる連続学習による透かし除去

Attention Distraction: Watermark Removal Through Continual Learning with Selective Forgetting ( http://arxiv.org/abs/2204.01934v1 )

ライセンス: Link先を確認
Qi Zhong and Leo Yu Zhang and Shengshan Hu and Longxiang Gao and Jun Zhang and Yong Xiang(参考訳) 微調整攻撃は、ディープラーニングモデルに埋め込まれた透かしを取り除くのに有効である。 しかし、ソースデータが利用できない場合、モデル性能を損なうことなくウォーターマークを消去するだけでは困難である。 本研究では,新たなデータフリーな透かし除去攻撃であるアテンション・ディトラクション(AD)を導入し,連続学習をカスタマイズして埋め込み透かしを選択的に忘れるようにした。 特にad firstでは、ラベルのないデータを使ってモデルがメインタスクに注意を向ける。 そして、連続学習を通じて、新しいラベルを割り当てられた少数の \textit{lures}(ランダムに選択された自然画像)が、モデルの注意を透かしから遠ざける。 異なるデータセットとネットワークによる実験の結果、adは、メインタスクにおけるモデルのパフォーマンスを損なうことなく、小さなリソース予算でウォーターマークを徹底的に取り除くことができる。

Fine-tuning attacks are effective in removing the embedded watermarks in deep learning models. However, when the source data is unavailable, it is challenging to just erase the watermark without jeopardizing the model performance. In this context, we introduce Attention Distraction (AD), a novel source data-free watermark removal attack, to make the model selectively forget the embedded watermarks by customizing continual learning. In particular, AD first anchors the model's attention on the main task using some unlabeled data. Then, through continual learning, a small number of \textit{lures} (randomly selected natural images) that are assigned a new label distract the model's attention away from the watermarks. Experimental results from different datasets and networks corroborate that AD can thoroughly remove the watermark with a small resource budget without compromising the model's performance on the main task, which outperforms the state-of-the-art works.
翻訳日:2022-04-06 14:12:09 公開日:2022-04-05
# 並列イメージングのための走査型学習の多重化

Multi-Weight Respecification of Scan-specific Learning for Parallel Imaging ( http://arxiv.org/abs/2204.01979v1 )

ライセンス: Link先を確認
Hui Tao, Haifeng Wang, Shanshan Wang, Dong Liang, Xiaoling Xu, Qiegen Liu(参考訳) 並列イメージングは加速技術として磁気共鳴イメージングに広く用いられている。 並列イメージングにおける従来の線形再構成法はノイズ増幅に苦しむことが多い。 近年,k空間補間のための非線形ロバストな人工神経ネットワーク (raki) が,他の線形法よりも優れた雑音弾性を示す。 しかし、rakiは高い加速速度で性能が悪く、トレーニングサンプルとして大量の自動調整信号を必要とする。 これらの問題に対処するため,MW-RAKI という名前のアンダーサンプルデータに重み付け行列を実装したマルチウェイト手法を提案する。 複数の重み付け行列を測定に適用することで、ノイズの影響を効果的に低減し、データ制約を増大させることができる。 さらに,複数重み付け行列の戦略をRAKIの残留バージョンに組み込んでMW-rRAKIを形成する。

Parallel imaging is widely used in magnetic resonance imaging as an acceleration technology. Traditional linear reconstruction methods in parallel imaging often suffer from noise amplification. Recently, a non-linear robust artificial-neural-network for k-space interpolation (RAKI) exhibits superior noise resilience over other linear methods. However, RAKI performs poorly at high acceleration rates, and needs a large amount of autocalibration signals as the training samples. In order to tackle these issues, we propose a multi-weight method that implements multiple weighting matrices on the undersampled data, named as MW-RAKI. Enforcing multiple weighted matrices on the measurements can effectively reduce the influence of noise and increase the data constraints. Furthermore, we incorporate the strategy of multiple weighting matrixes into a residual version of RAKI, and form MW-rRAKI.Experimental compari-sons with the alternative methods demonstrated noticeably better reconstruction performances, particularly at high acceleration rates.
翻訳日:2022-04-06 14:11:51 公開日:2022-04-05
# 圧縮領域におけるリアルタイムオンラインマルチオブジェクトトラッキング

Real-time Online Multi-Object Tracking in Compressed Domain ( http://arxiv.org/abs/2204.02081v1 )

ライセンス: Link先を確認
Qiankun Liu, Bin Liu, Yue Wu, Weihai Li, Nenghai Yu(参考訳) 最近のオンラインマルチオブジェクトトラッキング(mot)手法は、望ましいトラッキング性能を達成している。 しかし,既存の手法の追跡速度は比較的遅い。 隣接するフレームが極めて関連性が高く冗長であるという事実から着想を得て、各フレームをキーフレームと非キーフレームに分割し、圧縮領域内のオブジェクトを追跡する。 キーフレームに対して、RGB画像は、検出およびデータ関連付けのために復元される。 データアソシエーションをより信頼性の高いものにするために,検出器との共同トレーニングが可能な外観畳み込みニューラルネットワーク(CNN)を提案する。 非鍵フレームについては、圧縮領域で提供される動き情報に基づいてトラッキングcnnによりオブジェクトが直接伝搬される。 最先端のオンラインMOT手法と比較すると、トラッカーは同等のトラッキング性能を維持しながら約6倍高速である。

Recent online Multi-Object Tracking (MOT) methods have achieved desirable tracking performance. However, the tracking speed of most existing methods is rather slow. Inspired from the fact that the adjacent frames are highly relevant and redundant, we divide the frames into key and non-key frames respectively and track objects in the compressed domain. For the key frames, the RGB images are restored for detection and data association. To make data association more reliable, an appearance Convolutional Neural Network (CNN) which can be jointly trained with the detector is proposed. For the non-key frames, the objects are directly propagated by a tracking CNN based on the motion information provided in the compressed domain. Compared with the state-of-the-art online MOT methods,our tracker is about 6x faster while maintaining a comparable tracking performance.
翻訳日:2022-04-06 14:11:36 公開日:2022-04-05
# (参考訳) SALISA:効率的なビデオオブジェクト検出のためのサリエンシに基づく入力サンプリング

SALISA: Saliency-based Input Sampling for Efficient Video Object Detection ( http://arxiv.org/abs/2204.02397v1 )

ライセンス: CC BY 4.0
Babak Ehteshami Bejnordi, Amirhossein Habibian, Fatih Porikli, Amir Ghodrati(参考訳) 高解像度画像はビデオの高性能物体検出に広く採用されている。 しかし、高分解能入力の処理には高い計算コストが伴うため、計算コストを削減するために入力の単純ダウンサンプリングは検出性能を迅速に低下させる。 本稿では,高分解能画像の細かな細部を保存しつつ,重要でない背景領域の重くダウンサンプリングを可能にする映像物体検出のための,不均一なサリエンシーに基づく入力サンプリング手法であるsalisaを提案する。 結果として得られる画像は空間的に小さくなり、計算コストは低減され、高解像度の入力に匹敵する性能を実現する。 そこで本研究では,薄板スプライン空間変圧器ネットワーク(TPS-STN)に基づく識別可能な再サンプリングモジュールを提案する。 このモジュールは新たな損失によって正規化され、聖域の「拡大」を学ぶための明確な監視信号を提供する。 我々は、ImageNet-VIDおよびUA-DETRACビデオオブジェクト検出データセットにおいて、少ない計算方式における最先端結果について報告する。 両データセットにおいて,EfficientDet-D1 (EfficientDet-D2) の mAP が,EfficientDet-D2 (EfficientDet-D3) と同等であることを示す。 また,SALISAは小物体の検出を著しく改善することを示した。 特に、EfficientDet-D1検出器を備えたSALISAは、小さなオブジェクトの検出を7.7セントで改善し、EfficientDetD3ベースラインを著しく上回る。

High-resolution images are widely adopted for high-performance object detection in videos. However, processing high-resolution inputs comes with high computation costs, and naive down-sampling of the input to reduce the computation costs quickly degrades the detection performance. In this paper, we propose SALISA, a novel non-uniform SALiency-based Input SAmpling technique for video object detection that allows for heavy down-sampling of unimportant background regions while preserving the fine-grained details of a high-resolution image. The resulting image is spatially smaller, leading to reduced computational costs while enabling a performance comparable to a high-resolution input. To achieve this, we propose a differentiable resampling module based on a thin plate spline spatial transformer network (TPS-STN). This module is regularized by a novel loss to provide an explicit supervision signal to learn to "magnify" salient regions. We report state-of-the-art results in the low compute regime on the ImageNet-VID and UA-DETRAC video object detection datasets. We demonstrate that on both datasets, the mAP of an EfficientDet-D1 (EfficientDet-D2) gets on par with EfficientDet-D2 (EfficientDet-D3) at a much lower computational cost. We also show that SALISA significantly improves the detection of small objects. In particular, SALISA with an EfficientDet-D1 detector improves the detection of small objects by $77\%$, and remarkably also outperforms EfficientDetD3 baseline.
翻訳日:2022-04-06 14:09:56 公開日:2022-04-05
# RBGNet:3Dオブジェクト検出のためのレイベースグルーピング

RBGNet: Ray-based Grouping for 3D Object Detection ( http://arxiv.org/abs/2204.02251v1 )

ライセンス: Link先を確認
Haiyang Wang, Shaoshuai Shi, Ze Yang, Rongyao Fang, Qi Qian, Hongsheng Li, Bernt Schiele and Liwei Wang(参考訳) コンピュータビジョンの根本的な問題として、3Dオブジェクト検出は急速に成長している。 不規則でまばらな分散ポイントからポイントワイズ特徴を抽出するために、以前のメソッドは通常、特徴グループ化モジュールを使ってオブジェクト候補にポイント特徴を集約する。 しかし、これらの手法はまだ前景オブジェクトの表面形状を利用してグループ化と3dボックス生成を強化していない。 本稿では,点雲からの正確な3次元物体検出のための投票型3D検出器RBGNetフレームワークを提案する。 3dボックスの予測のためのクラスタ機能を強化するために,オブジェクト形状の表現を改善するために,クラスタ中心から一様に放射される決定された光線群を用いて,オブジェクト表面上のポイントワイズ特徴を集約するレイ型特徴分類モジュールを提案する。 ボックス推定において, 前景点がより意味のあることを考えると, ダウンサンプルプロセスにおける新しい前景偏差サンプリング戦略を設計し, 対象表面上のより多くの点をサンプリングし, さらに検出性能を高める。 ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。 コードはhttps://github.com/Haiyang-W/RBGNetで入手できる。

As a fundamental problem in computer vision, 3D object detection is experiencing rapid growth. To extract the point-wise features from the irregularly and sparsely distributed points, previous methods usually take a feature grouping module to aggregate the point features to an object candidate. However, these methods have not yet leveraged the surface geometry of foreground objects to enhance grouping and 3D box generation. In this paper, we propose the RBGNet framework, a voting-based 3D detector for accurate 3D object detection from point clouds. In order to learn better representations of object shape to enhance cluster features for predicting 3D boxes, we propose a ray-based feature grouping module, which aggregates the point-wise features on object surfaces using a group of determined rays uniformly emitted from cluster centers. Considering the fact that foreground points are more meaningful for box estimation, we design a novel foreground biased sampling strategy in downsample process to sample more points on object surfaces and further boost the detection performance. Our model achieves state-of-the-art 3D detection performance on ScanNet V2 and SUN RGB-D with remarkable performance gains. Code will be available at https://github.com/Haiyang-W/RBGNet.
翻訳日:2022-04-06 14:08:19 公開日:2022-04-05
# 任意スケール画像合成

Arbitrary-Scale Image Synthesis ( http://arxiv.org/abs/2204.02273v1 )

ライセンス: Link先を確認
Evangelos Ntavelis, Mohamad Shahbazi, Iason Kastanis, Radu Timofte, Martin Danelljan, Luc Van Gool(参考訳) 位置エンコーディングにより、1つの敵ネットワークをトレーニングし、異なるスケールの画像を生成することができる。 しかしながら、これらのアプローチは、離散スケールのセットに限られるか、モデルが明示的に訓練されていないスケールで、優れた知覚品質を維持するのに苦労する。 生成器の層変換に不変なスケール一貫性のある位置符号化の設計を提案する。 これにより、トレーニング中に見えないスケールでも任意のスケールの画像を生成することができる。 さらに,新しいスケール間拡張をパイプラインに組み込んで部分生成トレーニングを行い,任意のスケールで一貫した画像の合成を容易にする。 最後に、画像合成によく用いられる様々なデータセットに対して、連続したスケールの競合結果を示す。

Positional encodings have enabled recent works to train a single adversarial network that can generate images of different scales. However, these approaches are either limited to a set of discrete scales or struggle to maintain good perceptual quality at the scales for which the model is not trained explicitly. We propose the design of scale-consistent positional encodings invariant to our generator's layers transformations. This enables the generation of arbitrary-scale images even at scales unseen during training. Moreover, we incorporate novel inter-scale augmentations into our pipeline and partial generation training to facilitate the synthesis of consistent images at arbitrary scales. Lastly, we show competitive results for a continuum of scales on various commonly used datasets for image synthesis.
翻訳日:2022-04-06 14:07:59 公開日:2022-04-05
# 大規模応用のためのビジュアルジオローカライズ再考

Rethinking Visual Geo-localization for Large-Scale Applications ( http://arxiv.org/abs/2204.02287v1 )

ライセンス: Link先を確認
Gabriele Berton, Carlo Masone, Barbara Caputo(参考訳) ビジュアルジオローカライズ(vg)は、既知の場所の画像の大規模なデータベースと比較することにより、所定の写真が撮影された場所を推定するタスクである。 既存の技術が現実世界のvgアプリケーションでどのように機能するかを調べるために、私たちはサンフランシスコのextreme largeを構築しました。これは、都市全体をカバーする新しいデータセットで、以前の最大のビジュアルジオローカライズ用データセットの30倍の大きさの、幅広い挑戦的なケースを提供します。 そのため、我々はCosPlaceと呼ばれる新しい高度にスケーラブルなトレーニングテクニックを設計し、一般的なコントラスト学習で必要とされる高価なマイニングを避けるために、トレーニングを分類問題にしている。 幅広いデータセットで最先端のパフォーマンスを実現し、CosPlaceがドメイン変更に対して堅牢であることに気付きました。 さらに,従来の最先端技術と比較して,CosPlaceでは,列車時のGPUメモリの約80%削減が必要であり,より少ない8倍のディスクリプタで良好な結果が得られ,都市全体のビジュアルジオローカライゼーションが実現された。 データセット、コード、トレーニングされたモデルは、https://github.com/gmberton/cosplaceで研究目的に利用できる。

Visual Geo-localization (VG) is the task of estimating the position where a given photo was taken by comparing it with a large database of images of known locations. To investigate how existing techniques would perform on a real-world city-wide VG application, we build San Francisco eXtra Large, a new dataset covering a whole city and providing a wide range of challenging cases, with a size 30x bigger than the previous largest dataset for visual geo-localization. We find that current methods fail to scale to such large datasets, therefore we design a new highly scalable training technique, called CosPlace, which casts the training as a classification problem avoiding the expensive mining needed by the commonly used contrastive learning. We achieve state-of-the-art performance on a wide range of datasets and find that CosPlace is robust to heavy domain changes. Moreover, we show that, compared to the previous state-of-the-art, CosPlace requires roughly 80% less GPU memory at train time, and it achieves better results with 8x smaller descriptors, paving the way for city-wide real-world visual geo-localization. Dataset, code and trained models are available for research purposes at https://github.com/gmberton/CosPlace.
翻訳日:2022-04-06 14:07:50 公開日:2022-04-05
# 単眼深度推定のための空間注意残留精細モジュールを用いたピラミッド周波数ネットワーク

Pyramid Frequency Network with Spatial Attention Residual Refinement Module for Monocular Depth Estimation ( http://arxiv.org/abs/2204.02386v1 )

ライセンス: Link先を確認
Zhengyang Lu and Ying Chen(参考訳) 深度推定に対するディープラーニングベースのアプローチは急速に進歩しており、既存の手法よりも優れたパフォーマンスを提供している。 実世界のシナリオの深さを推定するために、深さ推定モデルは様々な雑音環境のロバスト性を必要とする。 本研究では,既存の深層学習手法の弱強靭性に対処するため,空間注意残留精細モジュール(sarrm)を備えたピラミッド周波数ネットワーク(pfn)を提案する。 正確な詳細で深度マップを再構築するために、SARRMはぼかし深度を洗練させるために注意機構を備えた残差融合法を構築した。 周波数分割戦略を設計し、周波数ピラミッドネットワークを開発し、複数の周波数帯域の特徴を抽出する。 周波数戦略により、PFNは、Make3D、KITTI depth、NYUv2データセットの屋内および屋外の両方で、最先端の手法よりも優れた視覚的精度を達成する。 ノイズの多いNYUv2データセットに関する追加実験では、PFNは高ノイズシーンにおける既存のディープラーニング手法よりも信頼性が高いことが示されている。

Deep-learning-based approaches to depth estimation are rapidly advancing, offering superior performance over existing methods. To estimate the depth in real-world scenarios, depth estimation models require the robustness of various noise environments. In this work, a Pyramid Frequency Network(PFN) with Spatial Attention Residual Refinement Module(SARRM) is proposed to deal with the weak robustness of existing deep-learning methods. To reconstruct depth maps with accurate details, the SARRM constructs a residual fusion method with an attention mechanism to refine the blur depth. The frequency division strategy is designed, and the frequency pyramid network is developed to extract features from multiple frequency bands. With the frequency strategy, PFN achieves better visual accuracy than state-of-the-art methods in both indoor and outdoor scenes on Make3D, KITTI depth, and NYUv2 datasets. Additional experiments on the noisy NYUv2 dataset demonstrate that PFN is more reliable than existing deep-learning methods in high-noise scenes.
翻訳日:2022-04-06 14:07:27 公開日:2022-04-05
# 多言語Dense Retrieval Modelの学習実践に向けて

Towards Best Practices for Training Multilingual Dense Retrieval Models ( http://arxiv.org/abs/2204.02363v1 )

ライセンス: Link先を確認
Xinyu Zhang, Kelechi Ogueji, Xueguang Ma, Jimmy Lin(参考訳) トランスベースのバイエンコーダ設計を用いた高密度検索モデルが活発に研究されている。 本研究では,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。 近年の多言語変換器を用いた研究は,多言語間一般化能力の強いことを示したが,未解決の課題が数多く残っている。 本研究は,多言語高密度検索モデルを学習するための"ベストプラクティス"ガイドとして,多言語トランスフォーマーが利用できるが,関連判断が興味ある言語では利用できないこと,モデルとトレーニングデータの両方が利用できること,トレーニングデータがモデルだけでなく利用できること,の3つのシナリオに分類した。 これらのシナリオを考慮すると、多段微調整の役割、様々な条件下での言語間伝達の強さ、言語外データの有用性、多言語対単言語トランスフォーマーの利点をよりよく理解できる。 私たちの推奨事項は、検索アプリケーションを構築する実践者、特に低リソース言語のためのガイドを提供します。

Dense retrieval models using a transformer-based bi-encoder design have emerged as an active area of research. In this work, we focus on the task of monolingual retrieval in a variety of typologically diverse languages using one such design. Although recent work with multilingual transformers demonstrates that they exhibit strong cross-lingual generalization capabilities, there remain many open research questions, which we tackle here. Our study is organized as a "best practices" guide for training multilingual dense retrieval models, broken down into three main scenarios: where a multilingual transformer is available, but relevance judgments are not available in the language of interest; where both models and training data are available; and, where training data are available not but models. In considering these scenarios, we gain a better understanding of the role of multi-stage fine-tuning, the strength of cross-lingual transfer under various conditions, the usefulness of out-of-language data, and the advantages of multilingual vs. monolingual transformers. Our recommendations offer a guide for practitioners building search applications, particularly for low-resource languages, and while our work leaves open a number of research questions, we provide a solid foundation for future work.
翻訳日:2022-04-06 14:04:58 公開日:2022-04-05
# パーソナライズナビゲーションのためのオンラインno-regretモデルに基づくmeta rl

Online No-regret Model-Based Meta RL for Personalized Navigation ( http://arxiv.org/abs/2204.01925v1 )

ライセンス: Link先を確認
Yuda Song, Ye Yuan, Wen Sun, Kris Kitani(参考訳) 車両ナビゲーションシステムと車両のドライバとのインタラクションはモデルベースの強化学習問題として定式化することができ、ナビゲーションシステム(エージェント)はドライバの特性(環境力学)に迅速に適応し、ターンバイターン運転指示の最良のシーケンスを提供する必要がある。 現代のほとんどのナビゲーションシステム(例えば、Googleマップ、Waze、Garmin)は、幅広い運転スタイル(例えば、車両の種類、反応時間、専門知識のレベル)で、個々のユーザーに対する低レベルなインタラクションをパーソナライズするために設計されていない。 様々な運転スタイルに適応したパーソナライズドナビゲーションシステムの開発に向けて,現在のユーザのダイナミクスに迅速に適合するオンラインno-regretモデルに基づくrl方式を提案する。 ユーザがそれと対話すると、ナビゲーションシステムは素早くユーザ固有のモデルを構築し、そこからモデル予測制御を使用してナビゲーションコマンドを最適化する。 このようにポリシーをパーソナライズすることで、ユーザのダイナミクスにマッチする運転指示を適切に行うことができる。 理論的解析により,本手法は非回帰アルゴリズムであり,無依存設定における収束率を提供する。 運転シミュレータを用いて60時間以上の実世界のユーザデータを用いた実験分析を行い,衝突回数を60%以上削減できることを示した。

The interaction between a vehicle navigation system and the driver of the vehicle can be formulated as a model-based reinforcement learning problem, where the navigation systems (agent) must quickly adapt to the characteristics of the driver (environmental dynamics) to provide the best sequence of turn-by-turn driving instructions. Most modern day navigation systems (e.g, Google maps, Waze, Garmin) are not designed to personalize their low-level interactions for individual users across a wide range of driving styles (e.g., vehicle type, reaction time, level of expertise). Towards the development of personalized navigation systems that adapt to a variety of driving styles, we propose an online no-regret model-based RL method that quickly conforms to the dynamics of the current user. As the user interacts with it, the navigation system quickly builds a user-specific model, from which navigation commands are optimized using model predictive control. By personalizing the policy in this way, our method is able to give well-timed driving instructions that match the user's dynamics. Our theoretical analysis shows that our method is a no-regret algorithm and we provide the convergence rate in the agnostic setting. Our empirical analysis with 60+ hours of real-world user data using a driving simulator shows that our method can reduce the number of collisions by more than 60%.
翻訳日:2022-04-06 14:04:12 公開日:2022-04-05
# MAIAC AODデータを用いたイラン・テヘランのPM2.5高分解能マッピングのための機械学習に基づくフレームワーク

A machine learning-based framework for high resolution mapping of PM2.5 in Tehran, Iran, using MAIAC AOD data ( http://arxiv.org/abs/2204.02093v1 )

ライセンス: Link先を確認
Hossein Bagheri(参考訳) 本稿では,高分解能衛星AOD(MAIAC)によるPM2.5濃度の高分解能マッピングの可能性を検討する。 この目的のために、データ前処理、回帰モデリング、モデル展開という3つの主要なステージを含むフレームワークが提案された。 このフレームワークの出力は、MAIAC AOD検索と気象データからPM2.5を予測するために訓練された機械学習モデルである。 モデル実験の結果,PM2.5の高分解能マッピングのためのフレームワークの開発効率と性能が明らかにされたが,市中で行われた以前の調査では実現されなかった。 そこで本研究では,テヘランのpm2.5の1km分解能マッピングを0.74,rmseが9.0 mg/m3より優れていることを初めて確認した。 キーワード:MAIAC、MODIS、AOD、機械学習、ディープラーニング、PM2.5、回帰

This paper investigates the possibility of high resolution mapping of PM2.5 concentration over Tehran city using high resolution satellite AOD (MAIAC) retrievals. For this purpose, a framework including three main stages, data preprocessing; regression modeling; and model deployment was proposed. The output of the framework was a machine learning model trained to predict PM2.5 from MAIAC AOD retrievals and meteorological data. The results of model testing revealed the efficiency and capability of the developed framework for high resolution mapping of PM2.5, which was not realized in former investigations performed over the city. Thus, this study, for the first time, realized daily, 1 km resolution mapping of PM2.5 in Tehran with R2 around 0.74 and RMSE better than 9.0 mg/m3. Keywords: MAIAC; MODIS; AOD; Machine learning; Deep learning; PM2.5; Regression
翻訳日:2022-04-06 14:03:49 公開日:2022-04-05
# ジャンプスタート強化学習

Jump-Start Reinforcement Learning ( http://arxiv.org/abs/2204.02372v1 )

ライセンス: Link先を確認
Ikechukwu Uchendu, Ted Xiao, Yao Lu, Banghua Zhu, Mengyuan Yan, Jos\'ephine Simon, Matthew Bennice, Chuyuan Fu, Cong Ma, Jiantao Jiao, Sergey Levine, Karol Hausman(参考訳) 強化学習(RL)は、試行錯誤を通じてエージェントの動作を継続的に改善するための理論的枠組みを提供する。 しかし、特に探索課題のあるタスクにおいて、スクラッチから効率的にポリシーを学ぶことは非常に困難である。 このような設定では、既存のポリシーやオフラインデータ、デモでRLを初期化するのが望ましいかもしれない。 しかし、そのような初期化を RL で行うことは、特に値ベースの手法では、しばしばうまくいかない。 本稿では、オフラインデータ、デモ、または既存のポリシーを使用してrlポリシーを初期化し、任意のrlアプローチと互換性のあるメタアルゴリズムを提案する。 特に,課題解決のための2つの方針(ガイド-ポリシーと探索-ポリシー)を用いるアルゴリズムである jump-start reinforcement learning (jsrl) を提案する。 ガイド・ポリシーを用いて探索・ポリシーの開始状態のカリキュラムを形成することにより,シミュレーションロボットタスク群の性能を効率的に向上させることができる。 実験により,JSRL が既存の模倣および強化学習アルゴリズム,特に小型データシステムにおいて著しく優れていることを示す。 さらに、JSRLのサンプル複雑性の上限を提供し、ガイドポリシーの助けを借りて、非最適化探索手法のサンプル複雑性を地平線から多項式へ指数的に改善できることを示す。

Reinforcement learning (RL) provides a theoretical framework for continuously improving an agent's behavior via trial and error. However, efficiently learning policies from scratch can be very difficult, particularly for tasks with exploration challenges. In such settings, it might be desirable to initialize RL with an existing policy, offline data, or demonstrations. However, naively performing such initialization in RL often works poorly, especially for value-based methods. In this paper, we present a meta algorithm that can use offline data, demonstrations, or a pre-existing policy to initialize an RL policy, and is compatible with any RL approach. In particular, we propose Jump-Start Reinforcement Learning (JSRL), an algorithm that employs two policies to solve tasks: a guide-policy, and an exploration-policy. By using the guide-policy to form a curriculum of starting states for the exploration-policy, we are able to efficiently improve performance on a set of simulated robotic tasks. We show via experiments that JSRL is able to significantly outperform existing imitation and reinforcement learning algorithms, particularly in the small-data regime. In addition, we provide an upper bound on the sample complexity of JSRL and show that with the help of a guide-policy, one can improve the sample complexity for non-optimism exploration methods from exponential in horizon to polynomial.
翻訳日:2022-04-06 14:03:33 公開日:2022-04-05
# embodied spiking neural cellular automataによるモジュール型ソフトロボットの集団制御

Collective control of modular soft robots via embodied Spiking Neural Cellular Automata ( http://arxiv.org/abs/2204.02099v1 )

ライセンス: Link先を確認
Giorgia Nadizar, Eric Medvet, Stefano Nichele, Sidney Pontes-Filho(参考訳) ボクセルベースソフトロボット(Voxel-based Soft Robots、VSR)は、いくつかの変形可能な立方体、すなわちボクセルからなるモジュラーソフトロボットの一種である。 したがって、各VSRは単純なエージェント、すなわちボクセルの集まりであり、VSR全体の挙動を引き起こすために協力する必要がある。 このパラダイムでは、集団知性はコーディネーションの出現を可能にする上で重要な役割を担っており、それぞれのボクセルは独立して制御され、局所的な感覚情報のみを、その直接隣人(分布的または集団的制御)から受け継がれた知識とともに活用する。 本研究では,ニューラルセルラーオートマタ(NCA)の影響を受け,バイオインスパイアされたスパイキングニューラルネットワーク(SNCA)をベースとした,新しい集団制御方式を提案する。 我々はSNCAの様々な変種を実験し、それらが現在最先端の分散制御器と競合し、移動作業を行う。 また,vsrの物理的実用性を決定する要因となりうる,予期せぬ環境変化への適応性について,基準値に対して有意な改善が見られた。

Voxel-based Soft Robots (VSRs) are a form of modular soft robots, composed of several deformable cubes, i.e., voxels. Each VSR is thus an ensemble of simple agents, namely the voxels, which must cooperate to give rise to the overall VSR behavior. Within this paradigm, collective intelligence plays a key role in enabling the emerge of coordination, as each voxel is independently controlled, exploiting only the local sensory information together with some knowledge passed from its direct neighbors (distributed or collective control). In this work, we propose a novel form of collective control, influenced by Neural Cellular Automata (NCA) and based on the bio-inspired Spiking Neural Networks: the embodied Spiking NCA (SNCA). We experiment with different variants of SNCA, and find them to be competitive with the state-of-the-art distributed controllers for the task of locomotion. In addition, our findings show significant improvement with respect to the baseline in terms of adaptability to unforeseen environmental changes, which could be a determining factor for physical practicability of VSRs.
翻訳日:2022-04-06 14:01:17 公開日:2022-04-05
# zetar: 戦略的および適応的コンプライアンスポリシーのモデリングと計算設計

ZETAR: Modeling and Computational Design of Strategic and Adaptive Compliance Policies ( http://arxiv.org/abs/2204.02294v1 )

ライセンス: Link先を確認
Linan Huang and Quanyan Zhu(参考訳) セキュリティコンプライアンス管理は、インサイダーの脅威を軽減する上で重要な役割を果たす。 インセンティブデザインは、従業員のインセンティブをディフェンダーのセキュリティ目標に合わせることによって、コンプライアンスを達成するための積極的な非侵襲的なアプローチである。 適切な行動を誘発するインサイダーのインセンティブを制御することは、正確には知られていないし、直接的に制御できないため、難しい。 そこで我々は,ゼロトラスト監査・レコメンデーションフレームワークであるzetarを開発し,インサイダーのインセンティブをモデル化するための定量的アプローチと,コンプライアンスを改善するためにカスタマイズされた戦略的レコメンデーションポリシを提供する。 予備と双対の凸プログラムを定式化し,最適な推奨方針を計算する。 信頼とコンプライアンスを理解するための理論的基盤を作り、完全な信頼に値する(ct)勧告の基本的な限界、コンプライアンスの等価性の原則、戦略的情報開示など、セキュリティの洞察を導きます。 本研究は、従業員のインセンティブが不明な場合に、CTポリシーを効率的に学習するための有限ステップアルゴリズムを提案する。 最後に,設計をコラボレートしたケーススタディと,リスク態度の異なるインサイダーのコンプライアンスを実現するための形式的な方法を紹介する。 その結果、最適な推奨方針はリスク回避インサイダーのコンプライアンスを著しく向上させることが示唆された。 さらに、CTレコメンデーションポリシーはインサイダーの満足度を促進する。

Security compliance management plays an important role in mitigating insider threats. Incentive design is a proactive and non-invasive approach to achieving compliance by aligning an employee's incentive with the defender's security objective. Controlling insiders' incentives to elicit proper actions is challenging because they are neither precisely known nor directly controllable. To this end, we develop ZETAR, a zero-trust audit and recommendation framework, to provide a quantitative approach to model incentives of the insiders and design customized and strategic recommendation policies to improve their compliance. We formulate primal and dual convex programs to compute the optimal bespoke recommendation policies. We create a theoretical underpinning for understanding trust and compliance, and it leads to security insights, including fundamental limits of Completely Trustworthy (CT) recommendation, the principle of compliance equivalency, and strategic information disclosure. This work proposes finite-step algorithms to efficiently learn the CT policy set when employees' incentives are unknown. Finally, we present a case study to corroborate the design and illustrate a formal way to achieve compliance for insiders with different risk attitudes. Our results show that the optimal recommendation policy leads to a significant improvement in compliance for risk-averse insiders. Moreover, CT recommendation policies promote insiders' satisfaction.
翻訳日:2022-04-06 14:00:32 公開日:2022-04-05
# 低リソース自動音声認識のためのアンペア音声とテキストを用いた相補的合同学習手法

A Complementary Joint Training Approach Using Unpaired Speech and Text for Low-Resource Automatic Speech Recognition ( http://arxiv.org/abs/2204.02023v1 )

ライセンス: Link先を確認
Ye-Qian Du, Jie Zhang, Qiu-Shi Zhu, Li-Rong Dai, Ming-Hui Wu, Xin Fang, Zhou-Wang Yang(参考訳) マルチタスクトレーニングや言語モデルに依存した事前学習を伴うハイブリッドモデルの設計に関与できる低リソース自動音声認識~(ASR)において、未ペアデータの有用性が示されている。 本研究では,非ペアデータを利用して一般シーケンスからシーケンスへのモデルを学習する。 モデルトレーニングの前に対応する欠落部分を生成してデータペアの形式で、ペアなしの音声とテキストを使用する。 音声・擬似ラベルペアと合成音声テキストペアの音響的特徴と言語的特徴の相補性から着想を得て,2つのデータペアに代えてモデルを訓練する補足共同学習法(CJT)を提案する。 さらに, 擬似ラベルのラベルマスキングと合成音声の勾配制限により, cjt++ と呼ばれる実データからの逸脱にさらに対処できることを示す。 実験結果から,提案する基本的CJTは,音声のみの学習と比較してクリーン/他のテストセットの性能向上を実現し,CJT++の再学習によりさらなる性能向上が得られた。 提案手法がwav2vec2.0モデルと同一のモデルサイズとビームサイズ、特に極端に低リソースの場合よりも優れていることも明らかである。

Unpaired data has shown to be beneficial for low-resource automatic speech recognition~(ASR), which can be involved in the design of hybrid models with multi-task training or language model dependent pre-training. In this work, we leverage unpaired data to train a general sequence-to-sequence model. Unpaired speech and text are used in the form of data pairs by generating the corresponding missing parts in prior to model training. Inspired by the complementarity of speech-PseudoLabel pair and SynthesizedAudio-text pair in both acoustic features and linguistic features, we propose a complementary joint training~(CJT) method that trains a model alternatively with two data pairs. Furthermore, label masking for pseudo-labels and gradient restriction for synthesized audio are proposed to further cope with the deviations from real data, termed as CJT++. Experimental results show that compared to speech-only training, the proposed basic CJT achieves great performance improvements on clean/other test sets, and the CJT++ re-training yields further performance enhancements. It is also apparent that the proposed method outperforms the wav2vec2.0 model with the same model size and beam size, particularly in extreme low-resource cases.
翻訳日:2022-04-06 14:00:09 公開日:2022-04-05
# (参考訳) 人間の把持余裕から一般化したデクスタース操作の学習

Learning Generalizable Dexterous Manipulation from Human Grasp Affordance ( http://arxiv.org/abs/2204.02320v1 )

ライセンス: CC0 1.0
Yueh-Hua Wu, Jiashun Wang, Xiaolong Wang(参考訳) マルチフィンガーハンドによるデクスタース操作は、ロボット工学における最も難しい問題の1つだ。 近年の模倣学習の進歩は、強化学習と比較してサンプル効率を大幅に改善しているが、専門家による限られた実演を前提として、学習方針は新規な対象の操作を一般化することはほとんどできない。 本稿では,人間の把握能力モデルから生成した,多様な3Dオブジェクトをカテゴリに収めた大規模デモンストレーションを用いて,デクスタスな操作を学習する。 これはポリシーを同じカテゴリ内の新しいオブジェクトインスタンスに一般化する。 そこで本研究では,幾何学表現学習目標と共同で,新しい模倣学習目標を提案する。 シミュレーションで多様なオブジェクトを配置する実験を行い,新しいオブジェクトを操作する際に,ベースラインよりも大きなマージンでベースラインを上回ることを示した。 また,操作における3次元オブジェクト表現学習の重要性も強調する。 プロジェクトWebサイト(https://kristery.github.io/ILAD/)には、ビデオ、コード、追加情報が含まれています。

Dexterous manipulation with a multi-finger hand is one of the most challenging problems in robotics. While recent progress in imitation learning has largely improved the sample efficiency compared to Reinforcement Learning, the learned policy can hardly generalize to manipulate novel objects, given limited expert demonstrations. In this paper, we propose to learn dexterous manipulation using large-scale demonstrations with diverse 3D objects in a category, which are generated from a human grasp affordance model. This generalizes the policy to novel object instances within the same category. To train the policy, we propose a novel imitation learning objective jointly with a geometric representation learning objective using our demonstrations. By experimenting with relocating diverse objects in simulation, we show that our approach outperforms baselines with a large margin when manipulating novel objects. We also ablate the importance on 3D object representation learning for manipulation. We include videos, code, and additional information on the project website - https://kristery.github.io/ILAD/ .
翻訳日:2022-04-06 13:57:27 公開日:2022-04-05
# メディアは新型コロナウイルス(covid-19)パンデミックについてどう語るのか? イタリアのオンライン新聞におけるメタファ的テーマクラスタリング

How do media talk about the Covid-19 pandemic? Metaphorical thematic clustering in Italian online newspapers ( http://arxiv.org/abs/2204.02106v1 )

ライセンス: Link先を確認
Lucia Busso, Ottavia Tordini(参考訳) この貢献は、イタリアのオンライン新聞において、covid-19危機の最初の数ヶ月の比定的言語に関する研究である。 特に,2020年春のパンデミックに対する政府対応の第1段階と第2段階において,ジャーナリストが使用する話題とメタファー言語を対比する。 この分析は、2020年2月24日から6月3日までに収集されたジャーナリストコーパスで行われる。 この分析は、構造トピックモデリング(Roberts et al. 2016)、概念メタファー理論(Lakoff & Johnson, 1980)、定性コーパスに基づく比喩分析(Charteris-Black, 2004)を組み合わせた定量的および定性的なアプローチの両方を用いて行われる。 フェーズ1とフェーズ2で議論されるトピックには大きな変化があり、トピック固有のメタファで興味深い重複が見られる。 質的コーパス分析を用いて,経済と社会の話題のメタファ的コロケーションを議論する,より詳細なケーススタディを提案する。

The contribution presents a study on figurative language of the first months of the COVID-19 crisis in Italian online newspapers. Particularly, we contrast topics and metaphorical language used by journalists in the first and second phase of the government response to the pandemic in Spring 2020. The analysis is conducted on a journalistic corpus collected between February 24th and June 3rd, 2020. The analysis is performed using both quantitative and qualitative approaches, combining Structural Topic Modelling (Roberts et al. 2016), Conceptual Metaphor Theory (Lakoff & Johnson, 1980), and qualitative-corpus based metaphor analysis (Charteris-Black, 2004). We find a significant shift in topics discussed across Phase 1 and Phase 2, and interesting overlaps in topic-specific metaphors. Using qualitative corpus analysis, we present a more in-depth case study discussing metaphorical collocations of the topics of Economy and Society
翻訳日:2022-04-06 13:38:44 公開日:2022-04-05
# Hinghlishニュース配信におけるアンカーの意見

Detecting Anchors' Opinion in Hinghlish News Delivery ( http://arxiv.org/abs/2204.02155v1 )

ライセンス: Link先を確認
Siddharth Sadhwani, Nishant Grover, Md Akhtar, Tanmoy Chakraborty(参考訳) 人間は自分の意見を表現し、他人の意見を欲しがる。 さまざまなソースからの意見のマイニングと検出は個人、組織、さらには政府にも有益である。 そのような組織のひとつがニュースメディアであり、一般的な規範は彼らの側からの意見を示すものではない。 アンカーはデジタルメディアの顔であり、意見が合わないようにする必要がある。 しかし、時には受け入れられた規範から逸脱し、その意見は意図的または意図的でないニュースに挿入されることがある。 これは主に議論において、アンカーが自発的である必要があるため、意見を加えるのに脆弱であると考えられる。 このような誤解の結果は、バイアスのあるニュースや、最悪の場合特定の議題を支持することにつながるかもしれない。 そこで本研究では,議論におけるアンカーの意見検出の新たな課題を提案する。 我々は、コードミキシングされたニュース討論をキュレートし、ODINデータセットを開発する。 データセットにおける合計2054人のアンカーの発声は、意見や無意見としてマークされている。 最後に、アンカーの発話を分類し、最適な重み付きF1スコア0.703を得るための対話型アテンションベースのフレームワークであるDetONADeを提案する。 詳細な分析と評価は、データセットと予測に多くの興味深いパターンを示している。

Humans like to express their opinions and crave the opinions of others. Mining and detecting opinions from various sources are beneficial to individuals, organisations, and even governments. One such organisation is news media, where a general norm is not to showcase opinions from their side. Anchors are the face of the digital media, and it is required for them not to be opinionated. However, at times, they diverge from the accepted norm and insert their opinions into otherwise straightforward news reports, either purposefully or unintentionally. This is primarily seen in debates as it requires the anchors to be spontaneous, thus making them vulnerable to add their opinions. The consequence of such mishappening might lead to biased news or even supporting a certain agenda at the worst. To this end, we propose a novel task of anchors' opinion detection in debates. We curate code-mixed news debates and develop the ODIN dataset. A total of 2054 anchors' utterances in the dataset are marked as opinionated or non-opinionated. Lastly, we propose DetONADe, an interactive attention-based framework for classifying anchors' utterances and obtain the best weighted-F1 score of 0.703. A thorough analysis and evaluation show many interesting patterns in the dataset and predictions.
翻訳日:2022-04-06 13:38:27 公開日:2022-04-05
# EntSUM:エンティティ中心の要約のためのデータセット

EntSUM: A Data Set for Entity-Centric Summarization ( http://arxiv.org/abs/2204.02213v1 )

ライセンス: Link先を確認
Mounica Maddela, Mayank Kulkarni and Daniel Preotiuc-Pietro(参考訳) controllable summarizationは、ドキュメントの単一の汎用的な要約を構築する標準の要約設定とは対照的に、ユーザによって特定されたアスペクトと好みを考慮した要約を提供することを目的としている。 本稿では,制御の側面として名前付きエンティティに注目した,制御可能な要約のための人間アノテーション付きデータセットentsumを提案する。 我々は,エンティティ中心の要約の課題を動機付けるために,広範囲にわたる定量的分析を行い,制御可能な要約方法がエンティティ中心の要約を生成できないことを示す。 我々は,データ集合に対して大幅に優れた結果を得るための,最先端の要約手法の拡張を提案する。 本研究の結果は,本課題と提案したデータセットの難易度を示すものである。

Controllable summarization aims to provide summaries that take into account user-specified aspects and preferences to better assist them with their information need, as opposed to the standard summarization setup which build a single generic summary of a document. We introduce a human-annotated data set EntSUM for controllable summarization with a focus on named entities as the aspects to control. We conduct an extensive quantitative analysis to motivate the task of entity-centric summarization and show that existing methods for controllable summarization fail to generate entity-centric summaries. We propose extensions to state-of-the-art summarization approaches that achieve substantially better results on our data set. Our analysis and results show the challenging nature of this task and of the proposed data set.
翻訳日:2022-04-06 13:38:09 公開日:2022-04-05
# ELECRec: シークエンシャルレコメンドを差別者として訓練する

ELECRec: Training Sequential Recommenders as Discriminators ( http://arxiv.org/abs/2204.02011v1 )

ライセンス: Link先を確認
Yongjun Chen and Jia Li and Caiming Xiong(参考訳) シーケンシャル・レコメンデーションは、しばしば生成タスク、すなわち、シーケンシャル・エンコーダをトレーニングし、歴史的に相互作用した項目に基づいて、ユーザの関心事の次の項目を生成する。 有病率にもかかわらず、これらの方法は通常、より有意義なサンプルを効果的に訓練する必要がある。 本研究では,ジェネレータではなく,識別器としてシーケンシャルレコメンデータを訓練することを提案する。 次の項目を予測する代わりに、サンプルされたアイテムが"本物の"ターゲットアイテムかどうかを識別するために判別器を訓練します。 発電機は補助モデルとして、識別器と共同で訓練され、次のアイテムを採取し、訓練後に廃棄される。 訓練された判別器は最終SRモデルと見なされ、モデル名と表される。 4つのデータセットを用いて実験を行い,提案手法の有効性と有効性を示した。

Sequential recommendation is often considered as a generative task, i.e., training a sequential encoder to generate the next item of a user's interests based on her historical interacted items. Despite their prevalence, these methods usually require training with more meaningful samples to be effective, which otherwise will lead to a poorly trained model. In this work, we propose to train the sequential recommenders as discriminators rather than generators. Instead of predicting the next item, our method trains a discriminator to distinguish if a sampled item is a 'real' target item or not. A generator, as an auxiliary model, is trained jointly with the discriminator to sample plausible alternative next items and will be thrown out after training. The trained discriminator is considered as the final SR model and denoted as \modelname. Experiments conducted on four datasets demonstrate the effectiveness and efficiency of the proposed approach.
翻訳日:2022-04-06 13:37:58 公開日:2022-04-05
# テキストスポッティング変換器

Text Spotting Transformers ( http://arxiv.org/abs/2204.01918v1 )

ライセンス: Link先を確認
Xiang Zhang, Yongwen Su, Subarna Tripathi, Zhuowen Tu(参考訳) 本稿では,テキストスポッティングトランスフォーマー(testr)について述べる。このフレームワークは,トランスフォーマーを用いた汎用的なエンドツーエンドテキストスポッティングフレームワークである。 TESTRは、テキストボックス制御点回帰と文字認識のための単一のエンコーダとデュアルデコーダの上に構築されている。 従来のバウンディングボックス表現の適応のために特別な注意が必要となる湾曲したテキストボックスを扱う場合、testrは特に効果的である。 我々は, bezier 曲線と polygon アノテーションの両方において,テキストインスタンスに適した制御点の標準表現を示す。 さらに,バウンディングボックス誘導ポリゴン検出 (box-to-polygon) プロセスの設計を行う。 曲線および任意形状のデータセットの実験は、提案したTESTRアルゴリズムの最先端性能を示す。

In this paper, we present TExt Spotting TRansformers (TESTR), a generic end-to-end text spotting framework using Transformers for text detection and recognition in the wild. TESTR builds upon a single encoder and dual decoders for the joint text-box control point regression and character recognition. Other than most existing literature, our method is free from Region-of-Interest operations and heuristics-driven post-processing procedures; TESTR is particularly effective when dealing with curved text-boxes where special cares are needed for the adaptation of the traditional bounding-box representations. We show our canonical representation of control points suitable for text instances in both Bezier curve and polygon annotations. In addition, we design a bounding-box guided polygon detection (box-to-polygon) process. Experiments on curved and arbitrarily shaped datasets demonstrate state-of-the-art performances of the proposed TESTR algorithm.
翻訳日:2022-04-06 13:35:20 公開日:2022-04-05
# コード共有VQGANによる高画質多元画像補完

High-Quality Pluralistic Image Completion via Code Shared VQGAN ( http://arxiv.org/abs/2204.01931v1 )

ライセンス: Link先を確認
Chuanxia Zheng and Guoxian Song and Tat-Jen Cham and Jianfei Cai and Dinh Phung and Linjie Luo(参考訳) PICNetは、画像補完タスクのための多種多様な結果の生成を開拓したが、$\mathcal{KL}$損失(多様性)と復元損失(品質)の間に慎重にバランスを取る必要があり、その結果、多様性と品質が制限された。 別途、igptベースのアーキテクチャは、ピクセルレベルのプリクラスタパレットから派生した離散空間内の分布を推測するために用いられてきたが、高品質な結果を直接生成することはできない。 本稿では,より高速な推定速度で,高品質と多様性を両立できる多元的画像補完のための新しいフレームワークを提案する。 私たちの設計の中核は、非常にコンパクトで表現力に富んだイメージ表現を離散的な潜在ドメインに導く、シンプルで効果的なコード共有メカニズムにあります。 表現のコンパクトさと豊かさにより、変換器のその後の展開が促進され、離散コード領域でマスク画像の合成と完成の方法が効果的に学習される。 変換器と利用可能な視覚領域によって得られたグローバルなコンテキストに基づいて、全てのトークンを同時にサンプリングすることが可能であり、これはiGPTベースの作業の一般的な自己回帰アプローチとは全く異なるものであり、100$\times$高速推論速度をもたらす。 実験により,セマンティックリッチな離散符号を効率的かつロバストに学習できることが示され,画像再構成の品質が向上した。 多様な画像補完フレームワークは、複数のベンチマークデータセット上で、定量的かつ質的に最先端の状態を著しく上回る。

PICNet pioneered the generation of multiple and diverse results for image completion task, but it required a careful balance between $\mathcal{KL}$ loss (diversity) and reconstruction loss (quality), resulting in a limited diversity and quality . Separately, iGPT-based architecture has been employed to infer distributions in a discrete space derived from a pixel-level pre-clustered palette, which however cannot generate high-quality results directly. In this work, we present a novel framework for pluralistic image completion that can achieve both high quality and diversity at much faster inference speed. The core of our design lies in a simple yet effective code sharing mechanism that leads to a very compact yet expressive image representation in a discrete latent domain. The compactness and the richness of the representation further facilitate the subsequent deployment of a transformer to effectively learn how to composite and complete a masked image at the discrete code domain. Based on the global context well-captured by the transformer and the available visual regions, we are able to sample all tokens simultaneously, which is completely different from the prevailing autoregressive approach of iGPT-based works, and leads to more than 100$\times$ faster inference speed. Experiments show that our framework is able to learn semantically-rich discrete codes efficiently and robustly, resulting in much better image reconstruction quality. Our diverse image completion framework significantly outperforms the state-of-the-art both quantitatively and qualitatively on multiple benchmark datasets.
翻訳日:2022-04-06 13:35:08 公開日:2022-04-05
# マルチスペクトル衛星画像のオンボードパノプティクス分割に向けて

Towards On-Board Panoptic Segmentation of Multispectral Satellite Images ( http://arxiv.org/abs/2204.01952v1 )

ライセンス: Link先を確認
Tharindu Fernando, Clinton Fookes, Harshala Gammulle, Simon Denman, Sridha Sridharan(参考訳) 低消費電力の組み込みコンピューティングデバイスやリモートセンシング機器の大幅な進歩により、地上のデータ処理に先立つ高価なデータ転送ステップを含む従来の衛星画像処理パイプラインは、キャプチャーデータのオンボード処理に置き換えられている。 このパラダイムシフトにより、クリティカルで時間に敏感な分析インテリジェンスを衛星自体にタイムリーに取得することができる。 しかし、現在、マルチスペクトル衛星画像のオンボード処理は、分類とセグメンテーションのタスクに限定されている。 本稿では、この処理を次の論理レベルにまで拡張し、マルチスペクトル衛星画像のオンボードパノプティクス分割のための軽量パイプラインを提案する。 パンオプティカルセグメンテーションは、農業用地からの収量の推定から複雑な軍事用途の知性まで、経済と環境に関する大きな洞察を提供する。 それでも、オンボードインテリジェンス抽出は、時間観測の損失と単一の画像サンプルから予測を生成する必要性のために、いくつかの課題を提起している。 この課題に対処するため,複数モードからのデータを活用してセグメンテーション精度を向上させるために,マルチモーダル・教師ネットワークを提案する。 また,このマルチモーダル教師ネットワークで学習した知識を,単一のフレーム入力のみを受け取り,オンボード環境に適した単モーダル学生に移すためのオンライン知識蒸留フレームワークを提案する。 オンボード処理設定を考慮したpatis multi-spectral panoptic segmentation datasetを用いた既存のパンオプティカルセグメンテーションモデルに対するアプローチのベンチマークを行った。 評価の結果,既存の最先端モデルと比較して精度が大幅に向上した。

With tremendous advancements in low-power embedded computing devices and remote sensing instruments, the traditional satellite image processing pipeline which includes an expensive data transfer step prior to processing data on the ground is being replaced by on-board processing of captured data. This paradigm shift enables critical and time-sensitive analytic intelligence to be acquired in a timely manner on-board the satellite itself. However, at present, the on-board processing of multi-spectral satellite images is limited to classification and segmentation tasks. Extending this processing to its next logical level, in this paper we propose a lightweight pipeline for on-board panoptic segmentation of multi-spectral satellite images. Panoptic segmentation offers major economic and environmental insights, ranging from yield estimation from agricultural lands to intelligence for complex military applications. Nevertheless, the on-board intelligence extraction raises several challenges due to the loss of temporal observations and the need to generate predictions from a single image sample. To address this challenge, we propose a multimodal teacher network based on a cross-modality attention-based fusion strategy to improve the segmentation accuracy by exploiting data from multiple modes. We also propose an online knowledge distillation framework to transfer the knowledge learned by this multi-modal teacher network to a uni-modal student which receives only a single frame input, and is more appropriate for an on-board environment. We benchmark our approach against existing state-of-the-art panoptic segmentation models using the PASTIS multi-spectral panoptic segmentation dataset considering an on-board processing setting. Our evaluations demonstrate a substantial increase in accuracy metrics compared to the existing state-of-the-art models.
翻訳日:2022-04-06 13:34:42 公開日:2022-04-05
# 長尾意味セグメンテーションにおける領域再バランス

Region Rebalance for Long-Tailed Semantic Segmentation ( http://arxiv.org/abs/2204.01969v1 )

ライセンス: Link先を確認
Jiequan Cui, Yuhui Yuan, Zhisheng Zhong, Zhuotao Tian, Han Hu, Stephen Lin, Jiaya Jia(参考訳) 本稿では,セマンティックセグメンテーションにおけるクラス不均衡の問題について検討する。 まず,この問題に対処する主な課題をピクセルリバランスによって調査し,特定する。 そして,本解析に基づいて,単純かつ効果的な領域再バランス方式を導出する。 提案手法では,同一クラスに属する画素特徴を領域特徴に分類し,訓練中に補助領域再バランスブランチを介して再バランス領域分類器を適用する。 本手法の柔軟性と有効性を検証するため,Deeplabv3+, OCRNet, Swin などのセマンティックセグメンテーション手法に領域再バランスモジュールを適用した。 我々の戦略はADE20KとCOCO-Stuffベンチマークで一貫した改善を実現している。 特に、提案された領域再均衡スキームでは、最先端のBEiTはADE20K val集合上のmIoUで+0.7%上昇する。

In this paper, we study the problem of class imbalance in semantic segmentation. We first investigate and identify the main challenges of addressing this issue through pixel rebalance. Then a simple and yet effective region rebalance scheme is derived based on our analysis. In our solution, pixel features belonging to the same class are grouped into region features, and a rebalanced region classifier is applied via an auxiliary region rebalance branch during training. To verify the flexibility and effectiveness of our method, we apply the region rebalance module into various semantic segmentation methods, such as Deeplabv3+, OCRNet, and Swin. Our strategy achieves consistent improvement on the challenging ADE20K and COCO-Stuff benchmark. In particular, with the proposed region rebalance scheme, state-of-the-art BEiT receives +0.7% gain in terms of mIoU on the ADE20K val set.
翻訳日:2022-04-06 13:34:17 公開日:2022-04-05
# ラベルなしビデオから順調に学習するビデオサルエント物体検出

Learning Video Salient Object Detection Progressively from Unlabeled Videos ( http://arxiv.org/abs/2204.02008v1 )

ライセンス: Link先を確認
Binwei Xu, Haoran Liang, Wentian Ni, Weihua Gong, Ronghua Liang, Peng Chen(参考訳) 近年、深層学習に基づくビデオサルエントオブジェクト検出(VSOD)は画期的な成果を上げているが、これらの手法は、高額な注釈付きアノテーション、弱いアノテーション、ピクセルワイドアノテーションの一部に頼っている。 本稿では,vsodとsod(image salient object detection)の類似性と差異に基づいて,ビデオアノテーションを使わずに連続的にsodオブジェクトを配置・分割するプログレッシブフレームワークによる新しいvsod法を提案する。 また,VSODのSODデータセットで学習した知識を効率的に活用するために,位置決め過程におけるSODの運動情報の欠如を補うために,ダイナミック・サリエンシを導入する。 具体的には,高度位置ラベルを生成し,隣接フレーム内の突出物体を追跡する時空間的位置ラベル生成アルゴリズムを提案する。 これらの位置ラベルに基づいて、ビデオサラエント物体位置決めのための光フロー分岐を導入した2ストリーム位置決めネットワークを示す。 提案手法はラベル付きビデオを必要としないが,davis,fbms,visal,vos,davsodの5つの公開ベンチマークによる実験結果から,提案手法が完全な教師付き手法と競合し,最先端の弱い教師付きメソッドよりも優れていることが分かる。

Recent deep learning-based video salient object detection (VSOD) has achieved some breakthrough, but these methods rely on expensive annotated videos with pixel-wise annotations, weak annotations, or part of the pixel-wise annotations. In this paper, based on the similarities and the differences between VSOD and image salient object detection (SOD), we propose a novel VSOD method via a progressive framework that locates and segments salient objects in sequence without utilizing any video annotation. To use the knowledge learned in the SOD dataset for VSOD efficiently, we introduce dynamic saliency to compensate for the lack of motion information of SOD during the locating process but retain the same fine segmenting process. Specifically, an algorithm for generating spatiotemporal location labels, which consists of generating high-saliency location labels and tracking salient objects in adjacent frames, is proposed. Based on these location labels, a two-stream locating network that introduces an optical flow branch for video salient object locating is presented. Although our method does not require labeled video at all, the experimental results on five public benchmarks of DAVIS, FBMS, ViSal, VOS, and DAVSOD demonstrate that our proposed method is competitive with fully supervised methods and outperforms the state-of-the-art weakly and unsupervised methods.
翻訳日:2022-04-06 13:34:03 公開日:2022-04-05
# 適応的特徴融合を用いた効率的なリアルタイム目標追跡アルゴリズム

An efficient real-time target tracking algorithm using adaptive feature fusion ( http://arxiv.org/abs/2204.02054v1 )

ライセンス: Link先を確認
Yanyan Liu, Changcheng Pan, Minglin Bie, and Jin Li(参考訳) 視覚に基づく目標追跡は、背景クラッタ、高速移動、照明変動、物体形状の変化、閉塞など、複数の要因の影響を受けやすい。 これらの要因は目標追跡タスクの追跡精度に影響を与える。 この問題に対処するために,低次元適応型特徴量融合に基づく効率的なリアルタイム目標追跡手法を提案し,高精度かつリアルタイムな目標追跡を同時に実現する。 まず、指向性勾配(HOG)特徴と色特徴のヒストグラムの適応融合を利用して追跡精度を向上させる。 第二に、畳み込み次元低減法は、HOG特徴と色特徴との融合に適用し、高次元融合による過度適合を低減する。 第3に、相対信頼度適応係数を抽出し、追跡精度を確保するために平均相関エネルギー推定法を用いる。 OTB100データセット上で提案手法を実験的に検証する。 9つの一般的な目標追跡アルゴリズムと比較して,提案アルゴリズムは追尾精度と追尾率が最も高い。 従来の Sum of Template と Pixel-wise LEarners (STAPLE) アルゴリズムと比較して,提案アルゴリズムは,それぞれ 0.023 と 0.019 の精度で高い成功率と精度が得られる。 実験の結果,提案アルゴリズムは50fpsのリアルタイム目標追跡に到達可能であることが示された。 提案手法は, 外観変形, 照明変化, 動きのぼやけ, 背景, 類似性, スケール変化, 閉塞など, 複雑な環境下でのリアルタイム目標追跡タスクに対して, より有望な方法である。

Visual-based target tracking is easily influenced by multiple factors, such as background clutter, targets fast-moving, illumination variation, object shape change, occlusion, etc. These factors influence the tracking accuracy of a target tracking task. To address this issue, an efficient real-time target tracking method based on a low-dimension adaptive feature fusion is proposed to allow us the simultaneous implementation of the high-accuracy and real-time target tracking. First, the adaptive fusion of a histogram of oriented gradient (HOG) feature and color feature is utilized to improve the tracking accuracy. Second, a convolution dimension reduction method applies to the fusion between the HOG feature and color feature to reduce the over-fitting caused by their high-dimension fusions. Third, an average correlation energy estimation method is used to extract the relative confidence adaptive coefficients to ensure tracking accuracy. We experimentally confirm the proposed method on an OTB100 data set. Compared with nine popular target tracking algorithms, the proposed algorithm gains the highest tracking accuracy and success tracking rate. Compared with the traditional Sum of Template and Pixel-wise LEarners (STAPLE) algorithm, the proposed algorithm can obtain a higher success rate and accuracy, improving by 0.023 and 0.019, respectively. The experimental results also demonstrate that the proposed algorithm can reach the real-time target tracking with 50 fps. The proposed method paves a more promising way for real-time target tracking tasks under a complex environment, such as appearance deformation, illumination change, motion blur, background, similarity, scale change, and occlusion.
翻訳日:2022-04-06 13:32:35 公開日:2022-04-05
# 誤り局在ネットワークを用いた半教師付き意味セグメンテーション

Semi-supervised Semantic Segmentation with Error Localization Network ( http://arxiv.org/abs/2204.02078v1 )

ライセンス: Link先を確認
Donghyeon Kwon and Suha Kwak(参考訳) 本稿では,訓練画像のごく一部のみがラベル付けされ,その他はラベル付けされていないと仮定した,意味セグメンテーションの半教師付き学習について検討する。 ラベル付き画像は通常、トレーニングに使用する擬似ラベルが割り当てられるが、偽ラベルの誤りに対する確認バイアスによる性能劣化のリスクが生じることが多い。 本稿では,この慢性的な偽ラベリング問題を解決する新しい手法を提案する。 本手法の核心は、画像とそのセグメント化予測を入力とし、擬似ラベルが誤っている可能性のある画素を識別する補助モジュールであるエラーローカライゼーションネットワーク(ELN)である。 elnは、トレーニング中にラベルノイズを無視して、不正確な擬似ラベルに対して堅牢な半教師付き学習を可能にし、自己学習やコントラスト学習と自然に統合することができる。 さらに,ELNのトレーニング中に,多種多様なセグメンテーションエラーをシミュレートしたELNの新しい学習戦略を導入し,その一般化を促進させる。 提案手法はpascal voc 2012とcityscapesで評価され,各評価環境で既存の手法を上回っている。

This paper studies semi-supervised learning of semantic segmentation, which assumes that only a small portion of training images are labeled and the others remain unlabeled. The unlabeled images are usually assigned pseudo labels to be used in training, which however often causes the risk of performance degradation due to the confirmation bias towards errors on the pseudo labels. We present a novel method that resolves this chronic issue of pseudo labeling. At the heart of our method lies error localization network (ELN), an auxiliary module that takes an image and its segmentation prediction as input and identifies pixels whose pseudo labels are likely to be wrong. ELN enables semi-supervised learning to be robust against inaccurate pseudo labels by disregarding label noises during training and can be naturally integrated with self-training and contrastive learning. Moreover, we introduce a new learning strategy for ELN that simulates plausible and diverse segmentation errors during training of ELN to enhance its generalization. Our method is evaluated on PASCAL VOC 2012 and Cityscapes, where it outperforms all existing methods in every evaluation setting.
翻訳日:2022-04-06 13:32:05 公開日:2022-04-05
# フェザー群集の鳥たち:ドメイン適応セグメンテーションのためのカテゴリー・ディバージェンスガイダンス

Birds of A Feather Flock Together: Category-Divergence Guidance for Domain Adaptive Segmentation ( http://arxiv.org/abs/2204.02111v1 )

ライセンス: Link先を確認
Bo Yuan, Danpei Zhao, Shuai Shao, Zehuan Yuan, Changhu Wang(参考訳) unsupervised domain adaptation(uda)は、ソースドメインからターゲットドメインへの特定のモデルの一般化能力を強化することを目的としている。 現在のUDAモデルは、ソースドメインとターゲットドメインとの間の機能の相違を最小限にして、ドメインシフトを軽減することに重点を置いている。 本研究では,クラス間分離・クラス内アグリゲーション(ISIA)機構を提案する。 同じカテゴリ間のドメイン間の一貫性と、さまざまなカテゴリ間の分化を促進する。 このように同一のカテゴリに属する特徴を並べて、使用可能なカテゴリを分離する。 各カテゴリの整合複雑性を計測することにより、適応重み付きインスタンスマッチング(AIM)戦略を設計し、インスタンスレベルの適応をさらに最適化する。 また,提案手法に基づいて,ドメイン間セマンティックセグメンテーションタスクのための階層的非教師付きドメイン適応フレームワークも立ち上げる。 本手法は,画像レベル,特徴レベル,カテゴリレベル,インスタンスレベルのアライメントを実行することにより,ソースドメインからターゲットドメインへのモデルのより強力な一般化性能を実現する。 GTA5 to Cityscapes と SynTHIA to Cityscapes の2つの典型的なドメイン間セマンティックセマンティックセマンティックセマンティクスタスクにおいて,本手法は最先端セマンティクスの精度を実現する。 また,パブリックなデータに基づく2つのクロスドメイン意味セグメンテーションデータセット,すなわち,リモートセンシングビルセグメンテーションと道路セグメンテーションを構築し,ドメイン適応セグメンテーションを行った。

Unsupervised domain adaptation (UDA) aims to enhance the generalization capability of a certain model from a source domain to a target domain. Present UDA models focus on alleviating the domain shift by minimizing the feature discrepancy between the source domain and the target domain but usually ignore the class confusion problem. In this work, we propose an Inter-class Separation and Intra-class Aggregation (ISIA) mechanism. It encourages the cross-domain representative consistency between the same categories and differentiation among diverse categories. In this way, the features belonging to the same categories are aligned together and the confusable categories are separated. By measuring the align complexity of each category, we design an Adaptive-weighted Instance Matching (AIM) strategy to further optimize the instance-level adaptation. Based on our proposed methods, we also raise a hierarchical unsupervised domain adaptation framework for cross-domain semantic segmentation task. Through performing the image-level, feature-level, category-level and instance-level alignment, our method achieves a stronger generalization performance of the model from the source domain to the target domain. In two typical cross-domain semantic segmentation tasks, i.e., GTA5 to Cityscapes and SYNTHIA to Cityscapes, our method achieves the state-of-the-art segmentation accuracy. We also build two cross-domain semantic segmentation datasets based on the publicly available data, i.e., remote sensing building segmentation and road segmentation, for domain adaptive segmentation.
翻訳日:2022-04-06 13:31:44 公開日:2022-04-05
# 検出器なし弱監視グループアクティビティ認識

Detector-Free Weakly Supervised Group Activity Recognition ( http://arxiv.org/abs/2204.02139v1 )

ライセンス: Link先を確認
Dongkeun Kim, Jinsung Lee, Minsu Cho, Suha Kwak(参考訳) グループ活動認識は、複数の人のビデオの中で、グループ全体として行われる活動を理解するタスクである。 このタスクの既存のモデルは、テスト中や市販のオブジェクト検出器に依存する場合でも、アクターの基底境界ボックスラベルを要求するという点で、しばしば非現実的です。 そこで本研究では,境界ボックスラベルや物体検出器に依存しないグループアクティビティ認識モデルを提案する。 本モデルでは,注意機構を利用してグループ活動の部分的コンテキストを局所化し符号化し,ビデオクリップを部分的コンテキスト埋め込みの集合として表現する。 埋め込みベクトルは、各部分的コンテキストの時間的進化を捉えながら、アクティビティのコンテキスト全体を反映する単一のグループ表現を形成するように集約される。 この手法は,Volleyball と NBA の2つのベンチマークにおいて,同じレベルの監督で訓練された技術だけでなく,より強力な監督に依存した既存モデルにも勝る,優れた性能を実現している。

Group activity recognition is the task of understanding the activity conducted by a group of people as a whole in a multi-person video. Existing models for this task are often impractical in that they demand ground-truth bounding box labels of actors even in testing or rely on off-the-shelf object detectors. Motivated by this, we propose a novel model for group activity recognition that depends neither on bounding box labels nor on object detector. Our model based on Transformer localizes and encodes partial contexts of a group activity by leveraging the attention mechanism, and represents a video clip as a set of partial context embeddings. The embedding vectors are then aggregated to form a single group representation that reflects the entire context of an activity while capturing temporal evolution of each partial context. Our method achieves outstanding performance on two benchmarks, Volleyball and NBA datasets, surpassing not only the state of the art trained with the same level of supervision, but also some of existing models relying on stronger supervision.
翻訳日:2022-04-06 13:31:17 公開日:2022-04-05
# Dual-AI:グループ活動認識のためのデュアルパスインタラクション学習

Dual-AI: Dual-path Action Interaction Learning for Group Activity Recognition ( http://arxiv.org/abs/2204.02148v1 )

ライセンス: Link先を確認
Mingfei Han, David Junhao Zhang, Yali Wang, Rui Yan, Lina Yao, Xiaojun Chang, Yu Qiao(参考訳) 複数のアクター間の空間的時間的関係の学習はグループ活動認識に不可欠である。 異なるグループ活動は、しばしばビデオ内のアクター間の多様な相互作用を示す。 したがって、時空間的アクター進化の単一視点から複雑なグループ活動をモデル化することはしばしば困難である。 そこで本研究では,空間的および時間的トランスフォーマーを2つの相補的な順序で柔軟に配置し,時空間的経路の長所を統合してアクタ関係を高めるdualai(dualai)フレームワークを提案する。 さらに,Dual-AIの2つのインタラクティブパスの間に,MAC-Loss(Multiscale Actor Contrastive Loss)を導入する。 MAC-Lossは、フレームレベルとビデオレベルでの自己監督的アクター一貫性により、個々のアクター表現を効果的に区別し、異なるアクター間のアクション混乱を低減する。 その結果, この2重aiは, 異なるアクタの識別的特徴を融合することにより, グループ活動認識を促進することができる。 提案手法を評価するため,Volleyball, Collective Activity, NBAデータセットなど,広く使用されているベンチマークについて広範な実験を行った。 提案されたDual-AIは、これらすべてのデータセットで最先端のパフォーマンスを達成する。 50%のトレーニングデータを持つ提案されたDual-AIは、最近の多くのアプローチで100%トレーニングデータよりも優れています。 これにより、限定的な監視の困難なシナリオでさえも、グループアクティビティ認識のためのデュアルaiの一般化能力が保証される。

Learning spatial-temporal relation among multiple actors is crucial for group activity recognition. Different group activities often show the diversified interactions between actors in the video. Hence, it is often difficult to model complex group activities from a single view of spatial-temporal actor evolution. To tackle this problem, we propose a distinct Dual-path Actor Interaction (DualAI) framework, which flexibly arranges spatial and temporal transformers in two complementary orders, enhancing actor relations by integrating merits from different spatiotemporal paths. Moreover, we introduce a novel Multi-scale Actor Contrastive Loss (MAC-Loss) between two interactive paths of Dual-AI. Via self-supervised actor consistency in both frame and video levels, MAC-Loss can effectively distinguish individual actor representations to reduce action confusion among different actors. Consequently, our Dual-AI can boost group activity recognition by fusing such discriminative features of different actors. To evaluate the proposed approach, we conduct extensive experiments on the widely used benchmarks, including Volleyball, Collective Activity, and NBA datasets. The proposed Dual-AI achieves state-of-the-art performance on all these datasets. It is worth noting the proposed Dual-AI with 50% training data outperforms a number of recent approaches with 100% training data. This confirms the generalization power of Dual-AI for group activity recognition, even under the challenging scenarios of limited supervision.
翻訳日:2022-04-06 13:30:58 公開日:2022-04-05
# 絶対ポーズ回帰のための同変特徴の活用

Leveraging Equivariant Features for Absolute Pose Regression ( http://arxiv.org/abs/2204.02163v1 )

ライセンス: Link先を確認
Mohamed Adel Musallam, Vincent Gaudilliere, Miguel Ortiz del Castillo, Kassem Al Ismaeil, Djamila Aouada(参考訳) エンド・ツー・エンドのアプローチは多くの知覚タスクにおいて最先端のパフォーマンスを達成したが、ポーズ推定において3次元幾何学に基づく手法と競合することはできなかった。 さらに、絶対ポーズ回帰は画像検索とより関係があることが示されている。 その結果、従来の畳み込みニューラルネットワークでは、この本質的に幾何学的な課題を確実に解くのに十分な幾何学的情報を持っていないという仮説を立てた。 本稿では,翻訳と回転の同変である畳み込みニューラルネットワークが,カメラの動きの表現を直接特徴空間に誘導することを示す。 次に,この幾何学的性質により,画像平面保存変換群全体のトレーニングデータを暗黙的に拡張できることを示す。 したがって、等価な特徴を直接学習することは、データ集約的な中間表現を学習するよりも望ましいと主張する。 総合的な実験的検証は、我々の軽量モデルが標準データセット上で既存のモデルより優れていることを示す。

While end-to-end approaches have achieved state-of-the-art performance in many perception tasks, they are not yet able to compete with 3D geometry-based methods in pose estimation. Moreover, absolute pose regression has been shown to be more related to image retrieval. As a result, we hypothesize that the statistical features learned by classical Convolutional Neural Networks do not carry enough geometric information to reliably solve this inherently geometric task. In this paper, we demonstrate how a translation and rotation equivariant Convolutional Neural Network directly induces representations of camera motions into the feature space. We then show that this geometric property allows for implicitly augmenting the training data under a whole group of image plane-preserving transformations. Therefore, we argue that directly learning equivariant features is preferable than learning data-intensive intermediate representations. Comprehensive experimental validation demonstrates that our lightweight model outperforms existing ones on standard datasets.
翻訳日:2022-04-06 13:30:36 公開日:2022-04-05
# (参考訳) 努力する価値があるか? サッカーにおける物理指標の理解と文脈化

Is it worth the effort? Understanding and contextualizing physical metrics in soccer ( http://arxiv.org/abs/2204.02313v1 )

ライセンス: CC BY 4.0
Sergio Llana, Borja Burriel, Pau Madrero and Javier Fern\'andez(参考訳) 我々は、サッカーの物理的および技術的戦術的側面の関連について深い洞察を与えるフレームワークを提案し、トップダウンアプローチにより、物理的パフォーマンスと価値生成を関連付ける。 まず,追跡データから物理的指標を推定する。 そして、各選手のランニングをコンテキスト化し、その実行の目的と状況をよりよく理解し、チームとプレーヤのプロファイルの作成に新たな次元を加えます。 最後に,オフボール高強度走行による付加価値を,所有値モデルとリンクして評価する。 この斬新なアプローチは、サッカークラブ内の実践者の非常に異なるプロファイルから、アナリスト、コーチ、スカウトから物理的コーチ、再適応理学療法士まで、実践的な質問に答えることを可能にする。

We present a framework that gives a deep insight into the link between physical and technical-tactical aspects of soccer and it allows associating physical performance with value generation thanks to a top-down approach. First, we estimate physical indicators from tracking data. Then, we contextualize each player's run to understand better the purpose and circumstances in which it is done, adding a new dimension to the creation of team and player profiles. Finally, we assess the value-added by off-ball high-intensity runs by linking with a possession-value model. This novel approach allows answering practical questions from very different profiles of practitioners within a soccer club, from analysts, coaches, and scouts to physical coaches and readaptation physiotherapists.
翻訳日:2022-04-06 13:28:42 公開日:2022-04-05
# 資源制約型無線ネットワーク制御システムにおけるセンシング設計への強化学習アプローチ

A Reinforcement Learning Approach to Sensing Design in Resource-Constrained Wireless Networked Control Systems ( http://arxiv.org/abs/2204.00703v2 )

ライセンス: Link先を確認
Luca Ballotta, Giovanni Peserico, Francesco Zanini(参考訳) 本稿では,ダイナミックなプロセスを監視し,グローバルな監視と意思決定を行う基地局に計測を送信する,センサ(エージェント)の無線ネットワークについて考察する。 スマートセンサーはセンシングと計算の両方を備えており、送信前に生の計測や処理を行うことができる。 制約されたエージェントリソースは、基本的な遅延精度のトレードオフを引き起こす。 一方、生の計測は不正確であるが、生産は早い。 一方で、リソース制約のあるプラットフォームでのデータ処理は、不要な計算遅延のコストで正確な測定結果を生成する。 さらに, 処理データも圧縮された場合, 無線通信によるレイテンシが高くなる可能性がある。 したがって、ネットワーク内のセンサーがいつどこで生計測を送信すべきか、あるいは時間を要する局所処理を活用するべきかを決定することは困難である。 この課題に対処するために,各センサで計測処理を行う際に動的に決定する効率的なポリシーを学習するための強化学習手法を提案する。 提案手法の有効性は,インターネット・オブ・ドローンによるスマートセンシングのケーススタディを用いて数値シミュレーションにより検証した。

In this paper, we consider a wireless network of smart sensors (agents) that monitor a dynamical process and send measurements to a base station that performs global monitoring and decision-making. Smart sensors are equipped with both sensing and computation, and can either send raw measurements or process them prior to transmission. Constrained agent resources raise a fundamental latency-accuracy trade-off. On the one hand, raw measurements are inaccurate but fast to produce. On the other hand, data processing on resource-constrained platforms generates accurate measurements at the cost of non-negligible computation latency. Further, if processed data are also compressed, latency caused by wireless communication might be higher for raw measurements. Hence, it is challenging to decide when and where sensors in the network should transmit raw measurements or leverage time-consuming local processing. To tackle this design problem, we propose a Reinforcement Learning approach to learn an efficient policy that dynamically decides when measurements are to be processed at each sensor. Effectiveness of our proposed approach is validated through a numerical simulation with case study on smart sensing motivated by the Internet of Drones.
翻訳日:2022-04-06 13:13:27 公開日:2022-04-05
# 降雨予測の確率的ダウンスケーリングに対する生成的深層学習手法

A Generative Deep Learning Approach to Stochastic Downscaling of Precipitation Forecasts ( http://arxiv.org/abs/2204.02028v1 )

ライセンス: Link先を確認
Lucy Harris, Andrew T. T. McRae, Matthew Chantry, Peter D. Dueben, Tim N. Palmer(参考訳) 連続的な改善にもかかわらず、降水予測は他の気象変数ほど正確で信頼性が低い。 主な要因は、降水分布と強度に影響を及ぼすいくつかの重要な過程が、地球規模の気象モデルの解決されたスケール以下で起こることである。 generative adversarial networks (gans) は、コンピュータビジョンコミュニティが超解像問題、すなわち粗い画像に微細な構造を加えることを学ぶことに成功していることが実証されている。 Leinonen et al. (2020) は以前、粗い入力データによって再構成された高解像度の大気場のアンサンブルを生成するために GAN を適用した。 本稿では,高分解能レーダ計測を"地中真実"として用い,気象予報モデルによる比較的低解像度な入力の精度と解像度を高めるという課題に,このアプローチを拡張できることを示す。 ニューラルネットワークは、無視可能な予測エラーを考慮しながら、解像度と構造を追加することを学ぶ必要がある。 GANとVAE-GANは、高分解能で空間的に整合した降水マップを作成しながら、最先端のポイントワイズポストプロセッシング手法の統計的特性と一致することを示す。 提案モデルは,画素別およびプール型crpsスコア,パワースペクトル情報,ランクヒストグラム(キャリブレーションの評価に使用される)において,既存の最善のダウンスケーリング手法と比較した。 私たちはモデルをテストし、豪雨を含むさまざまなシナリオで実行することを示します。

Despite continuous improvements, precipitation forecasts are still not as accurate and reliable as those of other meteorological variables. A major contributing factor to this is that several key processes affecting precipitation distribution and intensity occur below the resolved scale of global weather models. Generative adversarial networks (GANs) have been demonstrated by the computer vision community to be successful at super-resolution problems, i.e., learning to add fine-scale structure to coarse images. Leinonen et al. (2020) previously applied a GAN to produce ensembles of reconstructed high-resolution atmospheric fields, given coarsened input data. In this paper, we demonstrate this approach can be extended to the more challenging problem of increasing the accuracy and resolution of comparatively low-resolution input from a weather forecasting model, using high-resolution radar measurements as a "ground truth". The neural network must learn to add resolution and structure whilst accounting for non-negligible forecast error. We show that GANs and VAE-GANs can match the statistical properties of state-of-the-art pointwise post-processing methods whilst creating high-resolution, spatially coherent precipitation maps. Our model compares favourably to the best existing downscaling methods in both pixel-wise and pooled CRPS scores, power spectrum information and rank histograms (used to assess calibration). We test our models and show that they perform in a range of scenarios, including heavy rainfall.
翻訳日:2022-04-06 13:13:12 公開日:2022-04-05
# 変圧器ネットワークを用いた入院履歴の抽象的要約

Abstractive summarization of hospitalisation histories with transformer networks ( http://arxiv.org/abs/2204.02208v1 )

ライセンス: Link先を確認
Alexander Yalunin, Dmitriy Umerenkov, Vladimir Kokh(参考訳) 本稿では,患者入院歴を抽象的に要約する新しいアプローチを提案する。 我々は、Longformerニューラルネットワークをエンコーダとして、BERTをデコーダとして、エンコーダデコーダフレームワークを適用した。 本実験では, ポインタジェネレータネットワークと比較して, 要約タスクの品質が向上した。 また,経験豊富な医師を対象にpgnベースラインと人為的抽象概念との比較を行い,本モデルの有効性について検討した。

In this paper we present a novel approach to abstractive summarization of patient hospitalisation histories. We applied an encoder-decoder framework with Longformer neural network as an encoder and BERT as a decoder. Our experiments show improved quality on some summarization tasks compared with pointer-generator networks. We also conducted a study with experienced physicians evaluating the results of our model in comparison with PGN baseline and human-generated abstracts, which showed the effectiveness of our model.
翻訳日:2022-04-06 13:12:44 公開日:2022-04-05
# 言語モデルは文脈の説明から学ぶことができるか?

Can language models learn from explanations in context? ( http://arxiv.org/abs/2204.02329v1 )

ライセンス: Link先を確認
Andrew K. Lampinen, Ishita Dasgupta, Stephanie C. Y. Chan, Kory Matthewson, Michael Henry Tessler, Antonia Creswell, James L. McClelland, Jane X. Wang, and Felix Hill(参考訳) 大規模言語モデルは、いくつかのコンテキスト内例に適応することで、新しいタスクを実行することができる。 人間にとって、例からの迅速な学習は、例とタスク原則を結びつける説明の恩恵を受ける。 そこで本研究では,少数例の説明によって言語モデルがより効果的に適応できるかどうかを検討する。 我々は,BIG-Benchの課題40のセットに,質問のサブセットに対する回答の説明と,一致したさまざまな制御説明を加えて注釈付けする。 本研究では,多種多様な説明,指示,制御を含むゼロショットおよび少数ショットのプロンプトが,多種多様な言語モデルの性能に与える影響を評価する。 条件,タスク,プロンプト,モデル間のネスト依存性を考慮した統計的マルチレベルモデリング手法を用いて,これらの結果を分析する。 例の説明がパフォーマンスを向上できることが分かりました。 数ショットのプロンプトに修正されていない説明を追加することで、パフォーマンスがわずかに向上する。 次に、小検証セットのパフォーマンスに調整された説明は、かなり大きな利点をもたらすことを示し、例と説明を一緒に選択することでプロンプトを構築することで、例のみを選択するよりもパフォーマンスを大幅に改善する。 ハンドチューニングの説明は、困難なタスクのパフォーマンスを大幅に改善する。 さらに、トレーニングされていない説明でさえ、注意深くマッチした制御よりも優れており、その利点は、使用される言語の低レベルな特徴よりも、例と説明とのリンクによるものであることを示唆している。 しかし、大きなモデルだけが説明の恩恵を受けることができる。 要約すると、説明は大規模言語モデルの文脈内学習能力をサポートすることができる。

Large language models can perform new tasks by adapting to a few in-context examples. For humans, rapid learning from examples can benefit from explanations that connect examples to task principles. We therefore investigate whether explanations of few-shot examples can allow language models to adapt more effectively. We annotate a set of 40 challenging tasks from BIG-Bench with explanations of answers to a small subset of questions, as well as a variety of matched control explanations. We evaluate the effects of various zero-shot and few-shot prompts that include different types of explanations, instructions, and controls on the performance of a range of large language models. We analyze these results using statistical multilevel modeling techniques that account for the nested dependencies among conditions, tasks, prompts, and models. We find that explanations of examples can improve performance. Adding untuned explanations to a few-shot prompt offers a modest improvement in performance; about 1/3 the effect size of adding few-shot examples, but twice the effect size of task instructions. We then show that explanations tuned for performance on a small validation set offer substantially larger benefits; building a prompt by selecting examples and explanations together substantially improves performance over selecting examples alone. Hand-tuning explanations can substantially improve performance on challenging tasks. Furthermore, even untuned explanations outperform carefully matched controls, suggesting that the benefits are due to the link between an example and its explanation, rather than lower-level features of the language used. However, only large models can benefit from explanations. In summary, explanations can support the in-context learning abilities of large language models on
翻訳日:2022-04-06 13:12:36 公開日:2022-04-05
# facesigns:メディア認証とディープフェイク対策のための半脆弱なニューラルウォーターマーク

FaceSigns: Semi-Fragile Neural Watermarks for Media Authentication and Countering Deepfakes ( http://arxiv.org/abs/2204.01960v1 )

ライセンス: Link先を確認
Paarth Neekhara, Shehzeen Hussain, Xinqiao Zhang, Ke Huang, Julian McAuley, Farinaz Koushanfar(参考訳) 近年のリアルな画像合成技術やビデオ合成技術の発展により、ディープフェイクやメディアの操作は目覚ましい脅威になりつつある。 機械学習分類器を使用してDeepfakesと戦う試みはいくつかある。 しかし、このような分類器はブラックボックス画像合成技術にはあまり一般化せず、逆の例に弱いことが示されている。 これらの課題に対処するために,画像画素に埋め込まれた見えない秘密メッセージを検証することによってメディア認証を可能にする,深層学習に基づく半脆弱な透かし技術を導入する。 視覚的アーティファクトを用いて偽メディアを識別・検出する代わりに、準フレジブルな透かしを実画像に積極的に埋め込み、必要に応じてその真正性を証明することを提案する。 当社の透かしフレームワークは,画像圧縮やスケーリング,飽和度,コントラスト調整など,良質な画像処理操作に堅牢であると同時に,顔操作や改ざんに脆弱なように設計されている。 これにより、顔スワッピングや他のディープフェイク修正技術が適用されない限り、インターネット上で共有された画像は検証可能な透かしを保持することができる。 画像の透かしとして128ビットのシークレットを埋め込むことで、複数の圧縮レベルで高いビット回復精度で復元できるが、目に見えないディープフェイク操作を施すと回復できないことを実証する。 本研究で研究されている一連の目立たない良性およびディープフェイク操作について,aucスコア0.996の操作内容を確実に検出できる。

Deepfakes and manipulated media are becoming a prominent threat due to the recent advances in realistic image and video synthesis techniques. There have been several attempts at combating Deepfakes using machine learning classifiers. However, such classifiers do not generalize well to black-box image synthesis techniques and have been shown to be vulnerable to adversarial examples. To address these challenges, we introduce a deep learning based semi-fragile watermarking technique that allows media authentication by verifying an invisible secret message embedded in the image pixels. Instead of identifying and detecting fake media using visual artifacts, we propose to proactively embed a semi-fragile watermark into a real image so that we can prove its authenticity when needed. Our watermarking framework is designed to be fragile to facial manipulations or tampering while being robust to benign image-processing operations such as image compression, scaling, saturation, contrast adjustments etc. This allows images shared over the internet to retain the verifiable watermark as long as face-swapping or any other Deepfake modification technique is not applied. We demonstrate that FaceSigns can embed a 128 bit secret as an imperceptible image watermark that can be recovered with a high bit recovery accuracy at several compression levels, while being non-recoverable when unseen Deepfake manipulations are applied. For a set of unseen benign and Deepfake manipulations studied in our work, FaceSigns can reliably detect manipulated content with an AUC score of 0.996 which is significantly higher than prior image watermarking and steganography techniques.
翻訳日:2022-04-06 13:12:11 公開日:2022-04-05
# SwapMix:ビジュアル質問回答における視覚的コンテキストの過度信頼の診断と規則化

SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in Visual Question Answering ( http://arxiv.org/abs/2204.02285v1 )

ライセンス: Link先を確認
Vipul Gupta, Zhuowan Li, Adam Kortylewski, Chenyu Zhang, Yingwei Li, Alan Yuille(参考訳) Visual Question Answering (VQA)は急速に進歩しているが、以前の研究は現在のVQAモデルの堅牢性に関する懸念を提起している。 本稿では,新しい視点からVQAモデルの堅牢性について考察する。 モデルが視覚的文脈、すなわち画像内の無関係な物体を過度に反映して予測することを提案する。 モデルの視覚的コンテキスト依存度を診断し,そのロバスト性を測定するため,簡易かつ効果的な摂動法であるswapmixを提案する。 SwapMixは、無関係なコンテキストオブジェクトの機能とデータセットの他のオブジェクトの機能とを交換することで、視覚的コンテキストを乱します。 SwapMixを使うことで、代表的VQAモデルの回答を45%以上にすることが可能になります。 さらに、完全視力でモデルをトレーニングし、コンテキストの過度依存が視覚表現の品質に大きく依存していることを確認する。 診断に加えて、SwapMixは、トレーニング中のコンテキスト過信を規則化するために、データ拡張戦略として適用することもできる。 コンテキストオブジェクトの特徴をスワップすることで、コンテキストに依存したモデルが効果的に抑制できる。 2つの代表的なvqaモデルがswapmixを使って研究されている:コアテンションモデルmcanと大規模事前トレーニングモデルlxmertである。 一般的なGQAデータセットを用いた実験は、モデルの堅牢性を診断し、視覚的コンテキストにおける過度信頼度を正当化するためのSwapMixの有効性を示す。 このメソッドのコードはhttps://github.com/vipulgupta1011/swapmixで入手できる。

While Visual Question Answering (VQA) has progressed rapidly, previous works raise concerns about robustness of current VQA models. In this work, we study the robustness of VQA models from a novel perspective: visual context. We suggest that the models over-rely on the visual context, i.e., irrelevant objects in the image, to make predictions. To diagnose the model's reliance on visual context and measure their robustness, we propose a simple yet effective perturbation technique, SwapMix. SwapMix perturbs the visual context by swapping features of irrelevant context objects with features from other objects in the dataset. Using SwapMix we are able to change answers to more than 45 % of the questions for a representative VQA model. Additionally, we train the models with perfect sight and find that the context over-reliance highly depends on the quality of visual representations. In addition to diagnosing, SwapMix can also be applied as a data augmentation strategy during training in order to regularize the context over-reliance. By swapping the context object features, the model reliance on context can be suppressed effectively. Two representative VQA models are studied using SwapMix: a co-attention model MCAN and a large-scale pretrained model LXMERT. Our experiments on the popular GQA dataset show the effectiveness of SwapMix for both diagnosing model robustness and regularizing the over-reliance on visual context. The code for our method is available at https://github.com/vipulgupta1011/swapmix
翻訳日:2022-04-06 13:11:27 公開日:2022-04-05
# オブジェクト発見のための複素値オートエンコーダ

Complex-Valued Autoencoders for Object Discovery ( http://arxiv.org/abs/2204.02075v1 )

ライセンス: Link先を確認
Sindy L\"owe, Phillip Lippe, Maja Rudolph, Max Welling(参考訳) オブジェクト中心の表現は、人間の知覚の基礎を形成し、世界について推論し、体系的に新しい設定に一般化することができる。 現在、教師なしオブジェクト発見のほとんどの機械学習はスロットベースのアプローチにフォーカスしており、個々のオブジェクトの潜在表現を明示的に分離している。 結果は容易に解釈できるが、通常は関連するアーキテクチャの設計を必要とする。 これとは対照的に、オブジェクト中心表現に対する分散アプローチとして、複素オートエンコーダを提案する。 生物ニューロンのオブジェクト表現を推論するコーディングスキームに従って、その複雑な値の活性化は2つのメッセージを表す: その大きさは特徴の存在を表現し、ニューロン間の相対的な位相差は、結合すべき特徴を表現し、結合対象表現を作成する。 この単純で効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも優れたレコンストラクション性能を実現する。 さらに,2つのデータセット上のslotattentionモデルに対して,教師なしのオブジェクト発見性能を比較検討した結果,slotattentionが失敗している3番目のデータセットでオブジェクトを分離することに成功した。

Object-centric representations form the basis of human perception and enable us to reason about the world and to systematically generalize to new settings. Currently, most machine learning work on unsupervised object discovery focuses on slot-based approaches, which explicitly separate the latent representations of individual objects. While the result is easily interpretable, it usually requires the design of involved architectures. In contrast to this, we propose a distributed approach to object-centric representations: the Complex AutoEncoder. Following a coding scheme theorized to underlie object representations in biological neurons, its complex-valued activations represent two messages: their magnitudes express the presence of a feature, while the relative phase differences between neurons express which features should be bound together to create joint object representations. We show that this simple and efficient approach achieves better reconstruction performance than an equivalent real-valued autoencoder on simple multi-object datasets. Additionally, we show that it achieves competitive unsupervised object discovery performance to a SlotAttention model on two datasets, and manages to disentangle objects in a third dataset where SlotAttention fails - all while being 7-70 times faster to train.
翻訳日:2022-04-06 13:11:02 公開日:2022-04-05
# 移動式送風機による空気圧非摂食操作の学習

Learning Pneumatic Non-Prehensile Manipulation with a Mobile Blower ( http://arxiv.org/abs/2204.02390v1 )

ライセンス: Link先を確認
Jimmy Wu, Xingyuan Sun, Andy Zeng, Shuran Song, Szymon Rusinkiewicz, Thomas Funkhouser(参考訳) 本研究では,散乱した物体をターゲットの受容器に効率的に移動させる手段として,空気圧による非摂動操作(すなわち吹き飛ばし)について検討する。 空気力のカオス的な性質のため、吹く制御装置は必要である (i)その行動から予期せぬ変化に継続的に適応する。 (ii)わずかなミスステップが意図しない結果(例えば、既に山に散らばっている物)をもたらす可能性があるため、細かい粒度の制御を保ち、そして (iii)長距離計画(例えば、ロボットを戦略的な吹き飛ばし場所へ移動)を推測すること。 我々は,空間行動マップフレームワークの多周波数版を導入することで,深層強化学習の文脈でこれらの課題に取り組む。 これにより、動的移動操作のための高レベル計画と低レベル閉ループ制御を効果的に組み合わせたビジョンベースのポリシーを効率的に学習することができる。 実験により,本システムはタスクの効率的な動作を学習し,特にブローはプッシュよりもダウンストリーム性能が向上し,ベースラインよりもパフォーマンスが向上することを示した。 さらに, 本システムは, 低レベル細粒度制御と高レベル計画にまたがる異なるサブポリティシー間の創発的特殊化を自然に促進することを示す。 ミニチュアエアブロワーを搭載した実際の移動ロボットでは,シミュレーションにより学習したポリシーが実環境によく移行し,新たな対象に一般化できることを示す。

We investigate pneumatic non-prehensile manipulation (i.e., blowing) as a means of efficiently moving scattered objects into a target receptacle. Due to the chaotic nature of aerodynamic forces, a blowing controller must (i) continually adapt to unexpected changes from its actions, (ii) maintain fine-grained control, since the slightest misstep can result in large unintended consequences (e.g., scatter objects already in a pile), and (iii) infer long-range plans (e.g., move the robot to strategic blowing locations). We tackle these challenges in the context of deep reinforcement learning, introducing a multi-frequency version of the spatial action maps framework. This allows for efficient learning of vision-based policies that effectively combine high-level planning and low-level closed-loop control for dynamic mobile manipulation. Experiments show that our system learns efficient behaviors for the task, demonstrating in particular that blowing achieves better downstream performance than pushing, and that our policies improve performance over baselines. Moreover, we show that our system naturally encourages emergent specialization between the different subpolicies spanning low-level fine-grained control and high-level planning. On a real mobile robot equipped with a miniature air blower, we show that our simulation-trained policies transfer well to a real environment and can generalize to novel objects.
翻訳日:2022-04-06 13:10:20 公開日:2022-04-05
# P3Depth:P3Depthによる単眼深度推定

P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior ( http://arxiv.org/abs/2204.02091v1 )

ライセンス: Link先を確認
Vaishakh Patil, Christos Sakaridis, Alexander Liniger, Luc Van Gool(参考訳) 単眼深度推定はシーン理解や下流作業に不可欠である。 我々は、トレーニング時にのみ、地底深度が利用できる教師付きセットアップに焦点をあてる。 実3次元シーンの高規則性に関する知識に基づいて,コプレーナ画素からの情報を選択的に活用し,予測深度を改善する手法を提案する。 特に,各画素に対して,同じ平面3d面を前者と共有するシード画素が存在することを示す分割平面性を導入する。 この先、私たちは2つの頭を持つネットワークを設計しました。 第1ヘッドは画素レベル平面係数を出力し、第2ヘッドはシード画素の位置を特定する高密度オフセットベクトルフィールドを出力する。 次に、シードピクセルの平面係数を用いて各位置の深さを予測する。 得られた予測は、正確な局所平面性からの潜在的な偏差を考慮し、学習された自信を介して、第1の頭部からの最初の予測と適応的に融合する。 アーキテクチャ全体は、提案されたモジュールの微分可能性によってエンドツーエンドに訓練され、閉包境界で鋭いエッジを持つ通常の深度マップを予測することを学ぶ。 提案手法を広範囲に評価した結果,nyu深度v2およびkittiのgargスプリットに先行する手法を上回って,教師付き単眼深度推定の新たな技術が確立された。 提案手法は,入力シーンの3次元再構成が可能な深度マップを提供する。 コードは、https://github.com/SysCV/P3Depthで入手できる。

Monocular depth estimation is vital for scene understanding and downstream tasks. We focus on the supervised setup, in which ground-truth depth is available only at training time. Based on knowledge about the high regularity of real 3D scenes, we propose a method that learns to selectively leverage information from coplanar pixels to improve the predicted depth. In particular, we introduce a piecewise planarity prior which states that for each pixel, there is a seed pixel which shares the same planar 3D surface with the former. Motivated by this prior, we design a network with two heads. The first head outputs pixel-level plane coefficients, while the second one outputs a dense offset vector field that identifies the positions of seed pixels. The plane coefficients of seed pixels are then used to predict depth at each position. The resulting prediction is adaptively fused with the initial prediction from the first head via a learned confidence to account for potential deviations from precise local planarity. The entire architecture is trained end-to-end thanks to the differentiability of the proposed modules and it learns to predict regular depth maps, with sharp edges at occlusion boundaries. An extensive evaluation of our method shows that we set the new state of the art in supervised monocular depth estimation, surpassing prior methods on NYU Depth-v2 and on the Garg split of KITTI. Our method delivers depth maps that yield plausible 3D reconstructions of the input scenes. Code is available at: https://github.com/SysCV/P3Depth
翻訳日:2022-04-06 13:09:41 公開日:2022-04-05
# 遅延空間における損失: 解離モデルと組合せ一般化の課題

Lost in Latent Space: Disentangled Models and the Challenge of Combinatorial Generalisation ( http://arxiv.org/abs/2204.02283v1 )

ライセンス: Link先を確認
Milton L. Montero, Jeffrey S. Bowers, Rui Ponte Costa, Casimir J.H. Ludwig, Gaurav Malhotra(参考訳) 近年の研究では、非常に不整合な表現を持つ生成モデルは、生成因子値の見当たらない組み合わせに一般化できないことが示されている。 これらの結果は、絡み合った表現に比べてトレーニング外分布設定の性能が向上した以前の研究と矛盾する。 さらに、報告された障害が原因なのかは不明だ。 (a)新規の組み合わせを潜在空間の固有領域にマッピングできないエンコーダ、又は (b)新しい組み合わせを正しくマッピングするが、デコーダ/ダウンストリームプロセスは、見知らぬ組み合わせに対して正しい出力をレンダリングできない。 様々なデータセットとトレーニング設定で複数のモデルをテストすることで、これらの代替案を調査した。 私たちはそれを見つけ (i)モデルが失敗すると、それらのエンコーダは見えない組み合わせを潜在空間の正しい領域にマッピングすることができない。 2) モデルが成功した場合, テスト条件が十分な例を除外していないこと, あるいは生成因子を除外して出力画像の独立部分を決定することが原因である。 これらの結果から,モデルが適切に一般化するためには,ばらつきの要因を捉えるだけでなく,データ生成に用いた生成プロセスを反転させる方法を理解する必要があると論じた。

Recent research has shown that generative models with highly disentangled representations fail to generalise to unseen combination of generative factor values. These findings contradict earlier research which showed improved performance in out-of-training distribution settings when compared to entangled representations. Additionally, it is not clear if the reported failures are due to (a) encoders failing to map novel combinations to the proper regions of the latent space or (b) novel combinations being mapped correctly but the decoder/downstream process is unable to render the correct output for the unseen combinations. We investigate these alternatives by testing several models on a range of datasets and training settings. We find that (i) when models fail, their encoders also fail to map unseen combinations to correct regions of the latent space and (ii) when models succeed, it is either because the test conditions do not exclude enough examples, or because excluded generative factors determine independent parts of the output image. Based on these results, we argue that to generalise properly, models not only need to capture factors of variation, but also understand how to invert the generative process that was used to generate the data.
翻訳日:2022-04-06 13:09:15 公開日:2022-04-05
# $\textit{latent}$-GLAT: 並列テキスト生成のための遅延変数のグルシング

$\textit{latent}$-GLAT: Glancing at Latent Variables for Parallel Text Generation ( http://arxiv.org/abs/2204.02030v1 )

ライセンス: Link先を確認
Yu Bao, Hao Zhou, Shujian Huang, Dongqi Wang, Lihua Qian, Xinyu Dai, Jiajun Chen and Lei Li(参考訳) 近年、並列テキスト生成は、生成効率の成功により、広く注目を集めている。 生成品質を改善するために多くの高度な技術が提案されているが、データセットの1対多のマルチモーダル現象を克服し、その応用を制限するために、トレーニングのための自己回帰モデルの助けが必要である。 本稿では,単語のカテゴリー情報を取り込んで,マルチモダリティ問題を緩和する高度なカリキュラム学習手法を導入するために,離散的潜在変数を用いた$\textit{latent}$-glatを提案する。 実験の結果,本手法は,並列デコーディングパラダイムの応用シナリオをさらに拡大する自己回帰モデルを用いずに,強力なベースラインを上回ることがわかった。

Recently, parallel text generation has received widespread attention due to its success in generation efficiency. Although many advanced techniques are proposed to improve its generation quality, they still need the help of an autoregressive model for training to overcome the one-to-many multi-modal phenomenon in the dataset, limiting their applications. In this paper, we propose $\textit{latent}$-GLAT, which employs the discrete latent variables to capture word categorical information and invoke an advanced curriculum learning technique, alleviating the multi-modality problem. Experiment results show that our method outperforms strong baselines without the help of an autoregressive model, which further broadens the application scenarios of the parallel decoding paradigm.
翻訳日:2022-04-06 13:08:30 公開日:2022-04-05
# hyperbox:box embeddedsを用いたハイパーnym発見のための教師付きアプローチ

HyperBox: A Supervised Approach for Hypernym Discovery using Box Embeddings ( http://arxiv.org/abs/2204.02058v1 )

ライセンス: Link先を確認
Maulik Parmar, Dr. Apurva Narayan(参考訳) hypernymyは、分類学学習、オントロジー学習など、多くのaiタスクで基本的な役割を果たす。 これにより、この関係を抽出する多くの自動識別手法が開発され、そのほとんどは単語分布に依存している。 ハイパニム発見のためのボックス埋め込みを学習するための新しいモデルHyperBoxを提案する。 入力項が与えられたHyperBoxは、ターゲットコーパスから適切なハイパーネムを取得する。 このタスクでは、SemEval 2018 Shared Task on Hypernym Discoveryで公開されたデータセットを使用します。 医療と音楽という2つの特定の知識領域におけるモデルの性能を比較した。 実験では,提案手法が評価基準の大部分で既存手法よりも優れていることを示す。 さらに,このモデルでは,訓練データのみを用いて,未発見のハイパーニミーペアをうまく一般化する。

Hypernymy plays a fundamental role in many AI tasks like taxonomy learning, ontology learning, etc. This has motivated the development of many automatic identification methods for extracting this relation, most of which rely on word distribution. We present a novel model HyperBox to learn box embeddings for hypernym discovery. Given an input term, HyperBox retrieves its suitable hypernym from a target corpus. For this task, we use the dataset published for SemEval 2018 Shared Task on Hypernym Discovery. We compare the performance of our model on two specific domains of knowledge: medical and music. Experimentally, we show that our model outperforms existing methods on the majority of the evaluation metrics. Moreover, our model generalize well over unseen hypernymy pairs using only a small set of training data.
翻訳日:2022-04-06 13:08:16 公開日:2022-04-05
# 医療自然言語理解のための階層的意味構成フレームワークの設計考察

Design considerations for a hierarchical semantic compositional framework for medical natural language understanding ( http://arxiv.org/abs/2204.02067v1 )

ライセンス: Link先を確認
Ricky K. Taira, Anders O. Garlid, and William Speier(参考訳) 医療自然言語処理(nlp)システムは,ビッグデータを臨床報告書リポジトリから疾患モデル支援や介入方法の検証に使用する情報に変換する上で,重要な技術である。 しかし、現在の医療用NLPシステムは、臨床テキストを論理的に解釈する作業に直面すると、かなり短くなる。 本稿では,NLP性能曲線を跳躍する試みとして,人間の認知のメカニズムに触発された枠組みについて述べる。 設計の中心は階層的意味合成モデル(hscm)であり、解釈過程を導くための内部基板を提供する。 本稿では,セマンティックメモリ,セマンティックコンポジション,セマンティックアクティベーション,階層的予測符号化の4つの重要な認知的側面からの洞察について述べる。 自由文文をその意味の論理表現に変換するための生成意味モデルと関連する意味構文解析器の設計について述べる。 本稿では,長期的基盤フレームワークとしてのアーキテクチャの重要な特徴について,支援的かつ敵対的な議論を論じる。

Medical natural language processing (NLP) systems are a key enabling technology for transforming Big Data from clinical report repositories to information used to support disease models and validate intervention methods. However, current medical NLP systems fall considerably short when faced with the task of logically interpreting clinical text. In this paper, we describe a framework inspired by mechanisms of human cognition in an attempt to jump the NLP performance curve. The design centers about a hierarchical semantic compositional model (HSCM) which provides an internal substrate for guiding the interpretation process. The paper describes insights from four key cognitive aspects including semantic memory, semantic composition, semantic activation, and hierarchical predictive coding. We discuss the design of a generative semantic model and an associated semantic parser used to transform a free-text sentence into a logical representation of its meaning. The paper discusses supportive and antagonistic arguments for the key features of the architecture as a long-term foundational framework.
翻訳日:2022-04-06 13:08:07 公開日:2022-04-05
# CLEVR-X: 自然言語説明のためのビジュアル推論データセット

CLEVR-X: A Visual Reasoning Dataset for Natural Language Explanations ( http://arxiv.org/abs/2204.02380v1 )

ライセンス: Link先を確認
Leonard Salewski and A. Sophia Koepke and Hendrik P. A. Lensch and Zeynep Akata(参考訳) VQA(Visual Question Answering)の文脈における説明を提供することは、機械学習における根本的な問題である。 VQAの自然言語説明を生成する過程に関する詳細な知見を得るために,我々はCLEVRデータセットを拡張した大規模CLEVR-Xデータセットを提案する。 CLEVRデータセットの各画像検索ペアに対して、CLEVR-Xは、元のシーングラフから派生した複数の構造化されたテキスト説明を含む。 構築によって、CLEVR-Xの説明は正しいものであり、ある質問に答えるために必要な推論と視覚情報を記述する。 提案するデータセットの根拠となる説明が本当に完全かつ適切であることを確認するため,ユーザ調査を実施した。 CLEVR-Xデータセット上の2つの最先端フレームワークを用いて、VQAの文脈で自然言語の説明を生成するためのベースライン結果を示す。 さらに,質問と回答のタイプの違いによる説明生成品質の詳細な分析を行った。 さらに,自然言語生成指標 (nlg) の収束性に対する基礎的説明数の違いの影響について検討した。 CLEVR-Xデータセットは \url{https://explainableml.github.io/CLEVR-X/} で公開されている。

Providing explanations in the context of Visual Question Answering (VQA) presents a fundamental problem in machine learning. To obtain detailed insights into the process of generating natural language explanations for VQA, we introduce the large-scale CLEVR-X dataset that extends the CLEVR dataset with natural language explanations. For each image-question pair in the CLEVR dataset, CLEVR-X contains multiple structured textual explanations which are derived from the original scene graphs. By construction, the CLEVR-X explanations are correct and describe the reasoning and visual information that is necessary to answer a given question. We conducted a user study to confirm that the ground-truth explanations in our proposed dataset are indeed complete and relevant. We present baseline results for generating natural language explanations in the context of VQA using two state-of-the-art frameworks on the CLEVR-X dataset. Furthermore, we provide a detailed analysis of the explanation generation quality for different question and answer types. Additionally, we study the influence of using different numbers of ground-truth explanations on the convergence of natural language generation (NLG) metrics. The CLEVR-X dataset is publicly available at \url{https://explainableml.github.io/CLEVR-X/}.
翻訳日:2022-04-06 13:06:44 公開日:2022-04-05
# 自己適応型3次元ポーズ推定のための非局所潜在関係蒸留

Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose Estimation ( http://arxiv.org/abs/2204.01971v1 )

ライセンス: Link先を確認
Jogendra Nath Kundu, Siddharth Seth, Anirudh Jamkhandi, Pradyumna YM, Varun Jampani, Anirban Chakraborty(参考訳) 利用可能な3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。 合成ドメインまたはインスタディオドメインの保持により、新しいターゲット環境ごとにそのような監視を受けることは極めて不都合である。 そこで本稿では,ラベル付きソースドメインからのタスク知識の移動を目的とした,自己教師型適応問題として3Dポーズ学習を行った。 本稿では、画像からラテントへの2つの明示的なマッピングとラテント・トゥ・プレイスによる画像から目的への推論を提案する。 次に,不対のクロスモーダルサンプル,すなわち非対のターゲットビデオと非対の3dポーズシーケンスを整合させる手段として関係蒸留を導入する。 そこで本研究では,正の結合が局所的な近傍構造に制限される一般のコントラッシブな関係とは異なり,長距離潜在ポーズ相互作用を特徴付けるために,非局所関係の新たな集合を提案する。 さらに,最も効果的な関係集合を選択するために,非局所性を定量化する客観的な方法を提案する。 我々は,様々な自己適応設定を評価し,標準ベンチマークによる最先端の3次元ポーズ推定性能を示す。

Available 3D human pose estimation approaches leverage different forms of strong (2D/3D pose) or weak (multi-view or depth) paired supervision. Barring synthetic or in-studio domains, acquiring such supervision for each new target environment is highly inconvenient. To this end, we cast 3D pose learning as a self-supervised adaptation problem that aims to transfer the task knowledge from a labeled source domain to a completely unpaired target. We propose to infer image-to-pose via two explicit mappings viz. image-to-latent and latent-to-pose where the latter is a pre-learned decoder obtained from a prior-enforcing generative adversarial auto-encoder. Next, we introduce relation distillation as a means to align the unpaired cross-modal samples i.e. the unpaired target videos and unpaired 3D pose sequences. To this end, we propose a new set of non-local relations in order to characterize long-range latent pose interactions unlike general contrastive relations where positive couplings are limited to a local neighborhood structure. Further, we provide an objective way to quantify non-localness in order to select the most effective relation set. We evaluate different self-adaptation settings and demonstrate state-of-the-art 3D human pose estimation performance on standard benchmarks.
翻訳日:2022-04-06 13:06:27 公開日:2022-04-05
# 政策勾配に対する批判者のモデルベースメタ学習

Model Based Meta Learning of Critics for Policy Gradients ( http://arxiv.org/abs/2204.02210v1 )

ライセンス: Link先を確認
Sarah Bechtle, Ludovic Righetti, Franziska Meier(参考訳) さまざまなタスクをシームレスに一般化できることは、ロボットが私たちの世界で行動する上で基本です。 しかし、新しいシナリオに素早く一般化する学習表現は、強化学習におけるオープンな研究課題である。 本稿では,勾配に基づく政策学習に対する批判をメタ学習する枠組みを提案する。 具体的には,モデルに基づく二レベル最適化アルゴリズムを提案する。このアルゴリズムでは,批判者によって学習された方針がメタトレーニングタスクの解決に近づくように,批判者パラメータを更新する。 このアルゴリズムは,与えられたタスクの基底的真理q関数に類似した学習的批判を導く。 最後に、メタトレーニングの後、学習した評論家は、モデルを必要としないポリシー勾配最適化を通じて、新しい目に見えないタスクと環境設定の新しいポリシーを学ぶのに使える。 我々は,新しいシナリオで新しい政策を学習する際に,学習した批判者の新しいタスクやダイナミクスに対する一般化能力を示す結果を示す。

Being able to seamlessly generalize across different tasks is fundamental for robots to act in our world. However, learning representations that generalize quickly to new scenarios is still an open research problem in reinforcement learning. In this paper we present a framework to meta-learn the critic for gradient-based policy learning. Concretely, we propose a model-based bi-level optimization algorithm that updates the critics parameters such that the policy that is learned with the updated critic gets closer to solving the meta-training tasks. We illustrate that our algorithm leads to learned critics that resemble the ground truth Q function for a given task. Finally, after meta-training, the learned critic can be used to learn new policies for new unseen task and environment settings via model-free policy gradient optimization, without requiring a model. We present results that show the generalization capabilities of our learned critic to new tasks and dynamics when used to learn a new policy in a new scenario.
翻訳日:2022-04-06 13:05:25 公開日:2022-04-05
# 特徴の関連性を明らかにするためのセットメンバーシップアプローチとニューラルクラシファイア決定の解説

A Set Membership Approach to Discovering Feature Relevance and Explaining Neural Classifier Decisions ( http://arxiv.org/abs/2204.02241v1 )

ライセンス: Link先を確認
Stavros P. Adam, Aristidis C. Likas(参考訳) ニューラル分類器は、学習した特定の問題に対して、パターンのクラスを決定する非線形システムである。 各パターンの分類器によって計算された出力は、未知の関数の出力の近似を構成し、パターンデータをそれぞれのクラスにマッピングする。 このような関数の知識の欠如と神経分類器の複雑さ、特にこれらがディープラーニングアーキテクチャである場合、特定の予測が行われたかに関する情報を得ることができない。 したがって、これらの強力な学習システムはブラックボックスと見なされ、重要なアプリケーションではそれらの使用は不適切と見なされる傾向がある。 このようなブラックボックス操作についての洞察を得ることは、神経分類器の操作を解釈し、その決定の妥当性を評価するための一つのアプローチとなる。 本稿では,訓練されたニューラル分類器がどの特徴を関連づけているか,どの特徴が分類器の出力にどう影響するか,という新たな手法を導入し,その決定について説明する。 機械学習の文献では特徴的関連性が注目されているが,本論文では,区間分析に基づく集合メンバシップアプローチを対象とする非線形パラメータ推定について再考する。 そこで,提案手法は健全な数学的アプローチに基づいて構築され,その結果は分類者の決定前提の信頼性を推定する。

Neural classifiers are non linear systems providing decisions on the classes of patterns, for a given problem they have learned. The output computed by a classifier for each pattern constitutes an approximation of the output of some unknown function, mapping pattern data to their respective classes. The lack of knowledge of such a function along with the complexity of neural classifiers, especially when these are deep learning architectures, do not permit to obtain information on how specific predictions have been made. Hence, these powerful learning systems are considered as black boxes and in critical applications their use tends to be considered inappropriate. Gaining insight on such a black box operation constitutes a one way approach in interpreting operation of neural classifiers and assessing the validity of their decisions. In this paper we tackle this problem introducing a novel methodology for discovering which features are considered relevant by a trained neural classifier and how they affect the classifier's output, thus obtaining an explanation on its decision. Although, feature relevance has received much attention in the machine learning literature here we reconsider it in terms of nonlinear parameter estimation targeted by a set membership approach which is based on interval analysis. Hence, the proposed methodology builds on sound mathematical approaches and the results obtained constitute a reliable estimation of the classifier's decision premises.
翻訳日:2022-04-06 13:03:35 公開日:2022-04-05
# 深層アンサンブルからの集合分布予測

Aggregating distribution forecasts from deep ensembles ( http://arxiv.org/abs/2204.02291v1 )

ライセンス: Link先を確認
Benedikt Schulz and Sebastian Lerch(参考訳) 予測の不確実性を正確に定量化することの重要性は、確率予測に関する最近の研究を動機付けている。 特に、ニューラルネットワークの出力として予測分布が得られた様々なディープラーニングアプローチが提案されている。 これらのニューラルネットワークベースの手法は、異なるランダム初期化から実行される複数のモデルに基づいてアンサンブルの形でしばしば使用され、最終的な確率的予測に集約される必要がある予測分布の集合をもたらす。 そこで本研究では, アンサンブル手法に関する機械学習文献と, 予測の組み合わせに関する統計文献の統合を目的とし, このような深層アンサンブルに基づく分布予測の集計方法について考察する。 理論的議論,シミュレーション実験,風速予測のケーススタディを用いて,予測分布型が異なる3つのニューラルネットワークを用いた確率および量子化手法を出力として体系的に比較した。 その結果,予測分布の組み合わせは予測性能を大幅に改善できることがわかった。 予測密度の線形結合よりも優れた性能を示すディープアンサンブルのための一般量子集約フレームワークを提案する。 最後に,アンサンブルサイズの影響について検討し,実際の深層アンサンブルから分布予測を集約することを推奨する。

The importance of accurately quantifying forecast uncertainty has motivated much recent research on probabilistic forecasting. In particular, a variety of deep learning approaches has been proposed, with forecast distributions obtained as output of neural networks. These neural network-based methods are often used in the form of an ensemble based on multiple model runs from different random initializations, resulting in a collection of forecast distributions that need to be aggregated into a final probabilistic prediction. With the aim of consolidating findings from the machine learning literature on ensemble methods and the statistical literature on forecast combination, we address the question of how to aggregate distribution forecasts based on such deep ensembles. Using theoretical arguments, simulation experiments and a case study on wind gust forecasting, we systematically compare probability- and quantile-based aggregation methods for three neural network-based approaches with different forecast distribution types as output. Our results show that combining forecast distributions can substantially improve the predictive performance. We propose a general quantile aggregation framework for deep ensembles that shows superior performance compared to a linear combination of the forecast densities. Finally, we investigate the effects of the ensemble size and derive recommendations of aggregating distribution forecasts from deep ensembles in practice.
翻訳日:2022-04-06 13:02:58 公開日:2022-04-05
# バイモーダル分散二元化ニューラルネットワーク

Bimodal Distributed Binarized Neural Networks ( http://arxiv.org/abs/2204.02004v1 )

ライセンス: Link先を確認
Tal Rozen, Moshe Kimhi, Brian Chmiel, Avi Mendelson, Chaim Baskin(参考訳) バイナリニューラルネットワーク(BNN)は、ディープニューラルネットワークの複雑さと消費電力を大幅に削減する、極めて有望な方法である。 しかし、二元化技法は、全精度法に比べて性能の低下に苦しむ。 先行研究は主に2値化過程における量子化誤差を低減すべく、前方および後方位相における符号関数近似の戦略に焦点を当てた。 本研究では,bi-modal分散バイナリ化手法(\methodname{})を提案する。 これはクルトシスの正規化によってネットワークの重みのバイモーダル分布を課す。 提案手法は,重み分布模倣 (wdm) と呼ばれる,全精度ネットワーク重み分布を2進法に効果的に模倣する訓練手法である。 バイナライゼーション・アウェアトレーニング中にこの分布を保存することで、堅牢で情報に富む2値特徴写像が生成され、BNNの一般化誤差が大幅に低減される。 CIFAR-10 と ImageNet の大規模評価は,現在の最先端方式よりも提案手法が優れていることを示す。 ソースコード、実験的な設定、トレーニングログ、バイナリモデルは、 \url{https://github.com/BlueAnon/BD-BNN}で利用可能です。

Binary Neural Networks (BNNs) are an extremely promising method to reduce deep neural networks' complexity and power consumption massively. Binarization techniques, however, suffer from ineligible performance degradation compared to their full-precision counterparts. Prior work mainly focused on strategies for sign function approximation during forward and backward phases to reduce the quantization error during the binarization process. In this work, we propose a Bi-Modal Distributed binarization method (\methodname{}). That imposes bi-modal distribution of the network weights by kurtosis regularization. The proposed method consists of a training scheme that we call Weight Distribution Mimicking (WDM), which efficiently imitates the full-precision network weight distribution to their binary counterpart. Preserving this distribution during binarization-aware training creates robust and informative binary feature maps and significantly reduces the generalization error of the BNN. Extensive evaluations on CIFAR-10 and ImageNet demonstrate the superiority of our method over current state-of-the-art schemes. Our source code, experimental settings, training logs, and binary models are available at \url{https://github.com/BlueAnon/BD-BNN}.
翻訳日:2022-04-06 13:02:39 公開日:2022-04-05
# Spread Spurious Attribute: Spurious Attribute Estimationによるワーストグループ精度の向上

Spread Spurious Attribute: Improving Worst-group Accuracy with Spurious Attribute Estimation ( http://arxiv.org/abs/2204.02070v1 )

ライセンス: Link先を確認
Junhyun Nam, Jaehyung Kim, Jaeho Lee, Jinwoo Shin(参考訳) 最悪のグループ損失の最小化のパラダイムは、スプリアス相関を学習することを避けることが約束されているが、スプリアス属性に対するコスト的に追加の監督を必要とする。 これを解決するため、最近の研究は弱い形式の監督(例えば、スプリアス属性アノテーションを持つ少数のバリデーションサンプルで発見されたハイパーパラメータ)の開発に重点を置いているが、どのメソッドもスプリアス属性のフルインスペクションを使用するメソッドと同等のパフォーマンスを保持していない。 この論文では、より弱いスーパーバイザを探す代わりに、次のような質問をする。 スプリアス属性アノテーションを持つ固定数のサンプルにアクセスすると、それらを“完全に悪用する”場合、達成可能な最悪のグループ損失は何か? そこで本研究では,SSA(Spread Spurious Attribute)と呼ばれる疑似属性に基づくアルゴリズムを提案する。 特に,スプリアス属性アノテーションと非スプリアス属性アノテーションを併用してモデルをトレーニングし,トレーニングされたモデルが予測した擬似属性をスプリアス属性の監督として使用し,最小グループ損失の少ない新しいロバストモデルをトレーニングする。 各種ベンチマークデータセットを用いた実験の結果,提案アルゴリズムは,属性アノテーションと同一数の検証サンプルを用いて,ベースライン法より一貫して優れていることがわかった。 また,提案するssaは,データセットによっては0.6%から1.5%までの少ないアノテートサンプルを使用することで,完全な(100%)スプリアス属性の監督を用いた手法と同等の性能を達成できることを実証した。

The paradigm of worst-group loss minimization has shown its promise in avoiding to learn spurious correlations, but requires costly additional supervision on spurious attributes. To resolve this, recent works focus on developing weaker forms of supervision -- e.g., hyperparameters discovered with a small number of validation samples with spurious attribute annotation -- but none of the methods retain comparable performance to methods using full supervision on the spurious attribute. In this paper, instead of searching for weaker supervisions, we ask: Given access to a fixed number of samples with spurious attribute annotations, what is the best achievable worst-group loss if we "fully exploit" them? To this end, we propose a pseudo-attribute-based algorithm, coined Spread Spurious Attribute (SSA), for improving the worst-group accuracy. In particular, we leverage samples both with and without spurious attribute annotations to train a model to predict the spurious attribute, then use the pseudo-attribute predicted by the trained model as supervision on the spurious attribute to train a new robust model having minimal worst-group loss. Our experiments on various benchmark datasets show that our algorithm consistently outperforms the baseline methods using the same number of validation samples with spurious attribute annotations. We also demonstrate that the proposed SSA can achieve comparable performances to methods using full (100%) spurious attribute supervision, by using a much smaller number of annotated samples -- from 0.6% and up to 1.5%, depending on the dataset.
翻訳日:2022-04-06 13:00:50 公開日:2022-04-05
# 航空画像における小型ターゲット検出のための軽量かつ高精度なヨーロライクネットワーク

A lightweight and accurate YOLO-like network for small target detection in Aerial Imagery ( http://arxiv.org/abs/2204.02325v1 )

ライセンス: Link先を確認
Alessandro Betti(参考訳) 自動オブジェクト検出のためのブレークスルー的なディープラーニングのパフォーマンスにもかかわらず、特にモバイルやエッジアプリケーションに適した高速で正確なソリューションを検討する場合、小さなターゲット検出は依然として難しい問題である。 本稿では,小型ターゲット検出のための簡易かつ高速かつ効率的なネットワークであるyolo-sを提案する。 このアーキテクチャは、darknet20に基づく小さな機能抽出器と、バイパスと連結の両方を介してスキップ接続を活用し、消滅する勾配問題を緩和し、ネットワーク全体の機能再利用を促進し、低レベルな位置情報とより有意義な高レベル情報を組み合わせている。 YOLO-Sの性能を検証するため、ヨーロッパで取得したcAr検出のための新しいデータセットである"AIRES"を構築し、AIRESとVEDAIデータセットの両方で実験を行い、4つのベースライン検出器でこのアーキテクチャをベンチマークした。 さらに、転送学習戦略を扱う際のデータ不足やドメインギャップの問題を効率的に処理するために、DOTAv2とVEDAIに基づく統合データセットに遷移学習タスクを導入し、COCOデータから転送されるより一般的な特徴に対して全体的な精度を高めることの実証を行う。 YOLO-SはYOLOv3よりも25%から50%速く、Tiny-YOLOv3よりわずか15-25%遅い。 sardデータセット上でのさらなるシミュレーションは、捜索や救助活動など、さまざまなシナリオに適用可能であることも示している。 さらに、YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。

Despite the breakthrough deep learning performances achieved for automatic object detection, small target detection is still a challenging problem, especially when looking at fast and accurate solutions suitable for mobile or edge applications. In this work we present YOLO-S, a simple, fast and efficient network for small target detection. The architecture exploits a small feature extractor based on Darknet20, as well as skip connection, via both bypass and concatenation, and reshape-passthrough layer to alleviate the vanishing gradient problem, promote feature reuse across network and combine low-level positional information with more meaningful high-level information. To verify the performances of YOLO-S, we build "AIRES", a novel dataset for cAr detectIon fRom hElicopter imageS acquired in Europe, and set up experiments on both AIRES and VEDAI datasets, benchmarking this architecture with four baseline detectors. Furthermore, in order to handle efficiently the issue of data insufficiency and domain gap when dealing with a transfer learning strategy, we introduce a transitional learning task over a combined dataset based on DOTAv2 and VEDAI and demonstrate that can enhance the overall accuracy with respect to more general features transferred from COCO data. YOLO-S is from 25% to 50% faster than YOLOv3 and only 15-25% slower than Tiny-YOLOv3, outperforming also YOLOv3 in terms of accuracy in a wide range of experiments. Further simulations performed on SARD dataset demonstrate also its applicability to different scenarios such as for search and rescue operations. Besides, YOLO-S has an 87% decrease of parameter size and almost one half FLOPs of YOLOv3, making practical the deployment for low-power industrial applications.
翻訳日:2022-04-06 13:00:17 公開日:2022-04-05
# 関数空間における形状再構成のためのSE(3)-等変アテンションネットワーク

SE(3)-Equivariant Attention Networks for Shape Reconstruction in Function Space ( http://arxiv.org/abs/2204.02394v1 )

ライセンス: Link先を確認
Evangelos Chatzipantazis, Stefanos Pertigkiozoglou, Edgar Dobriban, Kostas Daniilidis(参考訳) 点群から占有場を学習する最初のse(3)同変座標ベースのネットワークを提案する。 入力を正規格子に整列する以前の形状再構成法とは対照的に、不規則で無指向な点雲上で直接操作する。 我々は、入力の集合構造(置換等分散と可変長)を維持するために注意機構を利用する。 同時に、アテンションレイヤは、大きなシーンへのスケーラビリティにとって重要な特性である、ローカルな形状モデリングを可能にする。 形状のグローバルシグネチャを作るアーキテクチャとは対照的に、私たちはローカルトークンで動作します。 非指向、スパース、ノイズのある点クラウドを入力として、各点に対して同値な特徴を生成する。 これらは、占有場をパラメトリゼーションする後続の同変クロスアテンションブロックのキーと値として機能する。 空間内の任意の点を問合せすることで、その占有率を予測する。 提案手法は,従来のSO(3)-equivariant法,およびSO(3)-augmented dataで訓練された非equivariant法よりも優れていることを示す。 さらに重要なことに、se(3)-同値性と共に局所モデリングはse(3)シーン再構成の理想的な設定となる。 本研究では,単一オブジェクトのみをトレーニングし,事前分割を行わずに,単一オブジェクトのパフォーマンスで新しいシーンを再構築できることを示す。

We propose the first SE(3)-equivariant coordinate-based network for learning occupancy fields from point clouds. In contrast to previous shape reconstruction methods that align the input to a regular grid, we operate directly on the irregular, unoriented point cloud. We leverage attention mechanisms in order to preserve the set structure (permutation equivariance and variable length) of the input. At the same time, attention layers enable local shape modelling, a crucial property for scalability to large scenes. In contrast to architectures that create a global signature for the shape, we operate on local tokens. Given an unoriented, sparse, noisy point cloud as input, we produce equivariant features for each point. These serve as keys and values for the subsequent equivariant cross-attention blocks that parametrize the occupancy field. By querying an arbitrary point in space, we predict its occupancy score. We show that our method outperforms previous SO(3)-equivariant methods, as well as non-equivariant methods trained on SO(3)-augmented datasets. More importantly, local modelling together with SE(3)-equivariance create an ideal setting for SE(3) scene reconstruction. We show that by training only on single objects and without any pre-segmentation, we can reconstruct a novel scene with single-object performance.
翻訳日:2022-04-06 12:59:46 公開日:2022-04-05
# フォールトトレラントなディープラーニング:階層的視点

Fault-Tolerant Deep Learning: A Hierarchical Perspective ( http://arxiv.org/abs/2204.01942v1 )

ライセンス: Link先を確認
Cheng Liu, Zhen Gao, Siting Liu, Xuefei Ning, Huawei Li, Xiaowei Li(参考訳) 過去10年間のディープラーニングの急速な進歩により、自動運転やロボティクスなど、より安全クリティカルなアプリケーションにディープラーニングが継続的にデプロイされることが期待できる。 この文脈では、これらのアプリケーションへのディープラーニングのデプロイには信頼性が不可欠であることが分かり、徐々にパフォーマンスやエネルギー効率といった主要な設計指標の中で第一級市民になります。 それでも、バックボックスのディープラーニングモデルとさまざまなハードウェア障害の組み合わせは、レジリエントなディープラーニングを極めて困難にします。 本稿では,階層的な視点からフォールトトレラントなディープラーニング設計手法の包括的調査を行い,モデル層,アーキテクチャ層,回路層,クロス層からのアプローチについて検討する。

With the rapid advancements of deep learning in the past decade, it can be foreseen that deep learning will be continuously deployed in more and more safety-critical applications such as autonomous driving and robotics. In this context, reliability turns out to be critical to the deployment of deep learning in these applications and gradually becomes a first-class citizen among the major design metrics like performance and energy efficiency. Nevertheless, the back-box deep learning models combined with the diverse underlying hardware faults make resilient deep learning extremely challenging. In this special session, we conduct a comprehensive survey of fault-tolerant deep learning design approaches with a hierarchical perspective and investigate these approaches from model layer, architecture layer, circuit layer, and cross layer respectively.
翻訳日:2022-04-06 12:58:17 公開日:2022-04-05
# vaeベースの推薦者に対する肯定的・否定的評価

Positive and Negative Critiquing for VAE-based Recommenders ( http://arxiv.org/abs/2204.02162v1 )

ライセンス: Link先を確認
Diego Antognini and Boi Faltings(参考訳) 推奨項目の説明を提供することで、ユーザーは説明の一部を引用することで推奨事項を洗練できる。 マルチモーダル生成モデルの観点からの批評の再検討の結果、最近の研究は、推薦、説明、批評の観点から最先端のパフォーマンスを達成するM&Ms-VAEを提案する。 M&Ms-VAEと類似したモデルでは、ユーザーは否定的に批判できる(すなわち、明示的に不一致)。 しかし、それらは大きな欠点を共有している: ユーザーは肯定的に批判できない(すなわち、望ましい機能を強調)。 M&Ms-VAE+はM&Ms-VAEの拡張であり, 肯定的, 否定的評価が可能である。 ユーザのインタラクションとキーフレーズ使用好みのモデル化に加えて,キーフレーズ使用嫌悪をモデル化する。 さらに, 自己教師あり方式で訓練された, 新たな評価モジュールを設計した。 M&Ms-VAE+ が M&Ms-VAE と一致するか,あるいは超えるかを示す2つのデータセットの実験を行った。 さらに, この結果から, M&Ms-VAE+ と M&Ms-VAE+ は, 肯定的, 否定的な多段階的評価において, 著しく優れていることが示された。

Providing explanations for recommended items allows users to refine the recommendations by critiquing parts of the explanations. As a result of revisiting critiquing from the perspective of multimodal generative models, recent work has proposed M&Ms-VAE, which achieves state-of-the-art performance in terms of recommendation, explanation, and critiquing. M&Ms-VAE and similar models allow users to negatively critique (i.e., explicitly disagree). However, they share a significant drawback: users cannot positively critique (i.e., highlight a desired feature). We address this deficiency with M&Ms-VAE+, an extension of M&Ms-VAE that enables positive and negative critiquing. In addition to modeling users' interactions and keyphrase-usage preferences, we model their keyphrase-usage dislikes. Moreover, we design a novel critiquing module that is trained in a self-supervised fashion. Our experiments on two datasets show that M&Ms-VAE+ matches or exceeds M&Ms-VAE in recommendation and explanation performance. Furthermore, our results demonstrate that representing positive and negative critiques differently enables M&Ms-VAE+ to significantly outperform M&Ms-VAE and other models in positive and negative multi-step critiquing.
翻訳日:2022-04-06 12:56:46 公開日:2022-04-05
# ハイブリッド予測符号化 - 推論,高速,低速化

Hybrid Predictive Coding: Inferring, Fast and Slow ( http://arxiv.org/abs/2204.02169v1 )

ライセンス: Link先を確認
Alexander Tschantz, Beren Millidge, Anil K Seth, Christopher L Buckley(参考訳) 予測符号化は皮質神経活動に影響を及ぼすモデルである。 予測誤差(prediction error) - 予測データと観測データの違いを逐次最小化することで知覚的信念を提供する。 この提案では暗黙的であり、知覚は複数の神経活動のサイクルを必要とするという考えである。 これは、複雑な物体認識を含む視覚知覚のいくつかの側面が、実質的な反復活動を妨げる高速な時間スケールで起こる初期の「フィードフォワード・スイープ」から生じるという証拠と矛盾している。 本稿では,フィードフォワードスイープを償却推論と解釈し,繰り返し処理を反復推論と解釈する。 本論文では,単目的関数の双対最適化という観点から,反復的および漸近的推論を原理的に結合したハイブリッド予測符号化ネットワークを提案する。 提案手法は, 局所ヘビアン更新規則を用いたベイズ推定を近似した, 生物学的に妥当なニューラルネットワークアーキテクチャで実装可能であることを示す。 このハイブリッド予測符号化モデルは,反復推論方式の文脈感性,精度,サンプル効率を維持しつつ,慣れ親しんだデータに対する迅速かつ計算上安価な知覚的推論を実現するという,漸近的推論と反復的推論の両方の利点を組み合わせることを実証する。 さらに、我々のモデルは本質的に不確実性に敏感であり、最小の計算費用を用いて正確な信念を得るために反復的および償却的推論を適応的にバランスしていることを示す。 ハイブリッド予測符号化は、視覚知覚中に観察されるフィードフォワードおよびリカレント活動の機能的関連性に関する新たな視点を提供し、視覚表現論の異なる側面に対する新たな洞察を提供する。

Predictive coding is an influential model of cortical neural activity. It proposes that perceptual beliefs are furnished by sequentially minimising "prediction errors" - the differences between predicted and observed data. Implicit in this proposal is the idea that perception requires multiple cycles of neural activity. This is at odds with evidence that several aspects of visual perception - including complex forms of object recognition - arise from an initial "feedforward sweep" that occurs on fast timescales which preclude substantial recurrent activity. Here, we propose that the feedforward sweep can be understood as performing amortized inference and recurrent processing can be understood as performing iterative inference. We propose a hybrid predictive coding network that combines both iterative and amortized inference in a principled manner by describing both in terms of a dual optimization of a single objective function. We show that the resulting scheme can be implemented in a biologically plausible neural architecture that approximates Bayesian inference utilising local Hebbian update rules. We demonstrate that our hybrid predictive coding model combines the benefits of both amortized and iterative inference -- obtaining rapid and computationally cheap perceptual inference for familiar data while maintaining the context-sensitivity, precision, and sample efficiency of iterative inference schemes. Moreover, we show how our model is inherently sensitive to its uncertainty and adaptively balances iterative and amortized inference to obtain accurate beliefs using minimum computational expense. Hybrid predictive coding offers a new perspective on the functional relevance of the feedforward and recurrent activity observed during visual perception and offers novel insights into distinct aspects of visual phenomenology.
翻訳日:2022-04-06 12:56:22 公開日:2022-04-05
# IFTT-PIN: PIN-Entryタスクにおける自己校正パラダイムの実証

IFTT-PIN: Demonstrating the Self-Calibration Paradigm on a PIN-Entry Task ( http://arxiv.org/abs/2204.02341v1 )

ライセンス: Link先を確認
Jonathan Grizou(参考訳) 本稿では,roth et al. (2004) で導入されたピン入力方式の自己調整版 iftt-pin について述べる。 [1]では、桁は2つの集合に分割され、それぞれ色が割り当てられる。 ディジットをコミュニケーションするために、ユーザーはディジットに割り当てられた同じ色でボタンを押す。 IFTT-PINは同じ原理を用いるが、各ボタンに色をプリアサインしない。 ユーザーはそれぞれの色にどのボタンを使うか自由に選択できる。 IFTT-PINは、ユーザのPINとボタン間マッピングの両方を同時に推論する。 IFTT-PINの異なるバージョンはhttps://jgrizou.github.io/IFTT-PIN/でテストできる。

We demonstrate IFTT-PIN, a self-calibrating version of the PIN-entry method introduced in Roth et al. (2004) [1]. In [1], digits are split into two sets and assigned a color respectively. To communicate their digit, users press the button with the same color that is assigned to their digit, which can be identified by elimination after a few iterations. IFTT-PIN uses the same principle but does not pre-assign colors to each button. Instead, users are free to choose which button to use for each color. IFTT-PIN infers both the user's PIN and their preferred button-to-color mapping at the same time, a process called self-calibration. Different versions of IFTT-PIN can be tested at https://jgrizou.github.io/IFTT-PIN/ and a video introduction at https://youtu.be/5I1ibPJdLHM.
翻訳日:2022-04-06 12:55:27 公開日:2022-04-05
# 失敗するには大きすぎる? 能動Few-Shot学習ガイド論理合成

Too Big to Fail? Active Few-Shot Learning Guided Logic Synthesis ( http://arxiv.org/abs/2204.02368v1 )

ライセンス: Link先を確認
Animesh Basak Chowdhury, Benjamin Tan, Ryan Carey, Tushit Jain, Ramesh Karri, Siddharth Garg(参考訳) 準最適合成変換配列(合成レシピ)の生成は、論理合成において重要な問題である。 手作りの合成レシピは品質が悪い。 最先端の機械学習(ml)は、モデルをスクラッチからトレーニングする必要があるため、大規模なネットリストに対してスケールしない合成レシピを生成するためのものだ。 本研究では,事前学習したモデルを過去の合成データに微調整し,未知のネットリストの合成レシピの品質を正確に予測する手法であるbulls-eyeを提案する。 このアプローチは、最先端の機械学習アプローチよりも2倍から10倍のランタイム改善とQoR(Quality of-result)を実現している。

Generating sub-optimal synthesis transformation sequences ("synthesis recipe") is an important problem in logic synthesis. Manually crafted synthesis recipes have poor quality. State-of-the art machine learning (ML) works to generate synthesis recipes do not scale to large netlists as the models need to be trained from scratch, for which training data is collected using time consuming synthesis runs. We propose a new approach, Bulls-Eye, that fine-tunes a pre-trained model on past synthesis data to accurately predict the quality of a synthesis recipe for an unseen netlist. This approach on achieves 2x-10x run-time improvement and better quality-of-result (QoR) than state-of-the-art machine learning approaches.
翻訳日:2022-04-06 12:54:58 公開日:2022-04-05
# SNUG: 自己監督型ニューラルダイナミックガーメント

SNUG: Self-Supervised Neural Dynamic Garments ( http://arxiv.org/abs/2204.02219v1 )

ライセンス: Link先を確認
Igor Santesteban and Miguel A. Otaduy and Dan Casas(参考訳) パラメトリック人体が着用する衣服の動的3次元変形を学習するための自己教師あり手法を提案する。 3d衣料変形をモデル化する最先端のデータ駆動アプローチは、大規模なデータセットを必要とする教師付き戦略を用いて訓練される。 対照的に,新しいトレーニング手法を提案することにより,動的3次元衣服の変形を自己指導的に行うことが可能となる。 我々の重要な貢献は、暗黙の積分器によって伝統的にフレーム単位で解決された物理ベースの変形モデルを最適化問題として再キャストできることである。 このような最適化に基づくスキームを利用して物理に基づく損失項の集合を定式化し、ニューラルネットワークのトレーニングに使用する。 これにより、動的変形や細かいしわなどインタラクティブな衣服のモデルを学ぶことができ、最先端の教師付き方法と比較して、トレーニング時間の2桁のスピードアップを実現します。

We present a self-supervised method to learn dynamic 3D deformations of garments worn by parametric human bodies. State-of-the-art data-driven approaches to model 3D garment deformations are trained using supervised strategies that require large datasets, usually obtained by expensive physics-based simulation methods or professional multi-camera capture setups. In contrast, we propose a new training scheme that removes the need for ground-truth samples, enabling self-supervised training of dynamic 3D garment deformations. Our key contribution is to realize that physics-based deformation models, traditionally solved in a frame-by-frame basis by implicit integrators, can be recasted as an optimization problem. We leverage such optimization-based scheme to formulate a set of physics-based loss terms that can be used to train neural networks without precomputing ground-truth data. This allows us to learn models for interactive garments, including dynamic deformations and fine wrinkles, with two orders of magnitude speed up in training time compared to state-of-the-art supervised methods
翻訳日:2022-04-06 12:52:40 公開日:2022-04-05
# アクション・コンディション・コントラスト政策事前訓練

Action-Conditioned Contrastive Policy Pretraining ( http://arxiv.org/abs/2204.02393v1 )

ライセンス: Link先を確認
Qihang Zhang, Zhenghao Peng, Bolei Zhou(参考訳) deep visuomotor policy learningは、ロボット操作や自律運転といった、神経ポリシーによる視覚入力からアクションが生成される制御タスクにおいて、有望な結果を達成する。 しかし、トレーニング環境との膨大な数のオンラインインタラクションが必要であり、実際のアプリケーションを制限する。 視覚認知のための教師なし機能学習と比較して、視覚運動制御タスクのための特徴事前学習は、はるかに少ない。 本研究では、数時間の未計算YouTubeビデオを用いて、タスクを駆動するためのポリシー表現を事前訓練することを目的とする。 アクション擬似ラベル付きビデオフレームからアクション条件付き特徴を学習するための新しいコントラストポリシー事前学習法を開発した。 実験の結果,下流強化学習と模倣学習タスクが,従来の教師なし学習手法から事前学習した重みを上回って大幅に改善することが判明した。 コードとモデルは公開される予定だ。

Deep visuomotor policy learning achieves promising results in control tasks such as robotic manipulation and autonomous driving, where the action is generated from the visual input by the neural policy. However, it requires a huge number of online interactions with the training environment, which limits its real-world application. Compared to the popular unsupervised feature learning for visual recognition, feature pretraining for visuomotor control tasks is much less explored. In this work, we aim to pretrain policy representations for driving tasks using hours-long uncurated YouTube videos. A new contrastive policy pretraining method is developed to learn action-conditioned features from video frames with action pseudo labels. Experiments show that the resulting action-conditioned features bring substantial improvements to the downstream reinforcement learning and imitation learning tasks, outperforming the weights pretrained from previous unsupervised learning methods. Code and models will be made publicly available.
翻訳日:2022-04-06 12:52:21 公開日:2022-04-05
# objectfolder 2.0: sim2real転送のためのマルチセンサーオブジェクトデータセット

ObjectFolder 2.0: A Multisensory Object Dataset for Sim2Real Transfer ( http://arxiv.org/abs/2204.02389v1 )

ライセンス: Link先を確認
Ruohan Gao, Zilin Si, Yen-Yu Chang, Samuel Clarke, Jeannette Bohg, Li Fei-Fei, Wenzhen Yuan, Jiajun Wu(参考訳) オブジェクトは日々の活動において重要な役割を果たす。 近年、多感覚のオブジェクト中心学習は大きな可能性を示しているが、先行研究におけるオブジェクトのモデリングはかなり非現実的である。 objectfolder 1.0は、視覚、音響、触覚の知覚データを100の仮想オブジェクトに導入する最近のデータセットである。 しかし、データセットは規模が小さく、多感覚データは限られた品質であり、現実のシナリオへの一般化を妨げる。 objectfolder 2.0は,3つの面でobjectfolder 1.0を大幅に強化した,暗黙的なニューラルネットワーク表現という形で,一般的な家庭用オブジェクトの大規模マルチセンサーデータセットである。 まず、私たちのデータセットはオブジェクトの量で10倍大きく、レンダリング時間では桁違いに高速です。 第2に、3つのモードの多感的なレンダリング品質を著しく改善する。 第三に、データセット内の仮想オブジェクトから学習したモデルが、オブジェクトスケール推定、コンタクトローカライゼーション、形状再構成の3つの課題において、現実のオブジェクトへの転送に成功していることを示す。 ObjectFolder 2.0は、コンピュータビジョンとロボット工学のマルチ感覚学習のための新しいパスとテストベッドを提供する。 データセットはhttps://github.com/rhgao/objectfolderで利用可能である。

Objects play a crucial role in our everyday activities. Though multisensory object-centric learning has shown great potential lately, the modeling of objects in prior work is rather unrealistic. ObjectFolder 1.0 is a recent dataset that introduces 100 virtualized objects with visual, acoustic, and tactile sensory data. However, the dataset is small in scale and the multisensory data is of limited quality, hampering generalization to real-world scenarios. We present ObjectFolder 2.0, a large-scale, multisensory dataset of common household objects in the form of implicit neural representations that significantly enhances ObjectFolder 1.0 in three aspects. First, our dataset is 10 times larger in the amount of objects and orders of magnitude faster in rendering time. Second, we significantly improve the multisensory rendering quality for all three modalities. Third, we show that models learned from virtual objects in our dataset successfully transfer to their real-world counterparts in three challenging tasks: object scale estimation, contact localization, and shape reconstruction. ObjectFolder 2.0 offers a new path and testbed for multisensory learning in computer vision and robotics. The dataset is available at https://github.com/rhgao/ObjectFolder.
翻訳日:2022-04-06 12:52:05 公開日:2022-04-05
# (参考訳) 言語分布のエントロピーの推定

Estimating the Entropy of Linguistic Distributions ( http://arxiv.org/abs/2204.01469v2 )

ライセンス: CC BY 4.0
Aryaman Arora, Clara Meister, Ryan Cotterell(参考訳) シャノンのエントロピーはしばしば、人間の言語のコミュニケーション能力を研究する言語学者の関心の量である。 しかし、エントロピーは観測データから推定されなければならない。なぜなら研究者はこれらのデータを生み出す基礎となる確率分布にアクセスできないからだ。 エントロピー推定は、他の分野ではよく研究されている問題であるが、言語データに使用するエントロピー推定器の有効性に関する包括的な調査はまだない。 本研究では,言語分布に対する異なるエントロピー推定器の実証的有効性について検討する。 近年の2つの情報理論言語研究の再現において,エントロピー推定器の不足が原因で報告された効果の大きさが過大評価されていることが判明した。 最後に, 分布型とデータ可用性によるエントロピー推定について, 具体的な推奨事項を述べる。

Shannon entropy is often a quantity of interest to linguists studying the communicative capacity of human language. However, entropy must typically be estimated from observed data because researchers do not have access to the underlying probability distribution that gives rise to these data. While entropy estimation is a well-studied problem in other fields, there is not yet a comprehensive exploration of the efficacy of entropy estimators for use with linguistic data. In this work, we fill this void, studying the empirical effectiveness of different entropy estimators for linguistic distributions. In a replication of two recent information-theoretic linguistic studies, we find evidence that the reported effect size is over-estimated due to over-reliance on poor entropy estimators. Finally, we end our paper with concrete recommendations for entropy estimation depending on distribution type and data availability.
翻訳日:2022-04-06 12:51:06 公開日:2022-04-05
# UNetFormer: 統合ビジョントランスフォーマーモデルと3次元医用画像セグメンテーションのための事前トレーニングフレームワーク

UNetFormer: A Unified Vision Transformer Model and Pre-Training Framework for 3D Medical Image Segmentation ( http://arxiv.org/abs/2204.00631v2 )

ライセンス: Link先を確認
Ali Hatamizadeh, Ziyue Xu, Dong Yang, Wenqi Li, Holger Roth and Daguang Xu(参考訳) ビジョントランスフォーマー(ViT)は、特に長距離情報をキャプチャするための優れたモデリング能力と、様々なコンピュータビジョンや医療画像解析タスクにおける最先端のパフォーマンスをもたらすデータセットやモデルサイズへのスケーラビリティにより、最近人気が高まっている。 本研究では,UNetFormerと呼ばれる2つのアーキテクチャと,3D Swin Transformerベースのエンコーダと畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのデコーダを組み合わせた統合フレームワークを導入する。 提案モデルでは,5つの異なる解像度でのスキップ接続により,エンコーダをデコーダにリンクする。 提案アーキテクチャの設計により、精度と計算コストの間の幅広いトレードオフ要件を満たすことができる。 さらに,エンコーダバックボーンの自己教師付き事前学習を学習し,可視トークンの文脈情報を用いてランダムにマスクされたボリュームトークンを予測する手法を提案する。 我々は,公開可能なctデータセットから収集した5050ドルのct画像のコホート上でフレームワークを事前学習し,マスキング比やパッチサイズなど,下流タスクの表現学習能力や性能に影響を与えるさまざまなコンポーネントの体系的調査を行った。 本研究は,MSDデータセットを用いて肝・肝腫瘍セグメンテーションタスクを微調整し,評価し,様々なセグメンテーション指標を用いて最先端のパフォーマンスを達成することによる事前トレーニングアプローチの有効性を検証する。 一般化可能性を示すために,MRI画像を用いてBraTS 21データセットを用いて,脳腫瘍セグメント化のためのモデルを訓練,試験し,Diceスコアで他の手法より優れていることを示す。 コード:https://github.com/Project-MONAI/research-contributions

Vision Transformers (ViT)s have recently become popular due to their outstanding modeling capabilities, in particular for capturing long-range information, and scalability to dataset and model sizes which has led to state-of-the-art performance in various computer vision and medical image analysis tasks. In this work, we introduce a unified framework consisting of two architectures, dubbed UNetFormer, with a 3D Swin Transformer-based encoder and Convolutional Neural Network (CNN) and transformer-based decoders. In the proposed model, the encoder is linked to the decoder via skip connections at five different resolutions with deep supervision. The design of proposed architecture allows for meeting a wide range of trade-off requirements between accuracy and computational cost. In addition, we present a methodology for self-supervised pre-training of the encoder backbone via learning to predict randomly masked volumetric tokens using contextual information of visible tokens. We pre-train our framework on a cohort of $5050$ CT images, gathered from publicly available CT datasets, and present a systematic investigation of various components such as masking ratio and patch size that affect the representation learning capability and performance of downstream tasks. We validate the effectiveness of our pre-training approach by fine-tuning and testing our model on liver and liver tumor segmentation task using the Medical Segmentation Decathlon (MSD) dataset and achieve state-of-the-art performance in terms of various segmentation metrics. To demonstrate its generalizability, we train and test the model on BraTS 21 dataset for brain tumor segmentation using MRI images and outperform other methods in terms of Dice score. Code: https://github.com/Project-MONAI/research-contributions
翻訳日:2022-04-06 11:53:11 公開日:2022-04-05
# 埋め込みcnnを用いたprogressive minimal path法

Progressive Minimal Path Method with Embedded CNN ( http://arxiv.org/abs/2204.00944v2 )

ライセンス: Link先を確認
Wei Liao(参考訳) 本稿では,畳み込みニューラルネットワーク(cnns)をプログレッシブ・ミニマルパス法に埋め込み,管状構造の中心線をセグメンテーションする方法であるpath-cnnを提案する。 最小経路法はトポロジーを意識した中心線セグメンテーションに広く用いられているが、通常は手動画像の特徴に頼っている。 対照的に、CNNは画像から自動的に学習される強力な画像特徴を使用する。 しかし、CNNは通常、結果のトポロジを考慮しておらず、トレーニングに大量のアノテーションを必要とすることが多い。 CNNは最小経路の決定を改善するために学習された画像特徴を使い、最小経路法は分割された中心線の正確なトポロジを保証し、CNNの性能を高めるために強力な幾何学的事前情報を提供し、CNNのトレーニングのためのアノテーションの量を著しく削減する。 本手法は近年の多くの手法よりもハードウェア要件が低い。 他の手法と定性的かつ定量的に比較すると、Path-CNNは特に困難環境において複雑な形状の管状構造を扱う場合、優れた性能を発揮する。

We propose Path-CNN, a method for the segmentation of centerlines of tubular structures by embedding convolutional neural networks (CNNs) into the progressive minimal path method. Minimal path methods are widely used for topology-aware centerline segmentation, but usually these methods rely on weak, hand-tuned image features. In contrast, CNNs use strong image features which are learned automatically from images. But CNNs usually do not take the topology of the results into account, and often require a large amount of annotations for training. We integrate CNNs into the minimal path method, so that both techniques benefit from each other: CNNs employ learned image features to improve the determination of minimal paths, while the minimal path method ensures the correct topology of the segmented centerlines, provides strong geometric priors to increase the performance of CNNs, and reduces the amount of annotations for the training of CNNs significantly. Our method has lower hardware requirements than many recent methods. Qualitative and quantitative comparison with other methods shows that Path-CNN achieves better performance, especially when dealing with tubular structures with complex shapes in challenging environments.
翻訳日:2022-04-06 11:52:39 公開日:2022-04-05
# タスク指向対話システム評価のためのメタフォリカルユーザシミュレータ

Metaphorical User Simulators for Evaluating Task-oriented Dialogue Systems ( http://arxiv.org/abs/2204.00763v2 )

ライセンス: Link先を確認
Weiwei Sun and Shuyu Guo and Shuo Zhang and Pengjie Ren and Zhumin Chen and Maarten de Rijke and Zhaochun Ren(参考訳) タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。 評価は、しばしばシングルターンまたは非常に時間集中に制限される。 代替として、ユーザ動作を模倣するユーザシミュレータにより、幅広いユーザ目標を考慮し、シミュレーションされた評価のための人間的な会話を生成することができる。 TDSの対話ポリシーを最適化し,限られた評価能力を有するため,既存のユーザシミュレータをTDS評価に利用することは困難である。 さらに,ユーザシミュレータの評価はオープンな課題である。 本研究では,エンド・ツー・エンドTDS評価のためのメタファ型ユーザシミュレータを提案する。 また,異なる機能を持つ対話システムを生成するための,テスタに基づく評価フレームワークを提案する。 ユーザシミュレータは,新しい項目に遭遇したときの事前知識を参照して,シミュレータの推論を支援するメタファ的ユーザモデルを構築している。 シミュレータと変種間の模擬相互作用をチェックすることでシミュレータの品質を推定する。 3つのTDSデータセットを用いて実験を行った。 メタファ的ユーザシミュレータは、3つのデータセット上のアジェンダベースのシミュレータやseq2seqモデルよりも手作業による評価との一貫性が優れています。

Task-oriented dialogue systems (TDSs) are assessed mainly in an offline setting or through human evaluation. The evaluation is often limited to single-turn or very time-intensive. As an alternative, user simulators that mimic user behavior allow us to consider a broad set of user goals to generate human-like conversations for simulated evaluation. Employing existing user simulators to evaluate TDSs is challenging as user simulators are primarily designed to optimize dialogue policies for TDSs and have limited evaluation capability. Moreover, the evaluation of user simulators is an open challenge. In this work, we proposes a metaphorical user simulator for endto-end TDS evaluation. We also propose a tester-based evaluation framework to generate variants, i.e., dialogue systems with different capabilities. Our user simulator constructs a metaphorical user model that assists the simulator in reasoning by referring to prior knowledge when encountering new items. We estimate the quality of simulators by checking the simulated interactions between simulators and variants. Our experiments are conducted using three TDS datasets. The metaphorical user simulator demonstrates better consistency with manual evaluation than Agenda-based simulator and Seq2seq model on three datasets; our tester framework demonstrates efficiency, and our approach demonstrates better generalization and scalability.
翻訳日:2022-04-06 11:52:17 公開日:2022-04-05