このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220324となっている論文です。

PDF登録状況(公開日: 20220324)

TitleAuthorsAbstract論文公表日・翻訳日
# 人間とアルゴリズムによる意思決定の主要な公平性

Principal Fairness for Human and Algorithmic Decision-Making ( http://arxiv.org/abs/2005.10400v5 )

ライセンス: Link先を確認
Kosuke Imai, Zhichao Jiang(参考訳) 因果推論文献から主階層化の概念を用いて,人間とアルゴリズムによる意思決定のための主公平性という新しい概念を導入する。 鍵となる考え方は、決定によって同様に影響を受ける個人を差別すべきではないということである。 既存の統計的公正の定義とは異なり、主公正性は個人が決定に影響を及ぼすことができるという事実を明確に説明している。 さらに, 因果関係に基づく正当性基準と主正当性がどう異なるかを説明する。 対実公正基準とは対照的に、例えば、主公正性は、関心の保護された属性よりも、問題における決定の効果を考える。 主観的公平性基準の下での実証的評価と政策学習の問題へのアプローチについて簡単に論じる。

Using the concept of principal stratification from the causal inference literature, we introduce a new notion of fairness, called principal fairness, for human and algorithmic decision-making. The key idea is that one should not discriminate among individuals who would be similarly affected by the decision. Unlike the existing statistical definitions of fairness, principal fairness explicitly accounts for the fact that individuals can be impacted by the decision. Furthermore, we explain how principal fairness differs from the existing causality-based fairness criteria. In contrast to the counterfactual fairness criteria, for example, principal fairness considers the effects of decision in question rather than those of protected attributes of interest. We briefly discuss how to approach empirical evaluation and policy learning problems under the proposed principal fairness criterion.
翻訳日:2022-11-30 23:04:17 公開日:2022-03-24
# ゴール指向視覚対話のための回答駆動視覚状態推定器

Answer-Driven Visual State Estimator for Goal-Oriented Visual Dialogue ( http://arxiv.org/abs/2010.00361v2 )

ライセンス: Link先を確認
Zipeng Xu, Fangxiang Feng, Xiaojie Wang, Yushu Yang, Huixing Jiang, Zhongyuan Wang(参考訳) ゴール指向のビジュアル対話は、質問者とオラクルの2つのエージェント間のマルチターンインタラクションを含む。 その間、Oracleから与えられた回答は、質問に対する黄金の反応を提供するので、非常に重要である。 回答に基づいて、質問者はターゲットのビジュアルコンテンツに対する信念を更新し、さらに別の質問を提起する。 特に、異なる答えは、異なる視覚的信念と将来の疑問をもたらす。 しかし、既存の手法は常に長い質問の後に無差別に答えを符号化し、答えの弱い利用をもたらす。 本稿では,視覚状態に対する異なる回答の効果を付与するアンサー駆動型視覚状態推定器(ADVSE)を提案する。 まず,質問関連注意を鋭くし,各ターンで回答に基づく論理操作によって調整することで,視覚的注意に対する回答駆動効果を捉えるための回答駆動集中注意(ADFA)を提案する。 そして,焦点をあてて,条件付き視覚情報融合(CVIF)による視覚状態推定を行い,質問応答状態に基づいて情報と差分情報を融合させる。 提案したADVSEを,大規模Guessの質問生成タスクと推測タスクの両方に評価する。 両方のタスクで最先端のパフォーマンスをデータセットして達成する。 定性的な結果から,advseはエージェントを増強して高効率な質問を生成し,合理的な質問生成と推測プロセス中に信頼できる視覚的注意を得る。

A goal-oriented visual dialogue involves multi-turn interactions between two agents, Questioner and Oracle. During which, the answer given by Oracle is of great significance, as it provides golden response to what Questioner concerns. Based on the answer, Questioner updates its belief on target visual content and further raises another question. Notably, different answers drive into different visual beliefs and future questions. However, existing methods always indiscriminately encode answers after much longer questions, resulting in a weak utilization of answers. In this paper, we propose an Answer-Driven Visual State Estimator (ADVSE) to impose the effects of different answers on visual states. First, we propose an Answer-Driven Focusing Attention (ADFA) to capture the answer-driven effect on visual attention by sharpening question-related attention and adjusting it by answer-based logical operation at each turn. Then based on the focusing attention, we get the visual state estimation by Conditional Visual Information Fusion (CVIF), where overall information and difference information are fused conditioning on the question-answer state. We evaluate the proposed ADVSE to both question generator and guesser tasks on the large-scale GuessWhat?! dataset and achieve the state-of-the-art performances on both tasks. The qualitative results indicate that the ADVSE boosts the agent to generate highly efficient questions and obtains reliable visual attentions during the reasonable question generation and guess processes.
翻訳日:2022-10-12 08:19:55 公開日:2022-03-24
# PCP理論、SETHなど:サブ線形時間不適合性の証明を目指して

PCP Theorems, SETH and More: Towards Proving Sub-linear Time Inapproximability ( http://arxiv.org/abs/2011.02320v4 )

ライセンス: Link先を確認
Hengzhao Ma, Jianzhong Li(参考訳) 本稿では,線形時間不近似に対するPCP型定理を提案する。 abboudらはsub-quadratic time inapproximabilityのための分散pcpフレームワークを考案した。 分散pcp定理は任意の多項式時間の近似性を証明するために一般化できるが、線形の場合では失敗する。 我々は,集合包含問題に対する MA-protocol から適応した部分線型PCP定理を証明し,その定理を用いて既存および新たな不近似性の両方を証明し,部分線形PCP定理のパワーを示す。 線形時間アルゴリズムの研究の進展を考えると、線形時間近似アルゴリズムの研究を導く上では、線形PCP定理が重要である。

In this paper we propose the PCP-like theorem for sub-linear time inapproximability. Abboud et al. have devised the distributed PCP framework for sub-quadratic time inapproximability. We show that the distributed PCP theorem can be generalized for proving arbitrary polynomial time inapproximability, but fails in the linear case. We prove the sub-linear PCP theorem by adapting from an MA-protocol for the Set Containment problem, and show how to use the theorem to prove both existing and new inapproximability results, exhibiting the power of the sub-linear PCP theorem. Considering the emerging research works on sub-linear time algorithms, the sub-linear PCP theorem is important in guiding the research in sub-linear time approximation algorithms.
翻訳日:2022-09-29 22:41:18 公開日:2022-03-24
# 人間と機械における意識機能と一般知能の関係について

On the link between conscious function and general intelligence in humans and machines ( http://arxiv.org/abs/2204.05133v1 )

ライセンス: Link先を確認
Arthur Juliani, Kai Arulkumaran, Shuntaro Sasai, Ryota Kanai(参考訳) 大衆メディアでは、人工エージェントに対する認識の出現と、人間または超人間レベルの知性を同時に達成する同じエージェントの間には、しばしば関連がある。 本研究では,この意識と知能の直感的なリンクの有効性と可能性について検討する。 本稿では,グローバルワークスペース理論(GWT),情報生成理論(IGT),アテンションスキーマ理論(AST)の3つの現代の意識機能理論に関連する認知能力を検討する。 3つの理論はすべて、意識機能と人間のドメイン一般知性のいくつかの側面を特に関連づけている。 この知見により、私たちは人工知能(AI)の分野に目を向け、一般知能の実証には程遠いものの、最先端のディープラーニング手法の多くは、3つの機能理論の主要な側面を取り入れ始めている。 この明らかな傾向を考えると、3つの理論のそれぞれの洞察を統一モデルに組み合わせる方法を提案するために、人間のメンタルタイムトラベルのモチベーションのある例を用いています。 このようにすることで、より一般的に知的なだけでなく、意識機能に関する複数の現在の理論とも一致した人工エージェントの開発が可能になると信じている。

In popular media, there is often a connection drawn between the advent of awareness in artificial agents and those same agents simultaneously achieving human or superhuman level intelligence. In this work, we explore the validity and potential application of this seemingly intuitive link between consciousness and intelligence. We do so by examining the cognitive abilities associated with three contemporary theories of conscious function: Global Workspace Theory (GWT), Information Generation Theory (IGT), and Attention Schema Theory (AST). We find that all three theories specifically relate conscious function to some aspect of domain-general intelligence in humans. With this insight, we turn to the field of Artificial Intelligence (AI) and find that, while still far from demonstrating general intelligence, many state-of-the-art deep learning methods have begun to incorporate key aspects of each of the three functional theories. Given this apparent trend, we use the motivating example of mental time travel in humans to propose ways in which insights from each of the three theories may be combined into a unified model. We believe that doing so can enable the development of artificial agents which are not only more generally intelligent but are also consistent with multiple current theories of conscious function.
翻訳日:2022-04-17 07:29:31 公開日:2022-03-24
# (参考訳) 観測データによる社会的影響の推定

Estimating Social Influence from Observational Data ( http://arxiv.org/abs/2204.01633v1 )

ライセンス: CC BY 4.0
Dhanya Sridhar and Caterina De Bacco and David Blei(参考訳) 本研究では,社会的影響を推定する問題,個人の行動が将来の仲間の行動に与える影響を考察する。 鍵となる課題は、友人間の共有行動は、影響または他の2つの要因によって等しく説明できることである。 1)友人になったり、行動に関わったりした、潜伏した特性 2) 行動に対する過度な嗜好。 本稿では,3つの貢献により社会的影響を推定する課題について述べる。 まず、仮説的介入に関する推論を必要とする因果効果として社会的影響を定式化する。 第2に,観測データから社会的影響を推定する手法として,Poisson Influence Factorization (PIF) を開発した。 PIFは確率的因子モデルをネットワークや行動データに適用し、待ち行列の代替となる変数を推論する。 第3に、PIFが社会的影響の見積もりを回復する仮定を開発する。 我々は、Last.fmから半合成および実データを用いてPIFを実証研究し、感度解析を行う。 PIFは、関連する手法と比較して社会的影響を最も正確に推定し、その仮定に反する条件下では頑健である。

We consider the problem of estimating social influence, the effect that a person's behavior has on the future behavior of their peers. The key challenge is that shared behavior between friends could be equally explained by influence or by two other confounding factors: 1) latent traits that caused people to both become friends and engage in the behavior, and 2) latent preferences for the behavior. This paper addresses the challenges of estimating social influence with three contributions. First, we formalize social influence as a causal effect, one which requires inferences about hypothetical interventions. Second, we develop Poisson Influence Factorization (PIF), a method for estimating social influence from observational data. PIF fits probabilistic factor models to networks and behavior data to infer variables that serve as substitutes for the confounding latent traits. Third, we develop assumptions under which PIF recovers estimates of social influence. We empirically study PIF with semi-synthetic and real data from Last.fm, and conduct a sensitivity analysis. We find that PIF estimates social influence most accurately compared to related methods and remains robust under some violations of its assumptions.
翻訳日:2022-04-10 12:49:09 公開日:2022-03-24
# 地上プラスチック廃棄物の衛星モニタリング

Satellite Monitoring of Terrestrial Plastic Waste ( http://arxiv.org/abs/2204.01485v1 )

ライセンス: Link先を確認
Caleb Kruse, Edward Boyda, Sully Chen, Krishna Karra, Tristan Bou-Nahra, Dan Hammer, Jennifer Mathis, Taylor Maddalene, Jenna Jambeck, Fabien Laurier(参考訳) プラスチック廃棄物は、監視が難しい重要な環境汚染物質である。 我々は, 衛星データのスペクトル, 空間, 時間成分を分析し, 廃棄物の地上凝集を同定するニューラルネットワークシステムを構築した。 このシステムは大陸規模で機能する。 インドネシアでの性能評価を行い, 公共データベースの2倍以上の374個の廃棄物集合体を検出した。 東南アジアの12カ国で同様のシステムが展開され、96件が確認された。 検出された各サイトに対して、時間を通して廃棄物サイトフットプリントをアルゴリズムで監視し、他のデータセットを相互参照して物理的および社会的メタデータを生成する。 検出された廃棄物の19%は水路から200m以内にある。 多くの場所が直接川岸にあり、海洋漏れのリスクが高い。

Plastic waste is a significant environmental pollutant that is difficult to monitor. We created a system of neural networks to analyze spectral, spatial, and temporal components of Sentinel-2 satellite data to identify terrestrial aggregations of waste. The system works at continental scale. We evaluated performance in Indonesia and detected 374 waste aggregations, more than double the number of sites found in public databases. The same system deployed across twelve countries in Southeast Asia identifies 996 subsequently confirmed waste sites. For each detected site, we algorithmically monitor waste site footprints through time and cross-reference other datasets to generate physical and social metadata. 19% of detected waste sites are located within 200 m of a waterway. Numerous sites sit directly on riverbanks, with high risk of ocean leakage.
翻訳日:2022-04-10 11:11:05 公開日:2022-03-24
# (参考訳) AIに基づく意思決定支援システムに対する人間の反応:精度とバイアスの影響に関するユーザスタディ

Human Response to an AI-Based Decision Support System: A User Study on the Effects of Accuracy and Bias ( http://arxiv.org/abs/2203.15514v1 )

ライセンス: CC BY 4.0
David Solans, Andrea Beretta, Manuel Portela, Carlos Castillo, Anna Monreale(参考訳) 人工知能(AI)は、多くのドメインでDSS(Decision Support Systems)を構築するために使われるようになっている。 本稿では,dssの精度やバイアス,特に参加者がdssに依存する程度や達成した性能など,dssの異なる特性に対する人間の反応を観察するために設計された一連の実験について述べる。 実験では、参加者はいわゆる"Wildcat"(探索的)石油掘削にインスパイアされた簡単なオンラインゲームをした。 ランドスケープには2つのレイヤがあり、コスト(テライン)を記述する可視層と、報酬(オイル収量)を記述する隠蔽層がある。 コントロールグループの参加者は補助を受けずにゲームをし、治療グループではドリルの場所を提案するDSSによって支援される。 特定の治療について、DSSはコストを考慮せず、報酬のみを考慮し、ユーザーが観察できるバイアスをもたらす。 被験者間では,DSSの正確さとバイアスが変化し,参加者の総得点,完了までの時間,提案に従う程度,あるいは無視する程度が観察される。 また,出口調査においてdssの受容率を測定した。 その結果,参加者はdssのスコアが向上する傾向にあり,dssのアドバイスに従えば得点が上昇する傾向にあり,ゲームの難易度やdssの正確さに関係していることが示唆された。 この設定は、dssに対してある程度の信頼を置き、アルゴリズムによる回避(信頼)も自動化バイアス(信頼過剰)も示さない参加者からの合理的な行動のほとんどを導出する。 しかし、出口調査でDSSを受け入れる意思は、行動よりもDSSの正確さに敏感でないようで、ユーザーはDSSの正確さを部分的にしか認識していないことが示唆されている。

Artificial Intelligence (AI) is increasingly used to build Decision Support Systems (DSS) across many domains. This paper describes a series of experiments designed to observe human response to different characteristics of a DSS such as accuracy and bias, particularly the extent to which participants rely on the DSS, and the performance they achieve. In our experiments, participants play a simple online game inspired by so-called "wildcat" (i.e., exploratory) drilling for oil. The landscape has two layers: a visible layer describing the costs (terrain), and a hidden layer describing the reward (oil yield). Participants in the control group play the game without receiving any assistance, while in treatment groups they are assisted by a DSS suggesting places to drill. For certain treatments, the DSS does not consider costs, but only rewards, which introduces a bias that is observable by users. Between subjects, we vary the accuracy and bias of the DSS, and observe the participants' total score, time to completion, the extent to which they follow or ignore suggestions. We also measure the acceptability of the DSS in an exit survey. Our results show that participants tend to score better with the DSS, that the score increase is due to users following the DSS advice, and related to the difficulty of the game and the accuracy of the DSS. We observe that this setting elicits mostly rational behavior from participants, who place a moderate amount of trust in the DSS and show neither algorithmic aversion (under-reliance) nor automation bias (over-reliance).However, their stated willingness to accept the DSS in the exit survey seems less sensitive to the accuracy of the DSS than their behavior, suggesting that users are only partially aware of the (lack of) accuracy of the DSS.
翻訳日:2022-04-03 19:08:46 公開日:2022-03-24
# (参考訳) 最適化一般化ジレンマのためのリッチな特徴構成

Rich Feature Construction for the Optimization-Generalization Dilemma ( http://arxiv.org/abs/2203.15516v1 )

ライセンス: CC BY 4.0
Jianyu Zhang, David Lopez-Paz, L\'eon Bottou(参考訳) 最適化の容易さと堅牢なアウト・オブ・ディストリビューション(OoD)の一般化の間には、しばしばジレンマがある。 例えば、多くのOoDメソッドは最適化が難しいペナルティ項に依存している。 確実に最適化するには強すぎるか、目標を達成するには弱すぎるかのどちらかです。 このジレンマから逃れるために、我々はまず、単純なモデルでも使用可能な、潜在的に有用な機能のパレットを含むリッチ表現(rfc)を構築することを提案する。 一方、リッチな表現はオプティマイザの優れた初期化を提供する。 一方で、ood一般化に役立つ帰納的バイアスも与えている。 RFCは、トレーニングエピソードの連続で構築されます。 発見フェーズの各ステップにおいて、ネットワークが以前のイテレーションで構築された機能を使用するのを防ぐために、多目的最適化基準とその関連するデータセットを構築する。 合成フェーズでは、知識蒸留を用いて、ネットワークに発見フェーズで特定された全ての特徴を同時に開発させます。 RFCは、6つのOoDメソッドが挑戦的な不変トレーニングベンチマークであるColoredMNIST(Arjovsky et al., 2020)上で最高のパフォーマンスを達成するのを一貫して支援している。 さらに、現実的なCamelyon17タスクでは、OoD法とERM法の両方が、以前の計算可能な結果よりも少なくとも5\%$で、標準偏差を少なくとも4.1\%$で低減し、ハイパーパラメータチューニングとモデル選択をより信頼性を高める。

There often is a dilemma between ease of optimization and robust out-of-distribution (OoD) generalization. For instance, many OoD methods rely on penalty terms whose optimization is challenging. They are either too strong to optimize reliably or too weak to achieve their goals. In order to escape this dilemma, we propose to first construct a rich representation (RFC) containing a palette of potentially useful features, ready to be used by even simple models. On the one hand, a rich representation provides a good initialization for the optimizer. On the other hand, it also provides an inductive bias that helps OoD generalization. RFC is constructed in a succession of training episodes. During each step of the discovery phase, we craft a multi-objective optimization criterion and its associated datasets in a manner that prevents the network from using the features constructed in the previous iterations. During the synthesis phase, we use knowledge distillation to force the network to simultaneously develop all the features identified during the discovery phase. RFC consistently helps six OoD methods achieve top performance on challenging invariant training benchmarks, ColoredMNIST (Arjovsky et al., 2020). Furthermore, on the realistic Camelyon17 task, our method helps both OoD and ERM methods outperform earlier compatable results by at least $5\%$, reduce standard deviation by at least $4.1\%$, and makes hyperparameter tuning and model selection more reliable.
翻訳日:2022-04-03 18:52:35 公開日:2022-03-24
# BASiNETEntropy:複雑なネットワークとエントロピー最大化による生物学的配列のアライメントのない分類法

BASiNETEntropy: an alignment-free method for classification of biological sequences through complex networks and entropy maximization ( http://arxiv.org/abs/2203.15635v1 )

ライセンス: Link先を確認
Murilo Montanini Breve, Matheus Henrique Pimenta-Zanon and Fabr\'icio Martins Lopes(参考訳) 核酸の発見とDNAの構造は、生命の理解に大きな進歩をもたらした。 次世代シークエンシング技術の発展は、解析や知識発見に計算手法が不可欠になっている大規模なデータ生成につながっている。 特にRNAは、生物の機能の多様性と、多くの生物学的プロセスにおいて異なる機能を持つ異なるクラスの発見により、多くの注目を集めている。 したがって、RNA配列の正確な同定は、生物の機能を理解するための関連情報を提供するためにますます重要である。 この研究は、複雑なネットワークとエントロピーの最大化を通じて生物学的配列を分類するための新しい方法を提示し、この文脈に対処する。 最大エントロピー原理は、RNAクラスに関する最も情報性の高いエッジを同定し、フィルターされた複雑なネットワークを生成するために提案される。 提案手法は13種の異なるRNAクラスの分類において評価された。 提案手法をPLEK, CPC2, BASiNET法と比較し, 比較した手法を全て比較した。 BASiNETEntropyは、全てのRNA配列を高い精度と低標準偏差で分類し、断定性と堅牢性を示した。 提案手法はオープンソースのR言語で実装されており、https://cran.r-project.org/web/packages/BASiNETEntropyで自由に利用できる。

The discovery of nucleic acids and the structure of DNA have brought considerable advances in the understanding of life. The development of next-generation sequencing technologies has led to a large-scale generation of data, for which computational methods have become essential for analysis and knowledge discovery. In particular, RNAs have received much attention because of the diversity of their functionalities in the organism and the discoveries of different classes with different functions in many biological processes. Therefore, the correct identification of RNA sequences is increasingly important to provide relevant information to understand the functioning of organisms. This work addresses this context by presenting a new method for the classification of biological sequences through complex networks and entropy maximization. The maximum entropy principle is proposed to identify the most informative edges about the RNA class, generating a filtered complex network. The proposed method was evaluated in the classification of different RNA classes from 13 species. The proposed method was compared to PLEK, CPC2 and BASiNET methods, outperforming all compared methods. BASiNETEntropy classified all RNA sequences with high accuracy and low standard deviation in results, showing assertiveness and robustness. The proposed method is implemented in an open source in R language and is freely available at https://cran.r-project.org/web/packages/BASiNETEntropy.
翻訳日:2022-04-03 18:28:31 公開日:2022-03-24
# (参考訳) Domino: クロスモーダルな埋め込みでシステムエラーを発見する

Domino: Discovering Systematic Errors with Cross-Modal Embeddings ( http://arxiv.org/abs/2203.14960v1 )

ライセンス: CC BY 4.0
Sabri Eyuboglu, Maya Varma, Khaled Saab, Jean-Benoit Delbrouck, Christopher Lee-Messer, Jared Dunnmon, James Zou, Christopher R\'e(参考訳) 全体的な精度の高い機械学習モデルは、重要なサブセット(またはスライス)で体系的にエラーを起こすことが多い。 重要なスライスがラベル付けされていない高次元入力(画像、音声など)を扱う場合、パフォーマンスの低いスライスを特定することは特に難しい。 この問題に対処するために、近年、モデルが性能の悪いスライスに対して入力データをマイニングするために学習モデル表現を利用する自動スライス発見法(sdms)が提案されている。 実践者にとって有用であるためには、これらの手法は性能の低いスライスとコヒーレントなスライス(すなわち人間に理解可能な概念で結合)を識別する必要がある。 しかし、これらの基準に関してsdmを厳格に評価するための定量的評価フレームワークは存在しない。 さらに、以前の定性評価では、SDMは不整合であるスライスをしばしば識別することを示した。 本研究では,3つの入力領域(自然画像,医用画像,時系列データ)における1,235スライス発見設定におけるsdmの定量的比較を可能にする原則評価フレームワークを最初に設計した。 そして、近年の強力なクロスモーダル表現学習手法の発展を動機として、クロスモーダル埋め込みと新しいエラー認識混合モデルを利用してコヒーレントスライスを発見し記述するSDMDominoを提案する。 私たちは、Dominoがフレームワークの1,235スライスのうち36%を正確に識別していることに気付きました。 さらにdominoは、特定されたスライスの自然言語記述を提供し、設定の35%で正確なスライスの名前を正確に生成できる最初のsdmである。

Machine learning models that achieve high overall accuracy often make systematic errors on important subsets (or slices) of data. Identifying underperforming slices is particularly challenging when working with high-dimensional inputs (e.g. images, audio), where important slices are often unlabeled. In order to address this issue, recent studies have proposed automated slice discovery methods (SDMs), which leverage learned model representations to mine input data for slices on which a model performs poorly. To be useful to a practitioner, these methods must identify slices that are both underperforming and coherent (i.e. united by a human-understandable concept). However, no quantitative evaluation framework currently exists for rigorously assessing SDMs with respect to these criteria. Additionally, prior qualitative evaluations have shown that SDMs often identify slices that are incoherent. In this work, we address these challenges by first designing a principled evaluation framework that enables a quantitative comparison of SDMs across 1,235 slice discovery settings in three input domains (natural images, medical images, and time-series data). Then, motivated by the recent development of powerful cross-modal representation learning approaches, we present Domino, an SDM that leverages cross-modal embeddings and a novel error-aware mixture model to discover and describe coherent slices. We find that Domino accurately identifies 36% of the 1,235 slices in our framework - a 12 percentage point improvement over prior methods. Further, Domino is the first SDM that can provide natural language descriptions of identified slices, correctly generating the exact name of the slice in 35% of settings.
翻訳日:2022-04-03 18:24:21 公開日:2022-03-24
# (参考訳) オブジェクトゴールナビゲーションのためのオブジェクトメモリ変換器

Object Memory Transformer for Object Goal Navigation ( http://arxiv.org/abs/2203.14708v1 )

ライセンス: CC BY 4.0
Rui Fukushima, Kei Ota, Asako Kanezaki, Yoko Sasaki, Yusuke Yoshiyasu(参考訳) 本稿では,オブジェクトとシーンの長期観測に基づいて,エージェントが3次元屋内環境をナビゲートして対象オブジェクトに到達する,オブジェクトゴールナビゲーション(ObjNav)の強化学習手法を提案する。 この目的のために,2つの重要なアイデアからなるオブジェクトメモリトランスフォーマ(omt)を提案する。 1)長期のシーンやオブジェクトのセマンティクスを格納できるオブジェクトシーンメモリ(OSM) 2)OSMに格納されているシーンやオブジェクトのシーケンスにおいて、正常なオブジェクトに付随するトランスフォーマー。 このメカニズムにより、エージェントは、トポロジカルマップや3dメッシュのような環境に関する事前知識なしに、効率的に屋内環境をナビゲートすることができる。 私たちの知る限りでは、これは目標指向のナビゲーションタスクでオブジェクトセマンティクスの長期記憶を使用する最初の作業です。 AI2-THORデータセットで行った実験結果から、OMTは未知の環境での航法における従来のアプローチよりも優れていた。 特に,長期オブジェクト意味情報を利用することでナビゲーションの効率が向上することを示す。

This paper presents a reinforcement learning method for object goal navigation (ObjNav) where an agent navigates in 3D indoor environments to reach a target object based on long-term observations of objects and scenes. To this end, we propose Object Memory Transformer (OMT) that consists of two key ideas: 1) Object-Scene Memory (OSM) that enables to store long-term scenes and object semantics, and 2) Transformer that attends to salient objects in the sequence of previously observed scenes and objects stored in OSM. This mechanism allows the agent to efficiently navigate in the indoor environment without prior knowledge about the environments, such as topological maps or 3D meshes. To the best of our knowledge, this is the first work that uses a long-term memory of object semantics in a goal-oriented navigation task. Experimental results conducted on the AI2-THOR dataset show that OMT outperforms previous approaches in navigating in unknown environments. In particular, we show that utilizing the long-term object semantics information improves the efficiency of navigation.
翻訳日:2022-04-03 08:12:38 公開日:2022-03-24
# (参考訳) Q-PPG:ウェアラブルデバイスにおけるエネルギー効率PPGによる心拍モニタリング

Q-PPG: Energy-Efficient PPG-based Heart Rate Monitoring on Wearable Devices ( http://arxiv.org/abs/2203.14907v1 )

ライセンス: CC BY-SA 4.0
Alessio Burrello, Daniele Jahier Pagliari, Matteo Risso, Simone Benatti, Enrico Macii, Luca Benini, Massimo Poncino(参考訳) ヒースレート(HR)モニタリングは、低コスト光胸腺撮影(PPG)センサーを用いた手首縫い装置でますます行われている。 しかし、被験者の腕の動きによって引き起こされる運動アーチファクト(MA)は、PDGベースのHRトラッキングの性能に影響を及ぼす。 これは通常、慣性センサーからの加速度測定とPSG信号の結合に対処する。 残念ながら、この種の標準的なアプローチは手動のパラメータに頼っているため、一般化能力と現場の実際のデータに適用できない。 対照的に、ディープラーニングに基づく手法は、より良い一般化にもかかわらず、ウェアラブルデバイスにデプロイするには複雑すぎると考えられている。 本研究では、これらの制約に対処し、単一の「種」モデルから派生したHR監視のための深層時間畳み込みネットワーク(TCN)のリッチなファミリーを自動生成する設計空間探索手法を提案する。 私たちのフローには、2つのneural architecture search(nas)ツールとハードウェアフレンドリーな量子化器のカスケードが含まれています。 PPG-Daliaデータセットでテストすると、最も正確なモデルはMean Absolute Errorで新しい最先端のモデルを設定します。 さらに,STM32WB55マイクロコントローラを内蔵した組込みプラットフォーム上にTCNを配置し,リアルタイム実行に適していることを示す。 我々の最も正確な量子化されたネットワークは、平均絶対誤差(MAE)の4.41 Beats Per Minute(BPM)を実現し、エネルギー消費量は47.65 mJ、メモリフットプリントは412 kBである。 同時に、私たちのフローによって生成されるうち、MAE < 8 BPM を得る最小のネットワークは、メモリフットプリントが 1.9 kB で、推論あたり 1.79 mJ しか消費しない。

Hearth Rate (HR) monitoring is increasingly performed in wrist-worn devices using low-cost photoplethysmography (PPG) sensors. However, Motion Artifacts (MAs) caused by movements of the subject's arm affect the performance of PPG-based HR tracking. This is typically addressed coupling the PPG signal with acceleration measurements from an inertial sensor. Unfortunately, most standard approaches of this kind rely on hand-tuned parameters, which impair their generalization capabilities and their applicability to real data in the field. In contrast, methods based on deep learning, despite their better generalization, are considered to be too complex to deploy on wearable devices. In this work, we tackle these limitations, proposing a design space exploration methodology to automatically generate a rich family of deep Temporal Convolutional Networks (TCNs) for HR monitoring, all derived from a single "seed" model. Our flow involves a cascade of two Neural Architecture Search (NAS) tools and a hardware-friendly quantizer, whose combination yields both highly accurate and extremely lightweight models. When tested on the PPG-Dalia dataset, our most accurate model sets a new state-of-the-art in Mean Absolute Error. Furthermore, we deploy our TCNs on an embedded platform featuring a STM32WB55 microcontroller, demonstrating their suitability for real-time execution. Our most accurate quantized network achieves 4.41 Beats Per Minute (BPM) of Mean Absolute Error (MAE), with an energy consumption of 47.65 mJ and a memory footprint of 412 kB. At the same time, the smallest network that obtains a MAE < 8 BPM, among those generated by our flow, has a memory footprint of 1.9 kB and consumes just 1.79 mJ per inference.
翻訳日:2022-04-03 07:58:02 公開日:2022-03-24
# 非定常環境に対する戦略的再処理を伴う非パラメトリック確率的政策

Non-Parametric Stochastic Policy Gradient with Strategic Retreat for Non-Stationary Environment ( http://arxiv.org/abs/2203.14905v1 )

ライセンス: Link先を確認
Apan Dastider and Mingjie Lin(参考訳) 現代のロボティクスでは、動的に変化する環境下で最適な制御ポリシーを効果的に計算することは、市販のパラメトリックポリシー勾配法(ddpg)やツイン遅延ディープ決定主義ポリシー勾配(td3)に重大な課題をもたらす。 本稿では,常に変化する環境動態に自律的に適応しながら,最適制御ポリシーの順序を非パラメトリック的に動的に学習する手法を提案する。 具体的には、我々の非パラメトリックカーネルベースの方法論は、非減少ユークリッド空間の特徴としてポリシー分布を埋め込むことで、その探索空間を非常に高次元(無限)のRKHSとして定義することができる。 さらに、RKHSで計算された類似度指標を利用して、先行観測状態にサンプリングされた行動系列全体の最適部分を終了する時間枠ウィンドウを適応的に選択するAdaptiveH-技術を用いて、非パラメトリック学習を強化した。 提案手法を検証するため,複数の古典的ベンチマークと,動的に変化する環境を備えたシミュレーションロボットベンチマークを用いて,広範な実験を行った。 全体として,本手法はDDPG法とTD3法を学習性能の点で大きな差で上回っている。

In modern robotics, effectively computing optimal control policies under dynamically varying environments poses substantial challenges to the off-the-shelf parametric policy gradient methods, such as the Deep Deterministic Policy Gradient (DDPG) and Twin Delayed Deep Deterministic policy gradient (TD3). In this paper, we propose a systematic methodology to dynamically learn a sequence of optimal control policies non-parametrically, while autonomously adapting with the constantly changing environment dynamics. Specifically, our non-parametric kernel-based methodology embeds a policy distribution as the features in a non-decreasing Euclidean space, therefore allowing its search space to be defined as a very high (possible infinite) dimensional RKHS (Reproducing Kernel Hilbert Space). Moreover, by leveraging the similarity metric computed in RKHS, we augmented our non-parametric learning with the technique of AdaptiveH- adaptively selecting a time-frame window of finishing the optimal part of whole action-sequence sampled on some preceding observed state. To validate our proposed approach, we conducted extensive experiments with multiple classic benchmarks and one simulated robotics benchmark equipped with dynamically changing environments. Overall, our methodology has outperformed the well-established DDPG and TD3 methodology by a sizeable margin in terms of learning performance.
翻訳日:2022-03-29 16:39:01 公開日:2022-03-24
# トポロジカル・マニフォールド・ラーニングによる人間-ロボットの衝突回避

Reactive Whole-Body Obstacle Avoidance for Collision-Free Human-Robot Interaction with Topological Manifold Learning ( http://arxiv.org/abs/2203.13821v1 )

ライセンス: Link先を確認
Apan Dastider and Mingjie Lin(参考訳) 産業4.0の出現に伴い、共通の非構造環境における人間とロボットの安全コラボレーションがますます重要になっている。 しかし、人間との安全で堅牢で自律的なコラボレーションを達成するためには、現代のロボットシステムは効果的な近接認識だけでなく、リアクティブな障害物回避も持っていなければならない。 残念なことに、ほとんどのロボットシステムでは、人間のオペレーターと共有する作業環境は、常に静的ではなく、動的に変化し、予期しない障害やハザードが常に散らばっている。 本稿では,ロボットの作業空間に入る人間を,動的に制約された環境下においても衝突のない人間とロボットのインタラクションを実現することにより保護する,リアクティブな全身障害物回避手法を提案する。 既存のヤコビアン型や幾何学的手法とは異なり,提案手法はトポロジカル多様体学習と最新の深層学習の両方を活用するため,他の未確認問題設定に容易に一般化できるだけでなく,具体的な理論に基づく計算効率の向上も達成できる。 さらに,産業用コボットとは対照的に,ロボットアームは直接接触することなく任意の3d形状の障害物を積極的に回避することができる。 本研究は, 近接センサ配置を最適化した2つの6-DoFロボットアームと, 異なるレベルの干渉で協調動作可能なロボットアームからなるロボットプラットフォームを用いて, 本手法の実装と検証を行う。 特に、一方の腕は、事前に決められた目標を達成しながら、反応的な全身障害物回避を行い、もう一方の腕は、独立して潜在的に敵対的な動きを持つ人間の協力者の存在を模倣する。

Safe collaboration between human and robots in a common unstructured environment becomes increasingly critical with the emergence of Industry 4.0. However, to accomplish safe, robust, and autonomous collaboration with humans, modern robotic systems must possess not only effective proximity perception but also reactive obstacle avoidance. Unfortunately, for most robotic systems, their shared working environment with human operators may not always be static, instead often dynamically varying and being constantly cluttered with unanticipated obstacles or hazards. In this paper, we present a novel methodology of reactive whole-body obstacle avoidance methodology that safeguards the human who enters the robot's workspace through achieving conflict-free human-robot interactions even in a dynamically constrained environment. Unlike existing Jacobian-type or geometric approaches, our proposed methodology leverages both topological manifold learning and latest deep learning advances, therefore can not only be readily generalized into other unseen problem settings, but also achieve high computing efficiency with concrete theoretical basis. Furthermore, in sharp contrast to the industrial cobot setting, our methodology allows a robotic arm to proactively avoid obstacles of arbitrary 3D shapes without direct contacting. To solidify our study, we implement and validate our methodology with a robotic platform consisting of dual 6-DoF robotic arms with optimized proximity sensor placement, both of which are capable of working collaboratively with different levels of interference. Specifically, one arm will perform reactive whole-body obstacle avoidance while achieving its pre-determined objective, with the other arm emulating the presence of a human collaborator with independent and potentially adversary movements.
翻訳日:2022-03-29 16:00:25 公開日:2022-03-24
# エネルギーベース潜在変数モデルの2段階2変分学習

Bi-level Doubly Variational Learning for Energy-based Latent Variable Models ( http://arxiv.org/abs/2203.14702v1 )

ライセンス: Link先を確認
Ge Kan, Jinhu L\"u, Tian Wang, Baochang Zhang, Aichun Zhu, Lei Huang, Guodong Guo, Hichem Snoussi(参考訳) エネルギーベース潜在変数モデル(EBLVM)は、従来のエネルギーベースモデルよりも表現力が高い。 しかしながら、視覚タスクのポテンシャルは、2つの難解な分布からのサンプリングを必要とする最大確率推定に基づくトレーニングプロセスによって制限される。 本稿では,新しい二段階最適化フレームワークと2つのトラクタブルな変分分布に基づくバイレベル二重変分学習(BiDVL)を提案し,ESBVMの学習を容易にする。 特に,画像上で深部EBLVMを学習する際の難易度に対処するため,限界エネルギー分布と構造後部からなる分離EBLVMを導出する。 フレームワークの下位レベルにおける対称KL分散を選択することで、視覚タスクのためのコンパクトなBiDVLを得ることができる。 本モデルは,関連作品よりも印象的な画像生成性能を実現する。 また、画像再構成と分散検出をテストできることも示している。

Energy-based latent variable models (EBLVMs) are more expressive than conventional energy-based models. However, its potential on visual tasks are limited by its training process based on maximum likelihood estimate that requires sampling from two intractable distributions. In this paper, we propose Bi-level doubly variational learning (BiDVL), which is based on a new bi-level optimization framework and two tractable variational distributions to facilitate learning EBLVMs. Particularly, we lead a decoupled EBLVM consisting of a marginal energy-based distribution and a structural posterior to handle the difficulties when learning deep EBLVMs on images. By choosing a symmetric KL divergence in the lower level of our framework, a compact BiDVL for visual tasks can be obtained. Our model achieves impressive image generation performance over related works. It also demonstrates the significant capacity of testing image reconstruction and out-of-distribution detection.
翻訳日:2022-03-29 12:40:02 公開日:2022-03-24
# (参考訳) 天気予報の確率的予測への深層学習アプローチ

A Deep Learning Approach to Probabilistic Forecasting of Weather ( http://arxiv.org/abs/2203.12529v2 )

ライセンス: CC BY 4.0
Nick Rittler, Carlo Graziani, Jiali Wang, and Rao Kotamarthi(参考訳) 本稿では,予測情報の低次元空間への還元マップを,予測量に関する情報の保存を目的として学習する次元還元ステップと,正規化フローの確率的機械学習技術を用いて予測量と予測量の結合確率密度を計算する密度推定ステップという,2つの連鎖した機械学習ステップに基づく確率的予測手法について論じる。 この結合密度は、条件予測分布を生成するために再正規化される。 この方法では、確率的キャリブレーション試験が正規化手順の役割を担い、第2段階のオーバーフィッティングを防止し、第1段階からの効果的な次元還元が予測シャープネスの源となる。 本手法は,22年間の気象調査・予測(WRF)シミュレーションデータを用いて,グリッド上の表面風の時系列データを用いて検証する。

We discuss an approach to probabilistic forecasting based on two chained machine-learning steps: a dimensional reduction step that learns a reduction map of predictor information to a low-dimensional space in a manner designed to preserve information about forecast quantities; and a density estimation step that uses the probabilistic machine learning technique of normalizing flows to compute the joint probability density of reduced predictors and forecast quantities. This joint density is then renormalized to produce the conditional forecast distribution. In this method, probabilistic calibration testing plays the role of a regularization procedure, preventing overfitting in the second step, while effective dimensional reduction from the first step is the source of forecast sharpness. We verify the method using a 22-year 1-hour cadence time series of Weather Research and Forecasting (WRF) simulation data of surface wind on a grid.
翻訳日:2022-03-29 04:25:47 公開日:2022-03-24
# (参考訳) 音声認識改善のためのマイクロホンの最適位置計算

Computing Optimal Location of Microphone for Improved Speech Recognition ( http://arxiv.org/abs/2203.13259v1 )

ライセンス: CC BY 4.0
Karan Nathwani and Bhavya Dixit and Sunil Kumar Kopparapu(参考訳) 先行研究では、マイクロホン位置の測定誤差が部屋インパルス応答(rir)に影響を与え、それによってシングルチャネル近接マイクロホンとマルチチャネル遠方マイクロホン音声認識に影響を及ぼすことを示した。 本稿では, マイクロホンの最適位置を3次元空間内において近似的かつ誤検出することにより, マイクロホンの最適位置の同定を系統的に研究する。 第一のアイデアはモンテカルロ法を用いて、誤ったマイクロホン位置の周囲に多数のランダムなマイクロホン位置を生成し、汎用自動音声認識(gp-asr)の最高の性能をもたらすマイクロホン位置を選択することである。 クリーンで騒々しい音声を用いて実験を行い、マイクロホンの最適位置がユニークでノイズの影響を受けていることを示す。

It was shown in our earlier work that the measurement error in the microphone position affected the room impulse response (RIR) which in turn affected the single-channel close microphone and multi-channel distant microphone speech recognition. In this paper, as an extension, we systematically study to identify the optimal location of the microphone, given an approximate and hence erroneous location of the microphone in 3D space. The primary idea is to use Monte-Carlo technique to generate a large number of random microphone positions around the erroneous microphone position and select the microphone position that results in the best performance of a general purpose automatic speech recognition (gp-asr). We experiment with clean and noisy speech and show that the optimal location of the microphone is unique and is affected by noise.
翻訳日:2022-03-29 03:19:19 公開日:2022-03-24
# (参考訳) ディープニューラルネットワークを用いた降雨予報

Precipitaion Nowcasting using Deep Neural Network ( http://arxiv.org/abs/2203.13263v1 )

ライセンス: CC BY 4.0
Mohamed Chafik Bakkay and Mathieu Serrurier and Valentin Kivachuk Burda and Florian Dupuy and Naty Citlali Cabrera-Gutierrez and Michael Zamo and Maud-Alix Mader and Olivier Mestre and Guillaume Oller and Jean-Christophe Jouhaud and Laurent Terray(参考訳) 降水は天気予報利用者にとって非常に重要であり、屋外活動やスポーツ競技から空港交通管理まで幅広い活動がある。 伝統的に数値モデルから得られた長期降水予測とは対照的に,降水量は極めて高速である必要がある。 したがって、この時間制約のため、取得がより困難である。 近年,多くの機械学習手法が提案されている。 本稿では,2次元降水マップから学習した3つの人気のある深層学習モデル(U-net, ConvLSTM, SVG-LP)を提案する。 我々は高分解能降水マップを得るためのパッチ抽出アルゴリズムを提案した。 我々は,ぼやけた画像の問題を解消し,降水マップにおけるゼロ値画素の影響を低減するために,損失関数を提案した。

Precipitation nowcasting is of great importance for weather forecast users, for activities ranging from outdoor activities and sports competitions to airport traffic management. In contrast to long-term precipitation forecasts which are traditionally obtained from numerical models, precipitation nowcasting needs to be very fast. It is therefore more challenging to obtain because of this time constraint. Recently, many machine learning based methods had been proposed. We propose the use three popular deep learning models (U-net, ConvLSTM and SVG-LP) trained on two-dimensional precipitation maps for precipitation nowcasting. We proposed an algorithm for patch extraction to obtain high resolution precipitation maps. We proposed a loss function to solve the blurry image issue and to reduce the influence of zero value pixels in precipitation maps.
翻訳日:2022-03-29 03:09:22 公開日:2022-03-24
# (参考訳) 逆境リスクのマニフォールド視点

A Manifold View of Adversarial Risk ( http://arxiv.org/abs/2203.13277v1 )

ライセンス: CC BY 4.0
Wenjia Zhang, Yikai Zhang, Xiaolin Hu, Mayank Goswami, Chao Chen, Dimitris Metaxas(参考訳) 機械学習モデルの敵対的リスクは広く研究されている。 以前の研究のほとんどは、データが環境空間全体にあると仮定している。 我々は新しい角度で多様体の仮定を考慮に入れることを提案する。 データは多様体内にあると仮定し, 通常の方向に沿った摂動による通常の対向リスクと, 多様体内の摂動による対向リスクの2つの新しいタイプの対向リスクについて検討した。 従来の対向リスクは、通常の対向リスクと対向リスクを使って両側から境界づけられることが証明される。 また、標準の逆境リスクは、通常のリスクとマニフォールド内リスクの両方がゼロであっても非ゼロである、という驚くほど悲観的なケースも示しています。 論文を理論的な結果を支持する実証的研究でまとめる。 本研究は,通常の対向リスクのみに着目し,分類器のロバスト性を向上させる可能性を示唆する。

The adversarial risk of a machine learning model has been widely studied. Most previous works assume that the data lies in the whole ambient space. We propose to take a new angle and take the manifold assumption into consideration. Assuming data lies in a manifold, we investigate two new types of adversarial risk, the normal adversarial risk due to perturbation along normal direction, and the in-manifold adversarial risk due to perturbation within the manifold. We prove that the classic adversarial risk can be bounded from both sides using the normal and in-manifold adversarial risks. We also show with a surprisingly pessimistic case that the standard adversarial risk can be nonzero even when both normal and in-manifold risks are zero. We finalize the paper with empirical studies supporting our theoretical results. Our results suggest the possibility of improving the robustness of a classifier by only focusing on the normal adversarial risk.
翻訳日:2022-03-29 02:56:45 公開日:2022-03-24
# (参考訳) 確率勾配降下によるNystr\"omサンプルの局所最適化

Local optimisation of Nystr\"om samples through stochastic gradient descent ( http://arxiv.org/abs/2203.13284v1 )

ライセンス: CC BY 4.0
Matthew Hutchings and Bertrand Gauthier(参考訳) 我々は、周辺空間におけるランドマーク点の多重集合から近似を定義する核行列のnystr\"om近似に対するカラムサンプリング問題の緩和版について検討する。 我々は,nystr\"om近似の精度を評価するための古典的な基準の代理として,ラジアル正方形ケネル偏差 (skd) の非重み付き変分を考慮し,確率的勾配降下によりnystr\"omサンプルを効率的に最適化する方法について考察する。 本研究では,ラジアルskdの局所的最小化がnystr\"om試料をnystr\"om近似精度良く生成することを示す数値実験を行う。

We study a relaxed version of the column-sampling problem for the Nystr\"om approximation of kernel matrices, where approximations are defined from multisets of landmark points in the ambient space; such multisets are referred to as Nystr\"om samples. We consider an unweighted variation of the radial squared-kernel discrepancy (SKD) criterion as a surrogate for the classical criteria used to assess the Nystr\"om approximation accuracy; in this setting, we discuss how Nystr\"om samples can be efficiently optimised through stochastic gradient descent. We perform numerical experiments which demonstrate that the local minimisation of the radial SKD yields Nystr\"om samples with improved Nystr\"om approximation accuracy.
翻訳日:2022-03-29 02:35:52 公開日:2022-03-24
# (参考訳) 制限部分分割を用いた3次元監視のないテキストからメッシュ

Text to Mesh Without 3D Supervision Using Limit Subdivision ( http://arxiv.org/abs/2203.13333v1 )

ライセンス: CC BY 4.0
Nasir Khalid, Tianhao Xie, Eugene Belilovsky, Tiberiu Popa(参考訳) 本稿では,ターゲットテキストプロンプトのみを用いた3次元モデルのゼロショット生成手法を提案する。 生成モデルや3Dの監督がなければ,本手法はテクスチャマップと正規マップとともに,限界部分分割面の制御形状を変形させ,入力テキストプロンプトにマッチし,ゲームやモデリングアプリケーションに展開可能な3Dモデル資産を得る。 入力テキストプロンプトと3dモデルの異なるレンダリング画像を比較する、事前学習されたクリップモデルのみに依存しています。 これまでの研究はスタイル化や生成モデルのトレーニングに重点を置いていたが、メッシュパラメータを直接最適化して形状やテクスチャを生成する。 結果の品質を改善するために、レンダリング強化、プリミティブセレクション、プロンプト拡張といった一連のテクニックを導入し、メッシュを適切な結果へと導く。

We present a technique for zero-shot generation of a 3D model using only a target text prompt. Without a generative model or any 3D supervision our method deforms a control shape of a limit subdivided surface along with a texture map and normal map to obtain a 3D model asset that matches the input text prompt and can be deployed into games or modeling applications. We rely only on a pre-trained CLIP model that compares the input text prompt with differentiably rendered images of our 3D model. While previous works have focused on stylization or required training of generative models we perform optimization on mesh parameters directly to generate shape and texture. To improve the quality of results we also introduce a set of techniques such as render augmentations, primitive selection, prompt augmentation that guide the mesh towards a suitable result.
翻訳日:2022-03-29 02:04:57 公開日:2022-03-24
# (参考訳) コーパス転送による創発語と自然言語のリンク

Linking Emergent and Natural Languages via Corpus Transfer ( http://arxiv.org/abs/2203.13344v1 )

ライセンス: CC BY 4.0
Shunyu Yao, Mo Yu, Yang Zhang, Karthik R Narasimhan, Joshua B. Tenenbaum, Chuang Gan(参考訳) 言語出現の研究は、知覚的接地とコミュニケーション的意図によって人間の言語がどのように形成されるかを理解することを目的としている。 創発的コミュニケーション(EC)に対する計算的アプローチは、主に限られた領域における参照ゲームを検討し、ゲームフレームワーク内の学習プロトコルを分析する。 結果として、これらの設定からの創発的な言語が自然言語とどのように結びつくのか、あるいは、大きなテキストコーパスで訓練された統計モデルが支配する現実世界の言語処理タスクにメリットをもたらすのかは、まだ不明である。 本研究では,従来の話者とリスナーのパラメータを直接転送する手法とは対照的な,下流の自然言語タスクに対する創発言語コーパスの事前訓練という,コーパス転送によるリンクを確立する新しい手法を提案する。 このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。 例えば、低リソースのセットアップ(200万の自然言語トークンをモデル化)では、200万のトークンを持つ緊急言語コーパスで事前トレーニングすることで、10の自然言語の平均で24.6対%のモデルパープレキシティが削減される。 また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。 我々の翻訳に基づく計量は、自然言語のモデリングにおけるダウンストリームのパフォーマンス(例えば、$\rho=0.83$ on Hebrew)と非常に相関しているのに対し、以前の研究で人気の計量であるトポロジ的類似性は驚くほど低い相関(\rho=0.003$)を示しており、合成ドメインからの属性の切り離しのような単純な性質は、自然言語の完全な複雑さを捉えていないことを示唆している。 また,自然言語資源とモデルを用いて言語を前進させる可能性も示唆した。

The study of language emergence aims to understand how human languages are shaped by perceptual grounding and communicative intent. Computational approaches to emergent communication (EC) predominantly consider referential games in limited domains and analyze the learned protocol within the game framework. As a result, it remains unclear how the emergent languages from these settings connect to natural languages or provide benefits in real-world language processing tasks, where statistical models trained on large text corpora dominate. In this work, we propose a novel way to establish such a link by corpus transfer, i.e. pretraining on a corpus of emergent language for downstream natural language tasks, which is in contrast to prior work that directly transfers speaker and listener parameters. Our approach showcases non-trivial transfer benefits for two different tasks -- language modeling and image captioning. For example, in a low-resource setup (modeling 2 million natural language tokens), pre-training on an emergent language corpus with just 2 million tokens reduces model perplexity by $24.6\%$ on average across ten natural languages. We also introduce a novel metric to predict the transferability of an emergent language by translating emergent messages to natural language captions grounded on the same images. We find that our translation-based metric highly correlates with the downstream performance on modeling natural languages (for instance $\rho=0.83$ on Hebrew), while topographic similarity, a popular metric in previous work, shows surprisingly low correlation ($\rho=0.003$), hinting that simple properties like attribute disentanglement from synthetic domains might not capture the full complexities of natural language. Our findings also indicate potential benefits of moving language emergence forward with natural language resources and models.
翻訳日:2022-03-29 01:51:46 公開日:2022-03-24
# (参考訳) 閉塞したヒトメッシュの回復

Occluded Human Mesh Recovery ( http://arxiv.org/abs/2203.13349v1 )

ライセンス: CC BY 4.0
Rawal Khirodkar, Shashank Tripathi, Kris Kitani(参考訳) モノクラーメッシュ回復のためのトップダウン手法は,(1)人間の拘束ボックスを検出すること,(2)各拘束ボックスを独立した単一人間メッシュ回復タスクとして扱うこと,の2段階からなる。 残念なことに、単一人間の仮定は、複数の人間の閉塞と群がった画像では保持されない。 したがって, トップダウン法では, 重度の人的咬合下での正確な3次元メッシュの復元が困難である。 この問題を解決するために、私たちはOccluded Human Mesh Recovery (OCHMR)という、画像空間コンテキストを組み込んだ新しいトップダウンメッシュリカバリアプローチを紹介します。 このアプローチは概念的にはシンプルであり、既存のトップダウンアーキテクチャにも適用できる。 入力画像とともに、身体中心熱マップの形で画像から空間的文脈におけるトップダウンモデルを条件付ける。 予測されたボディーセンターマップから、トップダウンモデルの中間特徴を適応的に変調するコンテキスト正規化(CoNorm)ブロックを導入する。 コンテキストコンディショニングは,重なり合う人間のバウンディングボックス間の曖昧さを解消し,マルチパーソン・オクルージョンにロバストに役立ちます。 OCHMRは最先端の手法と比較して、3DPW、CrowdPose、OCHumanといった挑戦的なマルチパーソンベンチマークにおいて優れたパフォーマンスを実現している。 具体的には,3DPW-PCでは75.2 PMPJPE,OCHumanデータセットでは23.6 AP,OCHumanデータセットでは37.7 AP,ベースラインでは6.9 mm,6.4 AP,20.8 APの大幅な改善を実現した。 コードとモデルはリリースされる。

Top-down methods for monocular human mesh recovery have two stages: (1) detect human bounding boxes; (2) treat each bounding box as an independent single-human mesh recovery task. Unfortunately, the single-human assumption does not hold in images with multi-human occlusion and crowding. Consequently, top-down methods have difficulties in recovering accurate 3D human meshes under severe person-person occlusion. To address this, we present Occluded Human Mesh Recovery (OCHMR) - a novel top-down mesh recovery approach that incorporates image spatial context to overcome the limitations of the single-human assumption. The approach is conceptually simple and can be applied to any existing top-down architecture. Along with the input image, we condition the top-down model on spatial context from the image in the form of body-center heatmaps. To reason from the predicted body centermaps, we introduce Contextual Normalization (CoNorm) blocks to adaptively modulate intermediate features of the top-down model. The contextual conditioning helps our model disambiguate between two severely overlapping human bounding-boxes, making it robust to multi-person occlusion. Compared with state-of-the-art methods, OCHMR achieves superior performance on challenging multi-person benchmarks like 3DPW, CrowdPose and OCHuman. Specifically, our proposed contextual reasoning architecture applied to the SPIN model with ResNet-50 backbone results in 75.2 PMPJPE on 3DPW-PC, 23.6 AP on CrowdPose and 37.7 AP on OCHuman datasets, a significant improvement of 6.9 mm, 6.4 AP and 20.8 AP respectively over the baseline. Code and models will be released.
翻訳日:2022-03-29 01:28:30 公開日:2022-03-24
# (参考訳) 人間スピーチはベンフォードの法則に従うか?

Does human speech follow Benford's Law? ( http://arxiv.org/abs/2203.13352v1 )

ライセンス: CC BY 4.0
Leo Hsu and Visar Berisha(参考訳) 研究者は、多くの人為的および自然発生的なデータセットにおける先頭桁の頻度は対数曲線に従っており、数字1から始まる数字はデータセットの全ての数字の$\sim 30\%$、数字9から始まる数字はデータセットのすべての数字の$\sim 5\%$である。 この現象はベンフォードの法則と呼ばれ、高い再現性があり、電気料金、株価、税収、住宅価格、死亡率、河川の長さ、自然に発生する画像からの数字のリストに現れる。 本稿では,人間の発話スペクトルがベンフォードの法則にも従うことを示す。 この観察を用いて,音声から効率的に抽出できる新たな特徴セットの動機付けを行い,これらの特徴が人間の発話と合成音声の分類に使用できることを示す。

Researchers have observed that the frequencies of leading digits in many man-made and naturally occurring datasets follow a logarithmic curve, with digits that start with the number 1 accounting for $\sim 30\%$ of all numbers in the dataset and digits that start with the number 9 accounting for $\sim 5\%$ of all numbers in the dataset. This phenomenon, known as Benford's Law, is highly repeatable and appears in lists of numbers from electricity bills, stock prices, tax returns, house prices, death rates, lengths of rivers, and naturally occurring images. In this paper we demonstrate that human speech spectra also follow Benford's Law. We use this observation to motivate a new set of features that can be efficiently extracted from speech and demonstrate that these features can be used to classify between human speech and synthetic speech.
翻訳日:2022-03-29 01:12:15 公開日:2022-03-24
# (参考訳) FitCLIP: ゼロショット映像理解タスクのための大規模事前訓練画像テキストモデルの改良

FitCLIP: Refining Large-Scale Pretrained Image-Text Models for Zero-Shot Video Understanding Tasks ( http://arxiv.org/abs/2203.13371v1 )

ライセンス: CC BY 4.0
Santiago Castro and Fabian Caba Heilbron(参考訳) 大規模な事前学習された画像テキストモデルは、アクション認識やテキストからビデオへの検索など、いくつかのタスクで驚くべきゼロショット性能を示している。 しかし、これらのモデルは、主に時間次元を考慮せず、動画フレームが一般的な画像(例えば、動きのぼやけやシャープネスの低下など)とは異なるため、ビデオに適応していない。 本稿では、ゼロショット映像理解タスクのための大規模な事前訓練画像テキストモデルを洗練するための微調整戦略を提案する。 これらのモデルに注意深く適応することで、2つのゼロショットアクション認識タスクと3つのゼロショットテキストからビデオへの検索タスクにおいて相当な改善が得られることを示す。 コードはhttps://github.com/bryant1410/fitclipで入手できる。

Large-scale pretrained image-text models have shown incredible zero-shot performance in a handful of tasks, including video ones such as action recognition and text-to-video retrieval. However, these models haven't been adapted to video, mainly because they don't account for the time dimension but also because video frames are different from the typical images (e.g., containing motion blur, less sharpness). In this paper, we present a fine-tuning strategy to refine these large-scale pretrained image-text models for zero-shot video understanding tasks. We show that by carefully adapting these models we obtain considerable improvements on two zero-shot Action Recognition tasks and three zero-shot Text-to-video Retrieval tasks. The code is available at https://github.com/bryant1410/fitclip
翻訳日:2022-03-29 01:04:43 公開日:2022-03-24
# (参考訳) 地質不確定な地下系における最適坑井制御のための深部補強学習

Deep reinforcement learning for optimal well control in subsurface systems with uncertain geology ( http://arxiv.org/abs/2203.13375v1 )

ライセンス: CC BY 4.0
Yusuf Nasir and Louis J. Durlofsky(参考訳) 深層強化学習(drl)に基づく一般制御政策フレームワークを導入し,地下流れ設定における閉ループ決定を行う。 従来のクローズドループモデリングワークフローでは、データの同化/履歴マッチングと堅牢な最適化ステップが繰り返し適用されます。 データ同化は、地質学的スタイル(scenario)と個々のモデル実現が不確実な場合に特に困難である。 閉ループ貯水池管理 (clrm) 問題は, 部分可観測マルコフ決定過程として定式化され, 関連する最適化問題は近位政策最適化アルゴリズムを用いて解かれる。 これは、(実際に利用可能なように)井戸で観測されたフローデータを最適の圧力設定に即時にマッピングする制御ポリシーを提供する。 ポリシーは時間的畳み込みとゲートトランスフォーマーブロックで表される。 トレーニングは、複数の地質学的シナリオから引き出すことができる、事前地質モデルのアンサンブルによる前処理ステップで行われる。 2次元および3次元の地質モデルを用いた水注入による石油生産の例を示す。 DRLをベースとした手法では,従来のCLRMに比べてNPVが15%(2Dの場合),33%(3Dの場合)に向上し,NPVが4%向上することが示されている。 制御ポリシからの解は、複数の地質シナリオが考慮されたとしても、地質モデルが知られていると仮定される決定論的最適化の解に匹敵する。 制御ポリシアプローチは,本研究で考慮したアルゴリズムとパラメータ設定により,従来のCLRMと比較して計算コストを76%削減する。

A general control policy framework based on deep reinforcement learning (DRL) is introduced for closed-loop decision making in subsurface flow settings. Traditional closed-loop modeling workflows in this context involve the repeated application of data assimilation/history matching and robust optimization steps. Data assimilation can be particularly challenging in cases where both the geological style (scenario) and individual model realizations are uncertain. The closed-loop reservoir management (CLRM) problem is formulated here as a partially observable Markov decision process, with the associated optimization problem solved using a proximal policy optimization algorithm. This provides a control policy that instantaneously maps flow data observed at wells (as are available in practice) to optimal well pressure settings. The policy is represented by a temporal convolution and gated transformer blocks. Training is performed in a preprocessing step with an ensemble of prior geological models, which can be drawn from multiple geological scenarios. Example cases involving the production of oil via water injection, with both 2D and 3D geological models, are presented. The DRL-based methodology is shown to result in an NPV increase of 15% (for the 2D cases) and 33% (3D cases) relative to robust optimization over prior models, and to an average improvement of 4% in NPV relative to traditional CLRM. The solutions from the control policy are found to be comparable to those from deterministic optimization, in which the geological model is assumed to be known, even when multiple geological scenarios are considered. The control policy approach results in a 76% decrease in computational cost relative to traditional CLRM with the algorithms and parameter settings considered in this work.
翻訳日:2022-03-29 00:55:12 公開日:2022-03-24
# (参考訳) 微分プライベートベイズ推定のための統計選択とMCMC

Statistic Selection and MCMC for Differentially Private Bayesian Estimation ( http://arxiv.org/abs/2203.13377v1 )

ライセンス: CC BY 4.0
Baris Alparslan and Sinan Yildirim(参考訳) 本稿では,その個体群から得られたサンプルの統計値が雑音で共有され,差分プライバシーを提供する場合に,個体群分布のパラメータの個人的ベイズ推定を行う。 この研究は主に2つの問題に対処する: 1) サンプルの統計はプライベートに共有されるべきか? 最初の質問、すなわち統計選択に関する質問では、フィッシャー情報の利用を促進する。 非プライバシー設定において最も有益である統計は、プライバシー制限の下では最適な選択ではない可能性がある。 その点を支持するいくつかの例を挙げる。 本稿では,いくつかのデータ共有設定について考察し,これらの設定に対するフィッシャー情報を計算するためのモンテカルロの数値推定法を提案する。 2つ目の疑問は推論である: (2)共有統計に基づいて、どのように効果的なベイズ推論を実行できるのか? 雑音の統計量からパラメータの後方分布からサンプリングするためのマルコフ連鎖モンテカルロ (mcmc) アルゴリズムを提案する。 提案したMCMCアルゴリズムは問題に応じて互いに優先される。 例えば、共有統計が加算されガウス雑音が付加されると、中央極限定理を利用する単純なメトロポリス・ハスティングアルゴリズムが適当に選択される。 本稿では,他のいくつかの実践的関連事例に対して,より高度なMCMCアルゴリズムを提案する。 我々の数値的な例は、プライベートに共有されるいくつかの候補統計を比較することである。 各統計値について,その統計値の民営化版に基づく後方分布条件に基づくベイズ推定を行う。 本研究では,民営化統計に基づくベイズ推定値の平均二乗誤差の観点からの統計の相対的性能を,民営化統計値の漁業情報から適切に予測できることを実証する。

This paper concerns differentially private Bayesian estimation of the parameters of a population distribution, when a statistic of a sample from that population is shared in noise to provide differential privacy. This work mainly addresses two problems: (1) What statistic of the sample should be shared privately? For the first question, i.e., the one about statistic selection, we promote using the Fisher information. We find out that, the statistic that is most informative in a non-privacy setting may not be the optimal choice under the privacy restrictions. We provide several examples to support that point. We consider several types of data sharing settings and propose several Monte Carlo-based numerical estimation methods for calculating the Fisher information for those settings. The second question concerns inference: (2) Based on the shared statistics, how could we perform effective Bayesian inference? We propose several Markov chain Monte Carlo (MCMC) algorithms for sampling from the posterior distribution of the parameter given the noisy statistic. The proposed MCMC algorithms can be preferred over one another depending on the problem. For example, when the shared statistics is additive and added Gaussian noise, a simple Metropolis-Hasting algorithm that utilizes the central limit theorem is a decent choice. We propose more advanced MCMC algorithms for several other cases of practical relevance. Our numerical examples involve comparing several candidate statistics to be shared privately. For each statistic, we perform Bayesian estimation based on the posterior distribution conditional on the privatized version of that statistic. We demonstrate that, the relative performance of a statistic, in terms of the mean squared error of the Bayesian estimator based on the corresponding privatized statistic, is adequately predicted by the Fisher information of the privatized statistic.
翻訳日:2022-03-29 00:53:26 公開日:2022-03-24
# (参考訳) 教師なし連続学習における予測表現の提案

Probing Representation Forgetting in Supervised and Unsupervised Continual Learning ( http://arxiv.org/abs/2203.13381v1 )

ライセンス: CC BY 4.0
MohammadReza Davari, Nader Asadi, Sudhir Mudur, Rahaf Aljundi, Eugene Belilovsky(参考訳) 連続学習研究は、通常、ニューラルネットワークにおける破滅的な忘れる現象に取り組むことに焦点を当てている。 破滅的な忘れは、タスク、あるいはより広い範囲のデータ分散が変更に基づいてトレーニングされたときに、モデルによって以前に学習された知識の突然の損失と関連付けられる。 教師付き学習問題では、モデル表現の変化に起因するこの忘れは、典型的には、古いタスク性能の低下を評価することによって測定または観察される。 しかし、モデルの表現は、事前のタスクに関する知識を失うことなく変更することができる。 本研究では,新しいタスクの導入前後における最適線形分類器の性能差を用いて観察される表現忘れの概念について考察する。 このツールを使用して、多くの標準連続学習ベンチマークを再検討し、このレンズを通して、明示的に制御せずにトレーニングされたモデル表現が、しばしば小さな表現忘れを経験し、特に長いタスクシーケンスにおいて、忘れを明示的に制御するメソッドに匹敵することがあることを観察する。 また,表現を忘れることによって,モデル能力と損失関数が連続学習に与える影響に関する新たな知見がもたらされることを示す。 本研究の結果から,従来のサンプルに照会したクラスサンプルのプロトタイプを構築しながら,標準教師付きコントラスト学習で表現を継続的に学習するという,単純かつ競争的なアプローチが示される。

Continual Learning research typically focuses on tackling the phenomenon of catastrophic forgetting in neural networks. Catastrophic forgetting is associated with an abrupt loss of knowledge previously learned by a model when the task, or more broadly the data distribution, being trained on changes. In supervised learning problems this forgetting, resulting from a change in the model's representation, is typically measured or observed by evaluating the decrease in old task performance. However, a model's representation can change without losing knowledge about prior tasks. In this work we consider the concept of representation forgetting, observed by using the difference in performance of an optimal linear classifier before and after a new task is introduced. Using this tool we revisit a number of standard continual learning benchmarks and observe that, through this lens, model representations trained without any explicit control for forgetting often experience small representation forgetting and can sometimes be comparable to methods which explicitly control for forgetting, especially in longer task sequences. We also show that representation forgetting can lead to new insights on the effect of model capacity and loss function used in continual learning. Based on our results, we show that a simple yet competitive approach is to learn representations continually with standard supervised contrastive learning while constructing prototypes of class samples when queried on old samples.
翻訳日:2022-03-29 00:52:18 公開日:2022-03-24
# (参考訳) CrossFormer: 人間の3次元姿勢推定のためのクロス時空間変換器

CrossFormer: Cross Spatio-Temporal Transformer for 3D Human Pose Estimation ( http://arxiv.org/abs/2203.13387v1 )

ライセンス: CC BY 4.0
Mohammed Hassanin, Abdelwahed Khamiss, Mohammed Bennamoun, Farid Boussaid, and Ibrahim Radwan(参考訳) 3次元人間のポーズ推定は、身体部位間の幾何学的依存関係をエンコードし、運動的制約を強制することによって処理できる。 近年,空間領域と時間領域の関節間の長距離依存性を符号化するトランスフォーマが採用されている。 彼らは長距離の依存関係において卓越性を示したが、研究は視覚トランスフォーマーの局所性を改善する必要性を指摘している。 本稿では,フレーム間の微妙な変化(すなわち特徴間表現)を捉えるために重要な身体関節のリッチな表現を特徴とする新しいポーズ推定トランスを提案する。 具体的には、2つの新しいインタラクションモジュール、すなわちクロスジョイントインタラクションとクロスフレームインタラクションを通じて、このモデルは、ボディジョイント間の局所的およびグローバルな依存関係を明示的にエンコードする。 提案アーキテクチャは,Human3.6とMPI-INF-3DHPの2つの一般的な3次元ポーズ推定データセットに対して,最先端の性能を達成した。 特に,提案手法は,検出された2dポーズと地表面設定を用いて,最も近いポーズフォーマーと比較して,0.9%,0.3%向上する。

3D human pose estimation can be handled by encoding the geometric dependencies between the body parts and enforcing the kinematic constraints. Recently, Transformer has been adopted to encode the long-range dependencies between the joints in the spatial and temporal domains. While they had shown excellence in long-range dependencies, studies have noted the need for improving the locality of vision Transformers. In this direction, we propose a novel pose estimation Transformer featuring rich representations of body joints critical for capturing subtle changes across frames (i.e., inter-feature representation). Specifically, through two novel interaction modules; Cross-Joint Interaction and Cross-Frame Interaction, the model explicitly encodes the local and global dependencies between the body joints. The proposed architecture achieved state-of-the-art performance on two popular 3D human pose estimation datasets, Human3.6 and MPI-INF-3DHP. In particular, our proposed CrossFormer method boosts performance by 0.9% and 0.3%, compared to the closest counterpart, PoseFormer, using the detected 2D poses and ground-truth settings respectively.
翻訳日:2022-03-29 00:32:01 公開日:2022-03-24
# (参考訳) 自動アルゴリズム選択:機能ベースから機能フリーアプローチへ

Automated Algorithm Selection: from Feature-Based to Feature-Free Approaches ( http://arxiv.org/abs/2203.13392v1 )

ライセンス: CC BY 4.0
Mohamad Alissa, Kevin Sim and Emma Hart(参考訳) 本稿では,データに暗黙的なシーケンシャル情報がカプセル化されている最適化領域に適用可能な,新しいアルゴリズム選択手法を提案する。 具体的には、2種類のリカレントニューラルネットワークをトレーニングして、オンラインバイナリパッキングにおけるパッキングヒューリスティックを予測する。 入力として、RNNメソッドはアイテムサイズのシーケンスのみを使用する。 これは、入力データから最初に派生する必要があるドメイン固有のインスタンス機能を使用してモデルをトレーニングする必要があるアルゴリズム選択の典型的なアプローチとは対照的である。 RNNのアプローチは、データセットによって80.88%から97.63%のインスタンスで、オラクルのパフォーマンスの5%以内に達成可能であることが示されている。 これらはまた、派生した機能を使ってトレーニングされた古典的な機械学習モデルよりも優れています。 最後に,提案手法は,一組のヒューリスティックスに対して識別性能をもたらす暗黙的な構造を示す場合に有効である,という仮説を立てる。 この仮説は,14個の新しいデータセットを生成することで検証し,アルゴリズムの選択が利益をもたらす前に必要となる構造しきい値が存在することを示す。

We propose a novel technique for algorithm-selection, applicable to optimisation domains in which there is implicit sequential information encapsulated in the data, e.g., in online bin-packing. Specifically we train two types of recurrent neural networks to predict a packing heuristic in online bin-packing, selecting from four well-known heuristics. As input, the RNN methods only use the sequence of item-sizes. This contrasts to typical approaches to algorithm-selection which require a model to be trained using domain-specific instance features that need to be first derived from the input data. The RNN approaches are shown to be capable of achieving within 5% of the oracle performance on between 80.88% to 97.63% of the instances, depending on the dataset. They are also shown to outperform classical machine learning models trained using derived features. Finally, we hypothesise that the proposed methods perform well when the instances exhibit some implicit structure that results in discriminatory performance with respect to a set of heuristics. We test this hypothesis by generating fourteen new datasets with increasing levels of structure, and show that there is a critical threshold of structure required before algorithm-selection delivers benefit.
翻訳日:2022-03-29 00:17:32 公開日:2022-03-24
# 量子特徴選択

Quantum Feature Selection ( http://arxiv.org/abs/2203.13261v1 )

ライセンス: Link先を確認
Sascha M\"ucke, Raoul Heese, Sabine M\"uller, Moritz Wolter and Nico Piatkowski(参考訳) 機械学習では、モデルの複雑さを減らす機能が少ない。 したがって、各入力特徴がモデル品質に与える影響を慎重に評価することは、重要な前処理ステップである。 本稿では,2次非制約バイナリ最適化(QUBO)問題に基づく特徴選択アルゴリズムを提案する。 反復的あるいは欲深い方法とは対照的に、私たちの直接的なアプローチは高品質なソリューションを生み出します。 QUBO問題は量子ハードウェア上で解決できるので特に興味深い。 提案アルゴリズムを評価するために,古典計算機,量子ゲートコンピュータ,および量子アニールを用いた数値実験を行った。 提案手法を,各種ベンチマークデータセット上での各種標準手法と比較した。 私たちは競争パフォーマンスを観察します。

In machine learning, fewer features reduce model complexity. Carefully assessing the influence of each input feature on the model quality is therefore a crucial preprocessing step. We propose a novel feature selection algorithm based on a quadratic unconstrained binary optimization (QUBO) problem, which allows to select a specified number of features based on their importance and redundancy. In contrast to iterative or greedy methods, our direct approach yields higherquality solutions. QUBO problems are particularly interesting because they can be solved on quantum hardware. To evaluate our proposed algorithm, we conduct a series of numerical experiments using a classical computer, a quantum gate computer and a quantum annealer. Our evaluation compares our method to a range of standard methods on various benchmark datasets. We observe competitive performance.
翻訳日:2022-03-28 14:43:46 公開日:2022-03-24
# フィッシング識別におけるユーザへのメール要約

Email Summarization to Assist Users in Phishing Identification ( http://arxiv.org/abs/2203.13380v1 )

ライセンス: Link先を確認
Amir Kashapov, Tingmin Wu, Alsharif Abuadbba, Carsten Rudolph(参考訳) 最近、サイバーフィッシング攻撃は、特定の情報や手がかりが存在する場合にのみ、トレーニングデータによってより正確で標的になり、調整された。 従来のフィッシング検出よりもはるかに広い範囲で適応可能である。 したがって、自動化された検出システムは、常に100%正確ではないため、フィッシングの可能性があるメールに直面すると、期待された行動に関する不確実性が高まる。 一方で、人間中心の防御アプローチは、ユーザトレーニングに重点を置いているが、継続的に出現するパターンにユーザを最新に保つことの難しさに直面している。 したがって、電子メールのコンテンツを新しい方法で分析し、最も関連するコンテンツをメールの受信者に要約することの進歩は、これらの脅威に対処するための将来のゲートウェイである。 このギャップに対処するため、この作業はトランスフォーマーベースの機械学習を活用する。 一 潜在的な心理的引き金を分析すること (ii)悪意のある意図を検知し、 (iii)電子メールの代表的な要約を作成する。 そして、この情報をアマルゲイトして、ユーザに提示して許可します。 (i)メールが「偽」かどうか、簡単に判断できる (ii)先進的な悪意のあるパターン。

Cyber-phishing attacks recently became more precise, targeted, and tailored by training data to activate only in the presence of specific information or cues. They are adaptable to a much greater extent than traditional phishing detection. Hence, automated detection systems cannot always be 100% accurate, increasing the uncertainty around expected behavior when faced with a potential phishing email. On the other hand, human-centric defence approaches focus extensively on user training but face the difficulty of keeping users up to date with continuously emerging patterns. Therefore, advances in analyzing the content of an email in novel ways along with summarizing the most pertinent content to the recipients of emails is a prospective gateway to furthering how to combat these threats. Addressing this gap, this work leverages transformer-based machine learning to (i) analyze prospective psychological triggers, to (ii) detect possible malicious intent, and (iii) create representative summaries of emails. We then amalgamate this information and present it to the user to allow them to (i) easily decide whether the email is "phishy" and (ii) self-learn advanced malicious patterns.
翻訳日:2022-03-28 14:43:37 公開日:2022-03-24
# Swin-Conv-UNetによるブラインドデノイングとデータ合成

Practical Blind Denoising via Swin-Conv-UNet and Data Synthesis ( http://arxiv.org/abs/2203.13278v1 )

ライセンス: Link先を確認
Kai Zhang, Yawei Li, Jingyun Liang, Jiezhang Cao, Yulun Zhang, Hao Tang, Radu Timofte, Luc Van Gool(参考訳) 近年、深層ニューラルネットワークを画像デノイジング(画像デノイジング)に活用する劇的な進歩が見られたが、既存の手法は主に、加算白色ガウスノイズ(awgn)、jpeg圧縮ノイズ、カメラセンサノイズ、実画像の汎用ブラインドデノイジング法などの単純なノイズ仮定に依存している。 本稿では,ネットワークアーキテクチャ設計とデータ合成のトレーニングの観点から,この問題を解決しようとする。 具体的には,ネットワークアーキテクチャ設計のために,残畳み込み層の局所モデリング能力とスウィントランスブロックの非局所モデリング機能を組み込んだswin-convブロックを提案する。 トレーニングデータ合成のために,ガウス,ポアソン,スペックル,JPEG圧縮,処理されたカメラセンサノイズなど,様々な種類のノイズを考慮した実用的なノイズ劣化モデルの設計と縮小を行い,ランダムシャッフル戦略と二重劣化戦略を伴う。 AGWN除去と実画像復号化に関する大規模な実験により、新しいネットワークアーキテクチャ設計が最先端の性能を実現し、新しい劣化モデルが実用性を大幅に向上することを示した。 私たちの研究は、現在の分別研究に有用な洞察を与えることができると考えています。

While recent years have witnessed a dramatic upsurge of exploiting deep neural networks toward solving image denoising, existing methods mostly rely on simple noise assumptions, such as additive white Gaussian noise (AWGN), JPEG compression noise and camera sensor noise, and a general-purpose blind denoising method for real images remains unsolved. In this paper, we attempt to solve this problem from the perspective of network architecture design and training data synthesis. Specifically, for the network architecture design, we propose a swin-conv block to incorporate the local modeling ability of residual convolutional layer and non-local modeling ability of swin transformer block, and then plug it as the main building block into the widely-used image-to-image translation UNet architecture. For the training data synthesis, we design a practical noise degradation model which takes into consideration different kinds of noise (including Gaussian, Poisson, speckle, JPEG compression, and processed camera sensor noises) and resizing, and also involves a random shuffle strategy and a double degradation strategy. Extensive experiments on AGWN removal and real image denoising demonstrate that the new network architecture design achieves state-of-the-art performance and the new degradation model can help to significantly improve the practicability. We believe our work can provide useful insights into current denoising research.
翻訳日:2022-03-28 14:40:59 公開日:2022-03-24
# 次世代貯留層計算による時空間カオスの学習

Learning Spatiotemporal Chaos Using Next-Generation Reservoir Computing ( http://arxiv.org/abs/2203.13294v1 )

ライセンス: Link先を確認
Wendson A. S. Barbosa and Daniel J. Gauthier(参考訳) 機械学習(ML)を用いた高次元力学系の挙動予測には,基礎となる物理モデルを学ぶための効率的な手法が必要である。 本研究では,次世代貯水池コンピュータと組み合わせて,訓練時間10^3-10^4$,トレーニングデータセット$\sim 10^2$,他のMLアルゴリズムの10^3-10^4$で最先端性能を示すMLアーキテクチャを用いて,ヒューリスティック気象モデルの時空間カオス予測を行った。 また、モデルの翻訳対称性を利用して、計算コストとトレーニングデータをさらに削減し、それぞれが$\sim$10の係数で処理する。

Forecasting the behavior of high-dimensional dynamical systems using machine learning (ML) requires efficient methods to learn the underlying physical model. We demonstrate spatiotemporal chaos prediction of a heuristic atmospheric weather model using an ML architecture that, when combined with a next-generation reservoir computer, displays state-of-the-art performance with a training time $10^3-10^4$ times faster and training data set $\sim 10^2$ times smaller than other ML algorithms. We also take advantage of the translational symmetry of the model to further reduce the computational cost and training data, each by a factor of $\sim$10.
翻訳日:2022-03-28 14:39:07 公開日:2022-03-24
# ニューラルネットワークの生理機構による解釈可能性

Interpretability of Neural Network With Physiological Mechanisms ( http://arxiv.org/abs/2203.13262v1 )

ライセンス: Link先を確認
Anna Zou, Zhiyuan Li(参考訳) ディープラーニングは、画像、ビデオ、信号、自然言語データなど、さまざまなレグレッションおよび分類タスクの領域において、異常な精度を達成した強力な最先端技術として、引き続き機能している。 ニューラルネットワークモデルを提案する当初の目標は、数学的表現アプローチを用いて複雑な人間の脳の理解を改善することである。 しかし、近年のディープラーニング技術は、ブラックボックス近似器として扱われることによって、機能的プロセスの解釈を失う傾向にある。 この問題に対処するには、人間と機械の進化的知性をよりよく理解するために、そのようなAIモデルは生物学的かつ生理学的に現実的である必要がある。 本研究では,ニューラルネットワークと生体回路を比較し,様々な視点から類似点や相違点を見いだす。 さらに,人間の生物学的行動や理解可能な正当性を調べることによって,ニューラルネットワークがデータからどのように学習するかを考察する。

Deep learning continues to play as a powerful state-of-art technique that has achieved extraordinary accuracy levels in various domains of regression and classification tasks, including images, video, signal, and natural language data. The original goal of proposing the neural network model is to improve the understanding of complex human brains using a mathematical expression approach. However, recent deep learning techniques continue to lose the interpretations of its functional process by being treated mostly as a black-box approximator. To address this issue, such an AI model needs to be biological and physiological realistic to incorporate a better understanding of human-machine evolutionary intelligence. In this study, we compare neural networks and biological circuits to discover the similarities and differences from various perspective views. We further discuss the insights into how neural networks learn from data by investigating human biological behaviors and understandable justifications.
翻訳日:2022-03-28 14:24:10 公開日:2022-03-24
# 不均一処理効果の校正誤差

Calibration Error for Heterogeneous Treatment Effects ( http://arxiv.org/abs/2203.13364v1 )

ライセンス: Link先を確認
Yizhe Xu and Steve Yadlowsky(参考訳) 近年、多くの研究者が不均一処理効果(hte)をモデル化するための高度なデータ駆動手法を持っている。 それでもなお、HTEの推定は難しい作業であり、これらの手法は治療効果を過大または過小評価することが多く、結果として生じるモデルのキャリブレーションが低くなる。 しかし, 予測モデルと分類モデルのキャリブレーションを評価する手法は数多く存在するが, HTEモデルのキャリブレーションを評価する公式なアプローチはキャリブレーション斜面に限られている。 本稿では,HTEのキャリブレーション誤差の予測値($\ell_2$)}の類似式を定義し,ロバストな推定器を提案する。 我々のアプローチは、二重に頑健な治療効果推定器によって動機付けられ、不偏で、補充、過剰適合、高次元性の問題に耐性がある。 さらに, ランダム化試験, 観察的研究, 生存率解析など, 治療効果を同定できる多くの構造への適応が容易である。 本稿では,提案手法を用いて学習したHTEモデルの校正評価を行い,CRITEO-UPLIFT試験への適用について述べる。

Recently, many researchers have advanced data-driven methods for modeling heterogeneous treatment effects (HTEs). Even still, estimation of HTEs is a difficult task -- these methods frequently over- or under-estimate the treatment effects, leading to poor calibration of the resulting models. However, while many methods exist for evaluating the calibration of prediction and classification models, formal approaches to assess the calibration of HTE models are limited to the calibration slope. In this paper, we define an analogue of the \smash{($\ell_2$)} expected calibration error for HTEs, and propose a robust estimator. Our approach is motivated by doubly robust treatment effect estimators, making it unbiased, and resilient to confounding, overfitting, and high-dimensionality issues. Furthermore, our method is straightforward to adapt to many structures under which treatment effects can be identified, including randomized trials, observational studies, and survival analysis. We illustrate how to use our proposed metric to evaluate the calibration of learned HTE models through the application to the CRITEO-UPLIFT Trial.
翻訳日:2022-03-28 14:09:26 公開日:2022-03-24
# 実験室地震予測のための深層学習と断層帯応力の自己回帰予測

Deep learning for laboratory earthquake prediction and autoregressive forecasting of fault zone stress ( http://arxiv.org/abs/2203.13313v1 )

ライセンス: Link先を確認
Laura Laurenti, Elisa Tinti, Fabio Galasso, Luca Franco, Chris Marone(参考訳) 地震予知と予知は長く、場合によっては難解な歴史があるが、最近の研究は、早期警戒の進展、誘発地震の危険度評価、実験室地震の予測の成功などに基づく関心を再び高めている。 実験室では、摩擦性スティックスリップ現象が地震と地震のサイクルに類似している。 labquakeは、制御された条件下で長いシーケンスで生成できるため、機械学習(ml)の理想的なターゲットである。 近年の研究では, 断層帯の音響放射を用いて, MLが地震のいくつかの側面を予測できることが示されている。 本稿では,これらの結果を一般化し,地震予測と自己回帰予測のためのディープラーニング(DL)手法を検討する。 DLは既存の地震予測のML手法を改善している。 ARメソッドは、反復予測を通じて将来の地平線での予測を可能にする。 本研究では,long-short term memory (lstm) と畳み込みニューラルネットワークに基づくdlモデルを用いて,いくつかの条件下での地震を予測し,断層帯応力を忠実に予測し,音響エネルギーが断層帯応力の指紋であることを確認する。 また,ttsf(time to start of failure)とttf(time to the end of failure)についても予測した。 興味深いことに、TTeFはすべての地震周期で予測され、TTsF予測は地震前の断層クリープの量によって変化する。 LSTM, テンポラル畳み込みネットワーク, トランスフォーマーネットワークという3つのシーケンスモデリングフレームワークを用いて, 断層応力の進化を予測するAR手法について報告する。 ar予測は、ターゲット変数のみを特定の時間に予測する既存の予測モデルとは異なる。 単一の地震周期を超える予測の結果は限定的だが奨励的である。 我々のML/DLモデルは最先端のモデルより優れており、我々の自己回帰モデルは、現在の地震予測方法を強化する新しい枠組みである。

Earthquake forecasting and prediction have long and in some cases sordid histories but recent work has rekindled interest based on advances in early warning, hazard assessment for induced seismicity and successful prediction of laboratory earthquakes. In the lab, frictional stick-slip events provide an analog for earthquakes and the seismic cycle. Labquakes are ideal targets for machine learning (ML) because they can be produced in long sequences under controlled conditions. Recent works show that ML can predict several aspects of labquakes using fault zone acoustic emissions. Here, we generalize these results and explore deep learning (DL) methods for labquake prediction and autoregressive (AR) forecasting. DL improves existing ML methods of labquake prediction. AR methods allow forecasting at future horizons via iterative predictions. We demonstrate that DL models based on Long-Short Term Memory (LSTM) and Convolution Neural Networks predict labquakes under several conditions, and that fault zone stress can be predicted with fidelity, confirming that acoustic energy is a fingerprint of fault zone stress. We predict also time to start of failure (TTsF) and time to the end of Failure (TTeF) for labquakes. Interestingly, TTeF is successfully predicted in all seismic cycles, while the TTsF prediction varies with the amount of preseismic fault creep. We report AR methods to forecast the evolution of fault stress using three sequence modeling frameworks: LSTM, Temporal Convolution Network and Transformer Network. AR forecasting is distinct from existing predictive models, which predict only a target variable at a specific time. The results for forecasting beyond a single seismic cycle are limited but encouraging. Our ML/DL models outperform the state-of-the-art and our autoregressive model represents a novel framework that could enhance current methods of earthquake forecasting.
翻訳日:2022-03-28 14:08:52 公開日:2022-03-24
# 深層ニューラルネットワークの効果的な学習における階層勾配統計の活用について

On Exploiting Layerwise Gradient Statistics for Effective Training of Deep Neural Networks ( http://arxiv.org/abs/2203.13273v1 )

ライセンス: Link先を確認
Guoqiang Zhang and Kenta Niwa and W. Bastiaan Kleijn(参考訳) adam と adabelief はそれぞれ m_t が反復 t における最初の運動量であり、g_t の予測と見なすことができる二乗勾配 g_t^2 の指数移動平均 (ema) と二乗予測誤差 (m_t-g_t)^2 を追跡することにより、深層ニューラルネットワーク (dnns) の訓練において要素適応ステップを計算し、活用する。 本研究では,DNN のより効果的なトレーニングを可能にするため,Adam と AdaBelief で階層的に勾配統計を抽出できるかどうかを確かめる。 上記の研究課題を2つのステップで解決する。 まず、adam と adabelief を少し変更し、プレまたはポスト処理による更新手順に layerwise adaptive stepize を導入する。 経験的な研究では、わずかな修正がcifar10上でのvggとresnetモデルのトレーニングに匹敵するパフォーマンスをもたらすことが示されており、少なくともcertian dnnタスクにおいてadamとadabeliefの成功に重要な役割を果たすことを示唆している。 第2のステップでは,層毎ステップの手動設定ではなく,各レイヤ内の要素毎ステップ化を目的とし,新しい最適化手法であるaidaを提案する。 adabelief の (m_t-g_t)^2 が adam の g_t^2 と比較して層次統計平均と分散の点で保守的であるという事実に動機づけられ、aida は adabelief の (m_t-g_t)^2 よりも m_t と g_t のより保守的な関数を層次直交ベクトル射影で追跡して設計されている。 実験の結果,aida は dnn 課題の組に対して,adam や adabelief など既存の手法と競合するか,あるいは性能が向上することが示された。

Adam and AdaBelief compute and make use of elementwise adaptive stepsizes in training deep neural networks (DNNs) by tracking the exponential moving average (EMA) of the squared-gradient g_t^2 and the squared prediction error (m_t-g_t)^2, respectively, where m_t is the first momentum at iteration t and can be viewed as a prediction of g_t. In this work, we attempt to find out if layerwise gradient statistics can be expoited in Adam and AdaBelief to allow for more effective training of DNNs. We address the above research question in two steps. Firstly, we slightly modify Adam and AdaBelief by introducing layerwise adaptive stepsizes in their update procedures via either pre or post processing. Empirical study indicates that the slight modification produces comparable performance for training VGG and ResNet models over CIFAR10, suggesting that layer-wise gradient statistics plays an important role towards the success of Adam and AdaBelief for at least certian DNN tasks. In the second step, instead of manual setup of layerwise stepsizes, we propose Aida, a new optimisation method, with the objective that the elementwise stepsizes within each layer have significantly small statistic variances. Motivated by the fact that (m_t-g_t)^2 in AdaBelief is conservative in comparison to g_t^2 in Adam in terms of layerwise statistic averages and variances, Aida is designed by tracking a more conservative function of m_t and g_t than (m_t-g_t)^2 in AdaBelief via layerwise orthogonal vector projections. Experimental results show that Aida produces either competitive or better performance with respect to a number of existing methods including Adam and AdaBelief for a set of challenging DNN tasks.
翻訳日:2022-03-28 13:54:03 公開日:2022-03-24
# マルチビューインストラクショナルビデオにおける弱い修正オンラインアクションセグメンテーション

Weakly-Supervised Online Action Segmentation in Multi-View Instructional Videos ( http://arxiv.org/abs/2203.13309v1 )

ライセンス: Link先を確認
Reza Ghoddoosian, Isht Dwivedi, Nakul Agarwal, Chiho Choi, Behzad Dariush(参考訳) 本稿では,教師付きオンラインアクションセグメンテーションの新しい課題に対処する。 本稿では、動的プログラミングを用いて、オンラインのストリーミングビデオをテスト時にセグメント化するためのフレームワークを提案する。 我々は,オンラインオフライン不一致損失(oodl)を導入し,セグメンテーション結果の時間的一貫性を高めることにより,このフレームワークを改善した。 さらに, 学習中のみ, 複数の視点間のフレーム対応を, 弱ラベル教示ビデオの訓練の監督として活用する。 特に,3つの異なるマルチビュー推論手法について検討し,追加のアノテーションコストを伴わずに,より精度の高いフレームワイズ疑似グラウンドルースを生成する。 本研究は,朝食とikea asmの2つのベンチマークマルチビューデータセットに関する結果とアブレーション研究である。 実験により, 調理と組立の2分野において, 定性的かつ定量的に提案手法の有効性が示された。

This paper addresses a new problem of weakly-supervised online action segmentation in instructional videos. We present a framework to segment streaming videos online at test time using Dynamic Programming and show its advantages over greedy sliding window approach. We improve our framework by introducing the Online-Offline Discrepancy Loss (OODL) to encourage the segmentation results to have a higher temporal consistency. Furthermore, only during training, we exploit frame-wise correspondence between multiple views as supervision for training weakly-labeled instructional videos. In particular, we investigate three different multi-view inference techniques to generate more accurate frame-wise pseudo ground-truth with no additional annotation cost. We present results and ablation studies on two benchmark multi-view datasets, Breakfast and IKEA ASM. Experimental results show efficacy of the proposed methods both qualitatively and quantitatively in two domains of cooking and assembly.
翻訳日:2022-03-28 13:35:27 公開日:2022-03-24
# SharpContour: 効率よく正確なインスタンスセグメンテーションのためのContourベースの境界リファインメントアプローチ

SharpContour: A Contour-based Boundary Refinement Approach for Efficient and Accurate Instance Segmentation ( http://arxiv.org/abs/2203.13312v1 )

ライセンス: Link先を確認
Chenming Zhu, Xuanye Zhang, Yanran Li, Liangdong Qiu, Kai Han, Xiaoguang Han(参考訳) インスタンスセグメンテーションにおいて優れた性能が達成されているが, 境界領域の品質は相容れないままであり, 境界改善への注目が高まっている。 実用のためには、理想のポストプロセッシング・リファインメント・スキームが正確で汎用的で効率的であることが求められている。 しかし、既存のアプローチの多くはピクセル単位での精細化を提案し、膨大な計算コストを導入するか、異なるバックボーンモデル用に特別に設計する。 輪郭ベースのモデルは、既存のセグメンテーション手法に組み込むのに効率的で汎用的であるが、しばしば過度に滑らかな輪郭を生成し、コーナー領域で失敗する傾向がある。 本稿では, SharpContour と呼ばれる高効率な輪郭型境界改善手法を提案し, 境界領域の分割に挑戦する。 我々は,新しい輪郭進化過程をインスタンス認識点分類器と共に設計する。 本手法は,オフセットを離散的に更新することで輪郭を反復的に変形する。 既存の輪郭進化法と異なり、シャープコンターはそれぞれのオフセットをより独立に推定し、よりシャープで正確な輪郭を予測する。 特に,本手法は,計算コストの少ない多様な既存モデルに対してシームレスに動作する。 SharpContourが高効率を維持しながら競争利益を達成する実験結果

Excellent performance has been achieved on instance segmentation but the quality on the boundary area remains unsatisfactory, which leads to a rising attention on boundary refinement. For practical use, an ideal post-processing refinement scheme are required to be accurate, generic and efficient. However, most of existing approaches propose pixel-wise refinement, which either introduce a massive computation cost or design specifically for different backbone models. Contour-based models are efficient and generic to be incorporated with any existing segmentation methods, but they often generate over-smoothed contour and tend to fail on corner areas. In this paper, we propose an efficient contour-based boundary refinement approach, named SharpContour, to tackle the segmentation of boundary area. We design a novel contour evolution process together with an Instance-aware Point Classifier. Our method deforms the contour iteratively by updating offsets in a discrete manner. Differing from existing contour evolution methods, SharpContour estimates each offset more independently so that it predicts much sharper and accurate contours. Notably, our method is generic to seamlessly work with diverse existing models with a small computational cost. Experiments show that SharpContour achieves competitive gains whilst preserving high efficiency
翻訳日:2022-03-28 13:35:12 公開日:2022-03-24
# NPBG++: ニューラルネットワークベースのグラフの高速化

NPBG++: Accelerating Neural Point-Based Graphics ( http://arxiv.org/abs/2203.13318v1 )

ライセンス: Link先を確認
Ruslan Rakhimov, Andrei-Timotei Ardelean, Victor Lempitsky, Evgeny Burnaev(参考訳) 本稿では,シーン適合時間の低い高レンダリングリアリズムを実現する新規ビュー合成(nvs)タスクのための新しいシステム(npbg++)を提案する。 本稿では,静的シーンのマルチビュー観測と点雲を効率よく利用し,各点のニューラルディスクリプタを予測し,ニューラルポイントグラフのパイプラインをいくつかの重要な方法で改善する。 ソースイメージを単一のパスでデリプタを予測することにより、シーン毎の最適化の必要性を高めながら、ニューラルネットワークデリプタをビュー依存にし、ランベルト効果の強いシーンに適したものにする。 比較の結果,提案システムは,ランタイムの適合性とレンダリングの面では従来のnvsアプローチを上回り,同じ品質の画像を生成する。

We present a new system (NPBG++) for the novel view synthesis (NVS) task that achieves high rendering realism with low scene fitting time. Our method efficiently leverages the multiview observations and the point cloud of a static scene to predict a neural descriptor for each point, improving upon the pipeline of Neural Point-Based Graphics in several important ways. By predicting the descriptors with a single pass through the source images, we lift the requirement of per-scene optimization while also making the neural descriptors view-dependent and more suitable for scenes with strong non-Lambertian effects. In our comparisons, the proposed system outperforms previous NVS approaches in terms of fitting and rendering runtimes while producing images of similar quality.
翻訳日:2022-03-28 13:34:50 公開日:2022-03-24
# In-The-Wild Affect Recognitionにおける再帰性と注意力による連続的視聴覚融合

Continuous-Time Audiovisual Fusion with Recurrence vs. Attention for In-The-Wild Affect Recognition ( http://arxiv.org/abs/2203.13285v1 )

ライセンス: Link先を確認
Vincent Karas, Mani Kumar Tellamekala, Adria Mallol-Ragolta, Michel Valstar, Bj\"orn W. Schuller(参考訳) 本稿では,第3のABAW(Affective Behavior Analysis in-the-Wild)課題について述べる。 マルチモーダルシーケンス間の学習コンプレックス相互作用は、野生の視聴覚データから次元的影響を認識するために重要である。 再発と注意は、文献で広く使われている2つのシーケンスモデリングメカニズムである。 視覚的影響認識における再帰モデルと注意モデルのパフォーマンス差を明確にするために,LSTM-RNN,自己注意,相互注意に基づく統合モデルの総合評価を行った。 特に,時間モデルの特徴を提供するCNNバックボーンのモデル化複雑性について,エンド・ツー・エンドの学習の有無に関わらず,重要な設計選択の影響について検討する。 ネットワークアーキテクチャ設計とトレーニング最適化に係わるハイパーパラメータを体系的に調整することにより,ABAWコーパスの音響視覚的影響認識モデルを訓練した。 我々は,低複雑CNNバックボーンと結合し,エンドツーエンドで訓練することで,LSTM-RNNがアテンションモデルよりも優れており,アテンションモデルが必ずしもマルチモーダル感情認識の最適選択であるとは限らないことを示唆している。

In this paper, we present our submission to 3rd Affective Behavior Analysis in-the-wild (ABAW) challenge. Learningcomplex interactions among multimodal sequences is critical to recognise dimensional affect from in-the-wild audiovisual data. Recurrence and attention are the two widely used sequence modelling mechanisms in the literature. To clearly understand the performance differences between recurrent and attention models in audiovisual affect recognition, we present a comprehensive evaluation of fusion models based on LSTM-RNNs, self-attention and cross-modal attention, trained for valence and arousal estimation. Particularly, we study the impact of some key design choices: the modelling complexity of CNN backbones that provide features to the the temporal models, with and without end-to-end learning. We trained the audiovisual affect recognition models on in-the-wild ABAW corpus by systematically tuning the hyper-parameters involved in the network architecture design and training optimisation. Our extensive evaluation of the audiovisual fusion models shows that LSTM-RNNs can outperform the attention models when coupled with low-complex CNN backbones and trained in an end-to-end fashion, implying that attention models may not necessarily be the optimal choice for continuous-time multimodal emotion recognition.
翻訳日:2022-03-28 13:07:32 公開日:2022-03-24
# fedgradnorm: 個人化されたフェデレーション勾配正規化マルチタスク学習

FedGradNorm: Personalized Federated Gradient-Normalized Multi-Task Learning ( http://arxiv.org/abs/2203.13663v1 )

ライセンス: Link先を確認
Matin Mortaheb and Cemil Vahapoglu and Sennur Ulukus(参考訳) マルチタスク学習(MTL)は、1つの共有ネットワークで複数のタスクを同時に学習する新しいフレームワークである。 MTLは、クライアント間でタスクが分散されるフェデレートされた学習設定でも実装できる。 フェデレートされた設定では、タスクの複雑さの違いによる統計的不均一性と、ローカルデータセットの非ID性によるデータ不均一性の両方がシステムの学習性能を低下させる。 さらに、タスクは、負の伝達効果による学習性能に悪影響を及ぼす可能性がある。 これらの課題に対処するために, 動的重み付け法を用いて勾配ノルムを正規化し, 異なるタスク間の学習速度のバランスをとるfeedgradnormを提案する。 FedGradNormは、パーソナライズされたフェデレーション学習環境における全体的な学習性能を改善する。 我々はFedGradNormに対して指数収束率を示すことによって収束解析を行う。 また,マルチタスク顔ランドマーク(MTFL)と無線通信システムデータセット(RadComDynamic)についても実験を行った。 実験結果から,本フレームワークは等重化戦略に比べて訓練性能が向上することが示された。 トレーニング速度の改善に加えて、FedGradNormはクライアント間の不均衡データセットも補償する。

Multi-task learning (MTL) is a novel framework to learn several tasks simultaneously with a single shared network where each task has its distinct personalized header network for fine-tuning. MTL can be implemented in federated learning settings as well, in which tasks are distributed across clients. In federated settings, the statistical heterogeneity due to different task complexities and data heterogeneity due to non-iid nature of local datasets can both degrade the learning performance of the system. In addition, tasks can negatively affect each other's learning performance due to negative transference effects. To cope with these challenges, we propose FedGradNorm which uses a dynamic-weighting method to normalize gradient norms in order to balance learning speeds among different tasks. FedGradNorm improves the overall learning performance in a personalized federated learning setting. We provide convergence analysis for FedGradNorm by showing that it has an exponential convergence rate. We also conduct experiments on multi-task facial landmark (MTFL) and wireless communication system dataset (RadComDynamic). The experimental results show that our framework can achieve faster training performance compared to equal-weighting strategy. In addition to improving training speed, FedGradNorm also compensates for the imbalanced datasets among clients.
翻訳日:2022-03-28 13:03:52 公開日:2022-03-24
# 1つの国、700以上の言語:インドネシアの低表現言語と方言に対するnlpチャレンジ

One Country, 700+ Languages: NLP Challenges for Underrepresented Languages and Dialects in Indonesia ( http://arxiv.org/abs/2203.13357v1 )

ライセンス: Link先を確認
Alham Fikri Aji, Genta Indra Winata, Fajri Koto, Samuel Cahyawijaya, Ade Romadhony, Rahmad Mahendra, Kemal Kurniawan, David Moeljadi, Radityo Eko Prasojo, Timothy Baldwin, Jey Han Lau, Sebastian Ruder(参考訳) NLP研究は、リソースの不足と、表現不足の言語や方言がもたらす課題に対する認識の欠如によって妨げられている。 インドネシアでは2番目に言語が多様で、世界で4番目に人口の多い国であるインドネシアで話されている言語に注目し、インドネシアの700以上の言語に関するnlp研究の現状について概観する。 インドネシアのNLPにおける課題と、現在のNLPシステムの性能にどのように影響するかを強調します。 最後に,インドネシアの言語だけでなく,他の未表現言語に対しても,NLP技術開発を支援するための一般的な勧告を提供する。

NLP research is impeded by a lack of resources and awareness of the challenges presented by underrepresented languages and dialects. Focusing on the languages spoken in Indonesia, the second most linguistically diverse and the fourth most populous nation of the world, we provide an overview of the current state of NLP research for Indonesia's 700+ languages. We highlight challenges in Indonesian NLP and how these affect the performance of current NLP systems. Finally, we provide general recommendations to help develop NLP technology not only for languages of Indonesia but also other underrepresented languages.
翻訳日:2022-03-28 13:03:31 公開日:2022-03-24
# メカニック周波数とゲーム状態トレースを用いた人物予測

Predicting Personas Using Mechanic Frequencies and Game State Traces ( http://arxiv.org/abs/2203.13351v1 )

ライセンス: Link先を確認
Michael Cerny Green, Ahmed Khalifa, M Charity, Debosmita Bhaumik, and Julian Togelius(参考訳) 本研究では,プレイトラスに基づいて効率よくプレイペルソナを予測する方法を検討する。 プレイペルソナは、プレイヤーとプレイ行動の生成モデル(いわゆる手続きペルソナ)との間のアクションアグリーメント比を計算することで計算することができる。 しかし、これは計算コストが高く、適切な手続き型ペルソナが容易に利用できると仮定する。 そこで,本研究では,ゲーム力学の規則的教師付き学習と集約尺度を用いてプレイヤーのペルソナを推定する方法と,クローズドなゲームプレイ観察の痕跡に基づくシーケンス学習法を提案する。 これら2つの手法は、手続き型ペルソナと一致して定義されたプレイペルソナを予測する際に高い精度を発揮するが、アンケートを用いてプレイヤー自身が定義したプレイスタイルを全く予測できない。 この興味深い結果は、プレイペルソナの定義に計算メソッドを使うことの価値を強調している。

We investigate how to efficiently predict play personas based on playtraces. Play personas can be computed by calculating the action agreement ratio between a player and a generative model of playing behavior, a so-called procedural persona. But this is computationally expensive and assumes that appropriate procedural personas are readily available. We present two methods for estimating player persona, one using regular supervised learning and aggregate measures of game mechanics initiated, and another based on sequence learning on a trace of closely cropped gameplay observations. While both of these methods achieve high accuracy when predicting play personas defined by agreement with procedural personas, they utterly fail to predict play style as defined by the players themselves using a questionnaire. This interesting result highlights the value of using computational methods in defining play personas.
翻訳日:2022-03-28 13:01:13 公開日:2022-03-24
# 映画ジャンル分類におけるマルチモーダル特徴の有効活用

Effectively leveraging Multi-modal Features for Movie Genre Classification ( http://arxiv.org/abs/2203.13281v1 )

ライセンス: Link先を確認
Zhongping Zhang, Yiwen Gu, Bryan A. Plummer, Xin Miao, Jiayi Liu, Huayan Wang(参考訳) 近年,映像編集,要約,レコメンデーションの様々な応用により,映画ジャンルの分類が広く研究されている。 先行研究は通常、ビジュアルコンテンツのみに基づいてジャンルを予測することでこの課題に対処してきた。 その結果、音声や言語のような非視覚的モダリティは、これらのジャンルを正しく分類する上で重要な役割を担っているため、これらの手法からの予測は、ドキュメンタリーや音楽などのジャンルでは不十分であることが多い。 さらに,フレームレベルでの長ビデオの解析は,常に高い計算コストに関連付けられ,予測の効率が低下する。 これら2つの課題に対処するために,映像ジャンルを効率的かつ効果的に分類するために,ショット情報を利用したマルチモーダルアプローチMMShotを提案する。 本手法はジャンル分類のためのMovieNetおよびCondensed Moviesにおいて評価され,平均平均精度(mAP)を17%~21%向上させた。 長期ビデオ解析のためのMMShotの能力を実証し,ジャンルと複数の映画要素の相関関係を明らかにするため,大規模な実験を行った。 また,シーン境界検出タスクを評価し,最先端よりも平均精度 (ap) が1.1%向上したことにより,この手法を一般化する能力を示す。

Movie genre classification has been widely studied in recent years due to its various applications in video editing, summarization, and recommendation. Prior work has typically addressed this task by predicting genres based solely on the visual content. As a result, predictions from these methods often perform poorly for genres such as documentary or musical, since non-visual modalities like audio or language play an important role in correctly classifying these genres. In addition, the analysis of long videos at frame level is always associated with high computational cost and makes the prediction less efficient. To address these two issues, we propose a Multi-Modal approach leveraging shot information, MMShot, to classify video genres in an efficient and effective way. We evaluate our method on MovieNet and Condensed Movies for genre classification, achieving 17% ~ 21% improvement on mean Average Precision (mAP) over the state-of-the-art. Extensive experiments are conducted to demonstrate the ability of MMShot for long video analysis and uncover the correlations between genres and multiple movie elements. We also demonstrate our approach's ability to generalize by evaluating the scene boundary detection task, achieving 1.1% improvement on Average Precision (AP) over the state-of-the-art.
翻訳日:2022-03-28 13:01:00 公開日:2022-03-24
# RayTran: レイトレーシングトランスを用いたビデオからの複数物体の3次元ポーズ推定と形状再構成

RayTran: 3D pose estimation and shape reconstruction of multiple objects from videos with ray-traced transformers ( http://arxiv.org/abs/2203.13296v1 )

ライセンス: Link先を確認
Micha{\l} J. Tyszkiewicz, Kevis-Kokitsi Maninis, Stefan Popov, Vittorio Ferrari(参考訳) RGBビデオからの多目的3D再構成のためのトランスフォーマーベースニューラルネットワークアーキテクチャを提案する。 グローバルな3Dグリッド機能と、ビュー固有の2Dグリッドの配列である。 我々は, 双方向の注意機構を用いて, 情報交換を行う。 画像形成プロセスに関する知識を活用して,注意重み行列を著しく軽減し,メモリと計算の両面で現在のハードウェア上でアーキテクチャを実現可能にする。 シーン内の物体を検知し,その3次元ポーズと3次元形状を予測するために,DreTR型ヘッドを3次元特徴格子の上に取り付ける。 従来の手法と比較して、アーキテクチャは単一ステージであり、エンドツーエンドのトレーニングが可能であり、不安定なトラッキングステップを必要とせずに、複数のビデオフレームからのシーンを論理的に考えることができる。 我々は,1)RGBビデオからの3Dオブジェクトのポーズ推定のための最新の最先端手法,(2)RGB-DCADアライメントとマルチビューステレオを組み合わせた強力な代替手法を,Scan2CADデータセット上で評価した。 私たちはソースコードをリリースする予定です。

We propose a transformer-based neural network architecture for multi-object 3D reconstruction from RGB videos. It relies on two alternative ways to represent its knowledge: as a global 3D grid of features and an array of view-specific 2D grids. We progressively exchange information between the two with a dedicated bidirectional attention mechanism. We exploit knowledge about the image formation process to significantly sparsify the attention weight matrix, making our architecture feasible on current hardware, both in terms of memory and computation. We attach a DETR-style head on top of the 3D feature grid in order to detect the objects in the scene and to predict their 3D pose and 3D shape. Compared to previous methods, our architecture is single stage, end-to-end trainable, and it can reason holistically about a scene from multiple video frames without needing a brittle tracking step. We evaluate our method on the challenging Scan2CAD dataset, where we outperform (1) recent state-of-the-art methods for 3D object pose estimation from RGB videos; and (2) a strong alternative method combining Multi-view Stereo with RGB-D CAD alignment. We plan to release our source code.
翻訳日:2022-03-28 13:00:38 公開日:2022-03-24
# トランスフォーマーを用いたマルチモーダルマルチラベル顔動作単位検出

Multi-modal Multi-label Facial Action Unit Detection with Transformer ( http://arxiv.org/abs/2203.13301v1 )

ライセンス: Link先を確認
Lingfeng Wang, Shisen Wang, Jin Qi(参考訳) 本稿では,第3回ABAW(Affective Behavior Analysis)2022コンペティションへの応募について述べる。 映像中の顔行動単位(FAU)を検出するためのトランスフォーマーモデルを提案した。 具体的には、まず、音声と視覚の両方を抽出するマルチモーダルモデルを訓練した。 その後,各動作単位ラベル間の関係を学習し,動作単位検出結果を改善するための動作単位相関モジュールを提案する。 検証データセットにおける実験結果は,提案手法がベースラインモデルよりも優れた性能を達成していることを示す。

Facial Action Coding System is an important approach of facial expression analysis.This paper describes our submission to the third Affective Behavior Analysis (ABAW) 2022 competition. We proposed a transfomer based model to detect facial action unit (FAU) in video. To be specific, we firstly trained a multi-modal model to extract both audio and visual feature. After that, we proposed a action units correlation module to learn relationships between each action unit labels and refine action unit detection result. Experimental results on validation dataset shows that our method achieves better performance than baseline model, which verifies that the effectiveness of proposed network.
翻訳日:2022-03-28 13:00:18 公開日:2022-03-24
# 単語特徴表現の袋を用いた人間の歩行認識

Human Gait Recognition Using Bag of Words Feature Representation Method ( http://arxiv.org/abs/2203.13317v1 )

ライセンス: Link先を確認
Nasrin Bayat and Elham Rastegari and Qifeng Li(参考訳) 本稿では,back-of-words特徴表現法に基づく新しい歩行認識手法を提案する。 このアルゴリズムは、2つの異なるセッションで2つの終点の間を快適に歩いた93人の個人からなる、ユニークな歩行データに基づいてトレーニング、テスト、評価される。 提案モデルの有効性を評価するために,抽出した特徴を用いた分類結果と比較した。 提案手法は, 一般的な統計的特徴を用いた場合と比較して, 従来の分類器では有意に精度が向上した。

In this paper, we propose a novel gait recognition method based on a bag-of-words feature representation method. The algorithm is trained, tested and evaluated on a unique human gait data consisting of 93 individuals who walked with comfortable pace between two end points during two different sessions. To evaluate the effectiveness of the proposed model, the results are compared with the outputs of the classification using extracted features. As it is presented, the proposed method results in significant improvement accuracy compared to using common statistical features, in all the used classifiers.
翻訳日:2022-03-28 12:39:21 公開日:2022-03-24
# MonoDETR:モノクロ3次元物体検出のための深度対応トランス

MonoDETR: Depth-aware Transformer for Monocular 3D Object Detection ( http://arxiv.org/abs/2203.13310v1 )

ライセンス: Link先を確認
Renrui Zhang, Han Qiu, Tai Wang, Xuanzhuo Xu, Ziyu Guo, Yu Qiao, Peng Gao, Hongsheng Li(参考訳) モノクロ3Dオブジェクト検出は、単一の2D画像からのみ3D予測をデコードする必要がある、自動運転における長年の課題である。 既存の手法のほとんどは従来の2dオブジェクト検出器に従い、まずその中心でオブジェクトをローカライズし、次に中心に隣接した局所的な特徴を用いて3d属性を予測する。 しかし、このような中心ベースのパイプラインは3次元予測を従属タスクとして捉えており、対象間の深さの相互作用とグローバルな空間的手がかりを欠いている。 本稿では,Deep-Aware TRansformer を用いた単分子検出のための単純なフレームワーク MonoDETR を提案する。 我々は、バニラ変圧器を深度に認識させ、深度で案内される全検出プロセスを強制する。 具体的には、3Dオブジェクト候補をクエリの集合として表現し、軽量深度予測器と注目に基づく深度符号化器により入力画像の非局所深度埋め込みを生成する。 次に,問合せと問合せの深さ特徴の通信を行う奥行き認識デコーダを提案する。 このようにして、各オブジェクトはその3D属性を画像上の深さ不変領域から適応的に推定する。 最小限の手作り設計により、MonoDETRは、追加のデータやアンカー、NMSのないエンドツーエンドのフレームワークであり、最先端のセンターベースネットワーク間のKITTIベンチマーク上での競合性能を達成する。 広範なアブレーション研究は,今後の単眼研究におけるトランスフォーマーベースラインとしての有効性と有用性を示している。 コードはhttps://github.com/ZrrSkywalker/MonoDETR.gitで入手できる。

Monocular 3D object detection has long been a challenging task in autonomous driving, which requires to decode 3D predictions solely from a single 2D image. Most existing methods follow conventional 2D object detectors to first localize objects by their centers, and then predict 3D attributes using center-neighboring local features. However, such center-based pipeline views 3D prediction as a subordinate task and lacks inter-object depth interactions with global spatial clues. In this paper, we introduce a simple framework for Monocular DEtection with depth-aware TRansformer, named MonoDETR. We enable the vanilla transformer to be depth-aware and enforce the whole detection process guided by depth. Specifically, we represent 3D object candidates as a set of queries and produce non-local depth embeddings of the input image by a lightweight depth predictor and an attention-based depth encoder. Then, we propose a depth-aware decoder to conduct both inter-query and query-scene depth feature communication. In this way, each object estimates its 3D attributes adaptively from the depth-informative regions on the image, not limited by center-around features. With minimal handcrafted designs, MonoDETR is an end-to-end framework without additional data, anchors or NMS and achieves competitive performance on KITTI benchmark among state-of-the-art center-based networks. Extensive ablation studies demonstrate the effectiveness of our approach and its potential to serve as a transformer baseline for future monocular research. Code is available at https://github.com/ZrrSkywalker/MonoDETR.git.
翻訳日:2022-03-28 12:36:48 公開日:2022-03-24
# 教師なし・弱教師付きデータの活用による直接音声音声翻訳の改善

Leveraging unsupervised and weakly-supervised data to improve direct speech-to-speech translation ( http://arxiv.org/abs/2203.13339v1 )

ライセンス: Link先を確認
Ye Jia, Yifan Ding, Ankur Bapna, Colin Cherry, Yu Zhang, Alexis Conneau, Nobuyuki Morioka(参考訳) 中間的なテキスト表現に依存しないエンドツーエンドの音声対音声翻訳(s2st)は、急速に発展する研究のフロンティアである。 近年の研究では、このような直接S2STシステムの性能が、同等のデータセットで訓練された場合、従来のS2STシステムに近いことが示されている。 しかし、実際にはペアS2STトレーニングデータの入手により直接S2STの性能が制限される。 本研究では,トランスラトトロン2に基づく直接S2STの性能向上のために,より広く利用可能な教師なし・弱教師付き音声・テキストデータを活用するための複数のアプローチを検討する。 最も効果的なアプローチでは、CVSS-Cコーパス上の21の言語対に対するS2STの平均翻訳品質は、追加データなしでトレーニングされた以前の最先端技術と比較して+13.6BLEU(または+113%)改善される。 低リソース言語の改善はさらに重要である(平均的には+398%)。 本研究は,s2stと音声表現学習の今後の研究方向を示唆する。

End-to-end speech-to-speech translation (S2ST) without relying on intermediate text representations is a rapidly emerging frontier of research. Recent works have demonstrated that the performance of such direct S2ST systems is approaching that of conventional cascade S2ST when trained on comparable datasets. However, in practice, the performance of direct S2ST is bounded by the availability of paired S2ST training data. In this work, we explore multiple approaches for leveraging much more widely available unsupervised and weakly-supervised speech and text data to improve the performance of direct S2ST based on Translatotron 2. With our most effective approaches, the average translation quality of direct S2ST on 21 language pairs on the CVSS-C corpus is improved by +13.6 BLEU (or +113% relatively), as compared to the previous state-of-the-art trained without additional data. The improvements on low-resource language are even more significant (+398% relatively on average). Our comparative studies suggest future research directions for S2ST and speech representation learning.
翻訳日:2022-03-28 12:36:22 公開日:2022-03-24
# 法的意見の単語埋め込みにおける性別と人種的ステレオタイプの検出

Gender and Racial Stereotype Detection in Legal Opinion Word Embeddings ( http://arxiv.org/abs/2203.13369v1 )

ライセンス: Link先を確認
Sean Matthews, John Hudzina, Dawn Sepehr(参考訳) いくつかの自然言語処理(nlp)システムは有害なバイアスを符号化し複製し、社会に有害な倫理的影響をもたらす可能性がある。 本稿では、米国事例法における司法的意見に基づいて訓練された単語埋め込みにおける性別と人種的ステレオタイプを特定するためのアプローチを提案する。 ステレオタイプ情報を含む埋め込みは、分類、情報抽出、質問応答、あるいは法的な研究ツールを構築するために使用される他の機械学習システムのために下流システムで使用される場合、害を引き起こす可能性がある。 まず,これらのバイアスを識別するための従来の手法が,法的意見テキストで訓練された単語埋め込みに不適当であることを示す。 次に、法域内の性別と人種の偏見を識別する領域適応手法を提案する。 これらの手法を用いて分析したところ、人種的偏見は法的意見に基づいて訓練された単語埋め込みに符号化されていることが示唆された。 これらのバイアスは、歴史的データの排除によって緩和されず、法律の複数の大きな分野にまたがって現れる。 法的な意見の単語埋め込みを用いた下流システムや,観察に基づく潜在的な緩和戦略の提案についても考察した。

Studies have shown that some Natural Language Processing (NLP) systems encode and replicate harmful biases with potential adverse ethical effects in our society. In this article, we propose an approach for identifying gender and racial stereotypes in word embeddings trained on judicial opinions from U.S. case law. Embeddings containing stereotype information may cause harm when used by downstream systems for classification, information extraction, question answering, or other machine learning systems used to build legal research tools. We first explain how previously proposed methods for identifying these biases are not well suited for use with word embeddings trained on legal opinion text. We then propose a domain adapted method for identifying gender and racial biases in the legal domain. Our analyses using these methods suggest that racial and gender biases are encoded into word embeddings trained on legal opinions. These biases are not mitigated by exclusion of historical data, and appear across multiple large topical areas of the law. Implications for downstream systems that use legal opinion word embeddings and suggestions for potential mitigation strategies based on our observations are also discussed.
翻訳日:2022-03-28 12:20:42 公開日:2022-03-24
# アメリカ手話における指書き内容の探索

Searching for fingerspelled content in American Sign Language ( http://arxiv.org/abs/2203.13291v1 )

ライセンス: Link先を確認
Bowen Shi and Diane Brentari and Greg Shakhnarovich and Karen Livescu(参考訳) 手話ビデオの自然言語処理 – 認識、翻訳、検索などのタスク – は、聴覚障害者にAI技術を利用できるようにする上で不可欠であり、近年研究の関心を集めている。 本稿では,手話ビデオ中の指で打ったキーワードやキーフレーズを検索する問題に対処する。 これは手話における重要な内容がしばしば指先で伝達されるため重要な課題であり、我々の知る限り、この課題はこれまで研究されていない。 本稿では,指で指を打つことを共同で検出し,テキストシーケンスにマッチするFSS-Netを提案する。 野生のaslフィンガーペリングの大規模な公開データセット上で行った実験では,検索・検索モデルの構成要素として指先検出の重要性が示された。 我々のモデルは、関連するタスクの先行作業から適応したベースライン手法を著しく上回る

Natural language processing for sign language video - including tasks like recognition, translation, and search - is crucial for making artificial intelligence technologies accessible to deaf individuals, and is gaining research interest in recent years. In this paper, we address the problem of searching for fingerspelled key-words or key phrases in raw sign language videos. This is an important task since significant content in sign language is often conveyed via fingerspelling, and to our knowledge the task has not been studied before. We propose an end-to-end model for this task, FSS-Net, that jointly detects fingerspelling and matches it to a text sequence. Our experiments, done on a large public dataset of ASL fingerspelling in the wild, show the importance of fingerspelling detection as a component of a search and retrieval model. Our model significantly outperforms baseline methods adapted from prior work on related tasks
翻訳日:2022-03-28 12:20:23 公開日:2022-03-24
# Mix and Match:エネルギー言語モデルを用いた学習不要テキスト生成

Mix and Match: Learning-free Controllable Text Generation using Energy Language Models ( http://arxiv.org/abs/2203.13299v1 )

ライセンス: Link先を確認
Fatemehsadat Mireshghallah, Kartik Goyal, Taylor Berg-Kirkpatrick(参考訳) 制御されたテキスト生成に関する最近の研究は、属性ベースの基本言語モデル(LM)の微調整を必要とするか、あるいは属性判別器のパラメータ化を基本自己回帰的LMと互換性を持つように制限している。 そこで本研究では,ブラックボックスモデルに関する微調整や構造的仮定を伴わずに,任意の学習済みのブラックボックスモデルを組み合わせて生成したテキストの属性を出力する,制御可能なテキスト生成のためのグローバルスコアベースのMix and Match LMを提案する。 制御可能な生成のタスクは、エネルギー値がフラッレンス、制御属性、および任意の条件付きコンテキストに対する忠実性に別々に責任を負うブラックボックスモデルからのスコアの線形結合であるエネルギーベースモデルからのサンプルとして解釈する。 我々は,このエネルギーモデルから双方向コンテキストとグローバル属性特徴を用いたメトロポリス・ハスティングスサンプリング手法を用いてサンプリングを行う。 モデル形式に対する追加トレーニング,微調整,制限的仮定を含む手法を,最近提案した手法より優れていることによる,様々な制御された生成およびスタイルベースのテキストリビジョンタスクに対するアプローチの有効性を検証する。

Recent work on controlled text generation has either required attribute-based fine-tuning of the base language model (LM), or has restricted the parameterization of the attribute discriminator to be compatible with the base autoregressive LM. In this work, we propose Mix and Match LM, a global score-based alternative for controllable text generation that combines arbitrary pre-trained black-box models for achieving the desired attributes in the generated text without involving any fine-tuning or structural assumptions about the black-box models. We interpret the task of controllable generation as drawing samples from an energy-based model whose energy values are a linear combination of scores from black-box models that are separately responsible for fluency, the control attribute, and faithfulness to any conditioning context. We use a Metropolis-Hastings sampling scheme to sample from this energy-based model using bidirectional context and global attribute features. We validate the effectiveness of our approach on various controlled generation and style-based text revision tasks by outperforming recently proposed methods that involve extra training, fine-tuning, or restrictive assumptions over the form of models.
翻訳日:2022-03-28 12:19:44 公開日:2022-03-24
# 負のコントラストを取り除いてオンライン一級インクリメンタル学習に取り組む

Tackling Online One-Class Incremental Learning by Removing Negative Contrasts ( http://arxiv.org/abs/2203.13307v1 )

ライセンス: Link先を確認
Nader Asadi, Sudhir Mudur, Eugene Belilovsky(参考訳) 最近の研究は、学習者が時間とともにクラス分布が変化するデータのストリームを受け取る、教師付きオンライン連続学習設定の研究である。 他の連続的な学習設定とは違い、学習者は新しいサンプルを1回だけ提示し、すべてのクラスを区別しなければならない。 この設定で成功した手法は、入力データと共にサンプルのサブセットを計算効率良く保存し再生することに焦点を当てている。 最近のER-AMLの提案は、入力データと再生データにコントラスト学習に基づく非対称な損失を適用することで、この設定で強い性能を達成した。 しかし,提案手法の重要な要素は,入力データと格納データとのコントラストの回避であり,ストリームの各フェーズに新しいクラスが1つだけ導入されるような設定では現実的ではない。 本研究では,最近提案された自己教師型学習から教師型学習環境へのアプローチ(\textit{BYOL})を適応し,コントラストの制約を解き放つ。 次に,これをクラスプロトタイプに追加正規化することで補足することで,1クラスインクリメンタル学習環境において強力なパフォーマンスを実現し,マルチクラスインクリメンタル設定において最上位のメソッドと競合する新しい手法が得られることを示す。

Recent work studies the supervised online continual learning setting where a learner receives a stream of data whose class distribution changes over time. Distinct from other continual learning settings the learner is presented new samples only once and must distinguish between all seen classes. A number of successful methods in this setting focus on storing and replaying a subset of samples alongside incoming data in a computationally efficient manner. One recent proposal ER-AML achieved strong performance in this setting by applying an asymmetric loss based on contrastive learning to the incoming data and replayed data. However, a key ingredient of the proposed method is avoiding contrasts between incoming data and stored data, which makes it impractical for the setting where only one new class is introduced in each phase of the stream. In this work we adapt a recently proposed approach (\textit{BYOL}) from self-supervised learning to the supervised learning setting, unlocking the constraint on contrasts. We then show that supplementing this with additional regularization on class prototypes yields a new method that achieves strong performance in the one-class incremental learning setting and is competitive with the top performing methods in the multi-class incremental setting.
翻訳日:2022-03-28 12:17:31 公開日:2022-03-24
# 適応最適化による連立学習におけるクライアントドリフトの対応

Addressing Client Drift in Federated Continual Learning with Adaptive Optimization ( http://arxiv.org/abs/2203.13321v1 )

ライセンス: Link先を確認
Yeshwanth Venkatesha, Youngeun Kim, Hyoungseob Park, Yuhang Li, Priyadarshini Panda(参考訳) フェデレーション学習は広く研究されており、エッジデバイスにおけるプライバシ保存分散学習の一般的な方法である。 それに応じて、連続学習は、複数のタスクを順次学習することを目的とした新興分野である。 しかし, 連続学習システムにおいて, 連合的な集約を行う場合, 新たな課題にはほとんど注意が払わない。 このようなシステムでバニラフェデレーション平均が適用された場合,特に各クライアントが独立したタスク順序を持つことができるため,その弱点のひとつとして, \textit{client drift} を挙げる。 本稿では,NetTailorを連続学習候補として用いて,FCL(Federated Continual Learning)を実現するためのフレームワークの概要と,クライアントドリフトの問題の程度を示す。 適応型フェデレーション最適化は,クライアントドリフトの悪影響を低減し,CIFAR100,MiniImagenet,Deathlonベンチマーク上での有効性を示す。 さらに、クライアントとサーバの学習率、ローカルトレーニングの回数、通信ラウンドなど、さまざまなハイパーパラメータ間の相互作用を明らかにする経験的分析を提供する。 最後に,拡張性,クライアントのデータ分散のゆがみに対するロバスト性,ストラグラーなど,連合学習システムの有用な特性に関するフレームワークを評価した。

Federated learning has been extensively studied and is the prevalent method for privacy-preserving distributed learning in edge devices. Correspondingly, continual learning is an emerging field targeted towards learning multiple tasks sequentially. However, there is little attention towards additional challenges emerging when federated aggregation is performed in a continual learning system. We identify \textit{client drift} as one of the key weaknesses that arise when vanilla federated averaging is applied in such a system, especially since each client can independently have different order of tasks. We outline a framework for performing Federated Continual Learning (FCL) by using NetTailor as a candidate continual learning approach and show the extent of the problem of client drift. We show that adaptive federated optimization can reduce the adverse impact of client drift and showcase its effectiveness on CIFAR100, MiniImagenet, and Decathlon benchmarks. Further, we provide an empirical analysis highlighting the interplay between different hyperparameters such as client and server learning rates, the number of local training iterations, and communication rounds. Finally, we evaluate our framework on useful characteristics of federated learning systems such as scalability, robustness to the skewness in clients' data distribution, and stragglers.
翻訳日:2022-03-28 12:17:09 公開日:2022-03-24
# ファウンデーションの立ち上げ:Fusing Model EmbeddingsとWeak Supervision

Shoring Up the Foundations: Fusing Model Embeddings and Weak Supervision ( http://arxiv.org/abs/2203.13270v1 )

ライセンス: Link先を確認
Mayee F. Chen, Daniel Y. Fu, Dyah Adila, Michael Zhang, Frederic Sala, Kayvon Fatahalian, Christopher R\'e(参考訳) ファウンデーションモデルは、アウトオブボックスの埋め込みといくつかのラベル付き例でモデルを構築するためのエキサイティングな新しいパラダイムを提供します。 しかし、ラベル付きデータなしで基礎モデルを適用する方法が明確ではない。 潜在的なアプローチは、トレーニング済みモデル、ヒューリスティックス、クラウドワーカーといった弱いラベルソースを使用して偽ラベルを構築する、弱い監視フレームワークで基礎モデルを融合させることである。 課題は、基盤モデルと弱いソースの両方で利用可能な信号を最大限に活用する組み合わせを構築することだ。 既存の弱監督手法の2つの重要な要素を改善するために基礎モデル埋め込みを用いた組み合わせであるLigerを提案する。 まず,埋め込み空間を分割し,部品毎のソースアキュラティを学習することにより,弱いソース品質の詳細な推定を行う。 第2に、埋め込みスペースのソース投票を延ばすことで、ソースカバレッジを改善する。 基礎モデルのブラックボックスの性質にも拘わらず,我々の手法によって性能が向上し,組込み空間におけるラベル分布の滑らかさとともにリフトがスケールすることを示す。 6つのベンチマークNLPとビデオタスクにおいて、Ligerはバニラの弱い監督を14.1ポイント、弱い監督のkNNとアダプタを11.8ポイント、伝統的な手札によって監督されるkNNとアダプタを7.2ポイントで上回っている。

Foundation models offer an exciting new paradigm for constructing models with out-of-the-box embeddings and a few labeled examples. However, it is not clear how to best apply foundation models without labeled data. A potential approach is to fuse foundation models with weak supervision frameworks, which use weak label sources -- pre-trained models, heuristics, crowd-workers -- to construct pseudolabels. The challenge is building a combination that best exploits the signal available in both foundation models and weak sources. We propose Liger, a combination that uses foundation model embeddings to improve two crucial elements of existing weak supervision techniques. First, we produce finer estimates of weak source quality by partitioning the embedding space and learning per-part source accuracies. Second, we improve source coverage by extending source votes in embedding space. Despite the black-box nature of foundation models, we prove results characterizing how our approach improves performance and show that lift scales with the smoothness of label distributions in embedding space. On six benchmark NLP and video tasks, Liger outperforms vanilla weak supervision by 14.1 points, weakly-supervised kNN and adapters by 11.8 points, and kNN and adapters supervised by traditional hand labels by 7.2 points.
翻訳日:2022-03-28 12:16:26 公開日:2022-03-24
# レコメンデーション・アズ・ランゲージ・プロセッシング(rlp):統一事前学習、パーソナライズされたプロンプト・アンド・予測パラダイム(p5)

Recommendation as Language Processing (RLP): A Unified Pretrain, Personalized Prompt & Predict Paradigm (P5) ( http://arxiv.org/abs/2203.13366v1 )

ライセンス: Link先を確認
Shijie Geng, Shuchang Liu, Zuohui Fu, Yingqiang Ge, Yongfeng Zhang(参考訳) 長い期間、異なるレコメンデーションタスクは、通常、タスク固有のアーキテクチャとトレーニングの目的を設計する必要がある。 その結果、学習した知識や表現をあるタスクから別のタスクに転送することは困難であり、既存のレコメンデーションアプローチの一般化能力を制限する、例えば、シーケンシャルなレコメンデーションモデルの適用やレビュー生成方法への変換が困難になる。 このような問題に対処するために、言語基盤は様々な問題やタスクを記述し表現するための強力な媒体であると考え、様々な推奨タスクを共有フレームワークで統一する"Pretrain, Personalized Prompt, and Predict Paradigm"(P5)と呼ばれるフレキシブルで統一されたテキスト・テキスト・テキスト・パラダイムを提案する。 p5では、ユーザ-テーマインタラクション、項目メタデータ、ユーザレビューなどのすべてのデータは、共通のフォーマットである自然言語シーケンスに変換される。 自然言語からの豊富な情報はp5を補助し、より深い意味を捉えて推奨する。 P5は事前トレーニング中に同じ言語モデリングの目的で異なるタスクを学習する。 したがって、下流のレコメンデーションタスクの基礎モデルとして機能する可能性があり、他のモダリティとの統合が容易であり、レコメンデーションシステムの技術的な形態を統一レコメンデーションエンジンに変革させるインストラクションベースのレコメンデーションを可能にする。 異なるユーザーに対して適応的なパーソナライズされたプロンプトにより、P5はゼロショットまたは少数ショットの方法で予測を行うことができ、広範囲な微調整の必要性を大幅に減らすことができる。 いくつかの推奨ベンチマークでは,生成的手法の有効性を示す実験を行った。 我々は、rlpとパーソナライズされた基礎モデルに関する今後の研究を進めるために、プロンプトと事前学習したp5言語モデルをリリースする。

For a long period, different recommendation tasks typically require designing task-specific architectures and training objectives. As a result, it is hard to transfer the learned knowledge and representations from one task to another, thus restricting the generalization ability of existing recommendation approaches, e.g., a sequential recommendation model can hardly be applied or transferred to a review generation method. To deal with such issues, considering that language grounding is a powerful medium to describe and represent various problems or tasks, we present a flexible and unified text-to-text paradigm called "Pretrain, Personalized Prompt, and Predict Paradigm" (P5) for recommendation, which unifies various recommendation tasks in a shared framework. In P5, all data such as user-item interactions, item metadata, and user reviews are converted to a common format -- natural language sequences. The rich information from natural language assist P5 to capture deeper semantics for recommendation. P5 learns different tasks with the same language modeling objective during pretraining. Thus, it possesses the potential to serve as the foundation model for downstream recommendation tasks, allows easy integration with other modalities, and enables instruction-based recommendation, which will revolutionize the technical form of recommender system towards unified recommendation engine. With adaptive personalized prompt for different users, P5 is able to make predictions in a zero-shot or few-shot manner and largely reduces the necessity for extensive fine-tuning. On several recommendation benchmarks, we conduct experiments to show the effectiveness of our generative approach. We will release our prompts and pretrained P5 language model to help advance future research on Recommendation as Language Processing (RLP) and Personalized Foundation Models.
翻訳日:2022-03-28 11:59:55 公開日:2022-03-24
# マルチエージェント強化学習のための体験リプレイの思い出と忘れ

Remember and Forget Experience Replay for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2203.13319v1 )

ライセンス: Link先を確認
Pascal Weber, Daniel W\"alchli, Mustafa Zeqiri, Petros Koumoutsakos(参考訳) 本稿では,Revere and Forget for Experience Replay(ReF-ER)アルゴリズムをマルチエージェント強化学習(MARL)に拡張する。 ReF-ER} は,OpenAI ジムから複雑な流体の流れに至るまで,連続的な制御を行う技術アルゴリズムの状態を上回り,その性能を向上することを示した。 MARLでは、エージェント間の依存関係は状態値推定器に含まれ、環境力学はReF-ERで使われる重みによってモデル化される。 協調的な環境では、各報酬を用いて値が推定されたときの最高のパフォーマンスを見つけ、移行マップ上の他のアクションの影響を無視する。 我々は,Stanford Intelligent Systems Laboratory (SISL)環境におけるReF-ER MARLの性能をベンチマークした。 ReF-ER MARLのポリシーと値関数に1つのフィードフォワードニューラルネットワークを用いることで、複雑なニューラルネットワークアーキテクチャに依存する技術アルゴリズムの状態を上回ります。

We present the extension of the Remember and Forget for Experience Replay (ReF-ER) algorithm to Multi-Agent Reinforcement Learning (MARL). {ReF-ER} was shown to outperform state of the art algorithms for continuous control in problems ranging from the OpenAI Gym to complex fluid flows. In MARL, the dependencies between the agents are included in the state-value estimator and the environment dynamics are modeled via the importance weights used by ReF-ER. In collaborative environments, we find the best performance when the value is estimated using individual rewards and we ignore the effects of other actions on the transition map. We benchmark the performance of ReF-ER MARL on the Stanford Intelligent Systems Laboratory (SISL) environments. We find that employing a single feed-forward neural network for the policy and the value function in ReF-ER MARL, outperforms state of the art algorithms that rely on complex neural network architectures.
翻訳日:2022-03-28 11:58:58 公開日:2022-03-24
# 重み付き正規化を用いたDNNに対するグループレベルエラーの修復

Repairing Group-Level Errors for DNNs Using Weighted Regularization ( http://arxiv.org/abs/2203.13612v1 )

ライセンス: Link先を確認
Ziyuan Zhong, Yuchi Tian, Conor J.Sweeney, Vicente Ordonez-Roman, Baishakhi Ray(参考訳) ディープニューラルネットワーク(DNN)は、人々の生活に影響を与える決定を下すソフトウェアで広く使われている。 しかし、不運な結果につながる可能性のある重度の誤った行動を示すことが発見されている。 以前の研究では、このような誤動作は単一のイメージのエラーではなく、クラスプロパティの違反によって発生することが多い。 このような誤りを検出できる手法が提案されているが、今のところその修正は行われていない。 本稿では,DNNの修正を目的とした5つの具体的手法からなる重み付き正規化法(WR)を提案する。 特に、シングルラベル画像分類とマルチラベル画像分類の両方において、DNNモデルの混乱誤差とバイアス誤差を修復することができる。 混乱エラーは、与えられたDNNモデルが2つのクラスの間で混乱する傾向にある場合に発生する。 wrの各メソッドは、目標ペア間の混乱を緩和するために、dnnリトレーニングや推論の段階でさらに重みを割り当てる。 バイアスエラーも同様に修正できる。 提案手法と,広く使用されている6つのデータセットとアーキテクチャの組み合わせをベースラインとして評価・比較する。 その結果、WR法はトレードオフが異なるが、少なくとも1つのWR法では、全体的な性能の非常に限られたコストで、混乱/バイアスエラーを大幅に低減できることがわかった。

Deep Neural Networks (DNNs) have been widely used in software making decisions impacting people's lives. However, they have been found to exhibit severe erroneous behaviors that may lead to unfortunate outcomes. Previous work shows that such misbehaviors often occur due to class property violations rather than errors on a single image. Although methods for detecting such errors have been proposed, fixing them has not been studied so far. Here, we propose a generic method called Weighted Regularization (WR) consisting of five concrete methods targeting the error-producing classes to fix the DNNs. In particular, it can repair confusion error and bias error of DNN models for both single-label and multi-label image classifications. A confusion error happens when a given DNN model tends to confuse between two classes. Each method in WR assigns more weights at a stage of DNN retraining or inference to mitigate the confusion between target pair. A bias error can be fixed similarly. We evaluate and compare the proposed methods along with baselines on six widely-used datasets and architecture combinations. The results suggest that WR methods have different trade-offs but under each setting at least one WR method can greatly reduce confusion/bias errors at a very limited cost of the overall performance.
翻訳日:2022-03-28 11:58:45 公開日:2022-03-24
# (参考訳) g2pW:マンダリンにおけるポリフォン曖昧化のための条件付き重み付きソフトマックスBERT

g2pW: A Conditional Weighted Softmax BERT for Polyphone Disambiguation in Mandarin ( http://arxiv.org/abs/2203.10430v3 )

ライセンス: CC BY 4.0
Yi-Chang Chen and Yu-Chuan Chang and Yen-Cheng Chang and Yi-Ren Yeh(参考訳) ポリフォンの曖昧さは、マンダリン・グラデム・トゥ・音素変換(g2p)において最も重要な課題である。 従来の研究では、事前訓練された言語モデル、制限された出力、および Part-Of-Speech (POS) タグ付けからの余分な情報を用いてこの問題にアプローチしてきた。 これらの戦略にインスパイアされたg2pWという新しい手法を提案する。これは学習可能なソフトマックスウェイトを適応させ、BERTの出力にポリフォニックな特徴とPOSタグ付けを付与する。 先行研究のようにハードマスクを使うのではなく,音素候補に対するソフトウェイトリング関数の学習がパフォーマンスに有益であることを示す実験を行った。 さらに,提案したg2pWは,POSタグを補助機能として使用しながら,事前学習したPOSタグモデルを必要としない。 実験の結果,g2pWはCPPデータセット上の既存の手法よりも優れていた。 すべてのコード、モデルウェイト、ユーザフレンドリーなパッケージが公開されている。

Polyphone disambiguation is the most crucial task in Mandarin grapheme-to-phoneme (g2p) conversion. Previous studies have approached this problem using pre-trained language models, restricted output, and extra information from Part-Of-Speech (POS) tagging. Inspired by these strategies, we propose a novel approach, called g2pW, which adapts learnable softmax-weights to condition the outputs of BERT with the polyphonic character of interest and its POS tagging. Rather than using the hard mask as in previous works, our experiments show that learning a soft-weighting function for the candidate phonemes benefits performance. In addition, our proposed g2pW does not require extra pre-trained POS tagging models while using POS tags as auxiliary features since we train the POS tagging model simultaneously with the unified encoder. Experimental results show that our g2pW outperforms existing methods on the public CPP dataset. All codes, model weights, and a user-friendly package are publicly available.
翻訳日:2022-03-26 12:55:34 公開日:2022-03-24
# (参考訳) WeSinger:補助的損失を用いたデータ強化歌声合成

WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses ( http://arxiv.org/abs/2203.10750v2 )

ライセンス: CC BY 4.0
Zewang Zhang, Yibin Zheng, Xinhui Li, Li Lu(参考訳) 本稿では,WeSinger という中国語多言語音声合成システムを開発した。 合成歌唱音声の精度と自然性を改善するため,いくつかの具体的モジュールと技法を設計する。 1)多段階のリズム損失と後処理ステップを伴う深層双方向LSTMに基づく持続時間モデル 2)プログレッシブピッチ重み付きデコーダ損失を有するトランスフォーマー様音響モデル 3) 高品質歌唱波形を生成する24khzピッチアウェアlpcnetニューラルボコーダ 4) 強固なロバスト性と自然性を有するマルチシンガープリトレーニングによる新しいデータ拡張法。 定量的および定性的な評価結果は,WeSingerの有効性を精度と自然性の観点から示し,WeSingerは公開コーパスOpencpop上で最先端のパフォーマンスを達成する。 いくつかの合成歌唱サンプルはオンラインで入手できる(https://zzw922cn.github.io/WeSinger/)。

In this paper, we develop a new multi-singer Chinese neural singing voice synthesis (SVS) system named WeSinger. To improve the accuracy and naturalness of synthesized singing voice, we design several specifical modules and techniques: 1) A deep bi-directional LSTM based duration model with multi-scale rhythm loss and post-processing step; 2) A Transformer-alike acoustic model with progressive pitch-weighted decoder loss; 3) a 24 kHz pitch-aware LPCNet neural vocoder to produce high-quality singing waveforms; 4) A novel data augmentation method with multi-singer pre-training for stronger robustness and naturalness. Both quantitative and qualitative evaluation results demonstrate the effectiveness of WeSinger in terms of accuracy and naturalness, and WeSinger achieves state-of-the-art performance on the public corpus Opencpop. Some synthesized singing samples are available online (https://zzw922cn.github.io/WeSinger/).
翻訳日:2022-03-26 06:07:44 公開日:2022-03-24
# (参考訳) ダブルスリムな変圧器を用いた視覚的質問応答の効率化

Towards Efficient and Elastic Visual Question Answering with Doubly Slimmable Transformer ( http://arxiv.org/abs/2203.12814v1 )

ライセンス: CC BY 4.0
Zhou Yu, Zitian Jin, Jun Yu, Mingliang Xu, Jianping Fan(参考訳) トランスフォーマーに基づくアプローチは、視覚的質問応答(VQA)において大きな成功を収めている。 しかしながら、パフォーマンスを保証するために、通常は深いモデルと広いモデルを必要とするため、キャパシティ制限のあるプラットフォームにデプロイするのは困難である。 多様なプラットフォームの効率制約を満たすために、実行時に適応的なプルーニングをサポートする弾力性のあるVQAモデルを設計することは、難しいが価値のある作業である。 本稿では,Douubly Slimmable Transformer(DST)を提案する。このフレームワークは任意のTransformerベースのVQAモデルにシームレスに統合して,単一モデルを一度にトレーニングし,さまざまな幅と深さのスリム化サブモデルを得る。 2つの典型的なトランスフォーマーベースのVQAアプローチ、すなわちMCANとUNITERを基準モデルとして、得られたスリム化可能なMCAN_DSTとUNITER_DSTモデルは、2つのベンチマークデータセットで独立にトレーニングされた最先端の手法より優れている。 特に、1つのスリム化MCAN_DSTサブモデルはVQA-v2で同等の精度を達成し、モデルサイズは0.38倍小さく、参照MCANモデルよりも0.27倍小さいFLOPを持つ。 最小のMCAN_DSTサブモデルは、推論段階で9Mパラメータと0.16GのFLOPを持ち、エッジデバイスにデプロイできる。

Transformer-based approaches have shown great success in visual question answering (VQA). However, they usually require deep and wide models to guarantee good performance, making it difficult to deploy on capacity-restricted platforms. It is a challenging yet valuable task to design an elastic VQA model that supports adaptive pruning at runtime to meet the efficiency constraints of diverse platforms. In this paper, we present the Doubly Slimmable Transformer (DST), a general framework that can be seamlessly integrated into arbitrary Transformer-based VQA models to train one single model once and obtain various slimmed submodels of different widths and depths. Taking two typical Transformer-based VQA approaches, i.e., MCAN and UNITER, as the reference models, the obtained slimmable MCAN_DST and UNITER_DST models outperform the state-of-the-art methods trained independently on two benchmark datasets. In particular, one slimmed MCAN_DST submodel achieves a comparable accuracy on VQA-v2, while being 0.38x smaller in model size and having 0.27x fewer FLOPs than the reference MCAN model. The smallest MCAN_DST submodel has 9M parameters and 0.16G FLOPs in the inference stage, making it possible to be deployed on edge devices.
翻訳日:2022-03-26 00:49:37 公開日:2022-03-24
# (参考訳) 継続的な学習とプライベートアンラーニング

Continual Learning and Private Unlearning ( http://arxiv.org/abs/2203.12817v1 )

ライセンス: CC BY 4.0
Bo Liu, Qiang Liu, Peter Stone(参考訳) 知的エージェントが長い時間をかけて自律化するにつれ、彼らは最終的に特定の人々と生涯にわたって対等になるかもしれない。 もしそうなら、ユーザーがエージェントに一時的にタスクをマスターさせたいが、後にプライバシー上の懸念からタスクを忘れるのが一般的かもしれない。 しかし、エージェントが学習した知識の残りの部分を劣化させることなく、ユーザが指定したものをプライベートに指定できるようにすることは、難しい問題である。 本論文は,この課題に対処するために,この継続学習とプライベートアンラーニング(CLPU)問題を定式化する。 さらに、CLPU問題の解決に向けた第一歩として、単純だが完全にプライベートなソリューションであるCLPU-DER++を紹介し、提案ソリューションの有効性を評価するために、慎重に設計されたベンチマーク問題のセットを紹介する。

As intelligent agents become autonomous over longer periods of time, they may eventually become lifelong counterparts to specific people. If so, it may be common for a user to want the agent to master a task temporarily but later on to forget the task due to privacy concerns. However enabling an agent to \emph{forget privately} what the user specified without degrading the rest of the learned knowledge is a challenging problem. With the aim of addressing this challenge, this paper formalizes this continual learning and private unlearning (CLPU) problem. The paper further introduces a straightforward but exactly private solution, CLPU-DER++, as the first step towards solving the CLPU problem, along with a set of carefully designed benchmark problems to evaluate the effectiveness of the proposed solution.
翻訳日:2022-03-26 00:21:15 公開日:2022-03-24
# (参考訳) ロバスト異常検出のためのベイズ非パラメトリックサブモジュールビデオ分割

Bayesian Nonparametric Submodular Video Partition for Robust Anomaly Detection ( http://arxiv.org/abs/2203.12840v1 )

ライセンス: CC BY 4.0
Hitesh Sapkota, Qi Yu(参考訳) MIL(Multiple-Instance Learning)は、高額なラベリングコストのためにフレームが欠落している場合、ラベルがビデオレベルでのみ利用可能であるため、弱い教師付き問題としてモデル化することで、ビデオ異常検出問題に取り組む効果的な方法を提供する。 本稿では,異常セグメントや複数種類の異常イベントを含む実用的な設定において,ロバスト異常検出のための信頼性の高いソリューションを提供するため,milモデルのトレーニングを大幅に改善するために,新たなベイズ型非パラメトリックサブモジュラービデオパーティション(bn-svp)を提案する。 BN-SVPは本質的に動的で非パラメトリックな階層的クラスタリングを行い、ビデオ内のセグメントを時間的に一貫性があり、セマンティックに整合した隠れ状態にグループ化し、自然にシーンと解釈することができる。 各セグメントは、同じシーン内のセグメントの変動を、多くの現実世界の監視ビデオのダイナミックでノイズの多い性質に適応させる非パラメトリック混合プロセスによって生成されると仮定される。 BN-SVP のシーンと混合成分の割り当てはまた、セグメント間のペアの類似性を誘導し、非パラメトリックな部分モジュラー集合関数を構成する。 この関数をMIL損失と統合することは、トレーニングを改善するために、モデルをさまざまなポジティブなインスタンスに効果的に公開する。 サブモジュラー関数を最適化し、効率的なモデルトレーニングをサポートするためにグリーディアルゴリズムを開発した。 我々の理論解析は,提案アルゴリズムの性能保証を確実にする。 提案手法の有効性は,ロバストな検出性能を持つ実世界の複数のビデオデータセット上で実証される。

Multiple-instance learning (MIL) provides an effective way to tackle the video anomaly detection problem by modeling it as a weakly supervised problem as the labels are usually only available at the video level while missing for frames due to expensive labeling cost. We propose to conduct novel Bayesian non-parametric submodular video partition (BN-SVP) to significantly improve MIL model training that can offer a highly reliable solution for robust anomaly detection in practical settings that include outlier segments or multiple types of abnormal events. BN-SVP essentially performs dynamic non-parametric hierarchical clustering with an enhanced self-transition that groups segments in a video into temporally consistent and semantically coherent hidden states that can be naturally interpreted as scenes. Each segment is assumed to be generated through a non-parametric mixture process that allows variations of segments within the same scenes to accommodate the dynamic and noisy nature of many real-world surveillance videos. The scene and mixture component assignment of BN-SVP also induces a pairwise similarity among segments, resulting in non-parametric construction of a submodular set function. Integrating this function with an MIL loss effectively exposes the model to a diverse set of potentially positive instances to improve its training. A greedy algorithm is developed to optimize the submodular function and support efficient model training. Our theoretical analysis ensures a strong performance guarantee of the proposed algorithm. The effectiveness of the proposed approach is demonstrated over multiple real-world anomaly video datasets with robust detection performance.
翻訳日:2022-03-26 00:04:08 公開日:2022-03-24
# (参考訳) ABAW3チャレンジにおける複数感情記述子の推定

Multiple Emotion Descriptors Estimation at the ABAW3 Challenge ( http://arxiv.org/abs/2203.12845v1 )

ライセンス: CC BY 4.0
Didan Deng(参考訳) 複雑な感情状態を記述するために、心理学者は複数の感情記述子を提案している:顔のアクション単位のようなまばらな記述子、原子価や覚醒のような連続的な記述子、幸福や怒りのような個別のクラス記述子。 Ekman and Friesen, 1969によると、顔のアクションユニットは感情メッセージを伝えるサインカーであり、離散的または連続的な感情記述子は人間によって認識され、表現されるメッセージである。 本稿では,ABAW3チャレンジに参加する上で,複数の感情記述子を推定するアーキテクチャを設計した。 1969年、Ekman and Friesenの理論に基づいて、異なる性質を与えられた手動車(顔の動き単位)とメッセージ(離散的感情、原子価、覚醒)を測定するための異なるアーキテクチャを設計した。 abaw3チャレンジデータセットにおける定量的実験は、2つのベースラインモデルよりも優れた性能を示している。

To describe complex emotional states, psychologists have proposed multiple emotion descriptors: sparse descriptors like facial action units; continuous descriptors like valence and arousal; and discrete class descriptors like happiness and anger. According to Ekman and Friesen, 1969, facial action units are sign vehicles that convey the emotion message, while discrete or continuous emotion descriptors are the messages perceived and expressed by human. In this paper, we designed an architecture for multiple emotion descriptors estimation in participating the ABAW3 Challenge. Based on the theory of Ekman and Friesen, 1969, we designed distinct architectures to measure the sign vehicles (i.e., facial action units) and the message (i.e., discrete emotions, valence and arousal) given their different properties. The quantitative experiments on the ABAW3 challenge dataset has shown the superior performance of our approach over two baseline models.
翻訳日:2022-03-26 00:03:03 公開日:2022-03-24
# (参考訳) 変圧器ネットワークによるキーポイント追跡

Keypoints Tracking via Transformer Networks ( http://arxiv.org/abs/2203.12848v1 )

ライセンス: CC BY 4.0
Oleksii Nasypanyi, Francois Rameau(参考訳) そこで本論文では,トランスフォーマーネットワークを用いた画像間の疎鍵点追跡の先駆的な研究を提案する。 ディープラーニングベースのキーポイントマッチングは、グラフニューラルネットワーク(最近ではトランスフォーマーネットワーク)を使用して広く研究されているが、リアルタイムに運用するには比較的遅く、キーポイント検出器の再現性に特に敏感である。 これらの欠点に対処するために,リアルタイムかつロバストなキーポイント追跡の具体例を検討することを提案する。 具体的には,映像列の連続画像間を追跡するキーポイントの高速かつロバストな推定を実現する新しいアーキテクチャを提案する。 本手法は,最近のコンピュータビジョン,すなわち視覚トランスフォーマーネットワークにおけるブレークスルーを利用したものである。 提案手法は,連続する2段階からなり,粗いマッチングと,キーポイントの対応予測の微妙な局所化を行う。 様々な実験を通じて,本手法は競争的結果を達成し,照明変化,咬合,視点差などの悪条件に対して高い頑健性を示す。

In this thesis, we propose a pioneering work on sparse keypoints tracking across images using transformer networks. While deep learning-based keypoints matching have been widely investigated using graph neural networks - and more recently transformer networks, they remain relatively too slow to operate in real-time and are particularly sensitive to the poor repeatability of the keypoints detectors. In order to address these shortcomings, we propose to study the particular case of real-time and robust keypoints tracking. Specifically, we propose a novel architecture which ensures a fast and robust estimation of the keypoints tracking between successive images of a video sequence. Our method takes advantage of a recent breakthrough in computer vision, namely, visual transformer networks. Our method consists of two successive stages, a coarse matching followed by a fine localization of the keypoints' correspondences prediction. Through various experiments, we demonstrate that our approach achieves competitive results and demonstrates high robustness against adverse conditions, such as illumination change, occlusion and viewpoint differences.
翻訳日:2022-03-25 23:57:49 公開日:2022-03-24
# (参考訳) 固定以上のもの:動的ウィンドウビジュアルトランスフォーマー

Beyond Fixation: Dynamic Window Visual Transformer ( http://arxiv.org/abs/2203.12856v1 )

ライセンス: CC BY 4.0
Pengzhen Ren, Changlin Li, Guangrun Wang, Yun Xiao, Qing Du Xiaodan Liang Xiaojun Chang(参考訳) 近年,視覚変換器への関心の高まりは,局所窓への自己注意の計算を制限することで,計算コストの削減を図っている。 現在の作業のほとんどは、モデルパフォーマンスに対するウィンドウサイズの影響を無視しながら、デフォルトでは固定された単一スケールのウィンドウを使用する。 しかし、これはマルチスケール情報に対するこれらのウィンドウベースモデルのモデリング可能性を制限する可能性がある。 本稿では,DW-ViT(Dynamic Window Vision Transformer)という新しい手法を提案する。 DW-ViTが提案する動的ウィンドウ戦略は、固定された単一ウィンドウ設定を使用するモデルを超えている。 私たちの知る限りでは、動的なマルチスケールウィンドウを使用して、ウィンドウ設定がモデルパフォーマンスに与える影響の上限を調べました。 DW-ViTでは、異なるサイズのウィンドウを異なるウィンドウのヘッドグループに割り当て、マルチスケール情報を得る。 そして、異なる重みをマルチスケールウィンドウブランチに割り当てることで、情報を動的に融合する。 我々はImageNet-1K,ADE20K,COCOの3つのデータセットに対して詳細な性能評価を行った。 関連する最先端(SoTA)手法と比較して、DW-ViTは最高の性能を得る。 具体的には、現在の SoTA Swin Transformers \cite{liu2021swin} と比較して、DW-ViT は同様のパラメータと計算コストを持つ3つのデータセットに対して一貫性と実質的な改善を実現している。 さらに、DW-ViTは優れたスケーラビリティを示し、ウィンドウベースのビジュアルトランスフォーマーに簡単に挿入できる。

Recently, a surge of interest in visual transformers is to reduce the computational cost by limiting the calculation of self-attention to a local window. Most current work uses a fixed single-scale window for modeling by default, ignoring the impact of window size on model performance. However, this may limit the modeling potential of these window-based models for multi-scale information. In this paper, we propose a novel method, named Dynamic Window Vision Transformer (DW-ViT). The dynamic window strategy proposed by DW-ViT goes beyond the model that employs a fixed single window setting. To the best of our knowledge, we are the first to use dynamic multi-scale windows to explore the upper limit of the effect of window settings on model performance. In DW-ViT, multi-scale information is obtained by assigning windows of different sizes to different head groups of window multi-head self-attention. Then, the information is dynamically fused by assigning different weights to the multi-scale window branches. We conducted a detailed performance evaluation on three datasets, ImageNet-1K, ADE20K, and COCO. Compared with related state-of-the-art (SoTA) methods, DW-ViT obtains the best performance. Specifically, compared with the current SoTA Swin Transformers \cite{liu2021swin}, DW-ViT has achieved consistent and substantial improvements on all three datasets with similar parameters and computational costs. In addition, DW-ViT exhibits good scalability and can be easily inserted into any window-based visual transformers.
翻訳日:2022-03-25 23:49:13 公開日:2022-03-24
# (参考訳) 医用画像データセットの固有バイアス同定

Intrinsic Bias Identification on Medical Image Datasets ( http://arxiv.org/abs/2203.12872v1 )

ライセンス: CC BY 4.0
Shijie Zhang and Lanjun Wang and Lian Ding and Senhua Zhu and Dandan Tu(参考訳) 機械学習に基づく医療画像解析はデータセットに大きく依存する。 データセット内のバイアスはモデルによって学習され、アプリケーションの一般化性は低下する。 偏見モデルの研究がある。 しかし、科学者や実践者はデータセットの暗黙のバイアスを識別することは困難であり、信頼できるアンバイアステストデータセットが有効なモデルに欠けている。 この問題に取り組むために,まずデータ固有バイアス属性を定義し,次に医療画像データセットのための新しいバイアス識別フレームワークを提案する。 このフレームワークは、klotskinetとbias discriminant direction analysis(bdda)という2つの主要なコンポーネントを含んでいる。klostkinetは、ポジティブなサンプルとネガティブなサンプルを区別するための背景となるマッピングを構築し、bddaはバイアス属性を決定するための理論的ソリューションを提供する。 3つのデータセットの実験結果から,フレームワークが検出したバイアス特性の有効性が示された。

Machine learning based medical image analysis highly depends on datasets. Biases in the dataset can be learned by the model and degrade the generalizability of the applications. There are studies on debiased models. However, scientists and practitioners are difficult to identify implicit biases in the datasets, which causes lack of reliable unbias test datasets to valid models. To tackle this issue, we first define the data intrinsic bias attribute, and then propose a novel bias identification framework for medical image datasets. The framework contains two major components, KlotskiNet and Bias Discriminant Direction Analysis(bdda), where KlostkiNet is to build the mapping which makes backgrounds to distinguish positive and negative samples and bdda provides a theoretical solution on determining bias attributes. Experimental results on three datasets show the effectiveness of the bias attributes discovered by the framework.
翻訳日:2022-03-25 23:28:45 公開日:2022-03-24
# (参考訳) 社会的議論からの知識伝達は論議のマイニングに役立つか?

Can Unsupervised Knowledge Transfer from Social Discussions Help Argument Mining? ( http://arxiv.org/abs/2203.12881v1 )

ライセンス: CC BY 4.0
Subhabrata Dutta, Jeevesh Juneja, Dipankar Das, Tanmoy Chakraborty(参考訳) 非構造化テキストから引数コンポーネントを特定し、それらの間の関係を予測することは、引数マイニングの2つの主要なステップである。 これらのタスクの固有の複雑さは、強力な学習モデルを必要とする。 事前訓練されたトランスフォーマーベース言語モデル(LM)は、異なるNLPタスクに対して最先端の結果をもたらすことが示されているが、手動の注釈付きデータの不足と、議論のドメインに依存した性質は、これらのモデルの能力を制限している。 本稿では,これらの課題を克服するための新しい転校学習戦略を提案する。 そこで我々は,ChangeMyViewサブレディットからの議論に富んだ社会的議論を,事前学習されたLMを選択的にマスキングされた言語モデリングタスクで微調整することにより,教師なしの議論型知識の源泉として利用する。 さらに,提案手法を活用しつつ,提案手法を補完する,コンポーネント間関係予測のための新しいプロンプトベース戦略を提案する。 探索実験により,これらの2つのタスクのドメイン内およびドメイン外のデータセットに対する一般化能力を示し,既存および採用の強いベースラインよりも優れていた。

Identifying argument components from unstructured texts and predicting the relationships expressed among them are two primary steps of argument mining. The intrinsic complexity of these tasks demands powerful learning models. While pretrained Transformer-based Language Models (LM) have been shown to provide state-of-the-art results over different NLP tasks, the scarcity of manually annotated data and the highly domain-dependent nature of argumentation restrict the capabilities of such models. In this work, we propose a novel transfer learning strategy to overcome these challenges. We utilize argumentation-rich social discussions from the ChangeMyView subreddit as a source of unsupervised, argumentative discourse-aware knowledge by finetuning pretrained LMs on a selectively masked language modeling task. Furthermore, we introduce a novel prompt-based strategy for inter-component relation prediction that compliments our proposed finetuning method while leveraging on the discourse context. Exhaustive experiments show the generalization capability of our method on these two tasks over within-domain as well as out-of-domain datasets, outperforming several existing and employed strong baselines.
翻訳日:2022-03-25 23:11:56 公開日:2022-03-24
# (参考訳) 幼児の発話評価のための自動音声認識

Automatic Speech recognition for Speech Assessment of Preschool Children ( http://arxiv.org/abs/2203.12886v1 )

ライセンス: CC BY 4.0
Amirhossein Abaskohi, Fatemeh Mortazavi, Hadi Moradi(参考訳) 本研究では,幼児期の音声の音響的特徴と言語的特徴について検討し,音声認識システム(ASR)を設計する。 音響ゆらぎは、若者向けの高性能asrアプリケーションを開発する上で重要な障壁となっている。 疫病のため、就学前のスピーチアセスメントはオンラインで行うべきである。 そのため,自動音声認識システムが必要である。 我々は,無意味な単語をテキストに変換すること,単語列を認識することなど,認知システムにおける新たな課題に直面した。 いくつかのモデルを試した後、ペルシア語で3.1\%の音素誤り率を得た。 Wav2Vec 2.0は、堅牢なエンドツーエンド音声認識システムを構築するために使用できるパラダイムである。

The acoustic and linguistic features of preschool speech are investigated in this study to design an automated speech recognition (ASR) system. Acoustic fluctuation has been highlighted as a significant barrier to developing high-performance ASR applications for youngsters. Because of the epidemic, preschool speech assessment should be conducted online. Accordingly, there is a need for an automatic speech recognition system. We were confronted with new challenges in our cognitive system, including converting meaningless words from speech to text and recognizing word sequence. After testing and experimenting with several models we obtained a 3.1\% phoneme error rate in Persian. Wav2Vec 2.0 is a paradigm that could be used to build a robust end-to-end speech recognition system.
翻訳日:2022-03-25 22:53:51 公開日:2022-03-24
# (参考訳) ビデオにおける表情分析のためのアンサンブルアプローチ

An Ensemble Approach for Facial Expression Analysis in Video ( http://arxiv.org/abs/2203.12891v1 )

ライセンス: CC BY 4.0
Hong-Hai Nguyen and Van-Thong Huynh and Soo-Hyung Kim(参考訳) 人間の感情認識は、人間とコンピュータの相互作用の発展に寄与する。 現実世界の人間の感情を理解する機械は、未来の生活に大きく貢献するだろう。 本稿では,愛着行動分析 in-the-wild (abaw3) 2022 challengeを紹介する。 本稿では,valence-arousal estimation と action unit detection の問題を解決することに焦点を当てた。 valence-arousal推定には,マルチモデルによる新機能の作成と,valence-arousalを予測するための時間学習という2つのステージがあった。 まず、GRU(Gated Recurrent Unit)とTransformerを、画像から抽出した正規ネットワーク(RegNet)機能を使って組み合わせる。 次のステップは、valence-arousalを予測するために、gruとローカルな注意を組み合わせることです。 モデルの評価にはCCC(Concordance correlation Coefficient)が用いられた。

Human emotions recognization contributes to the development of human-computer interaction. The machines understanding human emotions in the real world will significantly contribute to life in the future. This paper will introduce the Affective Behavior Analysis in-the-wild (ABAW3) 2022 challenge. The paper focuses on solving the problem of the valence-arousal estimation and action unit detection. For valence-arousal estimation, we conducted two stages: creating new features from multimodel and temporal learning to predict valence-arousal. First, we make new features; the Gated Recurrent Unit (GRU) and Transformer are combined using a Regular Networks (RegNet) feature, which is extracted from the image. The next step is the GRU combined with Local Attention to predict valence-arousal. The Concordance Correlation Coefficient (CCC) was used to evaluate the model.
翻訳日:2022-03-25 22:43:07 公開日:2022-03-24
# (参考訳) 第3回ABAW3コンペティションのためのディープニューラルネットワークの連結による表現分類

Expression Classification using Concatenation of Deep Neural Network for the 3rd ABAW3 Competition ( http://arxiv.org/abs/2203.12899v1 )

ライセンス: CC BY 4.0
Kim Ngan Phan and Hong-Hai Nguyen and Van-Thong Huynh and Soo-Hyung Kim(参考訳) コンピュータが人間の感情を認識するためには、表現分類は人間とコンピュータの相互作用領域において等しく重要な問題である。 第3回Affective Behavior Analysis In-The-Wildコンペティションでは、ビデオからの人間の顔の基本的な表現を含む8つのクラスを含む表現分類を行う。 本稿では,レグネット,アテンションモジュール,トランスフォーマエンコーダから表現分類タスクのための組合せ表現を行う。 Aff-Wild2データセットの検証セット上でF1スコアに対して35.87 \%を達成する。 この結果は,提案アーキテクチャの有効性を示す。

For computers to recognize human emotions, expression classification is an equally important problem in the human-computer interaction area. In the 3rd Affective Behavior Analysis In-The-Wild competition, the task of expression classification includes 8 classes including 6 basic expressions of human faces from videos. In this paper, we perform combination representation from RegNet, Attention module, and Transformer Encoder for the expression classification task. We achieve 35.87 \% for F1-score on the validation set of Aff-Wild2 dataset. This result shows the effectiveness of the proposed architecture.
翻訳日:2022-03-25 22:37:15 公開日:2022-03-24
# (参考訳) 表情認識のための特権的帰属制限付きディープネットワーク

Privileged Attribution Constrained Deep Networks for Facial Expression Recognition ( http://arxiv.org/abs/2203.12905v1 )

ライセンス: CC BY 4.0
Jules Bonnard, Arnaud Dapogny, Ferdinand Dhombres and K\'evin Bailly(参考訳) 顔の表情認識(FER)は、機械が人間の振る舞いをよりよく理解できるようにするため、多くの研究領域において重要である。 FERメソッドは、古典的なネットワークをうまく一般化できない比較的小さなデータセットとノイズの多いデータの問題に直面します。 これらの問題を緩和するために、私たちはモデルに、顔の表情を認識することが決定的であるとして、目、口、額などの特定の顔面領域に集中するよう指導する。 PAL(Privleged Attribution Loss)は、顔のランドマークによって形成されたヒートマップに対応するように、その属性マップを奨励することにより、モデルが最も健康な顔領域に注意を向ける手法である。 さらに,モデルの自由度を高めるためのいくつかのチャネル戦略を導入する。 提案手法はバックボーンアーキテクチャとは独立しており,テスト時に追加のセマンティック情報を必要としない。 最後に,提案手法はRAF-DBとAffectNetの両方で最先端の手法よりも優れていることを示す。

Facial Expression Recognition (FER) is crucial in many research domains because it enables machines to better understand human behaviours. FER methods face the problems of relatively small datasets and noisy data that don't allow classical networks to generalize well. To alleviate these issues, we guide the model to concentrate on specific facial areas like the eyes, the mouth or the eyebrows, which we argue are decisive to recognise facial expressions. We propose the Privileged Attribution Loss (PAL), a method that directs the attention of the model towards the most salient facial regions by encouraging its attribution maps to correspond to a heatmap formed by facial landmarks. Furthermore, we introduce several channel strategies that allow the model to have more degrees of freedom. The proposed method is independent of the backbone architecture and doesn't need additional semantic information at test time. Finally, experimental results show that the proposed PAL method outperforms current state-of-the-art methods on both RAF-DB and AffectNet.
翻訳日:2022-03-25 22:33:01 公開日:2022-03-24
# (参考訳) Lahjoita puhetta - いくつかのベンチマークによるフィンランド語話者の大規模コーパス

Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some benchmarks ( http://arxiv.org/abs/2203.12906v1 )

ライセンス: CC BY 4.0
Anssi Moisio, Dejan Porjazovski, Aku Rouhe, Yaroslav Getman, Anja Virkkunen, Tam\'as Gr\'osz, Krister Lind\'en and Mikko Kurimo(参考訳) ドナート・スピーチ・キャンペーンは、現在までに約3600時間のフィンランドの通常の口語的なスピーチをラホイタ・プヘッタ (lahjoita puhetta, ドナート・スピーチ) コーパスに集めている。 このコーパスにはフィンランドのすべての地域とすべての年齢層からの2万人以上の話者が含まれている。 収集の主な目的は、フィンランド語を自発的に研究するための代表的かつ大規模な資源を作成し、言語技術と音声ベースのサービスの開発を加速することであった。 本稿では,収集プロセスと収集コーパスについて述べるとともに,その汎用性を複数のユースケースで示す。 評価されたユースケースは, 自然発話の自動音声認識, 年齢, 性別, 方言, 話題, メタデータ分析である。 ユースケースのベンチマークと、再現性のためのオープンソースコードを備えたロード可能でトレーニングされたベースラインシステムを提供しています。 もう一つのユースケースは、このコーパス自体に与えられたメタデータと転写を検証し、コーパスの一部に人工的なメタデータと転写を提案することである。

The Donate Speech campaign has so far succeeded in gathering approximately 3600 hours of ordinary, colloquial Finnish speech into the Lahjoita puhetta (Donate Speech) corpus. The corpus includes over twenty thousand speakers from all the regions of Finland and from all age brackets. The primary goals of the collection were to create a representative, large-scale resource to study spontaneous spoken Finnish and to accelerate the development of language technology and speech-based services. In this paper, we present the collection process and the collected corpus, and showcase its versatility through multiple use cases. The evaluated use cases include: automatic speech recognition of spontaneous speech, detection of age, gender, dialect and topic and metadata analysis. We provide benchmarks for the use cases, as well down loadable, trained baseline systems with open-source code for reproducibility. One further use case is to verify the metadata and transcripts given in this corpus itself, and to suggest artificial metadata and transcripts for the part of the corpus where it is missing.
翻訳日:2022-03-25 22:20:56 公開日:2022-03-24
# (参考訳) k-Rater Reliability: Aggregated Human Annotationのための信頼性の正しいユニット

k-Rater Reliability: The Correct Unit of Reliability for Aggregated Human Annotations ( http://arxiv.org/abs/2203.12913v1 )

ライセンス: CC BY 4.0
Ka Wong, Praveen Paritosh(参考訳) クラウドソーシングの開始以来、アグリゲーションは信頼できないデータを扱うための一般的な戦略であった。 集約評価は個々の評価よりも信頼性が高い。 しかし、集約格付けに依存する自然言語処理(NLP)アプリケーションは、分析の誤った単位である個々の格付けの信頼性のみを報告している。 これらの例では、データの信頼性は過小に報告されており、集計データセットの正しいデータ信頼性として提案されているk-rater reliability(krr)を使用する必要がある。 レータ間信頼性(IRR)の多層一般化である。 wordsim-353ベンチマークの2つのレプリケーションを行い,wordsim-353上でkrrを計算するための経験的,解析的,ブートストラップ的手法を提案する。 これらの方法は非常によく似た結果を生み出す。 この議論が研究者にIRRに加えてkRRを報告するよう促すことを願っている。

Since the inception of crowdsourcing, aggregation has been a common strategy for dealing with unreliable data. Aggregate ratings are more reliable than individual ones. However, many natural language processing (NLP) applications that rely on aggregate ratings only report the reliability of individual ratings, which is the incorrect unit of analysis. In these instances, the data reliability is under-reported, and a proposed k-rater reliability (kRR) should be used as the correct data reliability for aggregated datasets. It is a multi-rater generalization of inter-rater reliability (IRR). We conducted two replications of the WordSim-353 benchmark, and present empirical, analytical, and bootstrap-based methods for computing kRR on WordSim-353. These methods produce very similar results. We hope this discussion will nudge researchers to report kRR in addition to IRR.
翻訳日:2022-03-25 22:19:53 公開日:2022-03-24
# (参考訳) 合成環境からのディエンス対応学習

Learning Dense Correspondence from Synthetic Environments ( http://arxiv.org/abs/2203.12919v1 )

ライセンス: CC BY 4.0
Mithun Lal, Anthony Paproki, Nariman Habili, Lars Petersson, Olivier Salvado, Clinton Fookes(参考訳) 一つの画像から人間の形状とポーズを推定することは難しい課題である。 識別された人間の形状を3次元の人間モデルにマッピングすることは、さらに難しい問題である。 既存の方法では、実際の2D画像に手動でラベル付けされた人間のピクセルを3D表面にマッピングする。 2d-3d対応が知られている自動生成合成データを用いて,2d-3d人間マッピングアルゴリズムを訓練することにより,データ不足の問題を解決する。 このような合成環境を用いた学習戦略は、実世界のデータに対して高い一般化可能性を持つ。 異なるカメラパラメータのバリエーション、背景、照明設定を用いて、より広い分布を構成する正確な地上真実データを作成した。 我々はCOCOデータセットと妥当性検証フレームワークを用いて合成モデルの性能を評価する。 その結果,合成データを用いた2D-3Dマッピングネットワークモデルのトレーニングは,実データに代えて有効な方法であることが示唆された。

Estimation of human shape and pose from a single image is a challenging task. It is an even more difficult problem to map the identified human shape onto a 3D human model. Existing methods map manually labelled human pixels in real 2D images onto the 3D surface, which is prone to human error, and the sparsity of available annotated data often leads to sub-optimal results. We propose to solve the problem of data scarcity by training 2D-3D human mapping algorithms using automatically generated synthetic data for which exact and dense 2D-3D correspondence is known. Such a learning strategy using synthetic environments has a high generalisation potential towards real-world data. Using different camera parameter variations, background and lighting settings, we created precise ground truth data that constitutes a wider distribution. We evaluate the performance of models trained on synthetic using the COCO dataset and validation framework. Results show that training 2D-3D mapping network models on synthetic data is a viable alternative to using real data.
翻訳日:2022-03-25 22:12:18 公開日:2022-03-24
# (参考訳) 超低電力時系列エッジ推定のためのtcnマッピング最適化

TCN Mapping Optimization for Ultra-Low Power Time-Series Edge Inference ( http://arxiv.org/abs/2203.12925v1 )

ライセンス: CC BY-SA 4.0
Alessio Burrello, Alberto Dequino, Daniele Jahier Pagliari, Francesco Conti, Marcello Zanghieri, Enrico Macii, Luca Benini, Massimo Poncino(参考訳) 時間的畳み込みネットワーク(TCN)は、時系列分析のための軽量なディープラーニングモデルを生み出している。 本稿では,並列超低消費電力 (pulp) マイクロコントローラ上でtcnをマッピングするための,自動探索手法と最適化カーネルのライブラリを提案する。 提案手法は,階層型ティリングオプティマイザを用いて,階層型ティリングディメンションを共同で検出し,TNのコアにおける因果および拡張1D-畳み込み操作の代替実装を選択することで,レイテンシとエネルギーを最小化する。 stm32l4で実行されるcube-aiツールキットの最大103倍のレイテンシと20.3倍のエネルギーを実現し、同じハードウェアターゲットでの商用クローズドソースおよびアカデミックオープンソースアプローチと比較して2.9倍から26.6倍の低エネルギー化を実現している。

Temporal Convolutional Networks (TCNs) are emerging lightweight Deep Learning models for Time Series analysis. We introduce an automated exploration approach and a library of optimized kernels to map TCNs on Parallel Ultra-Low Power (PULP) microcontrollers. Our approach minimizes latency and energy by exploiting a layer tiling optimizer to jointly find the tiling dimensions and select among alternative implementations of the causal and dilated 1D-convolution operations at the core of TCNs. We benchmark our approach on a commercial PULP device, achieving up to 103X lower latency and 20.3X lower energy than the Cube-AI toolkit executed on the STM32L4 and from 2.9X to 26.6X lower energy compared to commercial closed-source and academic open-source approaches on the same hardware target.
翻訳日:2022-03-25 22:03:20 公開日:2022-03-24
# (参考訳) 教師なし単純定義生成のためのマルチタスクフレームワーク

Multitasking Framework for Unsupervised Simple Definition Generation ( http://arxiv.org/abs/2203.12926v1 )

ライセンス: CC BY 4.0
Cunliang Kong, Yun Chen, Hengyuan Zhang, Liner Yang, Erhong Yang(参考訳) 定義生成タスクは、不慣れな単語の説明を提供することで、言語学習者に役立つ。 この作業は近年多くの注目を集めている。 本稿では,言語学習者や低リテラシー読解者を支援するための,シンプルな定義生成(SDG)の課題を提案する。 この課題の重要な課題は、多くの言語における学習者の辞書の欠如であり、教師付きトレーニングのためのデータの欠如である。 我々は、このタスクを探索し、複雑な定義を持つ標準辞書と任意の単純なテキストを含むコーパスのみを必要とするマルチタスクフレームワークsimpdefinerを提案する。 2つのデコーダ間のパラメータ共有スキームを慎重に設計することで、複雑性要因をテキストから切り離す。 これらのコンポーネントを共同でトレーニングすることで、フレームワークは複雑な定義と単純な定義の両方を同時に生成できる。 このフレームワークは、英語と中国語のデータセットを自動的および手動で評価することにより、対象単語の関連性、簡単な定義を生成できることを実証する。 本手法は,英語データセットの1.77 SARIスコアでベースラインモデルより優れ,中国語定義における低レベル(HSKレベル1-3)単語の割合を3.87%向上させる。

The definition generation task can help language learners by providing explanations for unfamiliar words. This task has attracted much attention in recent years. We propose a novel task of Simple Definition Generation (SDG) to help language learners and low literacy readers. A significant challenge of this task is the lack of learner's dictionaries in many languages, and therefore the lack of data for supervised training. We explore this task and propose a multitasking framework SimpDefiner that only requires a standard dictionary with complex definitions and a corpus containing arbitrary simple texts. We disentangle the complexity factors from the text by carefully designing a parameter sharing scheme between two decoders. By jointly training these components, the framework can generate both complex and simple definitions simultaneously. We demonstrate that the framework can generate relevant, simple definitions for the target words through automatic and manual evaluations on English and Chinese datasets. Our method outperforms the baseline model by a 1.77 SARI score on the English dataset, and raises the proportion of the low level (HSK level 1-3) words in Chinese definitions by 3.87%.
翻訳日:2022-03-25 21:50:32 公開日:2022-03-24
# (参考訳) バイオフォーマー:超低消費電力sEMGを用いたジェスチャー認識のための埋め込みトランス

Bioformers: Embedding Transformers for Ultra-Low Power sEMG-based Gesture Recognition ( http://arxiv.org/abs/2203.12932v1 )

ライセンス: CC BY-SA 4.0
Alessio Burrello, Francesco Bianco Morghet, Moritz Scherer, Simone Benatti, Luca Benini, Enrico Macii, Massimo Poncino, Daniele Jahier Pagliari(参考訳) 人間と機械の相互作用は、義手やロボットアームの制御など、リハビリ作業で注目を集めている。 表面筋電図(sEMG)信号を利用したジェスチャー認識は、筋収縮に直接関連しているため、最も有望なアプローチの一つである。 しかし、同様のジェスチャーが筋収縮をもたらすため、これらの信号の分析には多くの課題が残されている。 したがって、信号の形状はほぼ同じであり、分類精度は低い。 この課題に取り組むために、大きなメモリフットプリントを必要とする複雑なニューラルネットワークが採用され、比較的高いエネルギーを消費し、分類に使用するデバイスの最大バッテリ寿命を制限している。 この研究はバイオフォーマーの導入によってこの問題に対処する。 この新しいファミリは4.9Xのパラメータと演算数を減らしながら最先端の性能にアプローチする。 さらに,新たなサブジェクト間事前学習を導入することで,新たな推論コストを必要とせず,最高のバイオフォーマーの精度を3.39%向上させる。 並列・超低消費電力(pulp)マイクロコントローラユニット(mcu)とグリーンウェーブギャップ8(greenwaves gap8)に最も高性能なバイオフォーマーを配置することで、推論レイテンシとエネルギーを2.72msと0.14mjで達成し、従来の最先端ニューラルネットワークよりも8.0倍低く、メモリは94.2kbに過ぎません。

Human-machine interaction is gaining traction in rehabilitation tasks, such as controlling prosthetic hands or robotic arms. Gesture recognition exploiting surface electromyographic (sEMG) signals is one of the most promising approaches, given that sEMG signal acquisition is non-invasive and is directly related to muscle contraction. However, the analysis of these signals still presents many challenges since similar gestures result in similar muscle contractions. Thus the resulting signal shapes are almost identical, leading to low classification accuracy. To tackle this challenge, complex neural networks are employed, which require large memory footprints, consume relatively high energy and limit the maximum battery life of devices used for classification. This work addresses this problem with the introduction of the Bioformers. This new family of ultra-small attention-based architectures approaches state-of-the-art performance while reducing the number of parameters and operations of 4.9X. Additionally, by introducing a new inter-subjects pre-training, we improve the accuracy of our best Bioformer by 3.39%, matching state-of-the-art accuracy without any additional inference cost. Deploying our best performing Bioformer on a Parallel, Ultra-Low Power (PULP) microcontroller unit (MCU), the GreenWaves GAP8, we achieve an inference latency and energy of 2.72 ms and 0.14 mJ, respectively, 8.0X lower than the previous state-of-the-art neural network, while occupying just 94.2 kB of memory.
翻訳日:2022-03-25 21:38:17 公開日:2022-03-24
# (参考訳) 意味マッチング知識グラフ埋め込みのための双対性による正規化

Duality-Induced Regularizer for Semantic Matching Knowledge Graph Embeddings ( http://arxiv.org/abs/2203.12949v1 )

ライセンス: CC BY 4.0
Jie Wang, Zhanqiu Zhang, Zhihao Shi, Jianyu Cai, Shuiwang Ji, Feng Wu(参考訳) 類似のセマンティクスを持つエンティティが同様の埋め込みを持つと仮定するセマンティクスマッチングモデルは、知識グラフ埋め込み(KGE)において大きな力を示している。 既存のセマンティクスマッチングモデルは、静的および時間的知識グラフにおける三重項と四重項の可算性を測定するために埋め込み空間において内積を用いる。 しかし、同じ内積と別のベクトルを持つベクトルは互いに直交しあうことができ、同様の意味を持つ実体は相似埋め込みを持つ可能性がある。 この内積の性質は意味マッチングモデルの性能を著しく制限している。 この課題に対処するために、我々は新しい正規化子、すなわち双対性誘発正規化子(dura)を提案する。 DURA の主な特徴は、既存の意味マッチング KGE モデル (プライマル) に対して、それと密接に関連する別の距離ベース KGE モデル (デュアル) が存在し、エンティティの埋め込みに有効な制約として使用できるという観察に基づいている。 実験により、DURAは静的な知識グラフと時間的知識グラフのベンチマークにおいて、最先端のセマンティックマッチングモデルの性能を一貫して改善することを示した。

Semantic matching models -- which assume that entities with similar semantics have similar embeddings -- have shown great power in knowledge graph embeddings (KGE). Many existing semantic matching models use inner products in embedding spaces to measure the plausibility of triples and quadruples in static and temporal knowledge graphs. However, vectors that have the same inner products with another vector can still be orthogonal to each other, which implies that entities with similar semantics may have dissimilar embeddings. This property of inner products significantly limits the performance of semantic matching models. To address this challenge, we propose a novel regularizer -- namely, DUality-induced RegulArizer (DURA) -- which effectively encourages the entities with similar semantics to have similar embeddings. The major novelty of DURA is based on the observation that, for an existing semantic matching KGE model (primal), there is often another distance based KGE model (dual) closely associated with it, which can be used as effective constraints for entity embeddings. Experiments demonstrate that DURA consistently and significantly improves the performance of state-of-the-art semantic matching models on both static and temporal knowledge graph benchmarks.
翻訳日:2022-03-25 20:35:33 公開日:2022-03-24
# (参考訳) 深層ニューラルネットワークの臨界領域の拡張

Extended critical regimes of deep neural networks ( http://arxiv.org/abs/2203.12967v1 )

ライセンス: CC BY 4.0
Cheng Kevin Qu and Asem Wardak and Pulin Gong(参考訳) 深層ニューラルネットワーク(dnn)は多くの現実世界の問題にうまく適用されているが、その力学と計算原理の完全な理解はまだ欠けている。 DNNを解析するための従来の理論的枠組みは、しばしばガウス統計に従う結合重みを持つランダムネットワークを仮定する。 しかし、非ガウス的、重尾結合はDNNにおいてユビキタスな現象である。 ここでは、重み付き乱数行列と非平衡統計物理学の理論を織り合わせることで、重み付き重みが微調整パラメータを伴わずに拡張臨界状態の出現を予測できる新しいタイプのDNN平均場理論を開発する。 この拡張クリティカルレジームでは、DNNは層間のリッチで複雑な伝播ダイナミクスを示す。 さらに、拡張臨界性は、DNNに深い計算上の優位性をもたらすこと、すなわち、収縮のバランスと内部の神経表現の拡張、トレーニングプロセスの高速化、そして、効率的な神経アーキテクチャの設計のための理論的ガイドを提供する。

Deep neural networks (DNNs) have been successfully applied to many real-world problems, but a complete understanding of their dynamical and computational principles is still lacking. Conventional theoretical frameworks for analysing DNNs often assume random networks with coupling weights obeying Gaussian statistics. However, non-Gaussian, heavy-tailed coupling is a ubiquitous phenomenon in DNNs. Here, by weaving together theories of heavy-tailed random matrices and non-equilibrium statistical physics, we develop a new type of mean field theory for DNNs which predicts that heavy-tailed weights enable the emergence of an extended critical regime without fine-tuning parameters. In this extended critical regime, DNNs exhibit rich and complex propagation dynamics across layers. We further elucidate that the extended criticality endows DNNs with profound computational advantages: balancing the contraction as well as expansion of internal neural representations and speeding up training processes, hence providing a theoretical guide for the design of efficient neural architectures.
翻訳日:2022-03-25 19:51:39 公開日:2022-03-24
# (参考訳) 球面登録のための深層離散学習フレームワーク

A Deep-Discrete Learning Framework for Spherical Surface Registration ( http://arxiv.org/abs/2203.12999v1 )

ライセンス: CC BY 4.0
Mohamed A. Suliman, Logan Z. J. Williams, Abdulah Fawaz, and Emma C. Robinson(参考訳) 皮質表面の登録は神経画像解析の基本的なツールであり、体積的アプローチに対する機能領域のアライメントを改善することが示されている。 古典的には、複雑な目的の類似度関数を最適化して画像登録を行い、長い実行時間をもたらす。 これは、すべてのデータを、基礎となる皮質の不均質性を反映しないグローバル平均参照フレームに合わせるという慣例に寄与する。 本稿では,低解像度制御グリッド内の各点が固定された有限個のエンドポイントの1つに変形するマルチラベル分類問題に登録を変換する,教師なし学習に基づく新しいフレームワークを提案する。 これは球形幾何学的深層学習アーキテクチャを用いて、終端から終端までの教師なしの方法で学習され、Deep Conditional Random Field (CRF) を用いて正規化が課される。 実験により, 提案手法は, 非定型的皮質形態を有する被験者においても, 最も一般的な古典的表面登録アルゴリズムと比較して, 類似性や側方歪みの点で競合的に動作し, 学習ベース表面登録法よりもスムーズな変形を生じさせることが示された。

Cortical surface registration is a fundamental tool for neuroimaging analysis that has been shown to improve the alignment of functional regions relative to volumetric approaches. Classically, image registration is performed by optimizing a complex objective similarity function, leading to long run times. This contributes to a convention for aligning all data to a global average reference frame that poorly reflects the underlying cortical heterogeneity. In this paper, we propose a novel unsupervised learning-based framework that converts registration to a multi-label classification problem, where each point in a low-resolution control grid deforms to one of fixed, finite number of endpoints. This is learned using a spherical geometric deep learning architecture, in an end-to-end unsupervised way, with regularization imposed using a deep Conditional Random Field (CRF). Experiments show that our proposed framework performs competitively, in terms of similarity and areal distortion, relative to the most popular classical surface registration algorithms and generates smoother deformations than other learning-based surface registration methods, even in subjects with atypical cortical morphology.
翻訳日:2022-03-25 19:37:13 公開日:2022-03-24
# (参考訳) CVF-SID:画像からノイズを遠ざける自己監視画像に対する周期的多変量関数

CVF-SID: Cyclic multi-Variate Function for Self-Supervised Image Denoising by Disentangling Noise from Image ( http://arxiv.org/abs/2203.13009v1 )

ライセンス: CC BY 4.0
Reyhaneh Neshatavar, Mohsen Yavartanoo, Sanghyun Son, Kyoung Mu Lee(参考訳) 近年,大規模データセットからの強い監視により,画像のデノイジングが大きな進展を遂げている。 しかし,それぞれのシナリオに対して,適切に整合したノイズ・クリーンなトレーニング画像ペアを得ることは,実際は複雑でコストがかかる。 したがって、従来の教師付き雑音除去ネットワークを無声入力に適用するのは簡単ではない。 厳格な監督なしにこの問題にいくつかの研究が挑戦してきたが、それらは実用上の仮定に頼らず、実際の状況に直接適用することはできない。 上記の課題に対処するため,CVFモジュールとSIDフレームワークをベースとしたCVF-SIDと呼ばれる,新規で強力な自己監督型デノベーション手法を提案する。 CVFモジュールは、入力の複数の分解された変数を出力し、出力の組合せを循環的に入力として戻すことができる。 我々のCVF-SIDは、様々な自己監督的損失項を利用して、クリーンな画像とノイズマップを入力から切り離すことができる。 信号非依存ノイズモデルのみを考えるいくつかの方法とは異なり、実世界のアプリケーションでは信号依存ノイズコンポーネントも扱う。 さらに, CVF-SIDを現実的な雑音に対してより一般化可能にするため, 基礎となる雑音分布に関する前提に頼らない。 実世界のデータセットに対する大規模な実験により、CVF-SIDは最先端の自己教師付き画像デノゲーション性能を達成し、他の既存のアプローチに匹敵する結果となった。 コードはhttps://github.com/Reyhanehne/CVF-SID_PyTorchから公開されている。

Recently, significant progress has been made on image denoising with strong supervision from large-scale datasets. However, obtaining well-aligned noisy-clean training image pairs for each specific scenario is complicated and costly in practice. Consequently, applying a conventional supervised denoising network on in-the-wild noisy inputs is not straightforward. Although several studies have challenged this problem without strong supervision, they rely on less practical assumptions and cannot be applied to practical situations directly. To address the aforementioned challenges, we propose a novel and powerful self-supervised denoising method called CVF-SID based on a Cyclic multi-Variate Function (CVF) module and a self-supervised image disentangling (SID) framework. The CVF module can output multiple decomposed variables of the input and take a combination of the outputs back as an input in a cyclic manner. Our CVF-SID can disentangle a clean image and noise maps from the input by leveraging various self-supervised loss terms. Unlike several methods that only consider the signal-independent noise models, we also deal with signal-dependent noise components for real-world applications. Furthermore, we do not rely on any prior assumptions about the underlying noise distribution, making CVF-SID more generalizable toward realistic noise. Extensive experiments on real-world datasets show that CVF-SID achieves state-of-the-art self-supervised image denoising performance and is comparable to other existing approaches. The code is publicly available from https://github.com/Reyhanehne/CVF-SID_PyTorch .
翻訳日:2022-03-25 18:58:43 公開日:2022-03-24
# (参考訳) ウィジェット内映像のマルチモーダル感情推定

Multi-modal Emotion Estimation for in-the-wild Videos ( http://arxiv.org/abs/2203.13032v1 )

ライセンス: CC BY 4.0
Liyu Meng, Yuchen Liu, Xiaolong Liu, Zhaopei Huang, Wenqiang Jiang, Tenggan Zhang, Yuanyuan Deng, Ruichen Li, Yannan Wu, Jinming Zhao, Fengsheng Qiao, Qin Jin and Chuanhe Liu(参考訳) 本稿では,第3回愛着行動分析コンペティション(abaw)コンペティションにおけるヴァレンス・覚醒推定チャレンジ(valence-arousal estimation challenge)について紹介する。 本手法では,マルチモーダル情報,すなわち視覚情報と音声情報を用いて,映像の時間的文脈をモデル化する時間エンコーダを用いる。 さらに,より合理的な予測を行うためにスムースプロセッサが適用され,提案手法の性能向上のためにモデルアンサンブル戦略が用いられる。 実験の結果,提案手法の有効性を実証するaf-wild2データセットの検証セット上で,valenceは65.55%ccc,arousalは70.88%cccであった。

In this paper, we briefly introduce our submission to the Valence-Arousal Estimation Challenge of the 3rd Affective Behavior Analysis in-the-wild (ABAW) competition. Our method utilizes the multi-modal information, i.e., the visual and audio information, and employs a temporal encoder to model the temporal context in the videos. Besides, a smooth processor is applied to get more reasonable predictions, and a model ensemble strategy is used to improve the performance of our proposed method. The experiment results show that our method achieves 65.55% ccc for valence and 70.88% ccc for arousal on the validation set of the Aff-Wild2 dataset, which prove the effectiveness of our proposed method.
翻訳日:2022-03-25 18:43:33 公開日:2022-03-24
# (参考訳) 心エコー図による新生児肺高血圧の予測

Interpretable Prediction of Pulmonary Hypertension in Newborns using Echocardiograms ( http://arxiv.org/abs/2203.13038v1 )

ライセンス: CC BY 4.0
Hanna Ragnarsdottir, Laura Manduchi, Holger Michel, Fabian Laumer, Sven Wellmann, Ece Ozkan and Julia Vogt(参考訳) 新生児および乳児の肺高血圧症 (ph) は、いくつかの肺疾患、心臓疾患、全身疾患に関連する複雑な疾患である。 したがって、PHの正確かつ早期検出は、経営成功に不可欠である。 小児科における主要な診断ツールである心エコー図を用いて、人間の評価は時間と専門知識の両方を要し、自動化されたアプローチの必要性を高める。 本研究では,心エコー図を用いて194人の新生児のphを推定する多視点ビデオベース深層学習手法を提案する。 我々は各視点からPHの予測に時空間畳み込みアーキテクチャを使用し、多数決による異なる視点の予測を集約する。 心エコー図を用いた新生児におけるPH自動評価のための最初の試みである。 その結果,重度予測では平均F1スコアが0.84,2次検出では0.92であった。 塩分マップを用いて予測を補完し, 学習モデルが臨床的に関連した心臓構造に注目し, 臨床での使用意欲を示すことを示した。

Pulmonary hypertension (PH) in newborns and infants is a complex condition associated with several pulmonary, cardiac, and systemic diseases contributing to morbidity and mortality. Therefore, accurate and early detection of PH is crucial for successful management. Using echocardiography, the primary diagnostic tool in pediatrics, human assessment is both time-consuming and expertise-demanding, raising the need for an automated approach. In this work, we present an interpretable multi-view video-based deep learning approach to predict PH for a cohort of 194 newborns using echocardiograms. We use spatio-temporal convolutional architectures for the prediction of PH from each view, and aggregate the predictions of the different views using majority voting. To the best of our knowledge, this is the first work for an automated assessment of PH in newborns using echocardiograms. Our results show a mean F1-score of 0.84 for severity prediction and 0.92 for binary detection using 10-fold cross-validation. We complement our predictions with saliency maps and show that the learned model focuses on clinically relevant cardiac structures, motivating its usage in clinical practice.
翻訳日:2022-03-25 18:33:29 公開日:2022-03-24
# (参考訳) マルチモデルを用いた顔行動単位認識

Facial Action Unit Recognition With Multi-models Ensembling ( http://arxiv.org/abs/2203.13046v1 )

ライセンス: CC BY 4.0
Wenqiang Jiang, Yannan Wu, Fengsheng Qiao, Liyu Meng, Yuanyuan Deng, Chuanhe Liu(参考訳) ABAW (Affective Behavior Analysis in-wild) 2022 コンペティションは、Affective Computing に大きなプロモーションを提供する。 本稿では,本コンペティションにおけるAUチャレンジの手法について述べる。 改善されたIResnet100をバックボーンとして使用しています。 次に、Aff-Wild2におけるAUデータセットを、プライベートauと式データセットで事前訓練された3つの関連するモデルと、Glint360Kでトレーニングする。 最後に、モデルの結果をまとめます。 AU検証セットでF1スコア(マクロ)0.731を得た。

The Affective Behavior Analysis in-the-wild (ABAW) 2022 Competition gives Affective Computing a large promotion. In this paper, we present our method of AU challenge in this Competition. We use improved IResnet100 as backbone. Then we train AU dataset in Aff-Wild2 on three pertained models pretrained by our private au and expression dataset, and Glint360K respectively. Finally, we ensemble the results of our models. We achieved F1 score (macro) 0.731 on AU validation set.
翻訳日:2022-03-25 18:20:00 公開日:2022-03-24
# (参考訳) 視覚に基づく自律ナビゲーションのためのシミュレーションベンチマーク

A Simulation Benchmark for Vision-based Autonomous Navigation ( http://arxiv.org/abs/2203.13048v1 )

ライセンス: CC BY 4.0
Lauri Suomela, Atakan Dag, Harry Edelman, Joni-Kristian K\"am\"ar\"ainen(参考訳) 本研究は,視覚に基づく自律ナビゲーションのためのシミュレータベンチマークを紹介する。 シミュレータは、環境、時間帯、天気、交通といった現実世界の変数の制御を提供する。 ベンチマークには、完全な自律的なビジュアルナビゲーションスタックのさまざまなコンポーネントのモジュール化が含まれている。 実験では,実際のナビゲーションタスクにおいて,最先端のビジュアルローカライズ手法をスタックの一部として評価した。 著者らの知る限り、提案ベンチマークは、完全自律視覚ナビゲーションスタックの一部として、近代的な視覚的位置決め手法を初めて研究したものである。

This work introduces a simulator benchmark for vision-based autonomous navigation. The simulator offers control over real world variables such as the environment, time of day, weather and traffic. The benchmark includes a modular integration of different components of a full autonomous visual navigation stack. In the experimental part of the paper, state-of-the-art visual localization methods are evaluated as a part of the stack in realistic navigation tasks. To the authors' best knowledge, the proposed benchmark is the first to study modern visual localization methods as part of a full autonomous visual navigation stack.
翻訳日:2022-03-25 18:14:59 公開日:2022-03-24
# (参考訳) 映像表情認識のためのスムース予測付き粗大なカスケードネットワーク

Coarse-to-Fine Cascaded Networks with Smooth Predicting for Video Facial Expression Recognition ( http://arxiv.org/abs/2203.13052v1 )

ライセンス: CC BY 4.0
Fanglei Xue, Zichang Tan, Yu Zhu, Zhongsong Ma, Guodong Guo(参考訳) 表情認識は人間とコンピュータの相互作用において重要な役割を果たす。 本稿では,表情認識の性能を向上させるために,Smooth Predicting (CFC-SP) を用いたCarse-to-Fine Cascadedネットワークを提案する。 CFC-SPは、CFC(Carse-to-Fine Cascaded Network)とSP(Smooth Predicting)の2つのコアコンポーネントを含んでいる。 CFCでは、まずいくつかの類似した感情をグループ化し、粗いカテゴリーを形成し、その後ネットワークを使って粗いが正確な分類を行う。 後に、これらのグループ化された感情のための追加のネットワークが、よりきめ細かい予測を得るためにさらに使用される。 SPでは、普遍的および一意的な有効特徴の両方をキャプチャすることで、モデルの認識能力を向上する。 具体的には、普遍的な特徴は顔の感情の一般的な特徴を表し、特異な特徴は各顔の表情の特定の特徴を表す。 Aff-Wild2の実験は提案したCFSPの有効性を示した。

Facial expression recognition plays an important role in human-computer interaction. In this paper, we propose the Coarse-to-Fine Cascaded networks with Smooth Predicting (CFC-SP) to improve the performance of facial expression recognition. CFC-SP contains two core components, namely Coarse-to-Fine Cascaded networks (CFC) and Smooth Predicting (SP). For CFC, it first groups several similar emotions to form a rough category, and then employs a network to conduct a coarse but accurate classification. Later, Then, an additional network for these grouped emotions is further used to obtain fine-grained predictions. For SP, it improves the recognition capability of the model by capturing both universal and unique effective features. To be specific, the universal features denote the general characteristic of facial emotions and the unique features denote the specific characteristic of each facial expression. Experiments on Aff-Wild2 show the effectiveness of the proposed CFSP.
翻訳日:2022-03-25 17:47:59 公開日:2022-03-24
# (参考訳) Bailando:Choreographic Memoryによるアクター・クライブGPTによる3Dダンス生成

Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic Memory ( http://arxiv.org/abs/2203.13055v1 )

ライセンス: CC BY 4.0
Li Siyao, Weijiang Yu, Tianpei Gu, Chunze Lin, Quan Wang, Chen Qian, Chen Change Loy, Ziwei Liu(参考訳) 振付ノルムによるポーズに適用される空間的制約のため,音楽に合わせて踊る3Dキャラクタの運転は非常に困難である。 さらに、生成されたダンスシーケンスは、異なる音楽ジャンルと時間的一貫性を維持する必要がある。 これらの課題に取り組むため,我々は2つの強力な要素を持つ新しい音楽とダンスの枠組みであるbailandoを提案する。 1)意味あるダンスユニットを3Dポーズシーケンスから量子化されたコードブックに要約することを学ぶ振付記憶。 2)これらのユニットを音楽にコヒーレントな流麗なダンスに構成するアクタ批判型前訓練トランスフォーマー(gpt)。 学習した振り付け記憶により、生成したダンスシーケンスが空間的制約内に制限されるように、高い振り付け基準を満たす量子化単位上でダンス生成を実現する。 多様な動きのテンポと音楽のビートを同期的に調整するために,新たに設計されたビートアライメント機能を備えたアクタ批判に基づく強化学習スキームをGPTに導入する。 提案するフレームワークは, 定性的かつ定量的に, 最先端の性能を達成することを実証した。 特に、学習した振付記憶は、人間の解釈可能なダンススタイルのポーズを教師なしで発見する。

Driving 3D characters to dance following a piece of music is highly challenging due to the spatial constraints applied to poses by choreography norms. In addition, the generated dance sequence also needs to maintain temporal coherency with different music genres. To tackle these challenges, we propose a novel music-to-dance framework, Bailando, with two powerful components: 1) a choreographic memory that learns to summarize meaningful dancing units from 3D pose sequence to a quantized codebook, 2) an actor-critic Generative Pre-trained Transformer (GPT) that composes these units to a fluent dance coherent to the music. With the learned choreographic memory, dance generation is realized on the quantized units that meet high choreography standards, such that the generated dancing sequences are confined within the spatial constraints. To achieve synchronized alignment between diverse motion tempos and music beats, we introduce an actor-critic-based reinforcement learning scheme to the GPT with a newly-designed beat-align reward function. Extensive experiments on the standard benchmark demonstrate that our proposed framework achieves state-of-the-art performance both qualitatively and quantitatively. Notably, the learned choreographic memory is shown to discover human-interpretable dancing-style poses in an unsupervised manner.
翻訳日:2022-03-25 17:41:14 公開日:2022-03-24
# (参考訳) 文法的誤り訂正のための大配列タガーのセンシングと知識蒸留

Ensembling and Knowledge Distilling of Large Sequence Taggers for Grammatical Error Correction ( http://arxiv.org/abs/2203.13064v1 )

ライセンス: CC BY 4.0
Maksym Tarnavskyi, Artem Chernodub, Kostiantyn Omelianchuk(参考訳) 本稿では,最近の切削エッジトランスフォーマベースのエンコーダを大規模構成にセンシングすることに着目し,gecシーケンスタグアーキテクチャの改善について検討する。 このアプローチはモデルアーキテクチャや語彙サイズに耐性があるため、スパンレベルの編集に多数票を投じることを推奨しています。 我々の最高のアンサンブルは、合成データセットを事前訓練することなく、BEA-2019(テスト)でF_{0.5}$スコア76.05のSOTA結果を達成する。 さらに,学習アンサンブルを用いて知識蒸留を行い,新たな学習データセット"Troy-Blogs"と"Troy-1BW"を生成する。 我々の最も優れたシングルシーケンスタギングモデルは、生成したTroyデータセットと利用可能な合成PIEデータセットを併用して、ほぼSOTA(私たちの知る限り、私たちの最高のシングルモデルでは、BEA-2019で73.21のスコアで、はるかに重いT5モデルにしか対応できません)を実現します。 コード、データセット、トレーニングされたモデルが公開されている)。

In this paper, we investigate improvements to the GEC sequence tagging architecture with a focus on ensembling of recent cutting-edge Transformer-based encoders in Large configurations. We encourage ensembling models by majority votes on span-level edits because this approach is tolerant to the model architecture and vocabulary size. Our best ensemble achieves a new SOTA result with an $F_{0.5}$ score of 76.05 on BEA-2019 (test), even without pre-training on synthetic datasets. In addition, we perform knowledge distillation with a trained ensemble to generate new synthetic training datasets, "Troy-Blogs" and "Troy-1BW". Our best single sequence tagging model that is pretrained on the generated Troy-datasets in combination with the publicly available synthetic PIE dataset achieves a near-SOTA (To the best of our knowledge, our best single model gives way only to much heavier T5 model result with an $F_{0.5}$ score of 73.21 on BEA-2019 (test). The code, datasets, and trained models are publicly available).
翻訳日:2022-03-25 17:23:35 公開日:2022-03-24
# (参考訳) 異常検出のためのSIFTとSURFに基づく特徴抽出

SIFT and SURF based feature extraction for the anomaly detection ( http://arxiv.org/abs/2203.13068v1 )

ライセンス: CC BY 4.0
Simon Bilik, Karel Horak(参考訳) 本稿では,SIFTアルゴリズムとSURFアルゴリズムを用いて異常検出のための画像特徴を抽出する方法を提案する。 これらの特徴ベクトルを用いて,svddおよびsvm分類器を用いて,実世界のデータセット上で,多数の分類器を用いた半教師付き(少数の誤りサンプルを含む)方式と1クラス(欠陥サンプルなし)方式で各種分類器を訓練する。 その結果,siftアルゴリズムとsurfアルゴリズムを特徴抽出器として用いることができ,精度約89\%の半教師付きおよび1クラス分類器の訓練に使用できること,および1クラス分類器の性能が半教師付きアルゴリズムと同等であることを証明した。 データセットとソースコードも公開しました。

In this paper, we suggest a way, how to use SIFT and SURF algorithms to extract the image features for anomaly detection. We use those feature vectors to train various classifiers on a real-world dataset in the semi -supervised (with a small number of faulty samples) manner with a large number of classifiers and in the one-class (with no faulty samples) manner using the SVDD and SVM classifier. We prove, that the SIFT and SURF algorithms could be used as feature extractors, that they could be used to train a semi-supervised and one-class classifier with an accuracy around 89\% and that the performance of the one-class classifier could be comparable to the semi-supervised one. We also made our dataset and source code publicly available.
翻訳日:2022-03-25 17:05:56 公開日:2022-03-24
# (参考訳) 知識蒸留とタスク識別器を用いたマルチタスク感情認識モデル

Multitask Emotion Recognition Model with Knowledge Distillation and Task Discriminator ( http://arxiv.org/abs/2203.13072v1 )

ライセンス: CC0 1.0
Euiseok Jeong, Geesung Oh and Sejoon Lim(参考訳) ビッグデータの収集と深層学習の発展により、野生における人間の感情を予測する研究が活発に行われている。 ABAWデータセットを用いたマルチタスクモデルを設計し,実世界の音声データと顔画像を用いて,原子価,表現,行動単位を予測する。 知識蒸留法を適用して不完全ラベルからモデルを訓練した。 教師モデルは教師付き学習方法として訓練され、生徒モデルは教師モデルの出力をソフトラベルとして利用して訓練された。 その結果、マルチタスク学習タスク検証データセットで2.40を達成した。

Due to the collection of big data and the development of deep learning, research to predict human emotions in the wild is being actively conducted. We designed a multi-task model using ABAW dataset to predict valence-arousal, expression, and action unit through audio data and face images at in real world. We trained model from the incomplete label by applying the knowledge distillation technique. The teacher model was trained as a supervised learning method, and the student model was trained by using the output of the teacher model as a soft label. As a result we achieved 2.40 in Multi Task Learning task validation dataset.
翻訳日:2022-03-25 17:00:14 公開日:2022-03-24
# (参考訳) イベントカメラを用いた空間的状況認識に関する予備的研究

A Preliminary Research on Space Situational Awareness Based on Event Cameras ( http://arxiv.org/abs/2203.13093v1 )

ライセンス: CC0 1.0
Kun Xiao, Pengju Li, Guohui Wang, Zhi Li, Yi Chen, Yongfeng Xie, Yuqiang Fang(参考訳) イベントカメラは、従来のカメラとは異なる新しいタイプのセンサーである。 各ピクセルはイベントによって非同期に起動される。 トリガーイベントは、画素に照射された輝度の変化である。 インクリメントまたはデクリメントが特定のしきい値よりも高い場合、イベントは出力される。 従来のカメラと比較して、イベントカメラは高時間分解能、低レイテンシ、高ダイナミックレンジ、低帯域幅、低消費電力の利点がある。 模擬空間照明環境における観測実験を行った。 実験結果から, イベントカメラは, 上記の空間的状況認識の利点をフルに活用できることが示された。 本稿では,まずイベントカメラの基本原理を紹介し,その長所と短所を分析し,観察実験を行い,実験結果を分析し,最後に,イベントカメラに基づく空間状況認識のワークフローについて述べる。

Event camera is a new type of sensor that is different from traditional cameras. Each pixel is triggered asynchronously by an event. The trigger event is the change of the brightness irradiated on the pixel. If the increment or decrement is higher than a certain threshold, the event is output. Compared with traditional cameras, event cameras have the advantages of high temporal resolution, low latency, high dynamic range, low bandwidth and low power consumption. We carried out a series of observation experiments in a simulated space lighting environment. The experimental results show that the event camera can give full play to the above advantages in space situational awareness. This article first introduces the basic principles of the event camera, then analyzes its advantages and disadvantages, then introduces the observation experiment and analyzes the experimental results, and finally, a workflow of space situational awareness based on event cameras is given.
翻訳日:2022-03-25 16:52:53 公開日:2022-03-24
# (参考訳) minicons: トランスフォーマー言語モデルの柔軟な動作および表現分析を可能にする

minicons: Enabling Flexible Behavioral and Representational Analyses of Transformer Language Models ( http://arxiv.org/abs/2203.13112v1 )

ライセンス: CC BY-SA 4.0
Kanishka Misra(参考訳) トランスフォーマーベースの言語モデル(lms)の動作および表現分析に興味のある研究者に対して,標準apiを提供するオープンソースライブラリであるminiconsを提案する。 具体的には,(1)予測レベルにおいて,(1)単語/文レベルの確率を効率的に抽出する機能を提供すること,(2)表現レベルにおいて,(2)単語/フレーズレベルのベクトルを1つ以上の層から効率的に抽出すること,という2つのレベルで分析手法を適用することができる。 本稿では,このライブラリを2つのモチベーションケーススタディに適用する。1つは,相対的な文法的判断に基づくBERTアーキテクチャの学習力学,もう1つはゼロショット帰納的推論に基づく23種類のLMのベンチマークに焦点をあてる。 miniconsはhttps://github.com/kanishkamisra/miniconsで入手できる。

We present minicons, an open source library that provides a standard API for researchers interested in conducting behavioral and representational analyses of transformer-based language models (LMs). Specifically, minicons enables researchers to apply analysis methods at two levels: (1) at the prediction level -- by providing functions to efficiently extract word/sentence level probabilities; and (2) at the representational level -- by also facilitating efficient extraction of word/phrase level vectors from one or more layers. In this paper, we describe the library and apply it to two motivating case studies: One focusing on the learning dynamics of the BERT architecture on relative grammatical judgments, and the other on benchmarking 23 different LMs on zero-shot abductive reasoning. minicons is available at https://github.com/kanishkamisra/minicons
翻訳日:2022-03-25 16:41:51 公開日:2022-03-24
# (参考訳) インテリジェント・システマティック・インベストメント・エージェント : 深層学習と進化戦略のアンサンブル

Intelligent Systematic Investment Agent: an ensemble of deep learning and evolutionary strategies ( http://arxiv.org/abs/2203.13125v1 )

ライセンス: CC BY 4.0
Prasang Gupta, Shaz Hoda and Anand Rao(参考訳) 機械学習によるトレーディング戦略は、ここ数年で多くの関心を集めてきた。 しかし、そのような貿易戦略の発展に向けた理想的なアプローチについては、限定的な合意がある。 さらに、多くの文献は短期取引の取引戦略に焦点を合わせており、長期的富を築こうとする戦略にはほとんど焦点が当てられていない。 本稿では,進化的アルゴリズムのアンサンブルとディープラーニングモデルを用いて,短期的購入決定を行うことにより,長期的投資戦略を開発するための新しいアプローチを提案する。 本手法は, 長期投資計画(SIP)におけるETF決定を一定期間にわたって改善することにより, 長期的富の創出に重点を置いている。 本研究では,従来のETFの日常的制度的投資慣行と比較して,より優れたパフォーマンス(約1%高いリターン)を示す実証的証拠を提供する。 この結果は,Robinhoodトレーディングプラットフォーム上で実行されるアルゴリズムによる実取引決定に基づいています。

Machine learning driven trading strategies have garnered a lot of interest over the past few years. There is, however, limited consensus on the ideal approach for the development of such trading strategies. Further, most literature has focused on trading strategies for short-term trading, with little or no focus on strategies that attempt to build long-term wealth. Our paper proposes a new approach for developing long-term investment strategies using an ensemble of evolutionary algorithms and a deep learning model by taking a series of short-term purchase decisions. Our methodology focuses on building long-term wealth by improving systematic investment planning (SIP) decisions on Exchange Traded Funds (ETF) over a period of time. We provide empirical evidence of superior performance (around 1% higher returns) using our ensemble approach as compared to the traditional daily systematic investment practice on a given ETF. Our results are based on live trading decisions made by our algorithm and executed on the Robinhood trading platform.
翻訳日:2022-03-25 16:24:06 公開日:2022-03-24
# (参考訳) 物理に基づくリアルタイムサーモグラフィによるパラメータ化熱力学の学習

Physics-based Learning of Parameterized Thermodynamics from Real-time Thermography ( http://arxiv.org/abs/2203.13148v1 )

ライセンス: CC BY 4.0
Hamza El-Kebir, Joseph Bentsman(参考訳) 熱過程の自動制御の進歩は、高忠実度熱力学モデルを得ることの難しさによって長い間制限されてきた。 伝統的に、複雑な熱力学系では、時空間的に変化するプロセスの熱物理パラメータを推定することは不可能であり、モデルフリーな制御アーキテクチャの採用を強いる。 これは、堅牢性保証を失うコストが伴うため、大規模な実物テストの必要性が示唆される。 しかし近年では、赤外線カメラやその他のサーモグラフィ機器がこれらのプロセスに容易に適用され、プロセスの熱状態をリアルタイムかつ非侵襲的に検出できるようになっている。 本研究では,熱活動の高い領域に注目しつつ,そのようなリアルタイム熱画像データから直接熱過程のダイナミクスを学習するための物理に基づく新しいアプローチを提案する。 我々はこの過程を,高次元スカラー場,注目型ノイズロバスト平均化(ANRA)に適用する。 偏微分方程式モデル構造を考えると,本手法は雑音に対して頑健であり,パラメータ推定をさらに洗練するために最適化ルーチンを初期化することができる。 本手法をいくつかのシミュレーション例で示すとともに,生体内ブタ皮膚組織の電気的熱応答データに適用した。

Progress in automatic control of thermal processes has long been limited by the difficulty of obtaining high-fidelity thermodynamic models. Traditionally, in complex thermodynamic systems, it is often infeasible to estimate the thermophysical parameters of spatiotemporally varying processes, forcing the adoption of model-free control architectures. This comes at the cost of losing any robustness guarantees, and implies a need for extensive real-life testing. In recent years, however, infrared cameras and other thermographic equipment have become readily applicable to these processes, allowing for a real-time, non-invasive means of sensing the thermal state of a process. In this work, we present a novel physics-based approach to learning a thermal process's dynamics directly from such real-time thermographic data, while focusing attention on regions with high thermal activity. We call this process, which applies to any higher-dimensional scalar field, attention-based noise robust averaging (ANRA). Given a partial-differential equation model structure, we show that our approach is robust against noise, and can be used to initialize optimization routines to further refine parameter estimates. We demonstrate our method on several simulation examples, as well as by applying it to electrosurgical thermal response data on in vivo porcine skin tissue.
翻訳日:2022-03-25 15:59:06 公開日:2022-03-24
# Ball Oracle Accelerationによる分散ロバスト最適化

Distributionally Robust Optimization via Ball Oracle Acceleration ( http://arxiv.org/abs/2203.13225v1 )

ライセンス: Link先を確認
Yair Carmon, Danielle Hausler(参考訳) 凸損失の分散ロバスト最適化(DRO)のためのアルゴリズムを開発し解析する。 特に、グループ構造および有界な$f$-divergenceの不確かさ集合を考える。 我々のアプローチは、ボール最適化オラクル、すなわちクエリポイント周辺の小さなボール内の目的を最小化するサブルーチンをクエリする高速化手法に依存している。 我々の主な貢献は、DRO目的のためのこのオラクルの効率的な実装である。 非滑らかな損失関数を持つDROの場合、結果は$\epsilon$-accurate solution with $\widetilde{O}\left(N\epsilon^{-2/3} + \epsilon^{-2}\right)$ one-order oracle query to individual loss functionである。 この問題に対する既存のアルゴリズムと比較して、複雑性を最大$\epsilon^{-4/3}$で改善する。

We develop and analyze algorithms for distributionally robust optimization (DRO) of convex losses. In particular, we consider group-structured and bounded $f$-divergence uncertainty sets. Our approach relies on an accelerated method that queries a ball optimization oracle, i.e., a subroutine that minimizes the objective within a small ball around the query point. Our main contribution is efficient implementations of this oracle for DRO objectives. For DRO with $N$ non-smooth loss functions, the resulting algorithms find an $\epsilon$-accurate solution with $\widetilde{O}\left(N\epsilon^{-2/3} + \epsilon^{-2}\right)$ first-order oracle queries to individual loss functions. Compared to existing algorithms for this problem, we improve complexity by a factor of up to $\epsilon^{-4/3}$.
翻訳日:2022-03-25 15:50:02 公開日:2022-03-24
# 一般化ナッシュ均衡問題におけるフィードバック設計としてのパーソナライズドインセンティブ

Personalized incentives as feedback design in generalized Nash equilibrium problems ( http://arxiv.org/abs/2203.12948v1 )

ライセンス: Link先を確認
Filippo Fabiani, Andrea Simonetto, Paul J. Goulart(参考訳) 定時的および時間的に変化する非単調なナッシュ平衡問題について検討し, ポテンシャルが知られているエージェント間の対称相互作用を示す。 しかし,実例では起こりうるように,基礎となるポテンシャル関数の形式的表現が利用できないシナリオを想定し,半分散なナッシュ均衡探索アルゴリズムを設計する。 提案した2層方式では,コーディネータがエージェントのフィードバックを反復的に統合し,エージェントの擬似階調を学習し,パーソナライズされたインセンティブを設計する。 彼らの側では、エージェントはパーソナライズされたインセンティブを受け取り、拡張されたゲームに対する解決策を計算し、コーディネータにフィードバックの測定結果を返す。 定常環境では、我々のアルゴリズムは、コーディネータが標準学習ポリシーを付与された場合にnash平衡を返すが、時間変動の場合ではnash平衡を一定だが調整可能な誤差まで返す。 モビリティを持つ複数の企業がサービスオーケストレーションとして提供する配車サービスをモチベーションアプリケーションとして検討し,企業間の競争に対処し,交通渋滞を回避し,その結果を検証する数値実験も実施する。

We investigate both stationary and time-varying, nonmonotone generalized Nash equilibrium problems that exhibit symmetric interactions among the agents, which are known to be potential. As may happen in practical cases, however, we envision a scenario in which the formal expression of the underlying potential function is not available, and we design a semi-decentralized Nash equilibrium seeking algorithm. In the proposed two-layer scheme, a coordinator iteratively integrates the (possibly noisy and sporadic) agents' feedback to learn the pseudo-gradients of the agents, and then design personalized incentives for them. On their side, the agents receive those personalized incentives, compute a solution to an extended game, and then return feedback measurements to the coordinator. In the stationary setting, our algorithm returns a Nash equilibrium in case the coordinator is endowed with standard learning policies, while it returns a Nash equilibrium up to a constant, yet adjustable, error in the time-varying case. As a motivating application, we consider the ridehailing service provided by several companies with mobility as a service orchestration, necessary to both handle competition among firms and avoid traffic congestion, which is also adopted to run numerical experiments verifying our results.
翻訳日:2022-03-25 15:49:49 公開日:2022-03-24
# (参考訳) 対向等方性ガウス・マルコフ確率場間のkullback-leibler発散について

On the Kullback-Leibler divergence between pairwise isotropic Gaussian-Markov random fields ( http://arxiv.org/abs/2203.13164v1 )

ライセンス: CC BY 4.0
Alexandre L. M. Levada(参考訳) kullback-leibler divergenceまたはrelative entropyは、確率変数間の距離を測定する上で重要な役割を果たす統計モデル間の情報理論的な尺度である。 複素系の研究において、ランダム場はこれらの変数間の相互作用を逆温度パラメータによってモデル化する数学的構造であり、場に沿った空間依存構造を制御する。 本稿では,2つの対向等方性ガウス・マルコフ確率場間のkullback-leibler発散に関する閉形式表現を不定値と多変量の場合の両方において導出する。 提案する方程式は画像処理や機械学習アプリケーションにおいて、画像の雑音化や教師なしメトリック学習などの新しい類似性尺度の開発を可能にする。

The Kullback-Leibler divergence or relative entropy is an information-theoretic measure between statistical models that play an important role in measuring a distance between random variables. In the study of complex systems, random fields are mathematical structures that models the interaction between these variables by means of an inverse temperature parameter, responsible for controlling the spatial dependence structure along the field. In this paper, we derive closed-form expressions for the Kullback-Leibler divergence between two pairwise isotropic Gaussian-Markov random fields in both univariate and multivariate cases. The proposed equation allows the development of novel similarity measures in image processing and machine learning applications, such as image denoising and unsupervised metric learning.
翻訳日:2022-03-25 15:48:56 公開日:2022-03-24
# 複数の軌道から自律線形システムのダイナミクスを学習する

Learning the Dynamics of Autonomous Linear Systems From Multiple Trajectories ( http://arxiv.org/abs/2203.12794v1 )

ライセンス: Link先を確認
Lei Xin, George Chiu, Shreyas Sundaram(参考訳) 本稿では,自律線形系のダイナミクス(すなわち,外部制御入力の影響を受けないシステム)を,有限サンプルの保証により,それらのシステムの複数の軌道の観測から学習する問題を考える。 自律線形システム同定の学習速度と一貫性に関するこれまでの結果は、単一の長い軌道からの定常状態の挙動の観測に依存しており、不安定なシステムには適用できない。 対照的に、定常状態の振る舞いが容易に観察できない複数の短い軌跡に基づく学習システムダイナミクスのシナリオを考察する。 有限サンプル解析を行い、安定系と不安定系の両方において、系の初期状態が平均値がゼロである場合(これは既存の文献では一般的な仮定である)に、そのダイナミクスを$\mathcal{o}(\frac{1}{\sqrt{n}})$で学習できることを示した。 我々はさらに、初期状態がゼロ平均でない場合に結果を一般化する。 厳密な安定系では$\mathcal{o}(\sqrt{\frac{\frac{\log{n}}{n})} の学習率と、非安定系では$\mathcal{o}(\frac{(\log{n})^d}{\sqrt{n}}) の学習率を達成するために軌道の長さを調整できることを示した。

We consider the problem of learning the dynamics of autonomous linear systems (i.e., systems that are not affected by external control inputs) from observations of multiple trajectories of those systems, with finite sample guarantees. Existing results on learning rate and consistency of autonomous linear system identification rely on observations of steady state behaviors from a single long trajectory, and are not applicable to unstable systems. In contrast, we consider the scenario of learning system dynamics based on multiple short trajectories, where there are no easily observed steady state behaviors. We provide a finite sample analysis, which shows that the dynamics can be learned at a rate $\mathcal{O}(\frac{1}{\sqrt{N}})$ for both stable and unstable systems, where $N$ is the number of trajectories, when the initial state of the system has zero mean (which is a common assumption in the existing literature). We further generalize our result to the case where the initial state has non-zero mean. We show that one can adjust the length of the trajectories to achieve a learning rate of $\mathcal{O}(\sqrt{\frac{\log{N}}{N})}$ for strictly stable systems and a learning rate of $\mathcal{O}(\frac{(\log{N})^d}{\sqrt{N}})$ for marginally stable systems, where $d$ is some constant.
翻訳日:2022-03-25 15:29:56 公開日:2022-03-24
# 機械学習による2段階曲率同定:無意味な楽器変数による因果推論

Two Stage Curvature Identification with Machine Learning: Causal Inference with Possibly Invalid Instrumental Variables ( http://arxiv.org/abs/2203.12808v1 )

ライセンス: Link先を確認
Zijian Guo and Peter B\"uhlmann(参考訳) インストゥルメンタル変数回帰は内因性治療のための一般的な因果推論手法である。 実用上の重要な関心事は、器楽変数の妥当性と強度である。 本稿では,すべての楽器が無効である場合に因果推論を行うことを目的とする。 そこで本研究では,2段階の曲率同定(tsci)と呼ばれる新しい手法と,潜在的に無効な楽器の強度を測定するための一般化概念を提案する。 処理モデルを一般的な機械学習手法に適合させ,機械学習手法から過度に適合するバイアスを除去する新しいバイアス補正法を提案する。 違反関数の集合のうち、無効な機器変数の強度を評価することにより、最良のものを選択する。 提案するtsci手法を大規模シミュレーション研究で実証し,教育が収益に与える影響に関する重要な経済問題を再検討する。

Instrumental variables regression is a popular causal inference method for endogenous treatment. A significant concern in practical applications is the validity and strength of instrumental variables. This paper aims to perform causal inference when all instruments are possibly invalid. To do this, we propose a novel methodology called two stage curvature identification (TSCI) together with a generalized concept to measure the strengths of possibly invalid instruments: such invalid instruments can still be used for inference in our framework. We fit the treatment model with a general machine learning method and propose a novel bias correction method to remove the overfitting bias from machine learning methods. Among a collection of spaces of violation functions, we choose the best one by evaluating invalid instrumental variables' strength. We demonstrate our proposed TSCI methodology in a large-scale simulation study and revisit the important economics question on the effect of education on earnings.
翻訳日:2022-03-25 15:29:26 公開日:2022-03-24
# 多レベルベイズイン深層ニューラルネットワーク

Multilevel Bayesin Deep Neural Networks ( http://arxiv.org/abs/2203.12961v1 )

ライセンス: Link先を確認
Neil K. Chada, Ajay Jasra, Kody J. H. Law, Sumeetpal S. Singh(参考訳) 本稿では、ディープニューラルネットワーク(DNN)に関連するベイズ推論、特にSellらによって提案されたトレースクラスニューラルネットワーク(TNN)の先例について考察する。 [39]. このような先行は、推論問題の文脈において古典的アーキテクチャのより堅牢な代替品として開発された。 本研究では,このようなモデルに対するマルチレベルモンテカルロ法(MLMC)を提案する。 MLMCは、ベイズ統計学と不確実性定量化に特に応用された、一般的な分散還元手法である。 4] で導入された特定の高度なmlmc法を, dnn からベイズ推定に適用し, 数学的に確立し, 後方期待計算に関連する特定の平均二乗誤差を達成する計算コストを, 従来の手法と比較して数桁削減できることを示した。 このような結果を検証するために,機械学習で発生するモデル問題の数値実験を多数実施する。 これらにはベイジアン回帰やベイジアン分類、強化学習が含まれる。

In this article we consider Bayesian inference associated to deep neural networks (DNNs) and in particular, trace-class neural network (TNN) priors which were proposed by Sell et al. [39]. Such priors were developed as more robust alternatives to classical architectures in the context of inference problems. For this work we develop multilevel Monte Carlo (MLMC) methods for such models. MLMC is a popular variance reduction technique, with particular applications in Bayesian statistics and uncertainty quantification. We show how a particular advanced MLMC method that was introduced in [4] can be applied to Bayesian inference from DNNs and establish mathematically, that the computational cost to achieve a particular mean square error, associated to posterior expectation computation, can be reduced by several orders, versus more conventional techniques. To verify such results we provide numerous numerical experiments on model problems arising in machine learning. These include Bayesian regression, as well as Bayesian classification and reinforcement learning.
翻訳日:2022-03-25 15:29:13 公開日:2022-03-24
# エンティティ解決モデルの効果的な説明

Effective Explanations for Entity Resolution Models ( http://arxiv.org/abs/2203.12978v1 )

ライセンス: Link先を確認
Tommaso Teofili, Donatella Firmani, Nick Koudas, Vincenzo Martello, Paolo Merialdo, Divesh Srivastava(参考訳) エンティティ解決(ER)は、同じ現実世界のエンティティを参照するレコードのマッチングを目的とする。 過去50年間、広く研究されてきたが、ERは依然として挑戦的なデータ管理の問題であり、近年ではこの問題を解決するために深層学習(DL)技術を適用する機会を探求し始めている。 本稿では,ER に対する DL ソリューションの基本的問題について検討する。 ERソリューションの一致予測を理解することは、DLモデルの信頼性を評価し、そのバイアスを発見するために本当に重要である。 我々は、dlモデルをブラックボックス分類器として扱い、dl予測の説明を提供する以前のアプローチは分類タスクに依存しない。 本稿では,ER問題のセマンティクスを意識したCERTA手法を提案する。 提案手法では,各属性をサリエンシースコアに関連付けるサリエンシー説明と,予測をひっくり返せる値の例を示す反事実的説明の両方を生成する。 CERTAは、入力レコードの摂動コピーを用いて生成された結果を評価することを目的とした確率的フレームワークを構築している。 我々は,CERTA による DL モデルに基づく最新ER ソリューションの説明を公開データセットを用いて実験的に評価し,最近提案された手法よりも CERTA の有効性を実証した。

Entity resolution (ER) aims at matching records that refer to the same real-world entity. Although widely studied for the last 50 years, ER still represents a challenging data management problem, and several recent works have started to investigate the opportunity of applying deep learning (DL) techniques to solve this problem. In this paper, we study the fundamental problem of explainability of the DL solution for ER. Understanding the matching predictions of an ER solution is indeed crucial to assess the trustworthiness of the DL model and to discover its biases. We treat the DL model as a black box classifier and - while previous approaches to provide explanations for DL predictions are agnostic to the classification task. we propose the CERTA approach that is aware of the semantics of the ER problem. Our approach produces both saliency explanations, which associate each attribute with a saliency score, and counterfactual explanations, which provide examples of values that can flip the prediction. CERTA builds on a probabilistic framework that aims at computing the explanations evaluating the outcomes produced by using perturbed copies of the input records. We experimentally evaluate CERTA's explanations of state-of-the-art ER solutions based on DL models using publicly available datasets, and demonstrate the effectiveness of CERTA over recently proposed methods for this problem.
翻訳日:2022-03-25 15:28:16 公開日:2022-03-24
# ガウス過程を伴うチャネル特徴の度数モデリングによる位置追跡

Position Tracking using Likelihood Modeling of Channel Features with Gaussian Processes ( http://arxiv.org/abs/2203.13110v1 )

ライセンス: Link先を確認
Sebastian Kram, Christopher Kraus, Tobias Feigl, Maximilian Stahlke, J\"org Robert, Christopher Mutschler(参考訳) 近年のローカライゼーションフレームワークでは,マルチパス伝搬シナリオにおいても,複雑なチャネル計測(CM)の空間情報を利用して正確な位置を推定している。 最先端CMフィンガープリント(FP)ベースの手法では、畳み込みニューラルネットワーク(CNN)を用いて空間情報を抽出する。 しかし、うまく機能するためには、空間的に密集したデータセット(高い獲得とメンテナンスの努力に関連している)が必要である。 このようなデータが入手できない場合(またはその品質が低い場合)、統計的な位置推定を提供しないため、CNNベースのFPの性能劣化を補うことはできない。 本稿では,マルチパス伝搬の強い環境内の特定の領域のcmsのみを含むスパースデータセットによく適応する新しいローカライズフレームワークを提案する。 我々のフレームワークはCMを情報的特徴に圧縮し、空間情報を解き放つ。 その後、それぞれにガウス過程(GP)を回帰させ、距離依存の共分散核に基づく統計的観測モデルを示す。 本フレームワークでは,トレーニングされたGPと直視域と粒子フィルタの動的モデルを組み合わせる。 実工業屋内環境において収集した空間的疎度データに対して,本手法は最先端のCNNフィンガープリント(0.52m vs. 1.3m MAE)よりも優れていた。

Recent localization frameworks exploit spatial information of complex channel measurements (CMs) to estimate accurate positions even in multipath propagation scenarios. State-of-the art CM fingerprinting(FP)-based methods employ convolutional neural networks (CNN) to extract the spatial information. However, they need spatially dense data sets (associated with high acquisition and maintenance efforts) to work well -- which is rarely the case in practical applications. If such data is not available (or its quality is low), we cannot compensate the performance degradation of CNN-based FP as they do not provide statistical position estimates, which prevents a fusion with other sources of information on the observation level. We propose a novel localization framework that adapts well to sparse datasets that only contain CMs of specific areas within the environment with strong multipath propagation. Our framework compresses CMs into informative features to unravel spatial information. It then regresses Gaussian processes (GPs) for each of them, which imply statistical observation models based on distance-dependent covariance kernels. Our framework combines the trained GPs with line-of-sight ranges and a dynamics model in a particle filter. Our measurements show that our approach outperforms state-of-the-art CNN fingerprinting (0.52 m vs. 1.3 m MAE) on spatially sparse data collected in a realistic industrial indoor environment.
翻訳日:2022-03-25 15:27:54 公開日:2022-03-24
# 適応パラメトリック活性化による画像のステガナリシス

Steganalysis of Image with Adaptively Parametric Activation ( http://arxiv.org/abs/2203.12843v1 )

ライセンス: Link先を確認
Hai Su, Meiyin Han, Junle Liang and Songsen Yu(参考訳) 画像がse-cretメッセージを含むかどうかを検出する方法としてのsteg analysisは、アバストステガノグラフィからの障害を回避する重要な研究である。 ステガナリシスのポイントは、畳み込み層で学ばず容易に抑制される弱い埋め込み信号を検出することである。 本稿では,組込み信号の低減と組込み信号の捕捉能力の向上の観点から,活性化関数,フィルタ,損失関数の不備について検討する。 adap-tive parametric activation moduleはnega-tive embedded signalを予約するように設計されている。 信号捕捉能力向上のために,im-prove residual diversity に高域通過フィルタの制約を加え,よりリッチな埋め込み信号を抽出する。 また,クラス間距離最大化によるクロスエントロピー損失の限界を克服するために,コントラスト学習に基づく損失関数を適用した。 ネットワークは、埋め込み信号とセマンティックエッジを区別するのに役立つ。 我々はBOSSbase 1.01の画像を使用し、実験のためにWOWとS-UNIWARDによるスチュゴを作成する。 最先端手法と比較して,本手法は競争性能が高い。

Steganalysis as a method to detect whether image contains se-cret message, is a crucial study avoiding the imperils from abus-ing steganography. The point of steganalysis is to detect the weak embedding signals which is hardly learned by convolution-al layer and easily suppressed. In this paper, to enhance embed-ding signals, we study the insufficiencies of activation function, filters and loss function from the aspects of reduce embedding signal loss and enhance embedding signal capture ability. Adap-tive Parametric Activation Module is designed to reserve nega-tive embedding signal. For embedding signal capture ability enhancement, we add constraints on the high-pass filters to im-prove residual diversity which enables the filters extracts rich embedding signals. Besides, a loss function based on contrastive learning is applied to overcome the limitations of cross-entropy loss by maximum inter-class distance. It helps the network make a distinction between embedding signals and semantic edges. We use images from BOSSbase 1.01 and make stegos by WOW and S-UNIWARD for experiments. Compared to state-of-the-art methods, our method has a competitive performance.
翻訳日:2022-03-25 15:27:31 公開日:2022-03-24
# 進化的アルゴリズムは安全な最適化か?

Are Evolutionary Algorithms Safe Optimizers? ( http://arxiv.org/abs/2203.12622v1 )

ライセンス: Link先を確認
Youngmin Kim, Richard Allmendinger, Manuel L\'opez-Ib\'a\~nez(参考訳) 本研究では,制約の違反が,有意義な実験資源/プラットフォーム破壊や人命喪失など,避けられない損失につながるような制約付き最適化問題について考察する。 このような問題はsafe optimization problem (safeops) と呼ばれる。 safeopsは近年、機械学習コミュニティで注目を集めているが、2009年から2011年の初期の試みにもかかわらず、進化的計算(ec)コミュニティへの関心はほとんどなかった。 さらに、さまざまなアルゴリズムをSafeOPsにベンチマークする方法に関する許容できるガイドラインが欠如しています。 SafeOPsのより効率的なアルゴリズムとベンチマークガイドラインの必要性から,本論文の目的は,ECコミュニティにおけるこの問題クラスの関心を再燃させることである。 これを達成するために i) SafeOPの正式な定義を提供し、ECコミュニティがよく知っている他のタイプの最適化問題と対比します。 (ii)選択された安全最適化アルゴリズムの性能に対する鍵セーフロップパラメータの影響について検討する。 (iii)機械学習コミュニティによる最先端の安全最適化アルゴリズムに対するベンチマークec (iv) 作業の複製と拡張を行うためのオープンソースのPythonフレームワークを提供する。

We consider a type of constrained optimization problem, where the violation of a constraint leads to an irrevocable loss, such as breakage of a valuable experimental resource/platform or loss of human life. Such problems are referred to as safe optimization problems (SafeOPs). While SafeOPs have received attention in the machine learning community in recent years, there was little interest in the evolutionary computation (EC) community despite some early attempts between 2009 and 2011. Moreover, there is a lack of acceptable guidelines on how to benchmark different algorithms for SafeOPs, an area where the EC community has significant experience in. Driven by the need for more efficient algorithms and benchmark guidelines for SafeOPs, the objective of this paper is to reignite the interest of this problem class in the EC community. To achieve this we (i) provide a formal definition of SafeOPs and contrast it to other types of optimization problems that the EC community is familiar with, (ii) investigate the impact of key SafeOP parameters on the performance of selected safe optimization algorithms, (iii) benchmark EC against state-of-the-art safe optimization algorithms from the machine learning community, and (iv) provide an open-source Python framework to replicate and extend our work.
翻訳日:2022-03-25 15:26:45 公開日:2022-03-24
# DPar2:不規則密度テンソルの高速かつスケーラブルなPARAFAC2分解

DPar2: Fast and Scalable PARAFAC2 Decomposition for Irregular Dense Tensors ( http://arxiv.org/abs/2203.12798v1 )

ライセンス: Link先を確認
Jun-Gi Jang and U Kang(参考訳) 不規則な高密度テンソルを考えると、どのように効率的に解析できるのか? 不規則なテンソルは、列が同じ大きさで行が互いに異なる大きさの行列の集合である。 PARAFAC2分解は表現型発見や傾向解析などの応用において不規則なテンソルを扱うための基本的なツールである。 複数のparafac2分解法が存在するが、その効率はテンソルに関連する高価な計算のために不規則な密度テンソルに制限されている。 本稿では不規則な高密度テンソルに対する高速かつスケーラブルなPARAFAC2分解法DPar2を提案する。 DPar2は、与えられた不規則なテンソルの各スライス行列を効果的に圧縮し、圧縮結果で計算を慎重に並べ替え、テンソルの不規則性を利用して高効率を実現する。 大規模な実験では、DPar2は実世界の不規則なテンソルの競合よりも最大6.0倍高速であり、精度は同等である。 また、DPar2はテンソルサイズとターゲットランクに関してスケーラブルである。

Given an irregular dense tensor, how can we efficiently analyze it? An irregular tensor is a collection of matrices whose columns have the same size and rows have different sizes from each other. PARAFAC2 decomposition is a fundamental tool to deal with an irregular tensor in applications including phenotype discovery and trend analysis. Although several PARAFAC2 decomposition methods exist, their efficiency is limited for irregular dense tensors due to the expensive computations involved with the tensor. In this paper, we propose DPar2, a fast and scalable PARAFAC2 decomposition method for irregular dense tensors. DPar2 achieves high efficiency by effectively compressing each slice matrix of a given irregular tensor, careful reordering of computations with the compression results, and exploiting the irregularity of the tensor. Extensive experiments show that DPar2 is up to 6.0x faster than competitors on real-world irregular tensors while achieving comparable accuracy. In addition, DPar2 is scalable with respect to the tensor size and target rank.
翻訳日:2022-03-25 15:26:08 公開日:2022-03-24
# 連続空間上の離散時間非線形系のkullback-leibler制御

Kullback-Leibler control for discrete-time nonlinear systems on continuous spaces ( http://arxiv.org/abs/2203.12864v1 )

ライセンス: Link先を確認
Kaito Ito, Kenji Kashima(参考訳) Kullback-Leibler (KL) 制御は非線形最適制御問題の効率的な数値解法を可能にする。 kl制御の重要な仮定は、遷移分布の完全な制御性である。 しかし、この仮定は、ダイナミクスが連続空間で進化するときにしばしば破られる。 したがって、連続空間を持つ問題にkl制御を適用するにはいくつかの近似が必要となり、最適性を失うことになる。 このような近似を避けるために,本論文では,連続空間に対するkl制御問題を,非現実的仮定を必要としないように再構成する。 元のKL制御と改革されたKL制御の主な違いは、前者は制御された遷移分布と制御されていない遷移分布の間のKL分散による制御努力を測り、後者は制御されていない遷移をノイズ駆動的な遷移で置き換えることである。 再構成kl制御は, 元のアルゴリズムのように, 合理的な仮定を伴わずに効率的な数値計算が可能となることを示す。 具体的には、その経路積分表現に基づくモンテカルロ法を用いて、関連する値関数を計算できる。

Kullback-Leibler (KL) control enables efficient numerical methods for nonlinear optimal control problems. The crucial assumption of KL control is the full controllability of the transition distribution. However, this assumption is often violated when the dynamics evolves in a continuous space. Consequently, applying KL control to problems with continuous spaces requires some approximation, which leads to the lost of the optimality. To avoid such approximation, in this paper, we reformulate the KL control problem for continuous spaces so that it does not require unrealistic assumptions. The key difference between the original and reformulated KL control is that the former measures the control effort by KL divergence between controlled and uncontrolled transition distributions while the latter replaces the uncontrolled transition by a noise-driven transition. We show that the reformulated KL control admits efficient numerical algorithms like the original one without unreasonable assumptions. Specifically, the associated value function can be computed by using a Monte Carlo method based on its path integral representation.
翻訳日:2022-03-25 15:25:51 公開日:2022-03-24
# swiftagg+: フェデレーション学習のためのセキュアアグリゲーションにおける漸近的最適通信負荷の実現

SwiftAgg+: Achieving Asymptotically Optimal Communication Load in Secure Aggregation for Federated Learning ( http://arxiv.org/abs/2203.13060v1 )

ライセンス: Link先を確認
Tayyebeh Jahani-Nezhad, Mohammad Ali Maddah-Ali, Songze Li, Giuseppe Caire(参考訳) 我々は,フェデレーション学習システムのための新しいセキュアアグリゲーションプロトコルであるSwiftAgg+を提案する。このプロトコルでは,中央サーバが分散ユーザである$N\in\mathbb{N}$のローカルモデルを集約し,各サイズが$L \in \mathbb{N}$のローカルデータをプライバシ保護形式でトレーニングする。 SwiftAgg+はセキュリティを損なうことなく通信オーバーヘッドを大幅に削減し、ギャップを減らして最適な通信負荷を実現する。 具体的には、少なくとも$D$のドロップアウトユーザが存在する場合、SwiftAgg+はユーザ毎の平均的な通信負荷が$(1+\mathcal{O}(\frac{1}{N}))L$とサーバ間の通信負荷が$(1+\mathcal{O}(\frac{1}{N}))L$で、最悪のケース情報理論上のセキュリティ保証がある。 提案するswiftagg+は,ユーザとサーバ間の通信負荷の増加を犠牲にして,アクティブな通信リンク数を削減する柔軟性も備えている。 特に、$K\in\mathbb{N}$の場合、SwiftAgg+は$(1+\frac{T}{K})L$のアップリンク通信負荷と$(1-\frac{1}{N})(1+\frac{T+D}{K})L$のユーザ毎通信負荷を達成できる。

We propose SwiftAgg+, a novel secure aggregation protocol for federated learning systems, where a central server aggregates local models of $N\in\mathbb{N}$ distributed users, each of size $L \in \mathbb{N}$, trained on their local data, in a privacy-preserving manner. SwiftAgg+ can significantly reduce the communication overheads without any compromise on security, and achieve the optimum communication load within a diminishing gap. Specifically, in presence of at most $D$ dropout users, SwiftAgg+ achieves average per-user communication load of $(1+\mathcal{O}(\frac{1}{N}))L$ and the server communication load of $(1+\mathcal{O}(\frac{1}{N}))L$, with a worst-case information-theoretic security guarantee, against any subset of up to $T$ semi-honest users who may also collude with the curious server. The proposed SwiftAgg+ has also a flexibility to reduce the number of active communication links at the cost of increasing the the communication load between the users and the server. In particular, for any $K\in\mathbb{N}$, SwiftAgg+ can achieve the uplink communication load of $(1+\frac{T}{K})L$, and per-user communication load of up to $(1-\frac{1}{N})(1+\frac{T+D}{K})L$, where the number of pair-wise active connections in the network is $\frac{N}{2}(K+T+D+1)$.
翻訳日:2022-03-25 15:25:34 公開日:2022-03-24
# HiFi++: ニューラルネットワーク、帯域拡張、音声強調のための統一フレームワーク

HiFi++: a Unified Framework for Neural Vocoding, Bandwidth Extension and Speech Enhancement ( http://arxiv.org/abs/2203.13086v1 )

ライセンス: Link先を確認
Pavel Andreev, Aibek Alanov, Oleg Ivanov, Dmitry Vetrov(参考訳) 生成的敵ネットワークは、最近、自己回帰モデルやフローベースモデルよりも優れた神経ボコーディング性能を示した。 本稿では,この成功を条件付き音声生成の他のタスクにも拡張できることを示す。 特に、HiFiボコーダをベースとして、ニューラルボコーダ、帯域幅拡張、音声強調のための新しいHiFi++汎用フレームワークを提案する。 改良されたジェネレータアーキテクチャと単純化されたマルチディスクリミネータトレーニングにより、HiFi++は、メモリや計算資源を著しく削減しつつ、これらのタスクにおける最先端のタスクと同等の性能を発揮することを示す。 本手法の有効性は, 様々な実験により検証された。

Generative adversarial networks have recently demonstrated outstanding performance in neural vocoding outperforming best autoregressive and flow-based models. In this paper, we show that this success can be extended to other tasks of conditional audio generation. In particular, building upon HiFi vocoders, we propose a novel HiFi++ general framework for neural vocoding, bandwidth extension, and speech enhancement. We show that with the improved generator architecture and simplified multi-discriminator training, HiFi++ performs on par with the state-of-the-art in these tasks while spending significantly less memory and computational resources. The effectiveness of our approach is validated through a series of extensive experiments.
翻訳日:2022-03-25 15:24:55 公開日:2022-03-24
# (参考訳) Neural Neighbor Style Transfer

Neural Neighbor Style Transfer ( http://arxiv.org/abs/2203.13215v1 )

ライセンス: CC BY 4.0
Nicholas Kolkin, Michal Kucera, Sylvain Paris, Daniel Sykora, Eli Shechtman, Greg Shakhnarovich(参考訳) 本稿では,最先端の品質,一般化,芸術的スタイル転送の競争効率を提供するパイプラインであるNeural Neighbor Style Transfer (NNST)を提案する。 我々のアプローチは、コンテンツ入力から抽出したニューラル特徴を、スタイルの例から抽出した特徴に明示的に置き換え、これらの再配置された特徴に基づいて最終的な出力を合成することに基づいている。 アプローチの精神は以前の作業と似ているが、設計上の決定が最終的な視覚的品質を劇的に改善することを示します。

We propose Neural Neighbor Style Transfer (NNST), a pipeline that offers state-of-the-art quality, generalization, and competitive efficiency for artistic style transfer. Our approach is based on explicitly replacing neural features extracted from the content input (to be stylized) with those from a style exemplar, then synthesizing the final output based on these rearranged features. While the spirit of our approach is similar to prior work, we show that our design decisions dramatically improve the final visual quality.
翻訳日:2022-03-25 15:22:52 公開日:2022-03-24
# 言語バイアスとocrエラーから逃れる:意味論中心のテキストビジュアル質問応答

Towards Escaping from Language Bias and OCR Error: Semantics-Centered Text Visual Question Answering ( http://arxiv.org/abs/2203.12929v1 )

ライセンス: Link先を確認
Chengyang Fang, Gangyan Zeng, Yu Zhou, Daiqing Wu, Can Ma, Dayong Hu, Weiping Wang(参考訳) シーンイメージのテキストは、シーン理解と推論のための重要な情報を伝える。 テキストベースの視覚的質問応答(TextVQA)プロセスにおけるモデルに対する読み書きと推論の能力。 しかし、現在のTextVQAモデルはテキスト中心ではなく、いくつかの制限がある。 このモデルは,応答予測プロセスにおいて意味的ガイダンスが存在しないため,言語バイアスや光学的文字認識(OCR)誤差によって容易に支配される。 本稿では,インスタンスレベルのコントラスト・セマンティクス予測モジュール (icsp) とセマンティクス中心のトランスフォーマーモジュール (sct) からなる,新しいセマンティクス中心ネットワーク (sc-net) を提案する。 2つのモジュールを装備したセマンティックス中心のモデルは、言語バイアスとOCRからの累積エラーに抵抗することができる。 TextVQAとST-VQAデータセットの大規模な実験は、我々のモデルの有効性を示している。 SC-Netはそれまでの成果をはるかに上回り、TextVQAタスクには適している。

Texts in scene images convey critical information for scene understanding and reasoning. The abilities of reading and reasoning matter for the model in the text-based visual question answering (TextVQA) process. However, current TextVQA models do not center on the text and suffer from several limitations. The model is easily dominated by language biases and optical character recognition (OCR) errors due to the absence of semantic guidance in the answer prediction process. In this paper, we propose a novel Semantics-Centered Network (SC-Net) that consists of an instance-level contrastive semantic prediction module (ICSP) and a semantics-centered transformer module (SCT). Equipped with the two modules, the semantics-centered model can resist the language biases and the accumulated errors from OCR. Extensive experiments on TextVQA and ST-VQA datasets show the effectiveness of our model. SC-Net surpasses previous works with a noticeable margin and is more reasonable for the TextVQA task.
翻訳日:2022-03-25 15:00:27 公開日:2022-03-24
# 音声言語情報を用いた連続感情認識:ABAW3の技術報告

Continuous Emotion Recognition using Visual-audio-linguistic information: A Technical Report for ABAW3 ( http://arxiv.org/abs/2203.13031v1 )

ライセンス: Link先を確認
Su Zhang, Ruyi An, Yi Ding, Cuntai Guan(参考訳) 視覚言語情報を用いた連続感情認識のためのクロスモーダルコアテンションモデルを提案する。 モデルは4つのブロックで構成される。 視覚、音声、言語ブロックは、マルチモーダル入力の空間-時間的特徴を学ぶために使用される。 コアテンションブロックは、学習したエンベディングをマルチヘッドコアテンション機構で融合するように設計されている。 視覚ブロックからの視覚的エンコーディングは、視覚情報を強調するために注意特徴と連結される。 データを完全に活用し、過度な適合を緩和するために、トレーニングおよび検証セット上でクロスバリデーションを行う。 コンコータンス相関係数(CCC)中心は、各折り目から結果をマージするために用いられる。 バリデーションセットの達成されたcccは、valence の 0.450 と arousal の 0.651 であり、それぞれ 0.310 と 0.170 の基準の ccc を大きく上回っている。 コードはhttps://github.com/sucv/abaw3で入手できる。

We propose a cross-modal co-attention model for continuous emotion recognition using visual-audio-linguistic information. The model consists of four blocks. The visual, audio, and linguistic blocks are used to learn the spatial-temporal features of the multimodal input. A co-attention block is designed to fuse the learned enbeddings with the multihead co-attention mechanism. The visual encoding from the visual block is concatenated with the attention feature to emphasize the visual information. To make full use of the data and alleviate over-fitting, the cross-validation is carried out on the training and validation set. The concordance correlation coefficient (CCC) centering is used to merge the results from each fold. The achieved CCC on validation set is 0.450 for valence and 0.651 for arousal, which significantly outperforms the baseline method with the corresponding CCC of 0.310 and 0.170, respectively. The code is available at https://github.com/sucv/ABAW3.
翻訳日:2022-03-25 15:00:04 公開日:2022-03-24
# X線による肺結節検出の改善

X-ray Dissectography Improves Lung Nodule Detection ( http://arxiv.org/abs/2203.13118v1 )

ライセンス: Link先を確認
Chuang Niu, Giridhar Dasegowda, Pingkun Yan, Mannudeep K. Kalra, Ge Wang(参考訳) ラジオグラフは費用対効果と広範囲なアクセシビリティのために世界中で最も頻繁に使用されるが、X線経路に沿った構造上の重ね合わせは疑わしいか、肺結節の発見が困難である。 本研究では,X線ディストモグラフィーを用いて,いくつかの放射線照射から肺をデジタル的に検出し,無関係な構造の干渉を抑制するとともに,肺結節の検出性を向上させる。 この目的のために, 2次元射影と3次元物理空間に肺結節を局在化するために, 協調検出ネットワークが設計されている。 以上の結果から,本手法は肺結節を検出できる一般的な基準線に比べて, 平均精度を20以上向上させることができることが示唆された。 このアプローチは、現在のX線イメージングプロトコルとワークフローを再設計し、肺疾患における胸部X線撮影の診断性能を向上させる可能性がある。

Although radiographs are the most frequently used worldwide due to their cost-effectiveness and widespread accessibility, the structural superposition along the x-ray paths often renders suspicious or concerning lung nodules difficult to detect. In this study, we apply "X-ray dissectography" to dissect lungs digitally from a few radiographic projections, suppress the interference of irrelevant structures, and improve lung nodule detectability. For this purpose, a collaborative detection network is designed to localize lung nodules in 2D dissected projections and 3D physical space. Our experimental results show that our approach can significantly improve the average precision by 20+% in comparison with the common baseline that detects lung nodules from original projections using a popular detection network. Potentially, this approach could help re-design the current X-ray imaging protocols and workflows and improve the diagnostic performance of chest radiographs in lung diseases.
翻訳日:2022-03-25 14:59:48 公開日:2022-03-24
# ACE: アプリケーション中心のエッジクラウドコラボレーションインテリジェンスを目指す

ACE: Towards Application-Centric Edge-Cloud Collaborative Intelligence ( http://arxiv.org/abs/2203.13061v1 )

ライセンス: Link先を確認
Luhui Wang, Cong Zhao, Shusen Yang, Xinyu Yang, Julie McCann(参考訳) 機械学習に基づくインテリジェントなアプリケーションは、私たちの生活の多くの部分に影響を与えています。 サービスレイテンシやネットワーク帯域のオーバーヘッド、プライバシといった面では、厳格な実践的な制約の下で運用することが求められます。 しかし、クラウドで実行されている現在の実装は、これらの制約をすべて満たすことができない。 エッジクラウドコラボレーションインテリジェンス(ECCI)パラダイムは、このような問題に対処するための一般的なアプローチとなり、急速に増加するアプリケーションが開発され、デプロイされる。 しかしながら,これらのプロトタイプ実装は,インフラストラクチャ管理やエッジクラウド協調サービス,複雑なインテリジェンスワークロード,効率的なパフォーマンス最適化といったサポートが欠如しているため,大規模あるいは一般のECCシナリオでは効率的に適用できない,一般性のない,開発者依存かつシナリオ固有である。 この記事では、コスト効率と高性能なECCIアプリケーション開発とデプロイメントを容易にするため、エッジとクラウドリソースの継続的な増加、ユーザ透過型サービス、およびスケールと複雑さの増大によるインテリジェンスワークロードの増大を扱う、最初の統合プラットフォームであるACEを体系的に設計し、構築する。 検証のために、ACEベースのインテリジェントなビデオクエリアプリケーションの構築プロセスを明示的に提示し、より効率的にカスタマイズ可能なパフォーマンス最適化を実現する方法を示す。 最初の経験に基づいて、近日中のECCIエコシステムにおいて、期待できる問題に光を当てるためのACEの限界とビジョンを議論する。

Intelligent applications based on machine learning are impacting many parts of our lives. They are required to operate under rigorous practical constraints in terms of service latency, network bandwidth overheads, and also privacy. Yet current implementations running in the Cloud are unable to satisfy all these constraints. The Edge-Cloud Collaborative Intelligence (ECCI) paradigm has become a popular approach to address such issues, and rapidly increasing applications are developed and deployed. However, these prototypical implementations are developer-dependent and scenario-specific without generality, which cannot be efficiently applied in large-scale or to general ECC scenarios in practice, due to the lack of supports for infrastructure management, edge-cloud collaborative service, complex intelligence workload, and efficient performance optimization. In this article, we systematically design and construct the first unified platform, ACE, that handles ever-increasing edge and cloud resources, user-transparent services, and proliferating intelligence workloads with increasing scale and complexity, to facilitate cost-efficient and high-performing ECCI application development and deployment. For verification, we explicitly present the construction process of an ACE-based intelligent video query application, and demonstrate how to achieve customizable performance optimization efficiently. Based on our initial experience, we discuss both the limitations and vision of ACE to shed light on promising issues to elaborate in the approaching ECCI ecosystem.
翻訳日:2022-03-25 14:59:32 公開日:2022-03-24
# (参考訳) 神経画像データに基づく畳み込みニューラルネットワークモデルの特徴可視化

Feature visualization for convolutional neural network models trained on neuroimaging data ( http://arxiv.org/abs/2203.13120v1 )

ライセンス: CC BY 4.0
Fabian Eitel, Anna Melkonyan, Kerstin Ritter(参考訳) 臨床的意思決定における機械学習モデルの適用の主要な前提条件は、信頼と解釈性である。 現在の神経画像コミュニティにおける説明可能性の研究は、主に訓練されたモデルの個々の決定、例えば畳み込みニューラルネットワーク(cnn)によって得られた決定を説明することに焦点を当てている。 階層的関連性伝播やSHAPヒートマップなどの帰属法を用いて、入力のどの領域が他の領域よりも決定に関連があるかを強調することができる。 これにより、潜在的なデータセットのバイアスの検出が可能になり、人間の専門家のガイドとして使用できるが、モデルが学んだ基本的な原則を理解することはできない。 そこで本研究では,神経画像CNNの特徴可視化を用いて,私たちの知る限り,初めて得られた知見を提示する。 特に, 組織磁気共鳴画像(MRI)データに基づいて, 性別分類, 人為的病変分類など, さまざまなタスクでCNNを訓練した。 次に、反応するパターンを視覚化するために、特定のニューロンを最大に活性化する反復的な画像を生成する。 可視化を改善するために、いくつかの正規化戦略を比較した。 得られた画像は、その形状を含む人工的な病変の学習概念を明らかにするが、性分類タスクにおける抽象的な特徴を解釈することは困難である。

A major prerequisite for the application of machine learning models in clinical decision making is trust and interpretability. Current explainability studies in the neuroimaging community have mostly focused on explaining individual decisions of trained models, e.g. obtained by a convolutional neural network (CNN). Using attribution methods such as layer-wise relevance propagation or SHAP heatmaps can be created that highlight which regions of an input are more relevant for the decision than others. While this allows the detection of potential data set biases and can be used as a guide for a human expert, it does not allow an understanding of the underlying principles the model has learned. In this study, we instead show, to the best of our knowledge, for the first time results using feature visualization of neuroimaging CNNs. Particularly, we have trained CNNs for different tasks including sex classification and artificial lesion classification based on structural magnetic resonance imaging (MRI) data. We have then iteratively generated images that maximally activate specific neurons, in order to visualize the patterns they respond to. To improve the visualizations we compared several regularization strategies. The resulting images reveal the learned concepts of the artificial lesions, including their shapes, but remain hard to interpret for abstract features in the sex classification task.
翻訳日:2022-03-25 14:57:29 公開日:2022-03-24
# LHNN:VLSI混雑予測のための格子ハイパーグラフニューラルネットワーク

LHNN: Lattice Hypergraph Neural Network for VLSI Congestion Prediction ( http://arxiv.org/abs/2203.12831v1 )

ライセンス: Link先を確認
Bowen Wang, Guibao Shen, Dong Li, Jianye Hao, Wulong Liu, Yu Huang, Hongzhong Wu, Yibo Lin, Guangyong Chen, Pheng Ann Heng(参考訳) 配置溶液からの正確な混雑予測は回路配置において重要な役割を果たす。 本研究は,学習過程全体を通してネットリストデータを保存し,幾何学的および位相的に混雑情報を伝達する新しい回路用グラフ作成法である格子ハイパーグラフ(lh-graph)を提案する。 この定式化に基づいて,さらにヘテロジニアスグラフニューラルネットワークアーキテクチャLHNNを開発した。 LHNNは、F1スコアのU-netやPix2Pixと比べて、35%以上改善されている。 我々は,混雑予測に機械学習を用いた本質的な手順を強調したい。

Precise congestion prediction from a placement solution plays a crucial role in circuit placement. This work proposes the lattice hypergraph (LH-graph), a novel graph formulation for circuits, which preserves netlist data during the whole learning process, and enables the congestion information propagated geometrically and topologically. Based on the formulation, we further developed a heterogeneous graph neural network architecture LHNN, jointing the routing demand regression to support the congestion spot classification. LHNN constantly achieves more than 35% improvements compared with U-nets and Pix2Pix on the F1 score. We expect our work shall highlight essential procedures using machine learning for congestion prediction.
翻訳日:2022-03-25 14:45:38 公開日:2022-03-24
# ラベル比率によるリスク一貫性のある多クラス学習

Risk Consistent Multi-Class Learning from Label Proportions ( http://arxiv.org/abs/2203.12836v1 )

ライセンス: Link先を確認
Ryoma Kobayashi, Yusuke Mukuta, Tatsuya Harada(参考訳) 本研究では,バッグ内のトレーニングインスタンスが提供され,バッグ内の各クラスの割合のみを提供するラベル比率(mcllp)設定からの多クラス学習について述べる。 既存のほとんどのMCLLPメソッドは、インスタンスの予測や擬似ラベルの割り当てにバグワイドな制約を課すが、いずれの手法も理論的に整合性はない。 この問題を解決するために,経験的リスク最小化フレームワークを用いたリスク一貫性手法を提案し,その推定誤差を導出する。 提案手法は,既存研究の袋に制約を分散させることにより,大きな袋に適用するためのリスク推定器の近似手法を提案する。 提案手法はどんな深層モデルや損失にも適用でき,確率的最適化と互換性がある。 提案手法の有効性を検証するためのベンチマーク実験を行った。

This study addresses a multiclass learning from label proportions (MCLLP) setting in which training instances are provided in bags and only the proportion of each class within the bags is provided. Most existing MCLLP methods impose bag-wise constraints on the prediction of instances or assign them pseudo-labels; however, none of these methods have a theoretical consistency. To solve this problem, a risk-consistent method is proposed for instance classification using the empirical risk minimization framework, and its estimation error bound is derived. An approximation method is proposed for the proposed risk estimator, to apply it to large bags, by diverting the constraints on bags in existing research. The proposed method can be applied to any deep model or loss and is compatible with stochastic optimization. Experiments are conducted on benchmarks to verify the effectiveness of the proposed method.
翻訳日:2022-03-25 14:45:27 公開日:2022-03-24
# Rubikのキューブ演算子: 深い畳み込みプロセスにおける高次元産業データの配置を改善するプラグアンドプレイ変換モジュール

Rubik's Cube Operator: A Plug And Play Permutation Module for Better Arranging High Dimensional Industrial Data in Deep Convolutional Processes ( http://arxiv.org/abs/2203.12921v1 )

ライセンス: Link先を確認
Luoxiao Yang, Zhong Zheng, and Zijun Zhang(参考訳) 畳み込みニューラルネットワーク(CNN)は、産業データに基づくテンソル入力の処理に広く応用されており、空間的、時間的、システム力学的な側面から分散産業システムのデータ記録を統合する。 しかし、画像とは異なり、産業データに基づくテンソルの情報は必ずしも空間的に順序づけられるとは限らない。 したがって、CNNを直接適用するのは効果がない。 このような問題に対処するために、CNNによって処理される前に、産業データベースのテンソルのデータ構造を最適または最適の属性順に適応的に置換するプラグアンドプレイモジュール、ルービックキューブ演算子(RCO)を提案する。 提案したRCOは、入力産業データに基づくテンソルのK軸の属性を置換するために、K二項および右確率置換行列を維持している。 データから順列行列を学習し、順列行列の要素を再パラメータ化するためにgumbel-softmaxを用い、タスク固有損失にソフト正則化損失を提案し、タスク固有損失に追加し、順列データの多様性を確保するための新しい学習プロセスを提案する。 再生可能エネルギー領域からの産業データ処理の2つの代表的学習タスク,風力予測(WPP)と風速予測(WSP)を考慮し,提案手法の有効性を検証する。 異なる風力発電所から収集した4つのデータセットに基づいて計算実験を行い、提案したRCOがCNNネットワークの性能を大幅に向上できることを示した。

The convolutional neural network (CNN) has been widely applied to process the industrial data based tensor input, which integrates data records of distributed industrial systems from the spatial, temporal, and system dynamics aspects. However, unlike images, information in the industrial data based tensor is not necessarily spatially ordered. Thus, directly applying CNN is ineffective. To tackle such issue, we propose a plug and play module, the Rubik's Cube Operator (RCO), to adaptively permutate the data organization of the industrial data based tensor to an optimal or suboptimal order of attributes before being processed by CNNs, which can be updated with subsequent CNNs together via the gradient-based optimizer. The proposed RCO maintains K binary and right stochastic permutation matrices to permutate attributes of K axes of the input industrial data based tensor. A novel learning process is proposed to enable learning permutation matrices from data, where the Gumbel-Softmax is employed to reparameterize elements of permutation matrices, and the soft regularization loss is proposed and added to the task-specific loss to ensure the feature diversity of the permuted data. We verify the effectiveness of the proposed RCO via considering two representative learning tasks processing industrial data via CNNs, the wind power prediction (WPP) and the wind speed prediction (WSP) from the renewable energy domain. Computational experiments are conducted based on four datasets collected from different wind farms and the results demonstrate that the proposed RCO can improve the performance of CNN based networks significantly.
翻訳日:2022-03-25 14:45:12 公開日:2022-03-24
# 多項式時間における地平線自由強化学習--定常政策の力

Horizon-Free Reinforcement Learning in Polynomial Time: the Power of Stationary Policies ( http://arxiv.org/abs/2203.12922v1 )

ライセンス: Link先を確認
Zihan Zhang, Xiangyang Ji, Simon S. Du(参考訳) 本稿では,計画地平線に非依存な残差有界なマルコフ決定過程(MDP)に対する最初の多項式時間アルゴリズムを提案する。 具体的には、表型mdpは$s$ステート、$a$アクション、プランニングホライズン$h$、合計報酬は$$$で、エージェントは$k$エピソードでプレイします。 我々は,$O\left(\mathrm{poly}(S,A,\log K)\sqrt{K}\right)$ regretに対して,$O\left(\mathrm{polylog}(H)$ dependency~\citep{zhang2020reinforcement} あるいは$S$~\citep{li2021settling} への指数的依存を持つような既存の境界を持つアルゴリズムを設計する。 この結果は、マルコフ連鎖に関する他の問題に応用できる定常ポリシーの近似力、安定性、および濃度特性を確立する新しい構造補題の列に依存している。

This paper gives the first polynomial-time algorithm for tabular Markov Decision Processes (MDP) that enjoys a regret bound \emph{independent on the planning horizon}. Specifically, we consider tabular MDP with $S$ states, $A$ actions, a planning horizon $H$, total reward bounded by $1$, and the agent plays for $K$ episodes. We design an algorithm that achieves an $O\left(\mathrm{poly}(S,A,\log K)\sqrt{K}\right)$ regret in contrast to existing bounds which either has an additional $\mathrm{polylog}(H)$ dependency~\citep{zhang2020reinforcement} or has an exponential dependency on $S$~\citep{li2021settling}. Our result relies on a sequence of new structural lemmas establishing the approximation power, stability, and concentration property of stationary policies, which can have applications in other problems related to Markov chains.
翻訳日:2022-03-25 14:44:44 公開日:2022-03-24
# 配向を用いた染色体重なり合いの解消

Using Orientation to Distinguish Overlapping Chromosomes ( http://arxiv.org/abs/2203.13004v1 )

ライセンス: Link先を確認
Daniel Kluvanec, Thomas B. Phillips, Kenneth J. W. McCaffrey, Noura Al Moubayed(参考訳) 核タイピングの過程における難しいステップは、触れたり重なった染色体を分割することである。 プロセスを自動化する試みとして、過去の研究はDeep Learningメソッドに転換し、タスクを意味的セグメンテーション問題として定式化した。 これらのモデルは、各染色体のインスタンスをセマンティッククラスとして扱うが、どの染色体を#1と#2に分類すべきかは定かではない。 短い染色体やより長い染色体などの比較規則に基づいたクラスラベルの割り当ては緩和されるが、完全には解決しない。 その代わり、第2段階で染色体のインスタンスを分離し、モデルによる染色体の配向を予測し、染色体の重要な区別因子の1つとして使用する。 この方法が有効であることを示す。 さらに,ニューラルネットを用いて方向を予測できる新しい二重角表現を提案する。 表現は任意の方向とその逆を同じ点に写す。 最後に、Pommierのデータセットに基づく新しい拡張された合成データセットを提案するが、トレーニングとテストセットの分離が不十分な問題に対処する。

A difficult step in the process of karyotyping is segmenting chromosomes that touch or overlap. In an attempt to automate the process, previous studies turned to Deep Learning methods, with some formulating the task as a semantic segmentation problem. These models treat separate chromosome instances as semantic classes, which we show to be problematic, since it is uncertain which chromosome should be classed as #1 and #2. Assigning class labels based on comparison rules, such as the shorter/longer chromosome alleviates, but does not fully resolve the issue. Instead, we separate the chromosome instances in a second stage, predicting the orientation of the chromosomes by the model and use it as one of the key distinguishing factors of the chromosomes. We demonstrate this method to be effective. Furthermore, we introduce a novel Double-Angle representation that a neural network can use to predict the orientation. The representation maps any direction and its reverse to the same point. Lastly, we present a new expanded synthetic dataset, which is based on Pommier's dataset, but addresses its issues with insufficient separation between its training and testing sets.
翻訳日:2022-03-25 14:44:21 公開日:2022-03-24
# MERLIN -- 強化学習によるマルウェアの侵入

MERLIN -- Malware Evasion with Reinforcement LearnINg ( http://arxiv.org/abs/2203.12980v1 )

ライセンス: Link先を確認
Tony Quertier and Benjamin Marais and St\'ephane Morucci and Bertrand Fournel(参考訳) シグネチャベースおよびヒューリスティックスベースの検出技術に加えて、機械学習(ml)は、新しいnever-before-seen malicious software(malware)に一般化するために広く使われている。 しかし、分類器を騙して不正なラベルを返すことでMLモデルを騙すことが実証されている。 これらの研究は通常、例えば勾配に基づく攻撃に対して脆弱な予測スコアに依存する。 攻撃者がマルウェア検出エンジンの出力に関する情報をほとんど持っていないより現実的な状況において、控えめな回避率を達成する。 本稿では,DQNとREINFORCEアルゴリズムを用いた強化学習を用いて,最先端の機械学習ベース検出エンジン(MalConv \& EMBER)と,Gartnerが2021年にリーダとして分類した商用AVに挑戦する手法を提案する。 我々のステートフルなメソッドは、機能を壊さずにWindows Portable Execution (PE) ファイルを変更するいくつかのアクションを組み合わせる。 また,どの動作が良好かを特定し,詳細な脆弱性レポートをコンパイルして回避を緩和する手法を提案する。 提供情報が少ない商用AVでも,REINFORCEは高い回避率を達成できることを実証する。

In addition to signature-based and heuristics-based detection techniques, Machine learning (ML) is being widely used to generalize to new never-before-seen malicious software (malware). However, it has been demonstrated that ML models can be fooled by tricking the classifier into returning the incorrect label. These studies usually rely on a prediction score that is fragile to gradient-based attacks for instance. In the context of a more realistic situation where an attacker has very little information about the outputs of a malware detection engine, modest evasion rates are achieved. In this paper, we propose a method using Reinforcement Learning with DQN and REINFORCE algorithms to challenge two state-of-the-art Machine Learning based detection engines (MalConv \& EMBER) and a commercial AV classified by Gartner as a leader in 2021. Our stateful method combines several actions modifying a Windows Portable Execution (PE) file without breaking its functionalities. Our method also identifies which actions perform better and compiles a detailed vulnerability report to help mitigate the evasion. We demonstrate that REINFORCE achieves very good evasion rates even on a commercial AV with low provided information.
翻訳日:2022-03-25 14:43:39 公開日:2022-03-24
# ロボット制御システムにおける行動ツリー

Behavior Trees in Robot Control Systems ( http://arxiv.org/abs/2203.13083v1 )

ライセンス: Link先を確認
Petter \"Ogren and Christopher I. Sprague(参考訳) 本稿では,ロボット工学における行動木の研究領域について,制御理論の観点から考察する。 ビヘイビアツリーの根底にある重要なアイデアは,汎用的なロボット制御システムの複雑性に対処するために,モジュール性や階層性,フィードバックを活用することだ。 モジュール性は、システム全体に関する詳細な知識を必要とせず、別々のモジュールの開発、デバッグ、拡張を可能にすることで、ソフトウェアの複雑さを扱うためのよく知られたツールである。 ロボットタスクは、しばしばサブタスクの階層に分解されるため、そのようなモジュールの階層は自然である。 最後に、フィードバック制御は、低レベルの制御システムの不確実性や障害を扱うための基本的なツールであるが、より高いレベルのフィードバック制御を可能にするために、1つのモジュールがどのサブモジュールを実行するかを決め、各サブモジュールの進捗や適用可能性に関する情報をモジュールインターフェースで共有する必要がある。 これら3つの概念がどのようにして理論解析や実用設計、制御理論やロボット工学の他の概念と組み合わせて使われるのかを説明する。

In this paper we will give a control theoretic perspective on the research area of behavior trees in robotics. The key idea underlying behavior trees is to make use of modularity, hierarchies and feedback, in order to handle the complexity of a versatile robot control system. Modularity is a well-known tool to handle software complexity by enabling development, debugging and extension of separate modules without having detailed knowledge of the entire system. A hierarchy of such modules is natural, since robot tasks can often be decomposed into a hierarchy of sub-tasks. Finally, feedback control is a fundamental tool for handling uncertainties and disturbances in any low level control system, but in order to enable feedback control on the higher level, where one module decides what submodule to execute, information regarding progress and applicability of each submodule needs to be shared in the module interfaces. We will describe how these three concepts come to use in theoretical analysis, practical design, as well as extensions and combinations with other ideas from control theory and robotics.
翻訳日:2022-03-25 14:42:23 公開日:2022-03-24
# 音声変換のためのハイブリッドasrボトルネック特徴を用いたコンテンツの絡み合いと細粒度韻律情報

Disentangleing Content and Fine-grained Prosody Information via Hybrid ASR Bottleneck Features for Voice Conversion ( http://arxiv.org/abs/2203.12813v1 )

ライセンス: Link先を確認
Xintao Zhao, Feng Liu, Changhe Song, Zhiyong Wu, Shiyin Kang, Deyi Tuo, Helen Meng(参考訳) 自動音声認識(ASR)モデルにより抽出されたボトルネック特徴(BNF)を導入することで,近年,非並列データ音声変換(VC)は大きなブレークスルーを遂げている。 しかし、BNFの選択はVCの結果に大きな影響を及ぼす。 例えば、クロスエントロピー損失(CE-BNF)で訓練されたASRからBNFを抽出し、VCシステムのトレーニングのためにニューラルネットワークに入力すると、変換された音声の音色類似性が著しく低下する。 接続性時間分類損失(CTC-BNF)を用いて訓練したASRからBNFを抽出すると、変換された音声の自然性が低下する可能性がある。 この現象はBNFに含まれる情報の違いによって引き起こされる。 本稿では,CTC-BNFsとCE-BNFsから抽出したハイブリッドボトルネック特徴を用いた任意のVC手法を提案する。 CE-BNFから韻律情報とCTC-BNFから内容情報を抽出するために, 漸進反転層とインスタンス正規化を用いた。 オートリグレッシブデコーダとhifi-ganボコーダを使用して高品質波形を生成する。 実験の結果,提案手法は,CE-BNF と CTC-BNF の類似度,自然性,品質がベースライン法よりも高く,CE-BNF と CTC-BNF に含まれる情報と,変換音声に与える影響が明らかとなった。

Non-parallel data voice conversion (VC) have achieved considerable breakthroughs recently through introducing bottleneck features (BNFs) extracted by the automatic speech recognition(ASR) model. However, selection of BNFs have a significant impact on VC result. For example, when extracting BNFs from ASR trained with Cross Entropy loss (CE-BNFs) and feeding into neural network to train a VC system, the timbre similarity of converted speech is significantly degraded. If BNFs are extracted from ASR trained using Connectionist Temporal Classification loss (CTC-BNFs), the naturalness of the converted speech may decrease. This phenomenon is caused by the difference of information contained in BNFs. In this paper, we proposed an any-to-one VC method using hybrid bottleneck features extracted from CTC-BNFs and CE-BNFs to complement each other advantages. Gradient reversal layer and instance normalization were used to extract prosody information from CE-BNFs and content information from CTC-BNFs. Auto-regressive decoder and Hifi-GAN vocoder were used to generate high-quality waveform. Experimental results show that our proposed method achieves higher similarity, naturalness, quality than baseline method and reveals the differences between the information contained in CE-BNFs and CTC-BNFs as well as the influence they have on the converted speech.
翻訳日:2022-03-25 14:42:05 公開日:2022-03-24
# カメラ再ローカライズのための教師なし同時学習とビデオからの深さ推定

Unsupervised Simultaneous Learning for Camera Re-Localization and Depth Estimation from Video ( http://arxiv.org/abs/2203.12804v1 )

ライセンス: Link先を確認
Shun Taguchi and Noriaki Hirose(参考訳) 本稿では,単眼カメラの再局所化と奥行き推定のための教師なし同時学習フレームワークを提案する。 単眼カメラ再局在化(英: monocular camera re-localization)とは、既知の環境でのインスタンス画像から絶対的なカメラポーズを推定するタスクである。 近年の研究では、カメラ画像とカメラポーズのペアから教師付き学習を通じて、カメラの再ローカライズ方法を訓練している。 先行研究とは対照的に,カメラの再局所化と深度推定のための教師なし学習フレームワークを提案する。 本フレームワークでは,シーン座標を方向から推定する2つのネットワークと,カメラのポーズを推定するために合成された各画像からの深度マップを訓練する。 ネットワークはループクローズドビュー合成に基づく損失関数の最小化を通じてトレーニングすることができる。 7-scenesデータセットを用いた実験では、提案手法は最先端の視覚SLAMであるORB-SLAM3の再局在よりも優れていた。 本手法は,訓練環境において最先端の単眼深度推定よりも優れる。

We present an unsupervised simultaneous learning framework for the task of monocular camera re-localization and depth estimation from unlabeled video sequences. Monocular camera re-localization refers to the task of estimating the absolute camera pose from an instance image in a known environment, which has been intensively studied for alternative localization in GPS-denied environments. In recent works, camera re-localization methods are trained via supervised learning from pairs of camera images and camera poses. In contrast to previous works, we propose a completely unsupervised learning framework for camera re-localization and depth estimation, requiring only monocular video sequences for training. In our framework, we train two networks that estimate the scene coordinates using directions and the depth map from each image which are then combined to estimate the camera pose. The networks can be trained through the minimization of loss functions based on our loop closed view synthesis. In experiments with the 7-scenes dataset, the proposed method outperformed the re-localization of the state-of-the-art visual SLAM, ORB-SLAM3. Our method also outperforms state-of-the-art monocular depth estimation in a trained environment.
翻訳日:2022-03-25 14:41:38 公開日:2022-03-24
# ストリーミングゲームビデオの主観的・客観的解析

Subjective and Objective Analysis of Streamed Gaming Videos ( http://arxiv.org/abs/2203.12824v1 )

ライセンス: Link先を確認
Xiangxu Yu, Zhenqiang Ying, Neil Birkbeck, Yilin Wang, Balu Adsumilli and Alan C. Bovik(参考訳) ストリーミングおよび共有ビデオという形でオンラインユーザ生成コンテンツ(UGC)の人気が高まり、そのデリバリの最適化に役立つ知覚ビデオ品質評価(VQA)モデルの開発が加速した。 ゲームビデオは比較的新しいタイプのUGCビデオであり、熟練したゲーマーがゲームのビデオを投稿する際に作られる。 この種のUGCゲームプレイビデオのスクリーンショットは、YouTubeやTwitchなどの主要ストリーミングプラットフォームで非常に人気がある。 合成生成されたゲームコンテンツは、自然シーン/映像統計モデルに基づくものを含む既存のVQAアルゴリズムに課題をもたらす。 合成生成されたゲームコンテンツは、自然主義的なビデオとは異なる統計行動を示す。 ゲームビデオストリーミングやオンラインゲーム,クラウドゲームなどにおいて,プロが生成するゲームビデオの知覚的特性を理解するための研究が数多く行われている。 しかし、UGCゲームビデオの品質や、その特徴や予測方法の理解についてはほとんど研究されていない。 ゲームビデオVQAモデル開発の発展に向けて,UGCゲームビデオにおける主観的,客観的なVQAモデルの総合的研究を行った。 これを実現するために、私たちは、600の実際のugcゲームビデオからなる、live-youtube gaming video quality(live-yt-gaming)データベースと呼ばれる新しいugcゲームビデオリソースを作成しました。 このデータについて主観的人間調査を行い,61名の被験者が記録した品質評価18,600名を得た。 我々はまた、自然映像統計とCNN学習機能の両方に基づいて、GAME-VQPと呼ばれる新しいデータベースを含む、新しいデータベース上で多くの最先端(SOTA)VQAモデルを評価した。 この分野での作業を支援するため、新しいLIVE-YT-Gaming Databaseを作成しています。

The rising popularity of online User-Generated-Content (UGC) in the form of streamed and shared videos, has hastened the development of perceptual Video Quality Assessment (VQA) models, which can be used to help optimize their delivery. Gaming videos, which are a relatively new type of UGC videos, are created when skilled gamers post videos of their gameplay. These kinds of screenshots of UGC gameplay videos have become extremely popular on major streaming platforms like YouTube and Twitch. Synthetically-generated gaming content presents challenges to existing VQA algorithms, including those based on natural scene/video statistics models. Synthetically generated gaming content presents different statistical behavior than naturalistic videos. A number of studies have been directed towards understanding the perceptual characteristics of professionally generated gaming videos arising in gaming video streaming, online gaming, and cloud gaming. However, little work has been done on understanding the quality of UGC gaming videos, and how it can be characterized and predicted. Towards boosting the progress of gaming video VQA model development, we conducted a comprehensive study of subjective and objective VQA models on UGC gaming videos. To do this, we created a novel UGC gaming video resource, called the LIVE-YouTube Gaming video quality (LIVE-YT-Gaming) database, comprised of 600 real UGC gaming videos. We conducted a subjective human study on this data, yielding 18,600 human quality ratings recorded by 61 human subjects. We also evaluated a number of state-of-the-art (SOTA) VQA models on the new database, including a new one, called GAME-VQP, based on both natural video statistics and CNN-learned features. To help support work in this field, we are making the new LIVE-YT-Gaming Database, publicly available through the link: https://live.ece.utexas.edu/research/LIVE-YT-Gaming/index.html .
翻訳日:2022-03-25 14:41:20 公開日:2022-03-24
# aimusicguru: 人間のポーズ修正を支援する音楽

AIMusicGuru: Music Assisted Human Pose Correction ( http://arxiv.org/abs/2203.12829v1 )

ライセンス: Link先を確認
Snehesh Shrestha, Cornelia Ferm\"uller, Tianyu Huang, Pyone Thant Win, Adam Zukerman, Chethan M. Parameshwara, Yiannis Aloimonos(参考訳) ポーズ推定手法は、ピクセルの形で表現された観察を通して得られる視覚的な手がかりに依存する。 しかし、パフォーマンスはビデオのフレームレートによって制限され、動きのぼやけ、オクルージョン、時間的コヒーレンスに苦しむ。 この問題は、例えばバイオリンを弾くなど、人々が物や楽器と対話しているときに拡大される。 後処理の標準的な手法は、補間と平滑化関数を用いてノイズをフィルタリングしギャップを埋めるが、高非線形運動をモデル化することはできない。 本稿では,生成する音と生成する動きとの因果関係を高い範囲で理解する手法を提案する。 音声シグネチャを用いて、正確な人間のポーズ動作モデルを洗練し、予測する。 粗い入力ポーズ列から連続音声を生成するためのMAPnet(Music Assisted Pose Network)を提案する。 この領域のさらなる研究を加速するために、我々は3dバイオリンを音楽で演奏する新しいマルチモーダルデータセットであるmapdatをオープンソース化した。 我々は、異なる標準機械学習モデルの比較を行い、入力モダリティ、サンプリング技術、オーディオとモーションの特徴の分析を行う。 MAPdatの実験では、以前視覚的手法でのみアプローチされたタスクに対して、我々のようなマルチモーダルアプローチを有望な方向として提案している。 その結果, 定性的かつ定量的に音声と視覚観察を組み合わせることで, ポーズ推定法を改善することができた。

Pose Estimation techniques rely on visual cues available through observations represented in the form of pixels. But the performance is bounded by the frame rate of the video and struggles from motion blur, occlusions, and temporal coherence. This issue is magnified when people are interacting with objects and instruments, for example playing the violin. Standard approaches for postprocessing use interpolation and smoothing functions to filter noise and fill gaps, but they cannot model highly non-linear motion. We present a method that leverages our understanding of the high degree of a causal relationship between the sound produced and the motion that produces them. We use the audio signature to refine and predict accurate human body pose motion models. We propose MAPnet (Music Assisted Pose network) for generating a fine grain motion model from sparse input pose sequences but continuous audio. To accelerate further research in this domain, we also open-source MAPdat, a new multi-modal dataset of 3D violin playing motion with music. We perform a comparison of different standard machine learning models and perform analysis on input modalities, sampling techniques, and audio and motion features. Experiments on MAPdat suggest multi-modal approaches like ours as a promising direction for tasks previously approached with visual methods only. Our results show both qualitatively and quantitatively how audio can be combined with visual observation to help improve any pose estimation methods.
翻訳日:2022-03-25 14:40:46 公開日:2022-03-24
# RNNPose:ロバスト対応フィールド推定とポース最適化による6-DoFオブジェクトのリファインダリファインダ

RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust Correspondence Field Estimation and Pose Optimization ( http://arxiv.org/abs/2203.12870v1 )

ライセンス: Link先を確認
Yan Xu, Junyi Lin, Guofeng Zhang, Xiaogang Wang, Hongsheng Li(参考訳) 単色画像から6-DoFオブジェクトのポーズを直接推定することは困難であり、高精度な推定を実現するには、一般的にポストリファインメントが必要である。 本稿では,オブジェクトポーズのリカレントニューラルネットワーク(recurrent neural network, rnn)に基づくフレームワークを提案する。 繰り返し繰り返しの間、被写体ポーズ補正は、推定対応フィールド(レンダリング画像と観察画像の間)に基づいて非線形最小二乗問題として定式化される。 この問題は、エンドツーエンドトレーニングのための微分可能な levenberg-marquardt (lm) アルゴリズムによって解決される。 各イテレーションで対応フィールド推定とポーズ補正を行い、正確なオブジェクトポーズを復元する。 さらに, 咬合に対するロバスト性を向上させるために, 3次元モデルの学習記述子と観察した2次元画像に基づく一貫性チェック機構を導入する。 LINEMOD, Occlusion-LINEMOD, YCB-Videoデータセットの大規模な実験により, 本手法の有効性を検証し, 最先端の性能を示す。

Direct estimating the 6-DoF object pose from a single color image is challenging, and post-refinement is generally needed to achieve high-precision estimation. In this paper, we propose a framework based on a recurrent neural network (RNN) for object pose refinement, which is robust to erroneous initial poses and occlusions. During the recurrent iterations, object pose refinement is formulated as a non-linear least squares problem based on the estimated correspondence field (between a rendered image and the observed image). The problem is then solved by a differentiable Levenberg-Marquardt (LM) algorithm for end-toend training. The correspondence field estimation and pose refinement are conducted alternatively in each iteration to recover accurate object poses. Furthermore, to improve the robustness to occlusions, we introduce a consistencycheck mechanism based on the learned descriptors of the 3D model and observed 2D image, which downweights the unreliable correspondences during pose optimization. Extensive experiments on LINEMOD, Occlusion-LINEMOD, and YCB-Video datasets validate the effectiveness of our method and demonstrate state-of-the-art performance.
翻訳日:2022-03-25 14:40:22 公開日:2022-03-24
# (参考訳) マルチスケール時分割アテンション変換器によるビデオインスタンス分割

Video Instance Segmentation via Multi-scale Spatio-temporal Split Attention Transformer ( http://arxiv.org/abs/2203.13253v1 )

ライセンス: CC BY 4.0
Omkar Thawakar, Sanath Narayan, Jiale Cao, Hisham Cholakkal, Rao Muhammad Anwer, Muhammad Haris Khan, Salman Khan, Michael Felsberg and Fahad Shahbaz Khan(参考訳) State-of-the-the-art transformer-based video instance segmentation (VIS) アプローチは通常、注意計算中に単一スケールの時空間的特徴またはフレーム単位のマルチスケール特徴を利用する。 このような注意力計算は,ビデオの出現変形を対象とするマルチスケールな時空間的特徴関係を無視するものである。 そこで本研究では,マルチスケール時空間分割(MS-STS)アテンションモジュールをエンコーダに実装したトランスフォーマーベースのVISフレームワークであるMS-STS VISを提案する。 提案したMS-STSモジュールは,ビデオ中のフレーム間の複数スケールの時空間的特徴関係を効果的にキャプチャする。 さらに、ビデオの異なるフレームにおける検出されたインスタンスの時間的一貫性を高めるために、デコーダに注意ブロックを導入する。 さらに,マルチスケール時空間における前景・背景分離性を向上させるため,訓練中に補助判別器を導入する。 われわれは、Youtube-VIS (2019 と 2021) という2つのベンチマークで広範な実験を行った。 我々のMS-STS VISは両方のベンチマークで最先端のパフォーマンスを達成する。 ResNet50のバックボーンを使用すると、我々のMS-STSは50.1 %のマスクAPを達成し、文学における最高の報告結果を2.7%、AP_75の重なり合う閾値で4.8%上回った。 セット Swin Transformerのバックボーンを使用すると、MS-STS VISはYoutube-VIS 2019 valで61.0%のマスクAPを達成する。 セット 私たちのコードとモデルはhttps://github.com/OmkarThawakar/MSSTS-VIS.comで公開されています。

State-of-the-art transformer-based video instance segmentation (VIS) approaches typically utilize either single-scale spatio-temporal features or per-frame multi-scale features during the attention computations. We argue that such an attention computation ignores the multi-scale spatio-temporal feature relationships that are crucial to tackle target appearance deformations in videos. To address this issue, we propose a transformer-based VIS framework, named MS-STS VIS, that comprises a novel multi-scale spatio-temporal split (MS-STS) attention module in the encoder. The proposed MS-STS module effectively captures spatio-temporal feature relationships at multiple scales across frames in a video. We further introduce an attention block in the decoder to enhance the temporal consistency of the detected instances in different frames of a video. Moreover, an auxiliary discriminator is introduced during training to ensure better foreground-background separability within the multi-scale spatio-temporal feature space. We conduct extensive experiments on two benchmarks: Youtube-VIS (2019 and 2021). Our MS-STS VIS achieves state-of-the-art performance on both benchmarks. When using the ResNet50 backbone, our MS-STS achieves a mask AP of 50.1 %, outperforming the best reported results in literature by 2.7 % and by 4.8 % at higher overlap threshold of AP_75, while being comparable in model size and speed on Youtube-VIS 2019 val. set. When using the Swin Transformer backbone, MS-STS VIS achieves mask AP of 61.0 % on Youtube-VIS 2019 val. set. Our code and models are available at https://github.com/OmkarThawakar/MSSTS-VIS.
翻訳日:2022-03-25 14:39:38 公開日:2022-03-24
# 背景誘導型内部学習による意味的画像操作

Semantic Image Manipulation with Background-guided Internal Learning ( http://arxiv.org/abs/2203.12849v1 )

ライセンス: Link先を確認
Zhongping Zhang, Huiwen He, Bryan A. Plummer, Zhenyu Liao, Huayan Wang(参考訳) 画像操作は幅広いアプリケーションのために多くの関心を集めている。 以前の作業では、イメージインペイントのような低レベルの操作や、ペイントブラシやスクリブルによる手作業による編集、あるいは高レベルのセマンティックインプットに条件付けされたイメージを出力するために、深層生成ネットワークを用いて、画像を修正する。 本研究では,高レベルかつ低レベルな操作を組み合わせた背景誘導型内部学習(SIMBIL)を用いたセマンティックイメージマニピュレーションを提案する。 具体的には、ユーザーはシーングラフに変化を加えることで、セマンティックレベルで画像を編集することができる。 そして,修正されたシーングラフに基づいて,画像のピクセルレベルで操作を行う。 私たちのアプローチには2つの大きな利点があります。 まず、シーングラフの高レベルな操作は、生の画像ピクセルを操作するよりも、ユーザによる手作業が少なくなる。 第二に、私たちの低レベルの内部学習アプローチは、トレーニングのための外部視覚データセットに頼ることなく、さまざまなサイズの画像に対してスケーラブルです。 我々は,CLEVRおよびVisual Genomeデータセットの定量的,定性的な評価において,最先端技術よりも優れています。 実験の結果,fidスコア(clevr)が8点改善され,ユーザ評価(視覚ゲノム)が27%向上し,本手法の有効性が示された。

Image manipulation has attracted a lot of interest due to its wide range of applications. Prior work modifies images either from low-level manipulation, such as image inpainting or through manual edits via paintbrushes and scribbles, or from high-level manipulation, employing deep generative networks to output an image conditioned on high-level semantic input. In this study, we propose Semantic Image Manipulation with Background-guided Internal Learning (SIMBIL), which combines high-level and low-level manipulation. Specifically, users can edit an image at the semantic level by applying changes on a scene graph. Then our model manipulates the image at the pixel level according to the modified scene graph. There are two major advantages of our approach. First, high-level manipulation of scene graphs requires less manual effort from the user compared to manipulating raw image pixels. Second, our low-level internal learning approach is scalable to images of various sizes without reliance on external visual datasets for training. We outperform the state-of-the-art in a quantitative and qualitative evaluation on the CLEVR and Visual Genome datasets. Experiments show 8 points improvement on FID scores (CLEVR) and 27% improvement on user evaluation (Visual Genome), demonstrating the effectiveness of our approach.
翻訳日:2022-03-25 14:37:27 公開日:2022-03-24
# スキャン対象物に対する極端CAD検索の微弱化

Weakly-Supervised End-to-End CAD Retrieval to Scan Objects ( http://arxiv.org/abs/2203.12873v1 )

ライセンス: Link先を確認
Tim Beyer, Angela Dai(参考訳) CADモデル検索は,オブジェクトの3次元認識の基礎として,クリーンで軽量なメッシュベースのシーン表現として強く期待されているが,クエリスキャンにCADモデルを検索するための現在のアプローチは,CAD-Scanオブジェクトの1:1の高価な手作業アノテーションに依存している。 そこで本研究では,CAD-Scanアソシエーションを必要とせずに,意味的および構造的に類似したCADモデルをクエリ3Dスキャンシーンに検索する,弱い教師付きアプローチを提案する。 本手法は,完全微分可能な上位$k$検索層を活用し,検索された上位cadモデルの幾何学的および知覚的類似性に導かれるエンドツーエンドのトレーニングを実現する。 提案手法は,実世界のscannetスキャンにおいて,完全教師付き検索手法を上回ることができ,かつ無意味なクラスカテゴリの頑健性を維持し,ゼロショットcad検索において,全教師付き検索性能を大幅に向上できることを実証する。

CAD model retrieval to real-world scene observations has shown strong promise as a basis for 3D perception of objects and a clean, lightweight mesh-based scene representation; however, current approaches to retrieve CAD models to a query scan rely on expensive manual annotations of 1:1 associations of CAD-scan objects, which typically contain strong lower-level geometric differences. We thus propose a new weakly-supervised approach to retrieve semantically and structurally similar CAD models to a query 3D scanned scene without requiring any CAD-scan associations, and only object detection information as oriented bounding boxes. Our approach leverages a fully-differentiable top-$k$ retrieval layer, enabling end-to-end training guided by geometric and perceptual similarity of the top retrieved CAD models to the scan queries. We demonstrate that our weakly-supervised approach can outperform fully-supervised retrieval methods on challenging real-world ScanNet scans, and maintain robustness for unseen class categories, achieving significantly improved performance over fully-supervised state of the art in zero-shot CAD retrieval.
翻訳日:2022-03-25 14:37:08 公開日:2022-03-24
# 頭やタオルを作る: セマンティックに一貫性のある視覚的カウンターファクト

Making Heads or Tails: Towards Semantically Consistent Visual Counterfactuals ( http://arxiv.org/abs/2203.12892v1 )

ライセンス: Link先を確認
Simon Vandenhende, Dhruv Mahajan, Filip Radenovic and Deepti Ghadiyaram(参考訳) 視覚的対物的説明は、クエリ画像内の画像領域をイントラクタ画像から領域に置き換え、変換された画像に対するシステムの判断がイントラクタクラスに変化する。 本研究では,2つの重要な概念に基づいて視覚的対実的説明を計算するための新しい枠組みを提案する。 まず、 \textit{replaced} と \textit{replacer} の領域は、同じ意味的部分を含み、より意味的に一貫した説明をもたらす。 第2に,複数の気晴らし画像を計算効率良く使用し,領域置換の少ないより識別的な説明を得る。 我々のアプローチは$\mathbf{27\%}$より意味論的に一貫性があり、3つのきめ細かい画像認識データセットの競合する手法よりも桁違いに高速である。 我々は、人間に異なる鳥種を分類するように教える機械教育実験を通じて、既存の研究に対するカウンターファクトトゥルムの有用性を強調した。 また、システムの決定に最も寄与した部分と属性の語彙で説明を補完する。 本課題では,既存の著作物に対する反事実的説明を用い,意味論的に一貫性のある説明の重要性を補強する。

A visual counterfactual explanation replaces image regions in a query image with regions from a distractor image such that the system's decision on the transformed image changes to the distractor class. In this work, we present a novel framework for computing visual counterfactual explanations based on two key ideas. First, we enforce that the \textit{replaced} and \textit{replacer} regions contain the same semantic part, resulting in more semantically consistent explanations. Second, we use multiple distractor images in a computationally efficient way and obtain more discriminative explanations with fewer region replacements. Our approach is $\mathbf{27\%}$ more semantically consistent and an order of magnitude faster than a competing method on three fine-grained image recognition datasets. We highlight the utility of our counterfactuals over existing works through machine teaching experiments where we teach humans to classify different bird species. We also complement our explanations with the vocabulary of parts and attributes that contributed the most to the system's decision. In this task as well, we obtain state-of-the-art results when using our counterfactual explanations relative to existing works, reinforcing the importance of semantically consistent explanations.
翻訳日:2022-03-25 14:36:46 公開日:2022-03-24
# FAMLP: 周波数対応のMLPライクなドメイン一般化アーキテクチャ

FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization ( http://arxiv.org/abs/2203.12893v1 )

ライセンス: Link先を確認
Kecheng Zheng, Yang Cao, Kai Zhu, Ruijing Zhao, Zheng-Jun Zha(参考訳) マルチ層パーセプトロン上に構築されたMLPライクなモデルは、最近再検討され、トランスフォーマーと同等の性能を示した。 大規模認識タスクにおけるネットワーク能力と効率の優れたトレードオフのため、最も有望なアーキテクチャの1つである。 しかし、ヘテロジニアスなタスクへの一般化性能は他のアーキテクチャ(例えばCNNやトランスフォーマー)と比べて、ドメイン情報の広範囲な保持により劣っている。 そこで本研究では,領域固有の特徴を変換周波数領域にフィルタし,ラベル予測のための不変ディスクリプタを補強する,周波数対応mlpアーキテクチャを提案する。 具体的には、学習可能な周波数フィルタを用いて、実部と虚部の両方を最適化して振幅分布を調整する適応的なフーリエフィルタ層を設計する。 SVD分解から低周波成分を加えることによりフィルタ特徴を補正する低ランク拡張モジュールも提案されている。 最後に, 重み付き履歴状態の出力蒸留によるモデルパラメータと入力の変動に対する最適化を安定化するために, モーメント更新戦略を利用する。 ドメイン一般化のための MLP に似たバックボーンを最初に提案する。 3つのベンチマークの大規模な実験は、最先端の手法をそれぞれ3%、4%、9%のマージンで上回り、大きな一般化性能を示した。

MLP-like models built entirely upon multi-layer perceptrons have recently been revisited, exhibiting the comparable performance with transformers. It is one of most promising architectures due to the excellent trade-off between network capability and efficiency in the large-scale recognition tasks. However, its generalization performance to heterogeneous tasks is inferior to other architectures (e.g., CNNs and transformers) due to the extensive retention of domain information. To address this problem, we propose a novel frequency-aware MLP architecture, in which the domain-specific features are filtered out in the transformed frequency domain, augmenting the invariant descriptor for label prediction. Specifically, we design an adaptive Fourier filter layer, in which a learnable frequency filter is utilized to adjust the amplitude distribution by optimizing both the real and imaginary parts. A low-rank enhancement module is further proposed to rectify the filtered features by adding the low-frequency components from SVD decomposition. Finally, a momentum update strategy is utilized to stabilize the optimization to fluctuation of model parameters and inputs by the output distillation with weighted historical states. To our best knowledge, we are the first to propose a MLP-like backbone for domain generalization. Extensive experiments on three benchmarks demonstrate significant generalization performance, outperforming the state-of-the-art methods by a margin of 3%, 4% and 9%, respectively.
翻訳日:2022-03-25 14:36:25 公開日:2022-03-24
# シャドーハンドリングによる形状回復のためのニューラルリフレクタンス

Neural Reflectance for Shape Recovery with Shadow Handling ( http://arxiv.org/abs/2203.12909v1 )

ライセンス: Link先を確認
Junxuan Li and Hongdong Li(参考訳) 本論文は,非ランベルト的かつ空間的に変化する表面材料を用いて,シーンの形状を復元することを目的とする。 物体の形状が非常に複雑で、その影が表面に投げ込まれると、その作業は非常に困難になる。 これらの課題を克服するために,各面における未知の3次元形状と未知の反射率の両方をパラメータ化するための座標ベースディープMLP (multilayer perceptron) を提案する。 このネットワークは、観測された表面の光度分散と影を活用でき、表面形状と一般の非ランベルト反射の両方を回復することができる。 キャストシャドウを明示的に予測し,これらのシャドウ領域のアーティファクトを軽減し,高い推定精度を実現する。 我々の枠組みは完全に自己管理されており、真理やBRDFは必要としない。 実世界の画像によるテストでは,提案手法が既存手法をかなり上回っています。 MLP-netの小型化により,本手法は従来のCNN方式よりも桁違いに高速である。

This paper aims at recovering the shape of a scene with unknown, non-Lambertian, and possibly spatially-varying surface materials. When the shape of the object is highly complex and that shadows cast on the surface, the task becomes very challenging. To overcome these challenges, we propose a coordinate-based deep MLP (multilayer perceptron) to parameterize both the unknown 3D shape and the unknown reflectance at every surface point. This network is able to leverage the observed photometric variance and shadows on the surface, and recover both surface shape and general non-Lambertian reflectance. We explicitly predict cast shadows, mitigating possible artifacts on these shadowing regions, leading to higher estimation accuracy. Our framework is entirely self-supervised, in the sense that it requires neither ground truth shape nor BRDF. Tests on real-world images demonstrate that our method outperform existing methods by a significant margin. Thanks to the small size of the MLP-net, our method is an order of magnitude faster than previous CNN-based methods.
翻訳日:2022-03-25 14:36:03 公開日:2022-03-24
# WarpingGAN: 逆3Dポイントクラウド生成のための複数種類のプリミティブのウォーピング

WarpingGAN: Warping Multiple Uniform Priors for Adversarial 3D Point Cloud Generation ( http://arxiv.org/abs/2203.12917v1 )

ライセンス: Link先を確認
Yingzhi Tang, Yue Qian, Qijian Zhang, Yiming Zeng, Junhui Hou, Xuefei Zhe(参考訳) 本稿では,効率的な3Dポイントクラウド生成ネットワークであるWarpingGANを提案する。 潜在符号と3次元形状のマッピング関数を直接学習することで点雲を生成する既存の方法とは異なり、ウォーピングGANは、複数の同一の事前定義された事前定義(すなわち、通常の3Dグリッド上に均一に分散された点の集合)を局所構造認識セマンティクスによって駆動される3次元形状にワープする統一された局所ワープ関数を学習する。 また, 識別器の原理を巧みに活用し, 縫合損失を調整し, 品質向上のために, 異なるプリエントに対応する生成形状の異なる分割間隙を解消する。 新規な生成機構により、ワンタイムトレーニング後の単一軽量ネットワークであるwarpingganは、様々な解像度で均一に分散した3dポイント雲を効率的に生成することができる。 定量的指標,視覚的品質,効率の観点から,最先端手法よりもWarpingGANの方が優れていることを示す。 ソースコードはhttps://github.com/yztang4/WarpingGAN.gitで公開されている。

We propose WarpingGAN, an effective and efficient 3D point cloud generation network. Unlike existing methods that generate point clouds by directly learning the mapping functions between latent codes and 3D shapes, Warping-GAN learns a unified local-warping function to warp multiple identical pre-defined priors (i.e., sets of points uniformly distributed on regular 3D grids) into 3D shapes driven by local structure-aware semantics. In addition, we also ingeniously utilize the principle of the discriminator and tailor a stitching loss to eliminate the gaps between different partitions of a generated shape corresponding to different priors for boosting quality. Owing to the novel generating mechanism, WarpingGAN, a single lightweight network after one-time training, is capable of efficiently generating uniformly distributed 3D point clouds with various resolutions. Extensive experimental results demonstrate the superiority of our WarpingGAN over state-of-the-art methods in terms of quantitative metrics, visual quality, and efficiency. The source code is publicly available at https://github.com/yztang4/WarpingGAN.git.
翻訳日:2022-03-25 14:35:46 公開日:2022-03-24
# 固定サブセンター: データの複雑さを捉えるためのより良い方法

The Fixed Sub-Center: A Better Way to Capture Data Complexity ( http://arxiv.org/abs/2203.12928v1 )

ライセンス: Link先を確認
Zhemin Zhang, Xun Gong(参考訳) 単一の中心を持つクラスを扱うことは、データ分散の複雑さをほとんど捉えない。 複数のサブセンターを使用することは、この問題に対処する別の方法である。 しかし、高度に相関したサブクラスでは、分類器のパラメータはクラス数と線形に成長し、クラス内コンパクト性の欠如は、既存のマルチサブクラスメソッドで対処する必要がある3つの典型的な問題である。 そこで本研究では,メモリを節約し計算コストを大幅に削減しながら,より離散的なサブセンタを作成できる固定サブセンタ(f-sc)を提案する。 F-SCは、まず一様分布から各クラスのクラス中心 Ui をサンプリングし、平均が Ui に等しい各クラスに対して正規分布を生成する。 最後に、各クラスに対応する正規分布に基づいてサブセンタをサンプリングし、勾配計算のオーバーヘッドを回避するためにトレーニングプロセス中にサブセンタを固定する。 さらに、F-SCはサンプルとそれに対応する部分中心の間のユークリッド距離をペナル化する。 実験の結果,f-scは画像分類と細粒度認識タスクの両方の精度を大幅に向上させた。

Treating class with a single center may hardly capture data distribution complexities. Using multiple sub-centers is an alternative way to address this problem. However, highly correlated sub-classes, the classifier's parameters grow linearly with the number of classes, and lack of intra-class compactness are three typical issues that need to be addressed in existing multi-subclass methods. To this end, we propose to use Fixed Sub-Center (F-SC), which allows the model to create more discrepant sub-centers while saving memory and cutting computational costs considerably. The F-SC specifically, first samples a class center Ui for each class from a uniform distribution, and then generates a normal distribution for each class, where the mean is equal to Ui. Finally, the sub-centers are sampled based on the normal distribution corresponding to each class, and the sub-centers are fixed during the training process avoiding the overhead of gradient calculation. Moreover, F-SC penalizes the Euclidean distance between the samples and their corresponding sub-centers, it helps remain intra-compactness. The experimental results show that F-SC significantly improves the accuracy of both image classification and fine-grained recognition tasks.
翻訳日:2022-03-25 14:35:24 公開日:2022-03-24
# ジオメトリは視覚的ローカライゼーションのマッチングに十分か?

Is Geometry Enough for Matching in Visual Localization? ( http://arxiv.org/abs/2203.12979v1 )

ライセンス: Link先を確認
Qunjie Zhou, Sergio Agostinho, Aljosa Osep, Laura Leal-Taixe(参考訳) 本稿では,問合せ画像と3dポイントクラウド間の視覚ディスクリプタマッチングに依存する,視覚ベースのローカライゼーションに対する確立したアプローチを超越することを提案する。 ビジュアルディスクリプタによるキーポイントのマッチングは、ローカライゼーションを極めて正確にするが、ストレージの要求が大きくなり、プライバシの懸念が高まり、マップメンテナンスの複雑さが増す。 画像のキーポイントを地図にマッチングするための幾何学的情報のみに依存する視覚ベースのマッチングの代替として,軸受ベクトルの集合として表現されるgomatchを提案する。 提案する軸受ベクトルによる3d点表現は,実環境における局所化への先行作業の妨げとなる幾何学的マッチングにおける領域横断的課題を著しく軽減する。 さらなる注意深いアーキテクチャ設計により、gomatchは以前の幾何学ベースのマッチング作業よりも改善され、ケンブリッジのランドマークと7つのシーンにおける平均的な中央値のポーズエラー(英語版)で10.67m$, 95.7^{\circ}$)と (1.43m$, $334.7^{\circ}$) を削減した。 このことは、実世界のローカライゼーションの可能性と実現可能性を確認し、視覚ディスクリプタを格納する必要のない都市規模の視覚的ローカライゼーション手法の進展への扉を開く。

In this paper, we propose to go beyond the well-established approach to vision-based localization that relies on visual descriptor matching between a query image and a 3D point cloud. While matching keypoints via visual descriptors makes localization highly accurate, it has significant storage demands, raises privacy concerns and increases map maintenance complexity. To elegantly address those practical challenges for large-scale localization, we present GoMatch, an alternative to visual-based matching that solely relies on geometric information for matching image keypoints to maps, represented as sets of bearing vectors. Our novel bearing vectors representation of 3D points, significantly relieves the cross-domain challenge in geometric-based matching that prevented prior work to tackle localization in a realistic environment. With additional careful architecture design, GoMatch improves over prior geometric-based matching work with a reduction of ($10.67m, 95.7^{\circ}$) and ($1.43m$, $34.7^{\circ}$) in average median pose errors on Cambridge Landmarks and 7-Scenes, while requiring as little as $1.5/1.7\%$ of storage capacity in comparison to the best visual-based matching methods. This confirms its potential and feasibility for real-world localization and opens the door to future efforts in advancing city-scale visual localization methods that do not require storing visual descriptors.
翻訳日:2022-03-25 14:34:20 公開日:2022-03-24
# ワンショットプログレッシブフェイススワッピングにおける不連続表現の学習

Learning Disentangled Representation for One-shot Progressive Face Swapping ( http://arxiv.org/abs/2203.12985v1 )

ライセンス: Link先を確認
Qi Li, Weining Wang, Chengzhong Xu, Zhenan Sun(参考訳) 近年、顔交換が注目されているが、依然として難しい問題である。 既存の手法では, 顔画像の意味情報を考慮せずに, 顔スワッピングの固有特性を探索するために, 多数のデータサンプルを利用する。 さらに、識別情報の表現は固定されがちであり、最適な顔交換につながる。 本稿では,ジェネレーティブ・アドバイサル・ネットワークに基づくワンショット顔交換のための,FaceSwapperというシンプルで効率的な方法を提案する。 提案手法は,不整合表現モジュールと意味誘導融合モジュールからなる。 disentangled representationモジュールは、属性エンコーダとidエンコーダで構成されており、idと属性情報の異方性を達成することを目的としている。 アイデンティティエンコーダはより柔軟で、属性エンコーダは競合相手よりも属性の詳細を含んでいる。 FaceSwapperは、歪んだ表現から恩恵を受け、徐々に顔画像を取り替えることができる。 また、セマンティクス誘導型融合モジュールにセマンティクス情報を導入し、スワップ領域を制御し、より正確にポーズや表情をモデル化する。 実験の結果,本手法はトレーニングサンプルの少ないベンチマークデータセットにおいて最先端の結果を得ることができた。 私たちのコードはhttps://github.com/liqi-casia/FaceSwapper.comで公開されています。

Although face swapping has attracted much attention in recent years, it remains a challenging problem. The existing methods leverage a large number of data samples to explore the intrinsic properties of face swapping without taking into account the semantic information of face images. Moreover, the representation of the identity information tends to be fixed, leading to suboptimal face swapping. In this paper, we present a simple yet efficient method named FaceSwapper, for one-shot face swapping based on Generative Adversarial Networks. Our method consists of a disentangled representation module and a semantic-guided fusion module. The disentangled representation module is composed of an attribute encoder and an identity encoder, which aims to achieve the disentanglement of the identity and the attribute information. The identity encoder is more flexible and the attribute encoder contains more details of the attributes than its competitors. Benefiting from the disentangled representation, FaceSwapper can swap face images progressively. In addition, semantic information is introduced into the semantic-guided fusion module to control the swapped area and model the pose and expression more accurately. The experimental results show that our method achieves state-of-the-art results on benchmark datasets with fewer training samples. Our code is publicly available at https://github.com/liqi-casia/FaceSwapper.
翻訳日:2022-03-25 14:33:50 公開日:2022-03-24
# メタ知識エンコードによる複合ドメインの一般化

Compound Domain Generalization via Meta-Knowledge Encoding ( http://arxiv.org/abs/2203.13006v1 )

ライセンス: Link先を確認
Chaoqi Chen, Jiongcheng Li, Xiaoguang Han, Xiaoqing Liu, Yizhou Yu(参考訳) ドメイン一般化(DG)は、複数のソースドメインの知識を用いて、目に見えないターゲットドメインの一般化性能を改善することを目的としている。 メインストリームDG法は、典型的には、各ソースサンプルのドメインラベルがプリミティブとして知られており、多くの現実世界のアプリケーションで満足することが課題である。 本稿では、離散領域仮定を混合ソース領域設定に緩和する複合DGの実践的問題について検討する。 一方、現在のDGアルゴリズムでは、ドメイン間の意味的不変性(1対vs-one)に重点を置いている一方で、全体論的意味構造(many-vs-many)にはあまり注意を払わない。 このような包括的意味構造はメタ知識と呼ばれ、一般化可能な表現を学ぶのに不可欠である。 そこで本研究では,2つのステップで潜在ドメインを自動的に発見・モデル化する手法であるmeta-knowledge encoding (comen) による複合ドメイン一般化を提案する。 まず,マルチモーダル分布を再正規化するために,スタイル駆動型ドメイン固有正規化(SDNorm)を導入し,ソースドメインの混合を潜在クラスタに分割する。 次に, 組込み空間における2つの並列および相補的加群による関係モデリングを行うために, クラスセントロイドのプロトタイプ表現を用いて, 分布外一般化のセマンティック構造を明示的にエンコードする。 4つの標準DGベンチマークの実験により、COMENはドメインの監督なしに最先端のパフォーマンスを上回ることが判明した。

Domain generalization (DG) aims to improve the generalization performance for an unseen target domain by using the knowledge of multiple seen source domains. Mainstream DG methods typically assume that the domain label of each source sample is known a priori, which is challenged to be satisfied in many real-world applications. In this paper, we study a practical problem of compound DG, which relaxes the discrete domain assumption to the mixed source domains setting. On the other hand, current DG algorithms prioritize the focus on semantic invariance across domains (one-vs-one), while paying less attention to the holistic semantic structure (many-vs-many). Such holistic semantic structure, referred to as meta-knowledge here, is crucial for learning generalizable representations. To this end, we present Compound Domain Generalization via Meta-Knowledge Encoding (COMEN), a general approach to automatically discover and model latent domains in two steps. Firstly, we introduce Style-induced Domain-specific Normalization (SDNorm) to re-normalize the multi-modal underlying distributions, thereby dividing the mixture of source domains into latent clusters. Secondly, we harness the prototype representations, the centroids of classes, to perform relational modeling in the embedding space with two parallel and complementary modules, which explicitly encode the semantic structure for the out-of-distribution generalization. Experiments on four standard DG benchmarks reveal that COMEN exceeds the state-of-the-art performance without the need of domain supervision.
翻訳日:2022-03-25 14:33:27 公開日:2022-03-24
# 構造的変分クロスグラフ対応学習による合成時間的接地

Compositional Temporal Grounding with Structured Variational Cross-Graph Correspondence Learning ( http://arxiv.org/abs/2203.13049v1 )

ライセンス: Link先を確認
Juncheng Li, Junlin Xie, Long Qian, Linchao Zhu, Siliang Tang, Fei Wu, Yi Yang, Yueting Zhuang, Xin Eric Wang(参考訳) ビデオの時間的接地は、あるクエリ文に意味的に対応する1つのターゲットビデオセグメントをローカライズすることを目的としている。 自然言語の記述の多様さにより、時間的接地により、事前に定義されたクラスを超えて活動が基盤となり、近年注目を集めている。 意味の多様性は言語学における構成性の原理に根ざしており、新しい意味論は、既知の単語を新しい方法で結合することで体系的に記述することができる。 しかし、現在の時間的グラウンドデータセットは、組成の一般化性について具体的にはテストしていない。 時間的接地モデルの合成汎性を体系的に測定するために,新しい時間的接地タスクを導入し,2つの新しいデータセット分割,すなわちcharades-cgとactivitynet-cgを構築した。 新しいデータセットスプリットにおける最先端のメソッドの評価では、見てきた単語の新しい組み合わせでクエリに一般化できないことが実証的に分かりました。 この課題に取り組むために,ビデオと言語を複数の構造化階層に明示的に分解し,それらの間の詳細な意味的対応を学ぶ変分的クロスグラフ推論フレームワークを提案する。 実験は、我々のアプローチの優れた構成一般化性を示す。 この作業のリポジトリはhttps://github.com/YYJMJC/ Composal-Temporal-Groundingにある。

Temporal grounding in videos aims to localize one target video segment that semantically corresponds to a given query sentence. Thanks to the semantic diversity of natural language descriptions, temporal grounding allows activity grounding beyond pre-defined classes and has received increasing attention in recent years. The semantic diversity is rooted in the principle of compositionality in linguistics, where novel semantics can be systematically described by combining known words in novel ways (compositional generalization). However, current temporal grounding datasets do not specifically test for the compositional generalizability. To systematically measure the compositional generalizability of temporal grounding models, we introduce a new Compositional Temporal Grounding task and construct two new dataset splits, i.e., Charades-CG and ActivityNet-CG. Evaluating the state-of-the-art methods on our new dataset splits, we empirically find that they fail to generalize to queries with novel combinations of seen words. To tackle this challenge, we propose a variational cross-graph reasoning framework that explicitly decomposes video and language into multiple structured hierarchies and learns fine-grained semantic correspondence among them. Experiments illustrate the superior compositional generalizability of our approach. The repository of this work is at https://github.com/YYJMJC/ Compositional-Temporal-Grounding.
翻訳日:2022-03-25 14:32:59 公開日:2022-03-24
# azinorm: azimuth正規化3次元知覚における点雲の半径対称性の活用

AziNorm: Exploiting the Radial Symmetry of Point Cloud for Azimuth-Normalized 3D Perception ( http://arxiv.org/abs/2203.13090v1 )

ライセンス: Link先を確認
Shaoyu Chen, Xinggang Wang, Tianheng Cheng, Wenqiang Zhang, Qian Zhang, Chang Huang and Wenyu Liu(参考訳) データの固有対称性の研究は、機械学習において非常に重要である。 ポイントクラウドは3次元環境知覚において最も重要なデータフォーマットであり、強い放射対称性を持つ。 本研究では,この放射対称性を利用して3次元知覚性能を向上し,最適化を容易にする。 Azimuth Normalization (AziNorm) を提案する。これは、半径方向に沿った点雲を正規化し、方位差による変動を解消する。 AziNormは、ほとんどのLiDARベースの知覚方法に柔軟に組み込むことができる。 その有効性と一般化能力を検証するため、オブジェクト検出とセマンティックセグメンテーションの両方にAziNormを適用する。 検出には、AziNormを1段のSECOND検出器と最先端のPV-RCNN検出器の2つの代表的な検出方法に統合する。 Waymo Open Datasetの実験では、AziNormはSECONDとPV-RCNNをそれぞれ7.03mAPHと3.01mAPHで改善している。 セグメンテーションでは、AziNormをKPConvに統合します。 SemanticKittiデータセットでは、AziNormはval/testセットでKPConvを1.6/1 mIoU改善する。 さらに、AziNormはデータ効率を大幅に改善し、収束を加速し、データ量やエポックのトレーニングを桁違いに削減する。 SECOND w/AziNormは、10%のデータまたは10%のエポックでトレーニングされた、完全にトレーニングされたバニラSECONDを大幅に上回る。 コードとモデルはhttps://github.com/hustvl/AziNorm.comで入手できる。

Studying the inherent symmetry of data is of great importance in machine learning. Point cloud, the most important data format for 3D environmental perception, is naturally endowed with strong radial symmetry. In this work, we exploit this radial symmetry via a divide-and-conquer strategy to boost 3D perception performance and ease optimization. We propose Azimuth Normalization (AziNorm), which normalizes the point clouds along the radial direction and eliminates the variability brought by the difference of azimuth. AziNorm can be flexibly incorporated into most LiDAR-based perception methods. To validate its effectiveness and generalization ability, we apply AziNorm in both object detection and semantic segmentation. For detection, we integrate AziNorm into two representative detection methods, the one-stage SECOND detector and the state-of-the-art two-stage PV-RCNN detector. Experiments on Waymo Open Dataset demonstrate that AziNorm improves SECOND and PV-RCNN by 7.03 mAPH and 3.01 mAPH respectively. For segmentation, we integrate AziNorm into KPConv. On SemanticKitti dataset, AziNorm improves KPConv by 1.6/1.1 mIoU on val/test set. Besides, AziNorm remarkably improves data efficiency and accelerates convergence, reducing the requirement of data amounts or training epochs by an order of magnitude. SECOND w/ AziNorm can significantly outperform fully trained vanilla SECOND, even trained with only 10% data or 10% epochs. Code and models are available at https://github.com/hustvl/AziNorm.
翻訳日:2022-03-25 14:32:36 公開日:2022-03-24
# IA-FaceS, 双方向手法, 分散属性操作, フレキシブルコンポーネント編集

IA-FaceS, Bidirectional Method, Disentangled Attribute Manipulation, Flexible Component Editing ( http://arxiv.org/abs/2203.13097v1 )

ライセンス: Link先を確認
Wenjing Huang, Shikui Tu, Lei Xu(参考訳) 意味的な顔編集は近年大きく進歩している。 潜時空間操作は,ユーザを絵画スキルから解放するために,入力面の潜時符号を変更して顔編集を行う。 しかし、従来の潜時空間操作法は、顔全体を単一の低次元埋め込みに符号化し、眼や鼻などの顔成分の復元能力と制御の柔軟性を制限した。 本稿では,画像中のセグメンテーションマスクやスケッチを必要とせずに,顔属性操作を柔軟かつ制御可能なコンポーネント編集を行う双方向手法としてia-facesを提案する。 再構成能力と制御柔軟性のバランスをとるために、エンコーダを多面構造として設計し、それぞれ、一貫した再構成のための空間特性を持つ高次元テンソルと、セマンティック顔編集のための4つの低次元顔成分埋め込みとを有する。 別々のコンポーネント埋め込みを操作することは、異種属性操作と顔コンポーネントの柔軟な制御を実現するのに役立つ。 関連性の高いコンポーネントをさらに切り離すために、デコーダに対してコンポーネント適応変調(CAM)モジュールを提案する。 セグメンテーションマスクやスケッチのような入力視覚的なガイダンスなしで、セマンティック・シングルアイ編集が最初に開発される。 実験結果によると、IA-FaceSは画像の詳細の維持とフレキシブルな顔操作のバランスを確立する。 定量的および定性的な結果から,提案手法は再構成,顔属性操作,コンポーネント転送において,他の手法よりも優れていた。

Semantic face editing has achieved substantial progress in recent years. Known as a growingly popular method, latent space manipulation performs face editing by changing the latent code of an input face to liberate users from painting skills. However, previous latent space manipulation methods usually encode an entire face into a single low-dimensional embedding, which constrains the reconstruction capacity and the control flexibility of facial components, such as eyes and nose. This paper proposes IA-FaceS as a bidirectional method for disentangled face attribute manipulation as well as flexible, controllable component editing without the need for segmentation masks or sketches in the original image. To strike a balance between the reconstruction capacity and the control flexibility, the encoder is designed as a multi-head structure to yield embeddings for reconstruction and control, respectively: a high-dimensional tensor with spatial properties for consistent reconstruction and four low-dimensional facial component embeddings for semantic face editing. Manipulating the separate component embeddings can help achieve disentangled attribute manipulation and flexible control of facial components. To further disentangle the highly-correlated components, a component adaptive modulation (CAM) module is proposed for the decoder. The semantic single-eye editing is developed for the first time without any input visual guidance, such as segmentation masks or sketches. According to the experimental results, IA-FaceS establishes a good balance between maintaining image details and performing flexible face manipulation. Both quantitative and qualitative results indicate that the proposed method outperforms the other techniques in reconstruction, face attribute manipulation, and component transfer.
翻訳日:2022-03-25 14:30:58 公開日:2022-03-24
# r-dfcil:データフリークラスインクリメンタル学習のための関係誘導表現学習

R-DFCIL: Relation-Guided Representation Learning for Data-Free Class Incremental Learning ( http://arxiv.org/abs/2203.13104v1 )

ライセンス: Link先を確認
Qiankun Gao, Chen Zhao, Bernard Ghanem, Jian Zhang(参考訳) 新しい知識を学ぶとき、クラスインクリメンタル学習(cil)は壊滅的な忘れに苦しむが、データフリー学習(dfcil)は以前のクラスのトレーニングデータにアクセスせずにさらに難しい。 近年のDFCIL研究は、過去のクラスのデータを合成するためのモデル反転のような手法を導入しているが、合成データと実データの間に深刻な領域ギャップがあるため、忘れを克服することはできなかった。 本稿では,R-DFCIL と呼ばれる DFCIL に対する関係誘導型表現学習 (RRL) を提案する。 RRLでは,従来のモデルから現在のモデルへ,新しいデータの構造的関係を柔軟に伝達する関係知識蒸留を導入する。 rrlで起動したdfcilは,既存クラスの表現との互換性が向上する新クラスの表現を学習するために,現在のモデルをガイドすることができる。 表現と分類器学習の相互干渉を避けるため,rrlにおけるグローバル分類損失よりも局所的手法を採用する。 RRL後、分類ヘッドはグローバルなクラスバランスの分類損失に微調整され、データ不均衡問題に対処し、新しいクラスと前のクラスの決定境界を学習する。 CIFAR100, Tiny-ImageNet200, ImageNet100の大規模な実験により、我々のR-DFCILが従来のアプローチを大幅に上回り、DFCILの新たな最先端性能を実現することを示した。

Class-Incremental Learning (CIL) struggles with catastrophic forgetting when learning new knowledge, and Data-Free CIL (DFCIL) is even more challenging without access to the training data of previous classes. Though recent DFCIL works introduce techniques such as model inversion to synthesize data for previous classes, they fail to overcome forgetting due to the severe domain gap between the synthetic and real data. To address this issue, this paper proposes relation-guided representation learning (RRL) for DFCIL, dubbed R-DFCIL. In RRL, we introduce relational knowledge distillation to flexibly transfer the structural relation of new data from the old model to the current model. Our RRL-boosted DFCIL can guide the current model to learn representations of new classes better compatible with representations of previous classes, which greatly reduces forgetting while improving plasticity. To avoid the mutual interference between representation and classifier learning, we employ local rather than global classification loss during RRL. After RRL, the classification head is fine-tuned with global class-balanced classification loss to address the data imbalance issue as well as learn the decision boundary between new and previous classes. Extensive experiments on CIFAR100, Tiny-ImageNet200, and ImageNet100 demonstrate that our R-DFCIL significantly surpasses previous approaches and achieves a new state-of-the-art performance for DFCIL.
翻訳日:2022-03-25 14:30:30 公開日:2022-03-24
# 3次元における行動目標のエゴセントリック予測

Egocentric Prediction of Action Target in 3D ( http://arxiv.org/abs/2203.13116v1 )

ライセンス: Link先を確認
Yiming Li and Ziang Cao and Andrew Liang and Benjamin Liang and Luoyao Chen and Hang Zhao and Chen Feng(参考訳) 我々は、エゴセントリックビジョンから3dワークスペースにおける物体操作動作の目標位置を、できるだけ早く予測することに興味を持っている。 人間とロボットのコラボレーションのような分野では重要であるが、まだビジョンや学習コミュニティから十分な注目を集めていない。 そこで我々は,この難易度の高い視覚課題について,RGB-DおよびIMUストリーム100万フレーム以上の大規模マルチモーダルデータセットを提案し,半自動アノテーションによる高品質な2Dおよび3Dラベルに基づく評価指標を提供する。 一方,リカレントニューラルネットワークを用いたベースライン手法の設計を行い,その有効性を検証するために様々なアブレーション研究を行う。 この新たな課題は、ロボット工学、ビジョン、学習コミュニティの研究者によるさらなる研究に値することを示す。

We are interested in anticipating as early as possible the target location of a person's object manipulation action in a 3D workspace from egocentric vision. It is important in fields like human-robot collaboration, but has not yet received enough attention from vision and learning communities. To stimulate more research on this challenging egocentric vision task, we propose a large multimodality dataset of more than 1 million frames of RGB-D and IMU streams, and provide evaluation metrics based on our high-quality 2D and 3D labels from semi-automatic annotation. Meanwhile, we design baseline methods using recurrent neural networks and conduct various ablation studies to validate their effectiveness. Our results demonstrate that this new task is worthy of further study by researchers in robotics, vision, and learning communities.
翻訳日:2022-03-25 14:30:01 公開日:2022-03-24
# 移動ウィンドウ回帰: 正規回帰に対する新しいアプローチ

Moving Window Regression: A Novel Approach to Ordinal Regression ( http://arxiv.org/abs/2203.13122v1 )

ライセンス: Link先を確認
Nyeong-Ho Shin, Seon-Ho Lee, Chang-Su Kim(参考訳) 本稿では,移動窓回帰 (move window regression, mwr) と呼ばれる新しい順序回帰アルゴリズムを提案する。 まず、入力および参照インスタンスに対する新しい順序表現スキームである相対ランク(\rho$-rank)の概念を提案する。 第2に、グローバルおよびローカルな相対回帰器($\rho$-regressors)を開発し、各ランクの範囲内で、それぞれ$\rho$-ranksを予測する。 第3に,検索ウィンドウを構成する2つの参照インスタンスを選択し,ウィンドウ内の$\rho$-rankを推定することで,最初のランク推定を反復的に洗練する。 実験結果から,提案アルゴリズムは顔の年齢推定や歴史的色彩画像分類のための様々なベンチマークデータセット上で,最先端の性能を実現することが示された。 コードはhttps://github.com/nhshin-mcl/mwrで入手できる。

A novel ordinal regression algorithm, called moving window regression (MWR), is proposed in this paper. First, we propose the notion of relative rank ($\rho$-rank), which is a new order representation scheme for input and reference instances. Second, we develop global and local relative regressors ($\rho$-regressors) to predict $\rho$-ranks within entire and specific rank ranges, respectively. Third, we refine an initial rank estimate iteratively by selecting two reference instances to form a search window and then estimating the $\rho$-rank within the window. Extensive experiments results show that the proposed algorithm achieves the state-of-the-art performances on various benchmark datasets for facial age estimation and historical color image classification. The codes are available at https://github.com/nhshin-mcl/MWR.
翻訳日:2022-03-25 14:29:48 公開日:2022-03-24
# 音声合成のための階層的クロスモーダルアソシエーションの学習

Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation ( http://arxiv.org/abs/2203.13161v1 )

ライセンス: Link先を確認
Xian Liu, Qianyi Wu, Hang Zhou, Yinghao Xu, Rui Qian, Xinyi Lin, Xiaowei Zhou, Wayne Wu, Bo Dai, Bolei Zhou(参考訳) 音声一貫性のある身体とジェスチャーの動きの生成は、仮想アバター作成における長年の問題である。 以前の研究はしばしば、すべての関節のポーズを同時に生成する全体的な方法でポーズを合成する。 このような単純なパイプラインは、きめ細かい音声のジェスチャーを生成できない。 1つの観察は、音声における階層的意味論と人間のジェスチャーの階層的構造は、自然に複数の粒度に記述され、関連付けられることである。 音声音声と人間のジェスチャーのリッチな接続をフル活用するために,音声合成のための階層型ジェスチャー生成(HA2G)という新しいフレームワークを提案する。 HA2Gでは、階層型オーディオ学習者が意味的な粒度を越えて音声表現を抽出する。 階層的なポース推論はその後、階層的な方法で人間全体のポーズを徐々にレンダリングする。 合成ジェスチャの品質を向上させるため,音声テキストアライメントに基づくコントラスト学習戦略を開発し,より優れた音声表現を実現する。 広範にわたる実験と人的評価により,提案手法が現実的に協調ジェスチャを表現し,従来の手法を明確なマージンで上回ることを示した。 プロジェクトページ: https://alvinliu0.github.io/projects/ha2g

Generating speech-consistent body and gesture movements is a long-standing problem in virtual avatar creation. Previous studies often synthesize pose movement in a holistic manner, where poses of all joints are generated simultaneously. Such a straightforward pipeline fails to generate fine-grained co-speech gestures. One observation is that the hierarchical semantics in speech and the hierarchical structures of human gestures can be naturally described into multiple granularities and associated together. To fully utilize the rich connections between speech audio and human gestures, we propose a novel framework named Hierarchical Audio-to-Gesture (HA2G) for co-speech gesture generation. In HA2G, a Hierarchical Audio Learner extracts audio representations across semantic granularities. A Hierarchical Pose Inferer subsequently renders the entire human pose gradually in a hierarchical manner. To enhance the quality of synthesized gestures, we develop a contrastive learning strategy based on audio-text alignment for better audio representations. Extensive experiments and human evaluation demonstrate that the proposed method renders realistic co-speech gestures and outperforms previous methods in a clear margin. Project page: https://alvinliu0.github.io/projects/HA2G
翻訳日:2022-03-25 14:29:34 公開日:2022-03-24
# ビデオ顔クラスタリングのための自己教師付きビデオ集中トランス

Self-supervised Video-centralised Transformer for Video Face Clustering ( http://arxiv.org/abs/2203.13166v1 )

ライセンス: Link先を確認
Yujiang Wang, Mingzhi Dong, Jie Shen, Yiming Luo, Yiming Lin, Pingchuan Ma, Stavros Petridis, Maja Pantic(参考訳) 本稿では,ビデオ集中型トランスを用いたビデオの顔クラスタリング手法を提案する。 以前の作品では、フレームレベルの表現を学ぶために対比学習を使い、時間次元に沿って特徴を集約するために平均プールを使った。 このアプローチは複雑なビデオダイナミクスを完全には捉えないかもしれない。 さらに、ビデオベースのコントラスト学習の最近の進歩にもかかわらず、ビデオ顔クラスタリングタスクに有利な自己教師ありクラスタリングフレンドリーな顔表現を学ぼうとする試みはほとんどない。 これらの制限を克服するために,ビデオ内の顔の時間的変化を反映できる映像レベルの表現を直接学習するトランスフォーマーと,トランスフォーマーモデルをトレーニングするためのビデオ集中型自己教師型フレームワークを提案する。 また,顔クラスタリングに関する研究ではまだ研究されていない,エゴセントリックビデオにおける顔クラスタリングについても検討した。 この目的のために、我々はEasyCom-Clusteringという名前の大規模なビデオ顔クラスタリングデータセットを提示、リリースする。 提案手法は,広く使用されているBig Bang Theory(BBT)データセットと新しいEasyCom-Clusteringデータセットの両方で評価する。 その結果,ビデオ集中トランスフォーマーの性能は,両ベンチマークで従来の最先端手法を上回っており,顔映像に対する自己注意的な理解が得られている。

This paper presents a novel method for face clustering in videos using a video-centralised transformer. Previous works often employed contrastive learning to learn frame-level representation and used average pooling to aggregate the features along the temporal dimension. This approach may not fully capture the complicated video dynamics. In addition, despite the recent progress in video-based contrastive learning, few have attempted to learn a self-supervised clustering-friendly face representation that benefits the video face clustering task. To overcome these limitations, our method employs a transformer to directly learn video-level representations that can better reflect the temporally-varying property of faces in videos, while we also propose a video-centralised self-supervised framework to train the transformer model. We also investigate face clustering in egocentric videos, a fast-emerging field that has not been studied yet in works related to face clustering. To this end, we present and release the first large-scale egocentric video face clustering dataset named EasyCom-Clustering. We evaluate our proposed method on both the widely used Big Bang Theory (BBT) dataset and the new EasyCom-Clustering dataset. Results show the performance of our video-centralised transformer has surpassed all previous state-of-the-art methods on both benchmarks, exhibiting a self-attentive understanding of face videos.
翻訳日:2022-03-25 14:29:16 公開日:2022-03-24
# 量子運動セグメンテーション

Quantum Motion Segmentation ( http://arxiv.org/abs/2203.13185v1 )

ライセンス: Link先を確認
Federica Arrigoni, Willi Menapace, Marcel Seelbach Benkner, Elisa Ricci, Vladislav Golyanik(参考訳) モーションセグメンテーションは、2つまたは複数の入力画像中の独立な動きを識別しようとする難しい問題である。 本稿では,対象関数の断熱量子最適化に依拠した最初の動き分割アルゴリズムを提案する。 提案手法は,現代の量子アニーラーにマッピング可能な問題インスタンス上での最先端技術を用いて,オンパー性能を実現する。

Motion segmentation is a challenging problem that seeks to identify independent motions in two or several input images. This paper introduces the first algorithm for motion segmentation that relies on adiabatic quantum optimization of the objective function. The proposed method achieves on-par performance with the state of the art on problem instances which can be mapped to modern quantum annealers.
翻訳日:2022-03-25 14:28:52 公開日:2022-03-24
# 光流のロバスト性評価のための摂動拘束型対向攻撃

A Perturbation Constrained Adversarial Attack for Evaluating the Robustness of Optical Flow ( http://arxiv.org/abs/2203.13214v1 )

ライセンス: Link先を確認
Jenny Schmalfuss and Philipp Scholze and Andr\'es Bruhn(参考訳) 近年の光学フロー法はほとんど精度で判断されるが、ロバスト性の分析は無視されることが多い。 敵対的な攻撃はそのような分析を行う有用なツールを提供するが、現在の光学フロー法に対する攻撃は、最悪のケースロバスト性評価よりも実際の攻撃シナリオに焦点を当てている。 そこで本研究では,現実の攻撃として適用性よりも破壊性を重視した,新たな敵攻撃であるPCFA(Perturbation Constrained Flow Attack)を提案する。 より正確には、pcfaは逆摂動を最適化し、予測された流れを特定のターゲットフローにシフトさせるグローバルアタックであり、摂動のl2ノルムは選択された境界以下である。 実験では, ホワイトボックスやブラックボックスの設定におけるPCFAの適用性を実証するだけでなく, 従来の攻撃フレームワークに比べて, 光フローの対向サンプルが強いことを示す。 また,これらの強いサンプルに基づいて,予測品質と逆ロバスト性の両方を考慮した文献における光フロー法を初めて共通的にランク付けし,高品質な手法が必ずしも頑健ではないことを示す。 ソースコードは公開される予定だ。

Recent optical flow methods are almost exclusively judged in terms of accuracy, while analyzing their robustness is often neglected. Although adversarial attacks offer a useful tool to perform such an analysis, current attacks on optical flow methods rather focus on real-world attacking scenarios than on a worst case robustness assessment. Hence, in this work, we propose a novel adversarial attack - the Perturbation Constrained Flow Attack (PCFA) - that emphasizes destructivity over applicability as a real-world attack. More precisely, PCFA is a global attack that optimizes adversarial perturbations to shift the predicted flow towards a specified target flow, while keeping the L2 norm of the perturbation below a chosen bound. Our experiments not only demonstrate PCFA's applicability in white- and black-box settings, but also show that it finds stronger adversarial samples for optical flow than previous attacking frameworks. Moreover, based on these strong samples, we provide the first common ranking of optical flow methods in the literature considering both prediction quality and adversarial robustness, indicating that high quality methods are not necessarily robust. Our source code will be publicly available.
翻訳日:2022-03-25 14:28:47 公開日:2022-03-24
# 多頭クロスアテンションネットワークによる表情認識

Facial Expression Recognition based on Multi-head Cross Attention Network ( http://arxiv.org/abs/2203.13235v1 )

ライセンス: Link先を確認
Jae-Yeop Jeong, Yeong-Gi Hong, Daun Kim, Yuchul Jung, Jin-Woo Jeong(参考訳) 様々な対話型コンピューティングドメインでは,実地での表情が不可欠である。 本稿では,ABAW 2022で導入されたVA推定と表情問題に対処するDANモデルの拡張版を提案する。 提案手法では,va推定タスクの平均ccc値0.44,表現分類タスクの平均f1スコア0.33の予備結果を得た。

Facial expression in-the-wild is essential for various interactive computing domains. In this paper, we proposed an extended version of DAN model to address the VA estimation and facial expression challenges introduced in ABAW 2022. Our method produced preliminary results of 0.44 of mean CCC value for the VA estimation task, and 0.33 of the average F1 score for the expression classification task.
翻訳日:2022-03-25 14:28:27 公開日:2022-03-24
# 対応のない非教師なし3Dポイントクラウド登録への表現分離の視点

A Representation Separation Perspective to Correspondences-free Unsupervised 3D Point Cloud Registration ( http://arxiv.org/abs/2203.13239v1 )

ライセンス: Link先を確認
Zhiyuan Zhang, Jiadai Sun, Yuchao Dai, Dingfu Zhou, Xibin Song, Mingyi He(参考訳) リモートセンシング分野における3Dポイントクラウドの登録は、深層学習に基づく手法によって大幅に進歩し、剛体変換は2点クラウド(対応なしアプローチ)から直接回帰するか、学習対応(対応ベースアプローチ)から計算される。 既存の対応のない方法は通常、部分的および雑音的な点雲に対して脆弱な点雲全体の全体像を学習する。 本稿では,表現分離の観点から,対応のない教師なしポイントクラウド登録(upcr)手法を提案する。 まず,入力点クラウドをポーズ不変表現とポーズ関連表現の組み合わせとしてモデル化する。 第二に、ポーズ関連表現は、それぞれソースとターゲットポイントの雲に対して「相対的な標準形状」のポーズを学習するために使用される。 第三に、上記の2つの相対的なポーズから剛性変換を得る。 提案手法は, ポーズ不変表現の障害を除去するだけでなく, 部分対部分点の雲やノイズに対して頑健である。 ベンチマークデータセットにおける実験は、教師なしのメソッドが最先端の教師なしの登録方法と同等の性能を達成していることを示している。

3D point cloud registration in remote sensing field has been greatly advanced by deep learning based methods, where the rigid transformation is either directly regressed from the two point clouds (correspondences-free approaches) or computed from the learned correspondences (correspondences-based approaches). Existing correspondences-free methods generally learn the holistic representation of the entire point cloud, which is fragile for partial and noisy point clouds. In this paper, we propose a correspondences-free unsupervised point cloud registration (UPCR) method from the representation separation perspective. First, we model the input point cloud as a combination of pose-invariant representation and pose-related representation. Second, the pose-related representation is used to learn the relative pose wrt a "latent canonical shape" for the source and target point clouds respectively. Third, the rigid transformation is obtained from the above two learned relative poses. Our method not only filters out the disturbance in pose-invariant representation but also is robust to partial-to-partial point clouds or noise. Experiments on benchmark datasets demonstrate that our unsupervised method achieves comparable if not better performance than state-of-the-art supervised registration methods.
翻訳日:2022-03-25 14:28:01 公開日:2022-03-24
# VRNet: 3Dポイントクラウド登録のための仮想対応ポイントを学習

VRNet: Learning the Rectified Virtual Corresponding Points for 3D Point Cloud Registration ( http://arxiv.org/abs/2203.13241v1 )

ライセンス: Link先を確認
Zhiyuan Zhang, Jiadai Sun, Yuchao Dai, Bin Fan, Mingyi He(参考訳) 3dポイントクラウド登録は、対応するポイントのないポイントとしてラベル付けされる異常値に対して脆弱である。 この問題に対処するために広く採用されている戦略は、特定したイリアーに対する対応を構築したり、信頼できるものを選択することで達成される、いくつかの正確な対応のみに基づいて相対的なポーズを推定することである。 しかし、これらのアプローチは通常複雑で時間がかかる。 対照的に、仮想点ベース手法は、外れ値と外れ値とを区別することなく、すべてのソース点の仮想対応点(vcps)を均一に学習する。 この戦略は時間効率が高いが、学習されたVCPは通常、監督の不十分さと固有の分布制限のために深刻な崩壊退化を示す。 本稿では,両世界のベストを活用し,新しいロバストな3dポイントクラウド登録フレームワークを提案する。 我々は,仮想点ベース手法の考え方に従うが,元と同じ形状と対象と同一の姿勢で定義される正則仮想対応点(recurtified virtual corresponding point,rcps)と呼ばれる新しいタイプの仮想点を学習する。 したがって、ソースとRCPの2つの一貫した点雲、すなわち、VCPをRCP(VRNet)に修正することにより、ソースとRCPの信頼性の高い対応を正確に得ることができる。 ソースとRCP間の相対的なポーズはソースとターゲット間の相対的なポーズと同じであるため、入力ポイントクラウドは自然に登録することができる。 具体的には,まず,推定ソフトマッチング行列を用いて初期VCPを構築し,目標点の重み付き平均値を求める。 そこで我々は,VCPをRCPに修正するためのオフセットを学習するための修正ウォークモジュールを設計し,VCPの分布制限を効果的に破る。 最後に、形状と形状構造の整合性を強制するハイブリッド損失関数を開発する。

3D point cloud registration is fragile to outliers, which are labeled as the points without corresponding points. To handle this problem, a widely adopted strategy is to estimate the relative pose based only on some accurate correspondences, which is achieved by building correspondences on the identified inliers or by selecting reliable ones. However, these approaches are usually complicated and time-consuming. By contrast, the virtual point-based methods learn the virtual corresponding points (VCPs) for all source points uniformly without distinguishing the outliers and the inliers. Although this strategy is time-efficient, the learned VCPs usually exhibit serious collapse degeneration due to insufficient supervision and the inherent distribution limitation. In this paper, we propose to exploit the best of both worlds and present a novel robust 3D point cloud registration framework. We follow the idea of the virtual point-based methods but learn a new type of virtual points called rectified virtual corresponding points (RCPs), which are defined as the point set with the same shape as the source and with the same pose as the target. Hence, a pair of consistent point clouds, i.e. source and RCPs, is formed by rectifying VCPs to RCPs (VRNet), through which reliable correspondences between source and RCPs can be accurately obtained. Since the relative pose between source and RCPs is the same as the relative pose between source and target, the input point clouds can be registered naturally. Specifically, we first construct the initial VCPs by using an estimated soft matching matrix to perform a weighted average on the target points. Then, we design a correction-walk module to learn an offset to rectify VCPs to RCPs, which effectively breaks the distribution limitation of VCPs. Finally, we develop a hybrid loss function to enforce the shape and geometry structure consistency ...
翻訳日:2022-03-25 14:27:44 公開日:2022-03-24
# グローバルトラッキングトランスフォーマー

Global Tracking Transformers ( http://arxiv.org/abs/2203.13250v1 )

ライセンス: Link先を確認
Xingyi Zhou, Tianwei Yin, Vladlen Koltun, Phillip Kr\"ahenb\"uhl(参考訳) グローバル多目的追跡のためのトランスフォーマーに基づく新しいアーキテクチャを提案する。 我々のネットワークは短いフレーム列を入力として取り、全てのオブジェクトに対してグローバルなトラジェクトリを生成する。 コアコンポーネントはグローバルなトラッキングトランスフォーマーで、シーケンス内のすべてのフレームからオブジェクトを操作する。 トランスはすべてのフレームからオブジェクトをエンコードし、トラジェクトリクエリを使用してそれらをトラジェクトリにグループ化する。 トラジェクトリクエリは単一のフレームからオブジェクトの特徴であり、自然にユニークなトラジェクトリを生成する。 当社のグローバルトラッキングトランスフォーマは,中間的なペアワイズグループ化やコンビネーションアソシエーションは必要とせず,オブジェクト検出器と共同でトレーニングすることが可能です。 人気の高いMOT17ベンチマークで75.3 MOTAと59.1 HOTAの競合性能を達成した。 さらに重要なことに、我々のフレームワークはあらゆる物体を追跡するために最先端の大語彙検出器にシームレスに統合される。 挑戦的なTAOデータセットの実験は、我々のフレームワークがペアのアソシエーションに基づくベースラインを一貫して改善し、重要な7.7のトラッキングmAPによって公開された作品よりも優れています。 コードはhttps://github.com/xingyizhou/GTRで入手できる。

We present a novel transformer-based architecture for global multi-object tracking. Our network takes a short sequence of frames as input and produces global trajectories for all objects. The core component is a global tracking transformer that operates on objects from all frames in the sequence. The transformer encodes object features from all frames, and uses trajectory queries to group them into trajectories. The trajectory queries are object features from a single frame and naturally produce unique trajectories. Our global tracking transformer does not require intermediate pairwise grouping or combinatorial association, and can be jointly trained with an object detector. It achieves competitive performance on the popular MOT17 benchmark, with 75.3 MOTA and 59.1 HOTA. More importantly, our framework seamlessly integrates into state-of-the-art large-vocabulary detectors to track any objects. Experiments on the challenging TAO dataset show that our framework consistently improves upon baselines that are based on pairwise association, outperforming published works by a significant 7.7 tracking mAP. Code is available at https://github.com/xingyizhou/GTR.
翻訳日:2022-03-25 14:27:14 公開日:2022-03-24
# EPro-PnP:一眼的対象推定のための一般化エンドツーエンド確率的視点n点

EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation ( http://arxiv.org/abs/2203.13254v1 )

ライセンス: Link先を確認
Hansheng Chen, Pichao Wang, Fan Wang, Wei Tian, Lu Xiong, Hao Li(参考訳) Perspective-n-Points (PnP) による単一のRGB画像からの3Dオブジェクトの配置は、コンピュータビジョンにおける長年の問題である。 エンドツーエンドのディープラーニングによって駆動される最近の研究は、PnPを微分可能な層として解釈することを提案している。 しかし、スクラッチから制約のない2D-3D点の集合全体を学ぶことは、決定論的ポーズが本質的に微分不可能であるため、既存のアプローチと収束することができない。 本稿では、se(3)多様体上のポーズ分布を出力し、本質的には連続領域にカテゴリソフトマックスをもたらす、一般的なエンドツーエンドポーズ推定のための確率的pnp層であるepro-pnpを提案する。 2D-3D座標と対応する重みは、予測されたポーズ分布と目標ポーズ分布とのKL分散を最小化して学習した中間変数として扱われる。 基本原理は既存のアプローチを統一し、注意機構に似ている。 EPro-PnPは、PnPベースの手法とLineMOD 6DoF上のタスク固有のリーダーとのギャップを埋めることによって、競合ベースラインを著しく上回る。

Locating 3D objects from a single RGB image via Perspective-n-Points (PnP) is a long-standing problem in computer vision. Driven by end-to-end deep learning, recent studies suggest interpreting PnP as a differentiable layer, so that 2D-3D point correspondences can be partly learned by backpropagating the gradient w.r.t. object pose. Yet, learning the entire set of unrestricted 2D-3D points from scratch fails to converge with existing approaches, since the deterministic pose is inherently non-differentiable. In this paper, we propose the EPro-PnP, a probabilistic PnP layer for general end-to-end pose estimation, which outputs a distribution of pose on the SE(3) manifold, essentially bringing categorical Softmax to the continuous domain. The 2D-3D coordinates and corresponding weights are treated as intermediate variables learned by minimizing the KL divergence between the predicted and target pose distribution. The underlying principle unifies the existing approaches and resembles the attention mechanism. EPro-PnP significantly outperforms competitive baselines, closing the gap between PnP-based method and the task-specific leaders on the LineMOD 6DoF pose estimation and nuScenes 3D object detection benchmarks.
翻訳日:2022-03-25 14:26:56 公開日:2022-03-24
# 自然言語処理によるサイバーリスキー臨床ノートの分類

Classifying Cyber-Risky Clinical Notes by Employing Natural Language Processing ( http://arxiv.org/abs/2203.12781v1 )

ライセンス: Link先を確認
Suzanna Schmeelk, Martins Samuel Dogo, Yifan Peng, Braja Gopal Patra(参考訳) 電子カルテに埋め込まれた臨床ノートは、患者のケア提供を文書化し、医療提供者と患者の相互作用を要約する。 これらの臨床ノートは患者のケアを直接通知し、研究や品質/安全性の指標を間接的に通知する。 近年、米国内の一部の州では、患者の医療情報交換を改善するために、患者に臨床ノートへのアクセスを許可するよう求めている。 したがって、データの共有・交換の前に臨床ノートのサイバーリスクを評価する手法の開発が重要である。 既存の自然言語処理技術は臨床ノートの非同定を意図しており、我々の知識を最大限に活用する一方で、患者の健康情報を効果的かつ広範囲に保護するための基本的なステップである機密情報リスクの分類に重点を置いているものはほとんどない。 本研究は,このギャップを埋めるために,臨床ノート内のセキュリティ・プライバシリスクを特定する方法を検討する。 この分類は、センシティブな情報を含むと思われるノート内の領域を特定するために上流で使用できるか、完全に同定されていない臨床ノートの識別を改善するために下流で使用できる。 文リスクを分類するために,分類器が異なる unigram と word2vec 機能を用いた複数のモデルを開発した。 i2b2 de-identificationデータセットの実験では、 word2vec特徴を用いたSVM分類器が最大F1スコア0.792を得た。 将来の研究は、異なる国際規制要件の観点でリスクの明瞭化と分化を伴う。

Clinical notes, which can be embedded into electronic medical records, document patient care delivery and summarize interactions between healthcare providers and patients. These clinical notes directly inform patient care and can also indirectly inform research and quality/safety metrics, among other indirect metrics. Recently, some states within the United States of America require patients to have open access to their clinical notes to improve the exchange of patient information for patient care. Thus, developing methods to assess the cyber risks of clinical notes before sharing and exchanging data is critical. While existing natural language processing techniques are geared to de-identify clinical notes, to the best of our knowledge, few have focused on classifying sensitive-information risk, which is a fundamental step toward developing effective, widespread protection of patient health information. To bridge this gap, this research investigates methods for identifying security/privacy risks within clinical notes. The classification either can be used upstream to identify areas within notes that likely contain sensitive information or downstream to improve the identification of clinical notes that have not been entirely de-identified. We develop several models using unigram and word2vec features with different classifiers to categorize sentence risk. Experiments on i2b2 de-identification dataset show that the SVM classifier using word2vec features obtained a maximum F1-score of 0.792. Future research involves articulation and differentiation of risk in terms of different global regulatory requirements.
翻訳日:2022-03-25 14:26:10 公開日:2022-03-24
# オフライン強化学習のためのベルマン残差直交化

Bellman Residual Orthogonalization for Offline Reinforcement Learning ( http://arxiv.org/abs/2203.12786v1 )

ライセンス: Link先を確認
Andrea Zanette and Martin J. Wainwright(参考訳) テスト関数のユーザ定義空間に沿ってのみその妥当性を強制することにより,ベルマン方程式を近似する新たな強化学習原理を提案する。 関数近似によるモデルフリーオフラインrlの応用に焦点をあて,オフポリシ評価における信頼区間の導出と,所定のポリシークラス内でのポリシの最適化を行う。 我々は、任意のコンパレータポリシーの価値と不確実性の間のトレードオフの観点から、ポリシー最適化手順におけるオラクルの不平等を証明する。 テスト関数空間の異なる選択により、共通のフレームワーク内のさまざまな問題に取り組むことができます。 提案手法を用いて,オンポリシーからオフポリシーデータへの移行における効率の損失を特徴とし,過去の研究で研究した集中力係数との関連性を確立する。 線形関数近似を用いた手法の実装を深く検討し,ベルマン閉包が保たない場合でも多項式時間実装の理論的保証を提供する。

We introduce a new reinforcement learning principle that approximates the Bellman equations by enforcing their validity only along an user-defined space of test functions. Focusing on applications to model-free offline RL with function approximation, we exploit this principle to derive confidence intervals for off-policy evaluation, as well as to optimize over policies within a prescribed policy class. We prove an oracle inequality on our policy optimization procedure in terms of a trade-off between the value and uncertainty of an arbitrary comparator policy. Different choices of test function spaces allow us to tackle different problems within a common framework. We characterize the loss of efficiency in moving from on-policy to off-policy data using our procedures, and establish connections to concentrability coefficients studied in past work. We examine in depth the implementation of our methods with linear function approximation, and provide theoretical guarantees with polynomial-time implementations even when Bellman closure does not hold.
翻訳日:2022-03-25 14:25:33 公開日:2022-03-24
# (参考訳) オンライン言語モデルの事前学習最適化のためのマルチアームバンディット:動的マスキングのユースケース

Multi-armed bandits for online optimization of language model pre-training: the use case of dynamic masking ( http://arxiv.org/abs/2203.13151v1 )

ライセンス: CC BY 4.0
I\~nigo Urteaga, Moulay-Za\"idane Dra\"idia, Tomer Lancewicki and Shahram Khadivi(参考訳) トランスフォーマーベースの言語モデル(TLM)は、現代の多くの自然言語処理アプリケーションで最先端のパフォーマンスを提供する。 TLMトレーニングは2段階で行われる。 第一に、モデルはMasked Language Model (MLM)のような汎用目的関数を最小限に抑えるために、大量のテキスト上で事前訓練される。 第二に、モデルは特定の下流タスクで微調整される。 事前学習には大量のデータと高い計算資源が必要であるが、まだ未解決の設計選択が数多く導入されている。 例えば、言語モデル事前学習のためのハイパーパラメータの選択は、ヒューリスティックやグリッドベースの検索に基づいて行われることが多い。 本研究では,言語モデルの性能を最適化するために,事前学習型ハイパーパラメータの逐次選択のためのマルチアームバンディットベースのオンライン最適化フレームワークを提案する。 事前学習の手順を逐次的な意思決定タスクとして、事前学習の各ステップにおいて、エージェントが事前学習目標の最適化に使用するハイパーパラメータを決定する必要がある。 逐次最小化のために,MLM事前学習目標の代用ガウス過程報酬モデルに基づくトンプソンサンプリングバンドイットアルゴリズムを提案する。 提案するガウス過程に基づくトンプソンサンプリングが,頑健で高性能な言語モデルをどのように学習するかを実証的に示す。 すなわち、TLMのマスキングハイパーパラメータを逐次選択することで、事前学習されたMLMの目的だけでなく、下流の様々な微調整タスクにおいても、少ないエポックで満足できる性能が得られる。 提案手法は,実践者が興味を持つTLMを事前学習するための自動ハイパーパラメータ選択法を提供する。 さらに,本研究の結果は,固定マスキング確率のMLM事前トレーニングの代わりに,マスクハイパーパラメータの逐次適応により,事前トレーニング損失とダウンストリームタスクメトリクスが改善されることを示唆している。

Transformer-based language models (TLMs) provide state-of-the-art performance in many modern natural language processing applications. TLM training is conducted in two phases. First, the model is pre-trained over large volumes of text to minimize a generic objective function, such as the Masked Language Model (MLM). Second, the model is fine-tuned in specific downstream tasks. Pre-training requires large volumes of data and high computational resources, while introducing many still unresolved design choices. For instance, selecting hyperparameters for language model pre-training is often carried out based on heuristics or grid-based searches. In this work, we propose a multi-armed bandit-based online optimization framework for the sequential selection of pre-training hyperparameters to optimize language model performance. We pose the pre-training procedure as a sequential decision-making task, where at each pre-training step, an agent must determine what hyperparameters to use towards optimizing the pre-training objective. We propose a Thompson sampling bandit algorithm, based on a surrogate Gaussian process reward model of the MLM pre-training objective, for its sequential minimization. We empirically show how the proposed Gaussian process based Thompson sampling pre-trains robust and well-performing language models. Namely, by sequentially selecting masking hyperparameters of the TLM, we achieve satisfactory performance in less epochs, not only in terms of the pre-training MLM objective, but in diverse downstream fine-tuning tasks. The proposed bandit-based technique provides an automated hyperparameter selection method for pre-training TLMs of interest to practitioners. In addition, our results indicate that, instead of MLM pre-training with fixed masking probabilities, sequentially adapting the masking hyperparameters improves both pre-training loss and downstream task metrics.
翻訳日:2022-03-25 14:23:55 公開日:2022-03-24
# オランダの図:二項予測モデルのためのユニバーサルベースラインの構築

The Dutch Draw: Constructing a Universal Baseline for Binary Prediction Models ( http://arxiv.org/abs/2203.13084v1 )

ライセンス: Link先を確認
Etienne van de Bijl, Jan Klein, Joris Pries, Sandjai Bhulai, Mark Hoogendoorn, Rob van der Mei(参考訳) 新たな予測手法は、常にベースラインと比較され、その性能を知る必要がある。 この参照フレームがなければ、モデルのパフォーマンススコアは基本的に意味がない。 モデルがテストセットで$F_1$ 0.8を達成した場合、何を意味するのでしょう? パフォーマンススコアの‘良さ’を評価するには、適切なベースラインが必要です。 最新の最先端モデルと比較すると、通常は洞察力がある。 しかし、新しいモデルを開発すると、最先端であることは急速に変化する。 高度なモデルとは異なり、単純なダミー分類器が使用できる。 しかし、後者は簡単に打ち負かすことができず、比較の価値は低かった。 本稿では,全二項分類モデルの普遍ベースライン法である dutch draw (dd) を提案する。 このアプローチは単純な分類器を重くし、ベースラインとして使用する最良の分類器を決定する。 理論的には、多くの一般的な評価基準に対してDDベースラインを導出し、ほとんどの場合、(ほとんど)常に0または1の予測に還元されることを示す。 総括すると、ddのベースラインは、(1)すべての二分分類問題に適用できる、(2)訓練やパラメータチューニングなしで素早く決定される、(2)結果から洞察に富んだ結論を引き出すことができる、といったものである。 DDベースラインは2つの目的がある。 まず、この堅牢で普遍的なベースラインによる研究論文間の比較を可能にする。 第2に、予測モデルの開発過程での健全性チェックを提供する。 DDベースラインでモデルのパフォーマンスが上回っている場合、これは大きな警告サインである。

Novel prediction methods should always be compared to a baseline to know how well they perform. Without this frame of reference, the performance score of a model is basically meaningless. What does it mean when a model achieves an $F_1$ of 0.8 on a test set? A proper baseline is needed to evaluate the `goodness' of a performance score. Comparing with the latest state-of-the-art model is usually insightful. However, being state-of-the-art can change rapidly when newer models are developed. Contrary to an advanced model, a simple dummy classifier could be used. However, the latter could be beaten too easily, making the comparison less valuable. This paper presents a universal baseline method for all binary classification models, named the Dutch Draw (DD). This approach weighs simple classifiers and determines the best classifier to use as a baseline. We theoretically derive the DD baseline for many commonly used evaluation measures and show that in most situations it reduces to (almost) always predicting either zero or one. Summarizing, the DD baseline is: (1) general, as it is applicable to all binary classification problems; (2) simple, as it is quickly determined without training or parameter-tuning; (3) informative, as insightful conclusions can be drawn from the results. The DD baseline serves two purposes. First, to enable comparisons across research papers by this robust and universal baseline. Secondly, to provide a sanity check during the development process of a prediction model. It is a major warning sign when a model is outperformed by the DD baseline.
翻訳日:2022-03-25 13:55:47 公開日:2022-03-24
# ニューラルネットワークモデリングにおける分布歪みの評価

Evaluating Distributional Distortion in Neural Language Modeling ( http://arxiv.org/abs/2203.12788v1 )

ライセンス: Link先を確認
Benjamin LeBrun, Alessandro Sordoni, Timothy J. O'Donnell(参考訳) 自然言語の基本特性は、話者が新しい表現を生成する確率が高いことである。 この新奇性のため、希少な事象の重大さが、言語における分布の確率質量のかなりの量を占める(baayen, 2001)。 パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。 その結果, ニューラルlmsがこの重大事象における配列の確率を正確に推定するかどうかは, 比較的理解されていない。 このギャップに対処するために,自然データから学習した生成モデルを人工言語として使用し,シーケンス確率を正確に計算する制御評価手法を開発した。 これらの人工言語から世代間のLMを訓練し、LMが与えるシーケンスレベルの確率推定とターゲット言語の真確率を比較する。 我々の実験によりLSTMとTransformer言語モデルが明らかになった (i)対象言語から引き出されたシーケンスの確率を体系的に過小評価すること、 (ii)確率の低い配列では、より深刻な処理を行う。 この確率質量の行き先を調べる。 (3) LMは, 異常な配列(摂動配列)の確率を過大評価する傾向にある。 さらに、この過小評価行動は、 (iv) が弱まるが、大量の訓練データによって排除されず、 (v)は低エントロピーのターゲット分布に対して増悪される。

A fundamental characteristic of natural language is the high rate at which speakers produce novel expressions. Because of this novelty, a heavy-tail of rare events accounts for a significant amount of the total probability mass of distributions in language (Baayen, 2001). Standard language modeling metrics such as perplexity quantify the performance of language models (LM) in aggregate. As a result, we have relatively little understanding of whether neural LMs accurately estimate the probability of sequences in this heavy-tail of rare events. To address this gap, we develop a controlled evaluation scheme which uses generative models trained on natural data as artificial languages from which we can exactly compute sequence probabilities. Training LMs on generations from these artificial languages, we compare the sequence-level probability estimates given by LMs to the true probabilities in the target language. Our experiments reveal that LSTM and Transformer language models (i) systematically underestimate the probability of sequences drawn from the target language, and (ii) do so more severely for less-probable sequences. Investigating where this probability mass went, (iii) we find that LMs tend to overestimate the probability of ill formed (perturbed) sequences. In addition, we find that this underestimation behaviour (iv) is weakened, but not eliminated by greater amounts of training data, and (v) is exacerbated for target distributions with lower entropy.
翻訳日:2022-03-25 13:54:55 公開日:2022-03-24
# 漏洩が依存パーシングに及ぼす影響の再検討

Revisiting the Effects of Leakage on Dependency Parsing ( http://arxiv.org/abs/2203.12815v1 )

ライセンス: Link先を確認
Nathaniel Krasner, Miriam Wanner, Antonios Anastasopoulos(参考訳) S{\o}gaard (2020) による最近の研究によると、ツリーバンクのサイズは別として、トレーニンググラフとテストグラフの重なり合い(終端リーク)は、他の説明よりも依存性解析性能の観察されたばらつきを説明できる。 この作業では、この主張を再考し、より多くのモデルや言語でそれをテストします。 ゼロショットのクロスリンガル設定のみに対応しています。 そこで本研究では,本手法と異なり,測定結果のばらつきと相関する,よりきめ細かい漏洩測定法を提案する。 コードとデータはここにある。 https://github.com/miriamwanner/reu-nlp-project

Recent work by S{\o}gaard (2020) showed that, treebank size aside, overlap between training and test graphs (termed leakage) explains more of the observed variation in dependency parsing performance than other explanations. In this work we revisit this claim, testing it on more models and languages. We find that it only holds for zero-shot cross-lingual settings. We then propose a more fine-grained measure of such leakage which, unlike the original measure, not only explains but also correlates with observed performance variation. Code and data are available here: https://github.com/miriamwanner/reu-nlp-project
翻訳日:2022-03-25 13:54:37 公開日:2022-03-24
# ラベル付き依存木の探索

Probing for Labeled Dependency Trees ( http://arxiv.org/abs/2203.12971v1 )

ライセンス: Link先を確認
Max M\"uller-Eberstein, Rob van der Goot and Barbara Plank(参考訳) 自然言語処理(NLP)における表現を解析するための重要なツールとなっている。 依存性解析のようなグラフィカルなNLPタスクでは、リニアプローブは現在、全タスクをキャプチャしない無方向または未ラベルのパースツリーの抽出に制限されている。 この研究は、ラベル付きおよび指示付き依存関係解析木を埋め込みから抽出できる線形プローブであるDepProbeを導入し、従来の方法よりも少ないパラメータと計算を使用する。 タスクの完全なカバレッジと軽量なパラメータ化を活用して,biaffineアテンションパーサのトレーニングに最適なトランスファー言語を選択するための予測能力について検討する。 提案手法は,13言語にまたがって最適なソースツリーバンクの94%を識別し,競合ベースラインや先行作業よりも優れています。 最後に,文脈埋め込みにおけるタスク固有部分空間の情報量や,完全パーサの非線形パラメトリゼーションの利点について分析する。

Probing has become an important tool for analyzing representations in Natural Language Processing (NLP). For graphical NLP tasks such as dependency parsing, linear probes are currently limited to extracting undirected or unlabeled parse trees which do not capture the full task. This work introduces DepProbe, a linear probe which can extract labeled and directed dependency parse trees from embeddings while using fewer parameters and compute than prior methods. Leveraging its full task coverage and lightweight parametrization, we investigate its predictive power for selecting the best transfer language for training a full biaffine attention parser. Across 13 languages, our proposed method identifies the best source treebank 94% of the time, outperforming competitive baselines and prior work. Finally, we analyze the informativeness of task-specific subspaces in contextual embeddings as well as which benefits a full parser's non-linear parametrization provides.
翻訳日:2022-03-25 13:54:26 公開日:2022-03-24
# ゼロショット科学ファクトチェックのための科学的クレームの生成

Generating Scientific Claims for Zero-Shot Scientific Fact Checking ( http://arxiv.org/abs/2203.12990v1 )

ライセンス: Link先を確認
Dustin Wright, David Wadden, Kyle Lo, Bailey Kuehl, Arman Cohan, Isabelle Augenstein, and Lucy Lu Wang(参考訳) アノテーションはドメインの専門知識を必要とするため、科学的言語の複雑さと大量のトレーニングデータの欠如のため、自動科学的事実チェックは難しい。 この課題に対処するため,我々は,科学的文から1つ以上の原子的かつ検証可能なクレームを生成するタスクである科学的クレーム生成を提案し,その有用性を示す。 文献が支持するクレームを生成するための新しい管理手法であるCLAIMGEN-BARTと,クレームを否定する新しい方法であるKBINを提案する。 さらに,CLAIMGEN-ENTITYと呼ばれる,既存の教師なしエンティティ中心のクレーム生成手法をバイオメディカルクレームに適用する。 ゼロショット事実チェックの実験では、CLAIMGEN-ENTITYとCLAIMGEN-BARTはKBINと組み合わせて、手動で注釈付けされたクレームとエビデンスに基づいて訓練された完全教師付きモデルの90%のパフォーマンスを達成した。 厳密な評価研究は、既存のベースラインよりも生成クレームと否定品質を著しく向上させる

Automated scientific fact checking is difficult due to the complexity of scientific language and a lack of significant amounts of training data, as annotation requires domain expertise. To address this challenge, we propose scientific claim generation, the task of generating one or more atomic and verifiable claims from scientific sentences, and demonstrate its usefulness in zero-shot fact checking for biomedical claims. We propose CLAIMGEN-BART, a new supervised method for generating claims supported by the literature, as well as KBIN, a novel method for generating claim negations. Additionally, we adapt an existing unsupervised entity-centric method of claim generation to biomedical claims, which we call CLAIMGEN-ENTITY. Experiments on zero-shot fact checking demonstrate that both CLAIMGEN-ENTITY and CLAIMGEN-BART, coupled with KBIN, achieve up to 90% performance of fully supervised models trained on manually annotated claims and evidence. A rigorous evaluation study demonstrates significant improvement in generated claim and negation quality over existing baselines
翻訳日:2022-03-25 13:54:09 公開日:2022-03-24
# Kratt: エストニア国立図書館のための自動主題索引作成ツールの開発

Kratt: Developing an Automatic Subject Indexing Tool for The National Library of Estonia ( http://arxiv.org/abs/2203.12998v1 )

ライセンス: Link先を確認
Marit Asula, Jane Makke, Linda Freienthal, Hele-Andra Kuulmets and Raul Sirel(参考訳) 図書館におけるマニュアル・インデクシングは時間と費用のかかるプロセスであり、その本に含まれる特定のトピックに関するカタログ作成者の知識に影響される。 これらの問題を解決するために、人工知能がもたらす機会を利用して、自動主題インデックスツールのプロトタイプであるKrattを開発した。 クラットはその範囲とジャンルによらず、エストニアの主題 Thesaurus に一連のキーワードで索引を付けることができる。 クラットは書籍の索引付けに約1分かかり、人間を10~15回上回った。 結果として得られたキーワードはカタログ作成者にとって満足のいくものではなかったが、少数の正規図書館利用者による評価はより有望であった。 また,モデル学習のためのコーパスを大型化し,より注意深い前処理手法を適用することで,結果が向上できると主張する。

Manual subject indexing in libraries is a time-consuming and costly process and the quality of the assigned subjects is affected by the cataloguer's knowledge on the specific topics contained in the book. Trying to solve these issues, we exploited the opportunities arising from artificial intelligence to develop Kratt: a prototype of an automatic subject indexing tool. Kratt is able to subject index a book independent of its extent and genre with a set of keywords present in the Estonian Subject Thesaurus. It takes Kratt approximately 1 minute to subject index a book, outperforming humans 10-15 times. Although the resulting keywords were not considered satisfactory by the cataloguers, the ratings of a small sample of regular library users showed more promise. We also argue that the results can be enhanced by including a bigger corpus for training the model and applying more careful preprocessing techniques.
翻訳日:2022-03-25 13:53:47 公開日:2022-03-24
# 感情グラフへの直接解析

Direct parsing to sentiment graphs ( http://arxiv.org/abs/2203.13209v1 )

ライセンス: Link先を確認
David Samuel, Jeremy Barnes, Robin Kurtz, Stephan Oepen, Lilja {\O}vrelid and Erik Velldal(参考訳) 本稿では,テキストから感情グラフを直接予測する構造化感情分析の課題に対して,グラフに基づく意味解析が適用可能であることを示す。 5つの標準ベンチマークセットのうち4つで最先端の技術を進めます。 ソースコード、モデル、予測を公開しています。

This paper demonstrates how a graph-based semantic parser can be applied to the task of structured sentiment analysis, directly predicting sentiment graphs from text. We advance the state of the art on 4 out of 5 standard benchmark sets. We release the source code, models and predictions.
翻訳日:2022-03-25 13:52:38 公開日:2022-03-24
# SMARAGD: 精度と高速AMRグラフ距離のための合成sMatch

SMARAGD: Synthesized sMatch for Accurate and Rapid AMR Graph Distance ( http://arxiv.org/abs/2203.13226v1 )

ライセンス: Link先を確認
Juri Opitz and Philipp Meier and Anette Frank(参考訳) 抽象的意味表現(AMR)のようなグラフに基づく意味表現の意味的類似性は、SMATCH(Cai and Knight, 2013)のようなグラフマッチングアルゴリズムを用いて評価される。 しかし、SMATCHはNP完全性に悩まされており、AMRクラスタリングやセマンティックサーチといった大規模な応用は実現不可能である。 この問題を軽減するため,SMARAGD (Synthesized sMatch for accurate and rapid AMR graph distance)を提案する。 本稿では,ニューラルネットワークのsmatchスコアとグラフアライメントを近似する可能性を示す。 一 機械翻訳フレームワークを用いてアライメントの予測を直線的に行うこと。 二 smatchスコアを直接予測するためにsiamese cnnを一定時間使用すること。 データ拡張とAMRグラフの匿名化を適用して近似誤差を大幅に低減できることを示す。

The semantic similarity of graph-based meaning representations, such as Abstract Meaning Representation (AMR), is typically assessed using graph matching algorithms, such as SMATCH (Cai and Knight, 2013). However, SMATCH suffers from NP-completeness, making its large-scale application, e.g., for AMR clustering or semantic search, infeasible. To mitigate this issue, we propose SMARAGD (Synthesized sMatch for accurate and rapid AMR graph distance). We show the potential of neural networks to approximate the SMATCH scores and graph alignments, i) in linear time using a machine translation framework to predict the alignments, or ii) in constant time using a Siamese CNN to directly predict SMATCH scores. We show that the approximation error can be substantially reduced by applying data augmentation and AMR graph anonymization.
翻訳日:2022-03-25 13:52:34 公開日:2022-03-24
# 立方体DUCGに基づく産業故障診断における因果的知識表現と推論のためのプラットフォーム

A platform for causal knowledge representation and inference in industrial fault diagnosis based on cubic DUCG ( http://arxiv.org/abs/2203.12802v1 )

ライセンス: Link先を確認
Bu XuSong and Nie Hao and Zhang Zhan and Zhang Qin(参考訳) 大規模産業システムの作業条件は非常に複雑である。 障害が発生したら、産業生産に影響し、財産に損害を与え、労働者の生命を危険にさらす。 したがって、システムの動作状況を正確に把握し、時間内に故障を検知するために、システムの動作を制御することが重要である。 システム障害の発生は段階的なプロセスであり、現在のシステム障害の発生は、シーケンシャルであるシステムの前の状態に依存する可能性がある。 時系列に基づく故障診断技術は、リアルタイムにシステムの動作状態を監視し、許容時間間隔内でシステムの異常動作を検出し、障害の根本原因を診断し、状態傾向を予測する。 本稿では, 技術的人材のトラブルシュートを指導し, 関連障害を解消するために, 立方体DUCG理論に基づく産業的故障診断システムを構築した。 システムの診断モデルは専門家の知識と経験に基づいて構築される。 同時に、タイムシーケンスに基づいたリアルタイム故障診断を行うことができ、サンプルデータなしで産業システムの故障診断の問題を解決することができる。

The working conditions of large-scale industrial systems are very complex. Once a failure occurs, it will affect industrial production, cause property damage, and even endanger the workers' lives. Therefore, it is important to control the operation of the system to accurately grasp the operation status of the system and find out the failure in time. The occurrence of system failure is a gradual process, and the occurrence of the current system failure may depend on the previous state of the system, which is sequential. The fault diagnosis technology based on time series can monitor the operating status of the system in real-time, detect the abnormal operation of the system within the allowable time interval, diagnose the root cause of the fault and predict the status trend. In order to guide the technical personnel to troubleshoot and solve related faults, in this paper, an industrial fault diagnosis system is implemented based on the cubic DUCG theory. The diagnostic model of the system is constructed based on expert knowledge and experience. At the same time, it can perform real-time fault diagnosis based on time sequence, which solves the problem of fault diagnosis of industrial systems without sample data.
翻訳日:2022-03-25 13:52:19 公開日:2022-03-24
# Onto4MAT: 汎用マルチエージェントチームのためのSwarmシェパーディングオントロジー

Onto4MAT: A Swarm Shepherding Ontology for Generalised Multi-Agent Teaming ( http://arxiv.org/abs/2203.12955v1 )

ライセンス: Link先を確認
Adam J. Hepworth and Daniel P. Baxter and Hussein A. Abbass(参考訳) 近年、多エージェントチームの研究は大幅に増加しており、一般的にはチームが指示に反応して有意義に行動するための機能的(コミュニケーション的な)ソリューションを提供することに焦点を当てた、チーム化プロセスをサポートする知識ベースのシステムがある。 人間に効果的に対話させ、自律的な認知エージェントの群れと協力させることは、ヒューマン・スワムチーム研究におけるオープンな研究課題である。 通常、双方向の透明性とエージェント間のセマンティクスの理解は、人間とスウォームチームが概念とコンテキストを通じて理解と情報を共有し、目標を達成する方法を制限する、人間とスウォームのチームで設計されたメカニズムを優先していない。 これに対処するために、swarm人工知能がその環境とシステムについて推論し、最終的に共通の目標を達成するための正式な知識表現設計を提供する。 そこで我々は,人間とチーム間のより効果的なコラボレーションを実現するために,汎用マルチエージェントチームOnto4MATを提案する。

Research in multi-agent teaming has increased substantially over recent years, with knowledge-based systems to support teaming processes typically focused on delivering functional (communicative) solutions for a team to act meaningfully in response to direction. Enabling humans to effectively interact and team with a swarm of autonomous cognitive agents is an open research challenge in Human-Swarm Teaming research, partially due to the focus on developing the enabling architectures to support these systems. Typically, bi-directional transparency and shared semantic understanding between agents has not prioritised a designed mechanism in Human-Swarm Teaming, potentially limiting how a human and a swarm team can share understanding and information\textemdash data through concepts and contexts\textemdash to achieve a goal. To address this, we provide a formal knowledge representation design that enables the swarm Artificial Intelligence to reason about its environment and system, ultimately achieving a shared goal. We propose the Ontology for Generalised Multi-Agent Teaming, Onto4MAT, to enable more effective teaming between humans and teams through the biologically-inspired approach of shepherding.
翻訳日:2022-03-25 13:52:02 公開日:2022-03-24
# 組織のデジタルツインを用いたプロセス認識情報システム更新の分析

Analyzing Process-Aware Information System Updates Using Digital Twins of Organizations ( http://arxiv.org/abs/2203.12969v1 )

ライセンス: Link先を確認
Gyunam Park, Marco Comuzzi, Wil M. P. van der Aalst(参考訳) デジタルトランスフォーメーションは、ビジネスプロセスの実行をサポートする情報システムに小さな変更を加えることが多い。 これらの変更は、プロセス実行における運用上の摩擦を増加させ、プロセスパフォーマンスを低下させる可能性がある。 小規模の変更の追跡と影響分析の支援を提供する文献の貢献は、スコープと機能に制限がある。 本稿では,最近開発されたdto(digital twins of organizations)を用いて,情報システム更新(プロセス認識)の影響評価を行う。 より詳しくは、DTOの設定を用いて更新をモデル化し、情報システム更新(構造、運用、性能関連)の異なる種類の影響を定量的に評価する。 我々は提案手法のプロトタイプを実装した。 さらに,標準的なERP調達型ビジネスプロセスを含むケーススタディについても論じる。

Digital transformation often entails small-scale changes to information systems supporting the execution of business processes. These changes may increase the operational frictions in process execution, which decreases the process performance. The contributions in the literature providing support to the tracking and impact analysis of small-scale changes are limited in scope and functionality. In this paper, we use the recently developed Digital Twins of Organizations (DTOs) to assess the impact of (process-aware) information systems updates. More in detail, we model the updates using the configuration of DTOs and quantitatively assess different types of impacts of information system updates (structural, operational, and performance-related). We implemented a prototype of the proposed approach. Moreover, we discuss a case study involving a standard ERP procure-to-pay business process.
翻訳日:2022-03-25 13:51:39 公開日:2022-03-24
# 文化進化におけるオープンエンドレスネスの展開 : オープンエンデッド進化研究における新たな次元

Evolved Open-Endedness in Cultural Evolution: A New Dimension in Open-Ended Evolution Research ( http://arxiv.org/abs/2203.13050v1 )

ライセンス: Link先を確認
James M. Borg, Andrew Buskell, Rohan Kapitany, Simon T. Powers, Eva Reindl and Claudio Tennie(参考訳) 人工生命研究の目標は、クリス・ラングトン(Chris Langton)によって「生命を知れば知る」という大きなイメージの中で生命を知ること(1989年、p.1)によって理論生物学に貢献することである。 人工進化システムにおけるオープンエンド進化の研究と追求はこの目標を実証している。 しかし、オープンエンド進化研究は、人工進化システムにおいてオープンエンドネスを再現する困難さと、インスピレーションを引き出す唯一のシステム(進化)があるという事実の2つの根本的な問題によって妨げられている。 ここでは、文化的進化は、オープンエンド進化システムのもう一つの実例であるだけでなく、文化的進化に見られる特異な性質が、オープンエンド進化システムの基本的な特性を評価し、特にオープンエンド進化の進化と、境界のない進化への遷移に関して、新たな疑問を提起する新しい視点を提供するべきだと論じる。 ここでは,文化を進化システムとして概観し,人類の文化進化を開放的進化システムとして興味深い事例を強調し,(進化的)開放的進化の枠組みの下で文化進化を文脈化する。 私たちは、オープンエンド進化のフレームワークの中で文化的な進化を考えると、質問できる新しい質問のセットを提供し、これらの質問の結果として進化したオープンエンド性について得られるかもしれない新しい洞察を紹介します。

The goal of Artificial Life research, as articulated by Chris Langton, is "to contribute to theoretical biology by locating life-as-we-know-it within the larger picture of life-as-it-could-be" (1989, p.1). The study and pursuit of open-ended evolution in artificial evolutionary systems exemplifies this goal. However, open-ended evolution research is hampered by two fundamental issues; the struggle to replicate open-endedness in an artificial evolutionary system, and the fact that we only have one system (genetic evolution) from which to draw inspiration. Here we argue that cultural evolution should be seen not only as another real-world example of an open-ended evolutionary system, but that the unique qualities seen in cultural evolution provide us with a new perspective from which we can assess the fundamental properties of, and ask new questions about, open-ended evolutionary systems, especially in regard to evolved open-endedness and transitions from bounded to unbounded evolution. Here we provide an overview of culture as an evolutionary system, highlight the interesting case of human cultural evolution as an open-ended evolutionary system, and contextualise cultural evolution under the framework of (evolved) open-ended evolution. We go on to provide a set of new questions that can be asked once we consider cultural evolution within the framework of open-ended evolution, and introduce new insights that we may be able to gain about evolved open-endedness as a result of asking these questions.
翻訳日:2022-03-25 13:51:29 公開日:2022-03-24
# ブラックボックス型AIエージェントの差分評価

Differential Assessment of Black-Box AI Agents ( http://arxiv.org/abs/2203.13236v1 )

ライセンス: Link先を確認
Rashmeet Kaur Nayyar, Pulkit Verma, Siddharth Srivastava(参考訳) AIエージェントのシンボルモデル学習に関する研究の多くは、定常モデルを持つエージェントに焦点を当てている。 この仮定は、学習、適応、その他のデプロイ後の修正の結果、エージェントの能力が変化するような環境では成り立たない。 このような設定におけるエージェントの効率的な評価は、AIシステムの真の能力を学び、その安全な使用を保証するために重要である。 本研究では,従来知られていたモデルから逸脱したブラックボックスAIエージェントを微分評価する手法を提案する。 出発点として、完全に観測可能で決定論的な設定を考える。 我々は,漂流したエージェントの現在の挙動と初期モデルに関する知識のばらばらな観察を利用して,エージェントを選択的にクエリし,その機能の更新モデルを計算するアクティブクエリポリシを生成する。 経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がずっと効率的であることを示している。 また,本手法を用いた差分評価のコストは,エージェントの機能のドリフト量に比例することを示した。

Much of the research on learning symbolic models of AI agents focuses on agents with stationary models. This assumption fails to hold in settings where the agent's capabilities may change as a result of learning, adaptation, or other post-deployment modifications. Efficient assessment of agents in such settings is critical for learning the true capabilities of an AI system and for ensuring its safe usage. In this work, we propose a novel approach to differentially assess black-box AI agents that have drifted from their previously known models. As a starting point, we consider the fully observable and deterministic setting. We leverage sparse observations of the drifted agent's current behavior and knowledge of its initial model to generate an active querying policy that selectively queries the agent and computes an updated model of its functionality. Empirical evaluation shows that our approach is much more efficient than re-learning the agent model from scratch. We also show that the cost of differential assessment using our method is proportional to the amount of drift in the agent's functionality.
翻訳日:2022-03-25 13:50:59 公開日:2022-03-24
# 1台のカメラから動的人間の高忠実度レンダリングを学習するモーション依存外観

Learning Motion-Dependent Appearance for High-Fidelity Rendering of Dynamic Humans from a Single Camera ( http://arxiv.org/abs/2203.12780v1 )

ライセンス: Link先を確認
Jae Shin Yoon, Duygu Ceylan, Tuanfeng Y. Wang, Jingwan Lu, Jimei Yang, Zhixin Shu, Hyun Soo Park(参考訳) 着飾った人間の出現は、静的なポーズだけでなく、そのダイナミクスによっても引き起こされる複雑な幾何学的変換、すなわち、その動きに応じてポーズを与える布の幾何学的構成によってもたらされる。 このような動きに条件づけられた外観モデリングは、既存の人間のレンダリング法では無視され、身体的に不明瞭な動きのレンダリングをもたらす。 外観のダイナミクスを学ぶための重要な課題は、非常に大量の観察を必要とすることである。 本稿では、同値を強制してコンパクトな動き表現を示す。この表現は、ポーズが変換される方法で変換される。 我々は3次元体表面の空間的および時間的微分から一般化可能な表現を生成できる同変エンコーダをモデル化する。 この学習された表現は、高忠実度時間変化の外観を描画する合成マルチタスクデコーダによって復号される。 実験の結果,本手法は1つのビュービデオに対して,身体ポーズや新しいビューに対して動的人間の時間的コヒーレントな映像を生成できることが判明した。

Appearance of dressed humans undergoes a complex geometric transformation induced not only by the static pose but also by its dynamics, i.e., there exists a number of cloth geometric configurations given a pose depending on the way it has moved. Such appearance modeling conditioned on motion has been largely neglected in existing human rendering methods, resulting in rendering of physically implausible motion. A key challenge of learning the dynamics of the appearance lies in the requirement of a prohibitively large amount of observations. In this paper, we present a compact motion representation by enforcing equivariance -- a representation is expected to be transformed in the way that the pose is transformed. We model an equivariant encoder that can generate the generalizable representation from the spatial and temporal derivatives of the 3D body surface. This learned representation is decoded by a compositional multi-task decoder that renders high fidelity time-varying appearance. Our experiments show that our method can generate a temporally coherent video of dynamic humans for unseen body poses and novel views given a single view video.
翻訳日:2022-03-25 13:49:50 公開日:2022-03-24
# ViT-FOD:視覚変換器を用いた微細物体識別器

ViT-FOD: A Vision Transformer based Fine-grained Object Discriminator ( http://arxiv.org/abs/2203.12816v1 )

ライセンス: Link先を確認
Zi-Chao Zhang, Zhen-Duo Chen, Yongxin Wang, Xin Luo, Xin-Shun Xu(参考訳) 近年、ファイングラインドビジュアル分類(FGVC)において、視覚変換器(ViT)に基づくいくつかの手法が提案されている。 These methods significantly surpass existing CNN-based ones, demonstrating the effectiveness of ViT in FGVC tasks.However, there are some limitations when applying ViT directly to FGVC.First, ViT needs to split images into patches and calculate the attention of every pair, which may result in heavy redundant calculation and unsatisfying performance when handling fine-grained images with complex background and small objects.Second, a standard ViT only utilizes the class token in the final layer for classification, which is not enough to extract comprehensive fine-grained information. これらの課題に対処するため、我々はFGVCタスクのための新しいViTベースの細粒度オブジェクト識別器、略してViT-FODを提案する。 具体的には、ViTバックボーンの他に、APC(Attention Patch Combination)、CRF(Critical Regions Filter)、CTI(Complementary Tokens Integration)の3つの新しいコンポーネントが導入されている。 そこで、apcは2つの画像から情報パッチを分割し、冗長な計算を減らすために新しい画像を生成する。 CRFは識別領域に対応するトークンを強調し、微妙な特徴学習のための新しいクラストークンを生成する。 包括的な情報を抽出するため、ctiは異なるvit層でクラストークンが取得する補完情報を統合する。 我々は,広範に使用されるデータセットについて総合的な実験を行い,vit-fodが最先端の性能を達成できることを実証する。

Recently, several Vision Transformer (ViT) based methods have been proposed for Fine-Grained Visual Classification (FGVC).These methods significantly surpass existing CNN-based ones, demonstrating the effectiveness of ViT in FGVC tasks.However, there are some limitations when applying ViT directly to FGVC.First, ViT needs to split images into patches and calculate the attention of every pair, which may result in heavy redundant calculation and unsatisfying performance when handling fine-grained images with complex background and small objects.Second, a standard ViT only utilizes the class token in the final layer for classification, which is not enough to extract comprehensive fine-grained information. To address these issues, we propose a novel ViT based fine-grained object discriminator for FGVC tasks, ViT-FOD for short. Specifically, besides a ViT backbone, it further introduces three novel components, i.e, Attention Patch Combination (APC), Critical Regions Filter (CRF), and Complementary Tokens Integration (CTI). Thereinto, APC pieces informative patches from two images to generate a new image so that the redundant calculation can be reduced. CRF emphasizes tokens corresponding to discriminative regions to generate a new class token for subtle feature learning. To extract comprehensive information, CTI integrates complementary information captured by class tokens in different ViT layers. We conduct comprehensive experiments on widely used datasets and the results demonstrate that ViT-FOD is able to achieve state-of-the-art performance.
翻訳日:2022-03-25 13:49:33 公開日:2022-03-24
# HMFS:Few-Shotセグメンテーションのためのハイブリッドマスキング

HMFS: Hybrid Masking for Few-Shot Segmentation ( http://arxiv.org/abs/2203.12826v1 )

ライセンス: Link先を確認
Seonghyeon Moon, Samuel S. Sohn, Honglu Zhou, Sejong Yoon, Vladimir Pavlovic, Muhammad Haris Khan, and Mubbasir Kapadia(参考訳) 対象クラスの注釈付きサポートイメージをいくつか備えた場合,対象オブジェクトをクエリ画像から分割することを目的とした,少数ショットのセマンティックセグメンテーションについて検討する。 いくつかの最近の手法は[1]によって導入された特徴マスキング(FM)技術を利用して、信頼性の高いセグメンテーションマスク予測を容易にするために無関係な特徴アクティベーションを破棄している。 FMの基本的な制限は、特に小さな対象物に対して、セグメンテーションマスクの精度に影響を与えるきめ細かい空間的詳細を保存できないことである。 本稿では,特徴マスキング(FM)を強化するためのシンプルで効果的で効率的な手法を開発する。 FMをハイブリッドマスク (HM) として用いた。 具体的には,FM法における細粒度空間詳細の損失を補足する基本入力マスキング手法 [2] を検証・活用することで補足する。 HMの有効性を検証するため、強力なベースライン[3]にインスタンス化し、その結果のフレームワークをHMFSとして作成する。 3つの公開ベンチマークの実験結果から、HMFSは現在の最先端手法よりも目に見えるマージンで優れていることが明らかになった。

We study few-shot semantic segmentation that aims to segment a target object from a query image when provided with a few annotated support images of the target class. Several recent methods resort to a feature masking (FM) technique, introduced by [1], to discard irrelevant feature activations to facilitate reliable segmentation mask prediction. A fundamental limitation of FM is the inability to preserve the fine-grained spatial details that affect the accuracy of segmentation mask, especially for small target objects. In this paper, we develop a simple, effective, and efficient approach to enhance feature masking (FM). We dub the enhanced FM as hybrid masking (HM). Specifically, we compensate for the loss of fine-grained spatial details in FM technique by investigating and leveraging a complementary basic input masking method [2]. To validate the effectiveness of HM, we instantiate it into a strong baseline [3], and coin the resulting framework as HMFS. Experimental results on three publicly available benchmarks reveal that HMFS outperforms the current state-of-the-art methods by visible margins.
翻訳日:2022-03-25 13:49:09 公開日:2022-03-24
# リアルタイムインスタンスセグメンテーションのためのスパースインスタンスアクティベーション

Sparse Instance Activation for Real-Time Instance Segmentation ( http://arxiv.org/abs/2203.12827v1 )

ライセンス: Link先を確認
Tianheng Cheng, Xinggang Wang, Shaoyu Chen, Wenqiang Zhang, Qian Zhang, Chang Huang, Zhaoxiang Zhang, Wenyu Liu(参考訳) 本稿では,リアルタイムインスタンスセグメンテーションのための概念的・効率的・完全畳み込み型フレームワークを提案する。 以前は、ほとんどのインスタンスセグメンテーション手法はオブジェクト検出に大きく依存しており、境界ボックスや密集した中心に基づいてマスク予測を行う。 対照的に、各前景オブジェクトに対する情報領域を強調するために、新しいオブジェクト表現として、インスタンスアクティベーションマップのスパースセットを提案する。 次に、強調された領域に応じて特徴を集約して認識およびセグメンテーションを行い、インスタンスレベルの特徴を得る。 さらに、双方向マッチングに基づいて、インスタンスアクティベーションマップは1対1のスタイルでオブジェクトを予測できるため、後処理における非最大抑圧(NMS)を回避することができる。 インスタンスアクティベーションマップの単純かつ効果的な設計のため、sparseinstは非常に高速な推論速度を持ち、cocoベンチマークで40fpsと37.9apを達成した。 コードとモデルはhttps://github.com/hustvl/sparseinstで入手できる。

In this paper, we propose a conceptually novel, efficient, and fully convolutional framework for real-time instance segmentation. Previously, most instance segmentation methods heavily rely on object detection and perform mask prediction based on bounding boxes or dense centers. In contrast, we propose a sparse set of instance activation maps, as a new object representation, to highlight informative regions for each foreground object. Then instance-level features are obtained by aggregating features according to the highlighted regions for recognition and segmentation. Moreover, based on bipartite matching, the instance activation maps can predict objects in a one-to-one style, thus avoiding non-maximum suppression (NMS) in post-processing. Owing to the simple yet effective designs with instance activation maps, SparseInst has extremely fast inference speed and achieves 40 FPS and 37.9 AP on the COCO benchmark, which significantly outperforms the counterparts in terms of speed and accuracy. Code and models are available at https://github.com/hustvl/SparseInst.
翻訳日:2022-03-25 13:48:49 公開日:2022-03-24
# 大規模風化とコンテンツ保存による産業スタイルの伝達

Industrial Style Transfer with Large-scale Geometric Warping and Content Preservation ( http://arxiv.org/abs/2203.12835v1 )

ライセンス: Link先を確認
Jinchao Yang, Fei Guo, Shuo Chen, Jun Li and Jian Yang(参考訳) 本稿では,産業デザイナーの参考として,新しいビジュアル製品を迅速に作成するための新しいスタイル転送手法を提案する。 ソース製品、ターゲット製品、アートスタイル画像が与えられた場合、本手法は、ソース形状を歪ませてターゲットの幾何学的スタイルを模倣するニューラルウォーピングフィールドと、アートスタイルをワープしたソース製品に転送するニューラルテクスチャ変換ネットワークを生成する。 我々のモデルであるinst(industrial style transfer)は,lgw(large-scale geometric warping)とictt(interest-consistency texture transfer)から構成される。 LGWは、ソースの形状マスクとターゲット製品との間の教師なし変換を、大規模形状整形に適合させるために探究することを目的としている。 さらに,マスク平滑化規則化用語を導入し,ソース製品の詳細が突然変化するのを防止する。 ICTTは、アートスタイルの画像を用いてスタイリングされる際に、ワープされた製品の重要な内容を維持するための関心規則化用語を導入する。 大規模な実験結果から、InSTは複数の視覚製品デザインタスク、例えば企業のスネイルロゴやクラシックボトル(図1参照)において最先端のパフォーマンスを達成することが示されている。 我々の知る限りでは、我々は初めて、産業製品の外観を作り出すためにニューラルスタイルのトランスファー手法を拡張した。 プロジェクトページ: \ulr{https://jcyang98.github.io/InST/home.html}。 コードは \url{https://github.com/jcyang98/inst}。

We propose a novel style transfer method to quickly create a new visual product with a nice appearance for industrial designers' reference. Given a source product, a target product, and an art style image, our method produces a neural warping field that warps the source shape to imitate the geometric style of the target and a neural texture transformation network that transfers the artistic style to the warped source product. Our model, Industrial Style Transfer (InST), consists of large-scale geometric warping (LGW) and interest-consistency texture transfer (ICTT). LGW aims to explore an unsupervised transformation between the shape masks of the source and target products for fitting large-scale shape warping. Furthermore, we introduce a mask smoothness regularization term to prevent the abrupt changes of the details of the source product. ICTT introduces an interest regularization term to maintain important contents of the warped product when it is stylized by using the art style image. Extensive experimental results demonstrate that InST achieves state-of-the-art performance on multiple visual product design tasks, e.g., companies' snail logos and classical bottles (please see Fig. 1). To the best of our knowledge, we are the first to extend the neural style transfer method to create industrial product appearances. Project page: \ulr{https://jcyang98.github.io/InST/home.html}. Code available at: \url{https://github.com/jcyang98/InST}.
翻訳日:2022-03-25 13:48:30 公開日:2022-03-24
# (参考訳) 視覚トランスフォーマーにおける運動自由連続学習に向けて--注意・機能・重み規則化の考察

Towards Exemplar-Free Continual Learning in Vision Transformers: an Account of Attention, Functional and Weight Regularization ( http://arxiv.org/abs/2203.13167v1 )

ライセンス: CC BY 4.0
Francesco Pelosin, Saurav Jha, Andrea Torsello, Bogdan Raducanu, Joost van de Weijer(参考訳) 本稿では,視覚変換器 (ViT) の連続学習を,その重要な自己保持機構 (SAM) の知識を効率的に抽出する方法に焦点をあてて検討する。 本研究は, ViT におけるコヒーレント連続学習法の設計におけるSAM の外科的検討に向けた第一歩である。 まず,確立した連続学習正規化手法の評価を行う。 次に、SAMの2つのキーイネーラに適用した場合の正規化の効果を検討する。 (a)コンテキスト化された埋め込み層は、その値に関してよくスケールされた表現をキャプチャできるため、そして b) 価値に依存しないグローバルな文脈情報を運ぶための事前スケールアテンションマップ。 我々は2つの画像認識ベンチマーク(cifar100とimagenet-32)における蒸留戦略の要点について述べる。 (a)全体的な正確さが向上する。 (b)競争力を維持することで剛性を高める。 さらに、正規化損失の対称性によって課される制限を特定する。 これを軽減するために, 非対称な変種を提案し, ViT に適応したプール出力蒸留(POD)損失に適用する。 実験により,PODに非対称性を導入することで塑性が向上し,安定性が保たれることを確認した。 (a)及び (b) さらに,全ての比較手法について,ViTsが自然に傾きのある学習者であることを示唆し,低忘れ化対策を認めている。

In this paper, we investigate the continual learning of Vision Transformers (ViT) for the challenging exemplar-free scenario, with special focus on how to efficiently distill the knowledge of its crucial self-attention mechanism (SAM). Our work takes an initial step towards a surgical investigation of SAM for designing coherent continual learning methods in ViTs. We first carry out an evaluation of established continual learning regularization techniques. We then examine the effect of regularization when applied to two key enablers of SAM: (a) the contextualized embedding layers, for their ability to capture well-scaled representations with respect to the values, and (b) the prescaled attention maps, for carrying value-independent global contextual information. We depict the perks of each distilling strategy on two image recognition benchmarks (CIFAR100 and ImageNet-32) -- while (a) leads to a better overall accuracy, (b) helps enhance the rigidity by maintaining competitive performances. Furthermore, we identify the limitation imposed by the symmetric nature of regularization losses. To alleviate this, we propose an asymmetric variant and apply it to the pooled output distillation (POD) loss adapted for ViTs. Our experiments confirm that introducing asymmetry to POD boosts its plasticity while retaining stability across (a) and (b). Moreover, we acknowledge low forgetting measures for all the compared methods, indicating that ViTs might be naturally inclined continual learner
翻訳日:2022-03-25 13:45:47 公開日:2022-03-24
# DyRep:動的再パラメータ化によるブートストラップトレーニング

DyRep: Bootstrapping Training with Dynamic Re-parameterization ( http://arxiv.org/abs/2203.12868v1 )

ライセンス: Link先を確認
Tao Huang, Shan You, Bohan Zhang, Yuxuan Du, Fei Wang, Chen Qian, Chang Xu(参考訳) 構造的再パラメータ化(Rep)手法は、単純なVGGスタイルのネットワークにおいて顕著な改善を実現する。 流行にもかかわらず、現在のRepメソッドは、モデルの性能にはほとんど貢献しないものを含む、すべての操作を拡張ネットワークに再パラメータ化する。 このような不必要な振る舞いを操作するのに、料金は高価な計算オーバーヘッドである。 本稿では,ネットワーク構造を動的に進化させるトレーニングプロセスにRepテクニックをエンコードする動的再パラメータ化(DyRep)手法を考案し,トレーニングを最小限のコストでブートストラップすることを目的とする。 具体的には,ネットワークの損失に最も寄与する操作を適応的に発見し,Repを適用して表現能力を向上させる。 さらに,Repが導入したノイズや冗長な操作を抑えるため,よりコンパクトな再パラメータ化のための非パラメータ化手法を考案した。 この点において、DyRepは、過パラメータネットワークを構築するのではなく、与えられたネットワークをスムーズに進化させるため、Repよりも効率的である。 例えば、DyRepはImageNet上でResNet-18の精度を$2.04\%改善し、ベースライン上でのランタイムを$2.2\%削減する。 コードは、https://github.com/hunto/DyRep.comで入手できる。

Structural re-parameterization (Rep) methods achieve noticeable improvements on simple VGG-style networks. Despite the prevalence, current Rep methods simply re-parameterize all operations into an augmented network, including those that rarely contribute to the model's performance. As such, the price to pay is an expensive computational overhead to manipulate these unnecessary behaviors. To eliminate the above caveats, we aim to bootstrap the training with minimal cost by devising a dynamic re-parameterization (DyRep) method, which encodes Rep technique into the training process that dynamically evolves the network structures. Concretely, our proposal adaptively finds the operations which contribute most to the loss in the network, and applies Rep to enhance their representational capacity. Besides, to suppress the noisy and redundant operations introduced by Rep, we devise a de-parameterization technique for a more compact re-parameterization. With this regard, DyRep is more efficient than Rep since it smoothly evolves the given network instead of constructing an over-parameterized network. Experimental results demonstrate our effectiveness, e.g., DyRep improves the accuracy of ResNet-18 by $2.04\%$ on ImageNet and reduces $22\%$ runtime over the baseline. Code is available at: https://github.com/hunto/DyRep.
翻訳日:2022-03-25 13:27:10 公開日:2022-03-24
# Pastiche Master: 先進的な高解像度ポートレートスタイルの転送

Pastiche Master: Exemplar-Based High-Resolution Portrait Style Transfer ( http://arxiv.org/abs/2203.13248v1 )

ライセンス: Link先を確認
Shuai Yang, Liming Jiang, Ziwei Liu, Chen Change Loy(参考訳) StyleGANの最近の研究は、限られたデータを用いた転送学習による芸術的肖像画生成に高い性能を示している。 本稿では,従来の顔領域と拡張された芸術的肖像画領域の両スタイルを柔軟に制御する新しいDualStyleGANを導入することで,模範的な高解像度肖像画スタイルの転送をより困難にする。 StyleGANとは異なり、DualStyleGANは、固有のスタイルパスと新しい外部スタイルパスを持つポートレートの内容とスタイルをそれぞれ特徴付けることによって、自然なスタイル転送を提供する。 繊細に設計された極端なスタイルパスにより,カラースタイルと複雑な構造スタイルの両方を階層的に変調し,正確にスタイル例を定式化することができる。 さらに、上述のネットワークアーキテクチャの変更であっても、モデルの生成空間を対象領域にスムーズに変換するために、新たなプログレッシブ微調整スキームを導入する。 高品質なポートレートスタイル転送とフレキシブルなスタイル制御における最先端手法よりもDualStyleGANの方が優れていることを示す実験である。

Recent studies on StyleGAN show high performance on artistic portrait generation by transfer learning with limited data. In this paper, we explore more challenging exemplar-based high-resolution portrait style transfer by introducing a novel DualStyleGAN with flexible control of dual styles of the original face domain and the extended artistic portrait domain. Different from StyleGAN, DualStyleGAN provides a natural way of style transfer by characterizing the content and style of a portrait with an intrinsic style path and a new extrinsic style path, respectively. The delicately designed extrinsic style path enables our model to modulate both the color and complex structural styles hierarchically to precisely pastiche the style example. Furthermore, a novel progressive fine-tuning scheme is introduced to smoothly transform the generative space of the model to the target domain, even with the above modifications on the network architecture. Experiments demonstrate the superiority of DualStyleGAN over state-of-the-art methods in high-quality portrait style transfer and flexible style control.
翻訳日:2022-03-25 13:26:41 公開日:2022-03-24
# 効率的な次元化のための階層的近傍グラフ埋め込み

Hierarchical Nearest Neighbor Graph Embedding for Efficient Dimensionality Reduction ( http://arxiv.org/abs/2203.12997v1 )

ライセンス: Link先を確認
M. Saquib Sarfraz, Marios Koulakis, Constantin Seibold, Rainer Stiefelhagen(参考訳) 次元の低減は、機械学習のための高次元データの可視化と前処理の両方に不可欠である。 本稿では,データ分布のグルーピング特性を多レベルに保持するために,元の空間における1-nearest近傍グラフ上に構築した階層構造に基づく新しい手法を提案する。 提案のコアとなるのは、t-SNEとUMAPの最新バージョンと性能と視覚化品質で競合する最適化不要なプロジェクションである。 さらに、解釈可能な機構、新しいデータを投影する能力、視覚化におけるデータクラスタの自然な分離により、汎用的な教師なし次元削減技術となっている。 本稿では,提案手法の健全性について議論し,28から16kの異なる1kから11mのサンプルと寸法の異なる多様なデータセットについて評価する。 我々は,その効率と性能を強調する複数の指標と対象次元について,他の最先端手法との比較を行う。 コードはhttps://github.com/koulakis/h-nneで入手できる。

Dimensionality reduction is crucial both for visualization and preprocessing high dimensional data for machine learning. We introduce a novel method based on a hierarchy built on 1-nearest neighbor graphs in the original space which is used to preserve the grouping properties of the data distribution on multiple levels. The core of the proposal is an optimization-free projection that is competitive with the latest versions of t-SNE and UMAP in performance and visualization quality while being an order of magnitude faster in run-time. Furthermore, its interpretable mechanics, the ability to project new data, and the natural separation of data clusters in visualizations make it a general purpose unsupervised dimension reduction technique. In the paper, we argue about the soundness of the proposed method and evaluate it on a diverse collection of datasets with sizes varying from 1K to 11M samples and dimensions from 28 to 16K. We perform comparisons with other state-of-the-art methods on multiple metrics and target dimensions highlighting its efficiency and performance. Code is available at https://github.com/koulakis/h-nne
翻訳日:2022-03-25 13:26:21 公開日:2022-03-24
# ターボファンエンジンの排気温度に関する説明可能な人工知能

Explainable Artificial Intelligence for Exhaust Gas Temperature of Turbofan Engines ( http://arxiv.org/abs/2203.13108v1 )

ライセンス: Link先を確認
Marios Kefalas, Juan de Santiago Rojo Jr., Asteris Apostolidis, Dirk van den Herik, Bas van Stein, Thomas B\"ack(参考訳) データ駆動モデリングは、航空工学や商業航空の分野における多くの応用を含む、様々な産業応用において必須のツールである。 これらのモデルは、特定の測定結果においてどのパラメータが重要であるか、または入力パラメータのセットで観察すべきパラメータ値など、重要な洞察を提供する役割を担っている。 しかし、これらのモデルは仮定(定常性など)や「ブラックボックス」(深層ニューラルネットワークなど)に大きく依存しているため、内部動作の解釈性が欠如しており、入力や出力の観点でしか見ることができない。 ブラックボックス」モデルの解釈可能な代替品で、仮定がかなり少ないものはシンボリック回帰(SR)である。 SRは、アプリオリモデル構造に頼ることなく、モデルのパラメータを同時に最適化しながら最適なモデル構造を探索する。 本研究では, 実寿命排気温度(EGT)データにSRを適用し, EGTと他の測定可能なエンジンパラメータ間の有意義な代数的関係を明らかにする。 実験の結果, モデル精度が期待できるとともに, 3{\deg}c の絶対差を, 工学的観点からの一貫性を示すことができた。

Data-driven modeling is an imperative tool in various industrial applications, including many applications in the sectors of aeronautics and commercial aviation. These models are in charge of providing key insights, such as which parameters are important on a specific measured outcome or which parameter values we should expect to observe given a set of input parameters. At the same time, however, these models rely heavily on assumptions (e.g., stationarity) or are "black box" (e.g., deep neural networks), meaning that they lack interpretability of their internal working and can be viewed only in terms of their inputs and outputs. An interpretable alternative to the "black box" models and with considerably less assumptions is symbolic regression (SR). SR searches for the optimal model structure while simultaneously optimizing the model's parameters without relying on an a-priori model structure. In this work, we apply SR on real-life exhaust gas temperature (EGT) data, collected at high frequencies through the entire flight, in order to uncover meaningful algebraic relationships between the EGT and other measurable engine parameters. The experimental results exhibit promising model accuracy, as well as explainability returning an absolute difference of 3{\deg}C compared to the ground truth and demonstrating consistency from an engineering perspective.
翻訳日:2022-03-25 13:25:18 公開日:2022-03-24
# プライバシに直面する正確性:限られたデータに基づく医用画像の分類における2段階のフェデレーション・トランスファー学習フレームワーク

When Accuracy Meets Privacy: Two-Stage Federated Transfer Learning Framework in Classification of Medical Images on Limited Data: A COVID-19 Case Study ( http://arxiv.org/abs/2203.12803v1 )

ライセンス: Link先を確認
Alexandros Shikun Zhang and Naomi Fengqi Li(参考訳) 新型コロナウイルスのパンデミックが急速に広がり、世界の医療資源が不足している。 新型コロナウイルスの診断の効率は非常に高くなっている。 深層学習と畳み込みニューラルネットワーク(CNN)は医療画像の解析に広く利用され、検証されているため、コンピュータ支援診断の強力なツールとなっている。 しかし、深層学習とニューラルネットワークの助けを借りて、医用画像分類には2つの重要な課題がある。 医療関連記録は患者の個人情報と見なされ、GDPRやHIPPAなどの法律によって保護されることが多いため、プライバシの懸念は、他の課題を主に引き起こす。 フェデレーション学習は、モデルトレーニングが異なるデバイス上で分散化され、データを共有することなく、プライバシを保証することができる。 しかし、異なるデバイス上のデータでは、各デバイスのアクセス可能なデータは制限される可能性がある。 そこで本研究では,cnnを用いたフェデレート学習と転送学習の手法を,肺ctスキャンを用いてcnnを用いて実施する試みを行った。 また,フェデレーション学習におけるクライアント側のデータセット分布の影響や,モデルのトレーニング回数についても検討した。 最後に、フェデレーション学習で非常に高いパフォーマンスを達成し、正確性とプライバシの活用に成功したことを実証しました。

COVID-19 pandemic has spread rapidly and caused a shortage of global medical resources. The efficiency of COVID-19 diagnosis has become highly significant. As deep learning and convolutional neural network (CNN) has been widely utilized and been verified in analyzing medical images, it has become a powerful tool for computer-assisted diagnosis. However, there are two most significant challenges in medical image classification with the help of deep learning and neural networks, one of them is the difficulty of acquiring enough samples, which may lead to model overfitting. Privacy concerns mainly bring the other challenge since medical-related records are often deemed patients' private information and protected by laws such as GDPR and HIPPA. Federated learning can ensure the model training is decentralized on different devices and no data is shared among them, which guarantees privacy. However, with data located on different devices, the accessible data of each device could be limited. Since transfer learning has been verified in dealing with limited data with good performance, therefore, in this paper, We made a trial to implement federated learning and transfer learning techniques using CNNs to classify COVID-19 using lung CT scans. We also explored the impact of dataset distribution at the client-side in federated learning and the number of training epochs a model is trained. Finally, we obtained very high performance with federated learning, demonstrating our success in leveraging accuracy and privacy.
翻訳日:2022-03-25 13:23:06 公開日:2022-03-24
# トランスフォーマー圧縮型グローバルイメージトークンによるセンシング

Transformer Compressed Sensing via Global Image Tokens ( http://arxiv.org/abs/2203.12861v1 )

ライセンス: Link先を確認
Marlon Bran Lorenzana, Craig Engstrom, and Shekhar S. Chandra(参考訳) 畳み込みニューラルネットワーク(cnn)は、従来の手作り方式に比べて優れた圧縮センシング(cs)性能を示している。 しかし、それらは一般化可能性、帰納的バイアス、長距離関係のモデル化の困難さという観点で広く制限されている。 トランスフォーマーニューラルネットワーク(tnn)は、入力間の依存関係をキャプチャするアテンションメカニズムを実装することで、このような問題を克服する。 しかし、高解像度のタスクは通常、イメージをパッチベースのトークンに分解するために視覚変換器(ViT)を必要とする。 低解像度入力に自然に画像を埋め込む新しい画像分解法を提案する。 これらのカレイドスコープトークン(KD)は、パッチベースのアプローチと同じ計算コストで、グローバルな注目のメカニズムを提供する。 この発展を示すために、よく知られたCS-MRIニューラルネットワークのCNNコンポーネントをTNNブロックで置き換え、KDがもたらす改善を実証する。 また,画像品質を向上し,モデルサイズを小さくする画像トークンのアンサンブルを提案する。 https://github.com/uqmarlonbran/tcs.git}{https://github.com/uqmarlonbran/tcs.git

Convolutional neural networks (CNN) have demonstrated outstanding Compressed Sensing (CS) performance compared to traditional, hand-crafted methods. However, they are broadly limited in terms of generalisability, inductive bias and difficulty to model long distance relationships. Transformer neural networks (TNN) overcome such issues by implementing an attention mechanism designed to capture dependencies between inputs. However, high-resolution tasks typically require vision Transformers (ViT) to decompose an image into patch-based tokens, limiting inputs to inherently local contexts. We propose a novel image decomposition that naturally embeds images into low-resolution inputs. These Kaleidoscope tokens (KD) provide a mechanism for global attention, at the same computational cost as a patch-based approach. To showcase this development, we replace CNN components in a well-known CS-MRI neural network with TNN blocks and demonstrate the improvements afforded by KD. We also propose an ensemble of image tokens, which enhance overall image quality and reduces model size. Supplementary material is available: https://github.com/uqmarlonbran/TCS.git}{https://github.com/uqmarlonbran/TCS.git
翻訳日:2022-03-25 13:22:40 公開日:2022-03-24
# NPC:ディープニューラルネットワークの決定論理を特徴付ける神経経路被覆

NPC: Neuron Path Coverage via Characterizing Decision Logic of Deep Neural Networks ( http://arxiv.org/abs/2203.12915v1 )

ライセンス: Link先を確認
Xiaofei Xie, Tianlin Li, Jian Wang, Lei Ma, Qing Guo, Felix Juefei-Xu, Yang Liu(参考訳) ディープラーニングは最近、画像分類や音声認識など、さまざまなドメインのさまざまなアプリケーションに広く適用されている。 しかし、ディープニューラルネットワーク(dnn)の品質は、特に安全クリティカルなシナリオにおいて体系的なテストを必要とする実用的な運用環境において依然として懸念を生じさせている。 ソフトウェアテストにインスパイアされたいくつかの構造的カバレッジ基準が設計され、DNNのテスト精度を測定するために提案されている。 しかし、DNNのブラックボックスの性質から、既存の構造的カバレッジ基準を解釈することは困難であり、これらの基準の根底にある原則を理解することは困難である。 DNNの構造的カバレッジと決定論理との関係は不明である。 さらに、最近の研究では、構造カバレッジとDNN欠陥検出の相関が存在しないことが明らかにされており、適切なDNNテスト基準が何かという懸念がさらに浮かび上がっている。 本稿では,DNNの決定構造を構築することにより,解釈可能なカバレッジ基準を提案する。 従来のプログラムの制御フローグラフを反映して、まずその解釈に基づいてDNNから決定グラフを抽出し、決定グラフの経路がDNNの決定ロジックを表す。 決定グラフの制御フローとデータフローに基づいて、決定論理を遂行するテストケースの妥当性を測定するための経路カバレッジの2つの変種を提案する。 パスカバレッジが高くなればなるほど、DNNはより多様な決定ロジックを探求することが期待される。 大規模評価の結果, 決定グラフの経路はdnnの決定を特徴付けるのに効果的であり, 提案するカバレッジ基準は, 自然エラーや逆例などの誤りにも敏感であり, 出力の不偏性に強く関連していることがわかった。

Deep learning has recently been widely applied to many applications across different domains, e.g., image classification and audio recognition. However, the quality of Deep Neural Networks (DNNs) still raises concerns in the practical operational environment, which calls for systematic testing, especially in safety-critical scenarios. Inspired by software testing, a number of structural coverage criteria are designed and proposed to measure the test adequacy of DNNs. However, due to the blackbox nature of DNN, the existing structural coverage criteria are difficult to interpret, making it hard to understand the underlying principles of these criteria. The relationship between the structural coverage and the decision logic of DNNs is unknown. Moreover, recent studies have further revealed the non-existence of correlation between the structural coverage and DNN defect detection, which further posts concerns on what a suitable DNN testing criterion should be. In this paper, we propose the interpretable coverage criteria through constructing the decision structure of a DNN. Mirroring the control flow graph of the traditional program, we first extract a decision graph from a DNN based on its interpretation, where a path of the decision graph represents a decision logic of the DNN. Based on the control flow and data flow of the decision graph, we propose two variants of path coverage to measure the adequacy of the test cases in exercising the decision logic. The higher the path coverage, the more diverse decision logic the DNN is expected to be explored. Our large-scale evaluation results demonstrate that: the path in the decision graph is effective in characterizing the decision of the DNN, and the proposed coverage criteria are also sensitive with errors including natural errors and adversarial examples, and strongly correlated with the output impartiality.
翻訳日:2022-03-25 13:22:21 公開日:2022-03-24
# (参考訳) 拡張型類似学習によるオープンセット認識

Open-set Recognition via Augmentation-based Similarity Learning ( http://arxiv.org/abs/2203.13238v1 )

ライセンス: CC BY 4.0
Sepideh Esmaeilpour, Lei shu, Bing Liu(参考訳) 従来の教師付き学習や分類の主要な前提は、テストサンプルがトレーニングサンプルと同じ分布から引き出され、これはクローズドセット学習や分類と呼ばれる。 多くの実用的なシナリオでは、テストデータには未知または未知のクラスサンプルがあり、これはオープンセットシナリオと呼ばれ、未知は検出される必要があるため、これは当てはまらない。 この問題はオープンセット認識問題と呼ばれ、安全クリティカルな応用において重要である。 ペア回りの類似性を学習することで未知(あるいは未知のクラスサンプル)を検出することを提案する。 提案手法は2つのステップで機能する。 まず、トレーニング中に現れた参照クラスを使用してクローズドセットのクラス化子を学習し、見たクラスを疑似unseen(自動生成未生成クラスサンプル)と比較する方法を学ぶ。 疑似アンセエン生成は、観察または訓練サンプル上で分布シフトを行うことにより行われる。 我々はこの手法をOPG(Pseudo unseen data generationに基づくオープンセット認識)と呼ぶ。 実験評価の結果,学習された類似性に基づく特徴は,オープンセット認識のためのベンチマークデータセットの未認識とうまく区別できることがわかった。

The primary assumption of conventional supervised learning or classification is that the test samples are drawn from the same distribution as the training samples, which is called closed set learning or classification. In many practical scenarios, this is not the case because there are unknowns or unseen class samples in the test data, which is called the open set scenario, and the unknowns need to be detected. This problem is referred to as the open set recognition problem and is important in safety-critical applications. We propose to detect unknowns (or unseen class samples) through learning pairwise similarities. The proposed method works in two steps. It first learns a closed set classifier using the seen classes that have appeared in training and then learns how to compare seen classes with pseudo-unseen (automatically generated unseen class samples). The pseudo-unseen generation is carried out by performing distribution shifting augmentations on the seen or training samples. We call our method OPG (Open set recognition based on Pseudo unseen data Generation). The experimental evaluation shows that the learned similarity-based features can successfully distinguish seen from unseen in benchmark datasets for open set recognition.
翻訳日:2022-03-25 13:19:35 公開日:2022-03-24
# bigdetection: オブジェクト検出事前トレーニングを改善するための大規模ベンチマーク

BigDetection: A Large-scale Benchmark for Improved Object Detector Pre-training ( http://arxiv.org/abs/2203.13249v1 )

ライセンス: Link先を確認
Likun Cai, Zhi Zhang, Yi Zhu, Li Zhang, Mu Li and Xiangyang Xue(参考訳) 近年、複数のデータセットとオブジェクト検出のオープンチャレンジが導入されている。 本稿では,より汎用的で強力なオブジェクト検出システムを構築するために,BigDetectionと呼ばれる大規模ベンチマークを構築した。 我々の目標は、既存のデータセット(LVIS、OpenImages、Object365)からのトレーニングデータを慎重に設計した原則で単純に活用し、検出器事前トレーニングを改善するためのより大きなデータセットをキュレートすることにあります。 具体的には、異種ラベル空間を異なるソースから統一する新しい分類法を作成する。 BigDetectionデータセットには600のオブジェクトカテゴリがあり、3.4M以上のトレーニングイメージと36Mのバウンディングボックスが含まれている。 それは、機会と課題の両方を提供する以前のベンチマークよりも、複数の次元ではるかに大きい。 大規模な実験は、異なる物体検出方法を評価するための新しいベンチマークとしての有効性と、事前学習データセットとしての有効性を示す。

Multiple datasets and open challenges for object detection have been introduced in recent years. To build more general and powerful object detection systems, in this paper, we construct a new large-scale benchmark termed BigDetection. Our goal is to simply leverage the training data from existing datasets (LVIS, OpenImages and Object365) with carefully designed principles, and curate a larger dataset for improved detector pre-training. Specifically, we generate a new taxonomy which unifies the heterogeneous label spaces from different sources. Our BigDetection dataset has 600 object categories and contains over 3.4M training images with 36M bounding boxes. It is much larger in multiple dimensions than previous benchmarks, which offers both opportunities and challenges. Extensive experiments demonstrate its validity as a new benchmark for evaluating different object detection methods, and its effectiveness as a pre-training dataset.
翻訳日:2022-03-25 13:04:21 公開日:2022-03-24
# 多言語チェックリスト:生成と評価

Multilingual CheckList: Generation and Evaluation ( http://arxiv.org/abs/2203.12865v1 )

ライセンス: Link先を確認
Karthikeyan K, Shaily Bhatt, Pankaj Singh, Somak Aditya, Sandipan Dandapat, Sunayana Sitaram, Monojit Choudhary(参考訳) 最近提案されたCheckList (Riberio et al,. 2020) によるNLPシステムの評価は、複数の最先端および商用モデルの基本的な機能に対する高い失敗率を示している。 しかし、CheckList作成プロセスはマニュアルであり、100の言語に対応する多言語CheckListの作成にボトルネックをもたらす。 本研究では,多言語チェックリストの品質を生成・評価するための複数の手法を検討する。 私たちは、CheckListをソースから適切な機械翻訳システムに依存するターゲット言語に自動的に転送するアルゴリズム -- AMCG(Automated Multilingual Checklist Generation)を作成しました。 次に,amcgが生成するチェックリストと,ヒトの介入レベルが異なるチェックリストを比較した。 英語とヒンディー語間の詳細なクロスリンガル実験と11言語にまたがる広範囲な多言語実験を通して、自動的なアプローチは、人間の検証したCheckListのように、能力にわたってモデルの失敗率を正確に推定し、人間のゼロから生成されたCheckListよりも優れていることを示す。

The recently proposed CheckList (Riberio et al,. 2020) approach to evaluation of NLP systems has revealed high failure rates for basic capabilities for multiple state-of-the-art and commercial models. However, the CheckList creation process is manual which creates a bottleneck towards creation of multilingual CheckLists catering 100s of languages. In this work, we explore multiple approaches to generate and evaluate the quality of Multilingual CheckList. We device an algorithm -- Automated Multilingual Checklist Generation (AMCG) for automatically transferring a CheckList from a source to a target language that relies on a reasonable machine translation system. We then compare the CheckList generated by AMCG with CheckLists generated with different levels of human intervention. Through in-depth crosslingual experiments between English and Hindi, and broad multilingual experiments spanning 11 languages, we show that the automatic approach can provide accurate estimates of failure rates of a model across capabilities, as would a human-verified CheckList, and better than CheckLists generated by humans from scratch.
翻訳日:2022-03-25 13:03:49 公開日:2022-03-24
# Mono vs Multilingual BERT:Hindi and Marathi Named Entity Recognition を事例として

Mono vs Multilingual BERT: A Case Study in Hindi and Marathi Named Entity Recognition ( http://arxiv.org/abs/2203.12907v1 )

ライセンス: Link先を確認
Onkar Litake, Maithili Sabane, Parth Patil, Aparna Ranade, Raviraj Joshi(参考訳) 名前付きエンティティ認識(NER)は、重要な情報(エンティティ)をテキストで認識し分類するプロセスである。 人名、組織名、場所名などの固有名詞は、実体の例である。 NERは、ヒューマンリソース、カスタマーサポート、検索エンジン、コンテンツ分類、アカデミックといったアプリケーションにおいて重要なモジュールの1つです。 本研究では,ヒンディー語やマラティ語などの低資源インド語についてnerを考察する。 トランスフォーマーベースのモデルは、NERタスクに広く使われている。 BERTのさまざまなバリエーションであるbase-BERT、RoBERTa、AlBERTについて検討し、HindiおよびMarathi NERデータセットでそれらをベンチマークする。 単言語モデルと多言語モデルの比較を行い,現在文献に欠けている単純なベースラインを確立する。 モノリンガルのMahaRoBERTaモデルがMarathi NERに最適であるのに対し,マルチリンガルのXLM-RoBERTaはHindi NERに最適であることを示す。 また,言語横断評価を行い,混合観察を行った。

Named entity recognition (NER) is the process of recognising and classifying important information (entities) in text. Proper nouns, such as a person's name, an organization's name, or a location's name, are examples of entities. The NER is one of the important modules in applications like human resources, customer support, search engines, content classification, and academia. In this work, we consider NER for low-resource Indian languages like Hindi and Marathi. The transformer-based models have been widely used for NER tasks. We consider different variations of BERT like base-BERT, RoBERTa, and AlBERT and benchmark them on publicly available Hindi and Marathi NER datasets. We provide an exhaustive comparison of different monolingual and multilingual transformer-based models and establish simple baselines currently missing in the literature. We show that the monolingual MahaRoBERTa model performs the best for Marathi NER whereas the multilingual XLM-RoBERTa performs the best for Hindi NER. We also perform cross-language evaluation and present mixed observations.
翻訳日:2022-03-25 13:03:28 公開日:2022-03-24
# 効率的なBERT事前学習のためのトークンドロップ

Token Dropping for Efficient BERT Pretraining ( http://arxiv.org/abs/2203.13240v1 )

ライセンス: Link先を確認
Le Hou, Richard Yuanzhe Pang, Tianyi Zhou, Yuexin Wu, Xinying Song, Xiaodan Song, Denny Zhou(参考訳) トランスフォーマーベースのモデルは一般に、与えられたシーケンスの各トークンに対して同じ量の計算を割り当てる。 bertなどのトランスフォーマーモデルの事前学習を,ダウンストリームタスクの性能を低下させることなく高速化する,単純かつ効果的な「分岐降下」手法を開発した。 簡単に言えば、モデル内の中間層から始まる重要でないトークンをドロップして、重要なトークンにモデルを集中させる。 我々は既に組み込まれているマスキング言語モデリング(MLM)の損失を利用して、計算オーバーヘッドのない重要でないトークンを特定する。 実験では、この単純なアプローチにより、BERTの事前学習コストを25%削減すると同時に、標準下流タスクの全体的な微調整性能も向上する。

Transformer-based models generally allocate the same amount of computation for each token in a given sequence. We develop a simple but effective "token dropping" method to accelerate the pretraining of transformer models, such as BERT, without degrading its performance on downstream tasks. In short, we drop unimportant tokens starting from an intermediate layer in the model to make the model focus on important tokens; the dropped tokens are later picked up by the last layer of the model so that the model still produces full-length sequences. We leverage the already built-in masked language modeling (MLM) loss to identify unimportant tokens with practically no computational overhead. In our experiments, this simple approach reduces the pretraining cost of BERT by 25% while achieving similar overall fine-tuning performance on standard downstream tasks.
翻訳日:2022-03-25 13:03:08 公開日:2022-03-24
# ヒュー・イン・ザ・ループ機械学習のための合理性中心のフレームワーク

A Rationale-Centric Framework for Human-in-the-loop Machine Learning ( http://arxiv.org/abs/2203.12918v1 )

ライセンス: Link先を確認
Jinghui Lu, Linyi Yang, Brian Mac Namee, Yue Zhang(参考訳) 本稿では,Rationales中心のDouble-robustness Learning(RDL)を用いた新たな合理性中心型フレームワークを提案する。 静的半実数生成と動的人間介入補正を用いることで、RDLは有理性(すなわち予測の原因となるフレーズ)、人間の介入、半実数拡張を利用して、スパイラルな関連性やバイアスモデルを一般化された基礎的な分布へと分離し、高速かつ正確な一般化を可能にする。 実験の結果、rdlは、多くの最先端ベンチマークと比べて、分散テストと分散テストの両方において、大きな予測上の利点をもたらすことがわかった。 また,フレームワークの各コンポーネントの詳細な分析を支援するため,広範囲にわたるアブレーション研究も実施している。

We present a novel rationale-centric framework with human-in-the-loop -- Rationales-centric Double-robustness Learning (RDL) -- to boost model out-of-distribution performance in few-shot learning scenarios. By using static semi-factual generation and dynamic human-intervened correction, RDL exploits rationales (i.e. phrases that cause the prediction), human interventions and semi-factual augmentations to decouple spurious associations and bias models towards generally applicable underlying distributions, which enables fast and accurate generalisation. Experimental results show that RDL leads to significant prediction benefits on both in-distribution and out-of-distribution tests compared to many state-of-the-art benchmarks -- especially for few-shot learning scenarios. We also perform extensive ablation studies to support in-depth analyses of each component in our framework.
翻訳日:2022-03-25 13:02:55 公開日:2022-03-24
# 自然言語推論データセットにおけるスプリアス相関を緩和するためのデータ生成

Generating Data to Mitigate Spurious Correlations in Natural Language Inference Datasets ( http://arxiv.org/abs/2203.12942v1 )

ライセンス: Link先を確認
Yuxiang Wu, Matt Gardner, Pontus Stenetorp and Pradeep Dasigi(参考訳) 自然言語処理モデルは、しばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象の分布内でのみうまく機能し、異なるタスク分布に一般化しない。 そこで本研究では,データセットのデバイアスバージョンを生成し,そのトレーニングデータを単純に置き換えることで、デバイアスされたオフ・ザ・棚モデルのトレーニングに使用できることを提案する。 私たちのアプローチは 1) 高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法 2)z統計量の観点から測定した突発的相関に寄与するデータ点を除去するフィルタリング機構。 SNLIデータセットとMNLIデータセットのデバイアスバージョンを生成し、デバイアス、アウト・オブ・ディストリビューション、および逆テストセットの大規模なセットで評価する。 その結果、偏りのあるデータセットでトレーニングされたモデルは、すべての設定でトレーニングされた元のデータセットよりも一般化されていることがわかった。 提案手法は,ほとんどのデータセットにおいて,従来の最先端のデバイアス対策よりも優れ,かつ,直交技術,製品・オブ・エキスパートと組み合わせることで,SNLI-hardとMNLI-hardの従来の最良の結果よりも向上し,優れた結果が得られる。

Natural language processing models often exploit spurious correlations between task-independent features and labels in datasets to perform well only within the distributions they are trained on, while not generalising to different task distributions. We propose to tackle this problem by generating a debiased version of a dataset, which can then be used to train a debiased, off-the-shelf model, by simply replacing its training data. Our approach consists of 1) a method for training data generators to generate high-quality, label-consistent data samples; and 2) a filtering mechanism for removing data points that contribute to spurious correlations, measured in terms of z-statistics. We generate debiased versions of the SNLI and MNLI datasets, and we evaluate on a large suite of debiased, out-of-distribution, and adversarial test sets. Results show that models trained on our debiased datasets generalise better than those trained on the original datasets in all settings. On the majority of the datasets, our method outperforms or performs comparably to previous state-of-the-art debiasing strategies, and when combined with an orthogonal technique, product-of-experts, it improves further and outperforms previous best results of SNLI-hard and MNLI-hard.
翻訳日:2022-03-25 13:01:16 公開日:2022-03-24
# graphcoco:グラフ補完的コントラスト学習

GraphCoCo: Graph Complementary Contrastive Learning ( http://arxiv.org/abs/2203.12821v1 )

ライセンス: Link先を確認
Jiawei Sun, Junchi Yan, Chentao Wu, Yue Ding, Ruoxin Chen, Xiang Yu, Xinyu Lu, Jie Li(参考訳) グラフコントラスト学習(GCL)は、手動アノテーションの監督なしにグラフ表現学習(GRL)において有望な性能を示した。 GCLは、同じグラフ(陽性ペア)の異なる拡張ビュー間の相互情報(MI)を最大化することにより、グラフレベルの埋め込みを生成することができる。 しかし,情報損失の最適化はいくつかの埋め込み次元のみに集中し,下流のグラフ分類タスクにおける埋め込みの識別性を制限している。 本稿では,この課題に対処するため,グラフココというグラフ補完型コントラスト学習手法を提案する。 具体的には、最初の拡張ビューの埋め込みを「高輝度」次元を局所化するアンカーとして設定する(すなわち、次元は類似度測定に最も寄与する)。 次に、これら次元を第2の拡張ビューの埋め込みから取り除き、無視された相補表現を発見する。 従って、アンカーと補完的な組込みの組み合わせは、下流タスクのパフォーマンスを大幅に改善する。 graphcocoの有効性を実証するために,様々なベンチマークデータセットに関する総合実験を行い,本モデルが最先端手法を上回ることを示した。 ソースコードは公開される予定だ。

Graph Contrastive Learning (GCL) has shown promising performance in graph representation learning (GRL) without the supervision of manual annotations. GCL can generate graph-level embeddings by maximizing the Mutual Information (MI) between different augmented views of the same graph (positive pairs). However, we identify an obstacle that the optimization of InfoNCE loss only concentrates on a few embeddings dimensions, limiting the distinguishability of embeddings in downstream graph classification tasks. This paper proposes an effective graph complementary contrastive learning approach named GraphCoCo to tackle the above issue. Specifically, we set the embedding of the first augmented view as the anchor embedding to localize "highlighted" dimensions (i.e., the dimensions contribute most in similarity measurement). Then remove these dimensions in the embeddings of the second augmented view to discover neglected complementary representations. Therefore, the combination of anchor and complementary embeddings significantly improves the performance in downstream tasks. Comprehensive experiments on various benchmark datasets are conducted to demonstrate the effectiveness of GraphCoCo, and the results show that our model outperforms the state-of-the-art methods. Source code will be made publicly available.
翻訳日:2022-03-25 13:00:36 公開日:2022-03-24
# 分散型深層学習のための局所的非同期確率勾配決定

Locally Asynchronous Stochastic Gradient Descent for Decentralised Deep Learning ( http://arxiv.org/abs/2203.13085v1 )

ライセンス: Link先を確認
Tomer Avidor, Nadav Tal Israel(参考訳) ディープニューラルネットワークの分散トレーニングアルゴリズムは、非常に大きな問題に対して顕著な収束速度特性を示す。 しかし、それらは本質的に通信関連の遅延に悩まされ、通信トポロジが重要な設計選択となる。 ほとんどの機械学習フレームワークでサポートされている一般的なアプローチは 1)ピアツーピアに依存する同期分散アルゴリズムは、ストラグラーや通信遅延に敏感なトポロジーを全て減少させる。 2) 通信ボトルネックが発生しやすいサーバベースのトポロジを持つ非同期集中型アルゴリズム。 また、ボトルネックやスピードアップのトレーニングを避けるために設計された非同期分散アルゴリズムも提案されている。 本稿では,モデル同期のすべての削減に依存する,非同期分散アルゴリズムであるlocal asynchronous sgd (lasgd)を提案する。 ImageNetデータセット上の画像分類タスクにおいて、LASGDの性能を実証的に検証する。 実験の結果, LASGDはSGDと比較して訓練を加速し, ゴシップベースアプローチの状況も改善した。

Distributed training algorithms of deep neural networks show impressive convergence speedup properties on very large problems. However, they inherently suffer from communication related slowdowns and communication topology becomes a crucial design choice. Common approaches supported by most machine learning frameworks are: 1) Synchronous decentralized algorithms relying on a peer-to-peer All Reduce topology that is sensitive to stragglers and communication delays. 2) Asynchronous centralised algorithms with a server based topology that is prone to communication bottleneck. Researchers also suggested asynchronous decentralized algorithms designed to avoid the bottleneck and speedup training, however, those commonly use inexact sparse averaging that may lead to a degradation in accuracy. In this paper, we propose Local Asynchronous SGD (LASGD), an asynchronous decentralized algorithm that relies on All Reduce for model synchronization. We empirically validate LASGD's performance on image classification tasks on the ImageNet dataset. Our experiments demonstrate that LASGD accelerates training compared to SGD and state of the art gossip based approaches.
翻訳日:2022-03-25 13:00:17 公開日:2022-03-24
# 逆支援マッチングによる欠落源の対応

Addressing Missing Sources with Adversarial Support-Matching ( http://arxiv.org/abs/2203.13154v1 )

ライセンス: Link先を確認
Thomas Kehrenberg, Myles Bartlett, Viktoriia Sharmanska, Novi Quadrianto(参考訳) さまざまなラベル付きデータで訓練された機械学習モデルは、社会のあらゆる面において強力なツールであることが証明されている。 しかし、予算制限、意図的または非意図的な検閲、およびデータ収集とキュレーションにおけるその他の問題のために、ラベル付きトレーニングセットは、特定のグループに対して体系的なデータ不足を示す可能性がある。 そこで本研究では,データ内の2段階階層の2段階に,データの欠如が関係しているシナリオについて検討する。 アルゴリズム的公平性から保護されたグループの概念に着想を得て、この2番目のレベルで彫られた分割を「サブグループ」と呼び、サブグループとクラスの組み合わせ、あるいは階層の葉を「ソース」と呼ぶ。 この問題を特徴付けるために,不完全部分群をサポートするクラスの概念を導入する。 トレーニングセットの表現バイアスは、クラスとサブグループの間のスパーラスな相関を生じさせ、標準分類モデルが見当たらないソースに一般化できないようにする。 このバイアスを克服するために、サブグループに不変な表現を学ぶために、"deployment set"と呼ばれる追加で多様だがラベルなしのデータセットを使用します。 これは、対向的にトレーニングとデプロイメントセットのサポートを表現空間で一致させることによって行われる。 所望の不変性を学ぶためには、判別器が観測するサンプルのセットがクラスによってバランスをとることが最重要であり、トレーニングセットでは容易に達成されるが、デプロイメントセットには半教師付きクラスタリングを使用する必要がある。 本手法の有効性をいくつかのデータセットと変種を用いた実験により示す。

When trained on diverse labeled data, machine learning models have proven themselves to be a powerful tool in all facets of society. However, due to budget limitations, deliberate or non-deliberate censorship, and other problems during data collection and curation, the labeled training set might exhibit a systematic shortage of data for certain groups. We investigate a scenario in which the absence of certain data is linked to the second level of a two-level hierarchy in the data. Inspired by the idea of protected groups from algorithmic fairness, we refer to the partitions carved by this second level as "subgroups"; we refer to combinations of subgroups and classes, or leaves of the hierarchy, as "sources". To characterize the problem, we introduce the concept of classes with incomplete subgroup support. The representational bias in the training set can give rise to spurious correlations between the classes and the subgroups which render standard classification models ungeneralizable to unseen sources. To overcome this bias, we make use of an additional, diverse but unlabeled dataset, called the "deployment set", to learn a representation that is invariant to subgroup. This is done by adversarially matching the support of the training and deployment sets in representation space. In order to learn the desired invariance, it is paramount that the sets of samples observed by the discriminator are balanced by class; this is easily achieved for the training set, but requires using semi-supervised clustering for the deployment set. We demonstrate the effectiveness of our method with experiments on several datasets and variants of the problem.
翻訳日:2022-03-25 12:59:46 公開日:2022-03-24
# (参考訳) 多エージェント通信における階層的参照システムの創発

Emergence of hierarchical reference systems in multi-agent communication ( http://arxiv.org/abs/2203.13176v1 )

ライセンス: CC BY 4.0
Xenia Ohmer, Marko Duda, Elia Bruni(参考訳) 自然言語では、異なる特異度でオブジェクトを参照することは、コンテキストにおける効率的なコミュニケーションのための基本的な実用的メカニズムである。 人工エージェントにおける参照システムの出現を研究するために,新しいコミュニケーションゲームである階層型参照ゲームを開発した。 我々は、概念が原始的な属性(色、スタイル、形状など)の集合を抽象化する単純化された世界を考える。 いくつの属性が組み合わされるかによって、概念はより一般的(円)またはより特異(赤い点のある円)である。 コンテキストに基づいて、エージェントはこの階層のさまざまなレベルで通信する必要があります。 この結果から,エージェントはゲームプレイをうまく学習し,新しい概念に一般化できることがわかった。 抽象化を実現するには、暗黙的(無関係な情報のみ)と明示的(属性が無関係であることを示す)戦略を使用する。 さらに、概念階層の基盤となる構成構造が創発的プロトコルに反映され、階層的参照システムを開発する必要性が構成性の出現を支持することを示す。

In natural language, referencing objects at different levels of specificity is a fundamental pragmatic mechanism for efficient communication in context. We develop a novel communication game, the hierarchical reference game, to study the emergence of such reference systems in artificial agents. We consider a simplified world, in which concepts are abstractions over a set of primitive attributes (e.g., color, style, shape). Depending on how many attributes are combined, concepts are more general ("circle") or more specific ("red dotted circle"). Based on the context, the agents have to communicate at different levels of this hierarchy. Our results show, that the agents learn to play the game successfully and can even generalize to novel concepts. To achieve abstraction, they use implicit (omitting irrelevant information) and explicit (indicating that attributes are irrelevant) strategies. In addition, the compositional structure underlying the concept hierarchy is reflected in the emergent protocols, indicating that the need to develop hierarchical reference systems supports the emergence of compositionality.
翻訳日:2022-03-25 12:57:28 公開日:2022-03-24
# Make-A-Scene:人間優先によるシーンベーステキスト画像生成

Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors ( http://arxiv.org/abs/2203.13131v1 )

ライセンス: Link先を確認
Oran Gafni, Adam Polyak, Oron Ashual, Shelly Sheynin, Devi Parikh, Yaniv Taigman(参考訳) 近年のテキスト・ツー・イメージ生成手法は,テキスト領域と画像領域間の簡単な変換機能を提供する。 これらの手法は生成した画像の忠実度とテキスト関連性を漸進的に改善しているが、いくつかの重要なギャップは未解決のままであり、適用性と品質が制限されている。 これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。 (i)シーン形式でテキストを補完する簡単な制御機構を可能にすること。 (ii)主要画像領域(顔及び突出物)にドメイン固有の知識を取り入れて、トークン化プロセスを大幅に改善する要素を導入すること。 (iii)変圧器の用途に分類器フリーのガイダンスを適用すること。 本モデルでは,512×512ピクセルの解像度で高忠実度画像を生成する能力を解放し,視覚的品質を著しく向上する。 シーン制御性を通じて、いくつかの新機能を紹介します。 (i)シーン編集、 (ii)アンカーシーンによるテキスト編集。 (iii)分配外テキストプロンプトを克服すること、及び (iv)我々が書いたストーリーで示されるように、物語イラストレーションの生成。

Recent text-to-image generation methods provide a simple yet exciting conversion capability between text and image domains. While these methods have incrementally improved the generated image fidelity and text relevancy, several pivotal gaps remain unanswered, limiting applicability and quality. We propose a novel text-to-image method that addresses these gaps by (i) enabling a simple control mechanism complementary to text in the form of a scene, (ii) introducing elements that substantially improve the tokenization process by employing domain-specific knowledge over key image regions (faces and salient objects), and (iii) adapting classifier-free guidance for the transformer use case. Our model achieves state-of-the-art FID and human evaluation results, unlocking the ability to generate high fidelity images in a resolution of 512x512 pixels, significantly improving visual quality. Through scene controllability, we introduce several new capabilities: (i) Scene editing, (ii) text editing with anchor scenes, (iii) overcoming out-of-distribution text prompts, and (iv) story illustration generation, as demonstrated in the story we wrote.
翻訳日:2022-03-25 12:44:16 公開日:2022-03-24
# mcBERT:ゼロショットスロット充足のためのBERTを用いたモーメントコントラスト学習

mcBERT: Momentum Contrastive Learning with BERT for Zero-Shot Slot Filling ( http://arxiv.org/abs/2203.12940v1 )

ライセンス: Link先を確認
Seong-Hwan Heo, WonKee Lee, Jong-Hyeok Lee(参考訳) ゼロショットスロットフィリングは、ターゲットドメインの利用可能な限られたデータの問題に対処するためにかなりの注目を集めている。 ゼロショット学習における重要な要因の1つは、モデルを一般化し、信頼できる表現を学習させることである。 この目的のために, BERT を用いたモーメントコントラスト学習のための mcBERT を提案し, 頑健なゼロショットスロット充足モデルを提案する。 mcBERTはBERTを使用してクエリエンコーダとキーエンコーダの2つのエンコーダを初期化し、運動量コントラスト学習を適用して訓練する。 SNIPSベンチマークによる実験結果から,mcBERTは従来モデルよりも大幅に優れ,新たな最先端技術を記録した。 また,mcBERTを構成する各コンポーネントが性能改善に寄与することを示す。

Zero-shot slot filling has received considerable attention to cope with the problem of limited available data for the target domain. One of the important factors in zero-shot learning is to make the model learn generalized and reliable representations. For this purpose, we present mcBERT, which stands for momentum contrastive learning with BERT, to develop a robust zero-shot slot filling model. mcBERT uses BERT to initialize the two encoders, the query encoder and key encoder, and is trained by applying momentum contrastive learning. Our experimental results on the SNIPS benchmark show that mcBERT substantially outperforms the previous models, recording a new state-of-the-art. Besides, we also show that each component composing mcBERT contributes to the performance improvement.
翻訳日:2022-03-25 12:44:00 公開日:2022-03-24
# ColBERTerを用いた全単語のニューラルバッグの導入:強化化による文脈的遅延相互作用

Introducing Neural Bag of Whole-Words with ColBERTer: Contextualized Late Interactions using Enhanced Reduction ( http://arxiv.org/abs/2203.13088v1 )

ライセンス: Link先を確認
Sebastian Hofst\"atter, Omar Khattab, Sophia Althammer, Mete Sertkan, Allan Hanbury(参考訳) 近年の神経情報検索の進歩は、古典的アプローチと比較して、神経モデルの効率と解釈性を犠牲にしながら、有効性が大幅に向上している。 本稿では、文脈的遅延相互作用(ColBERT)を用いたニューラルネットワークモデルColBERTerを提案する。 Paretoフロンティアの有効性とともに、ColBERTerの削減はColBERTのストレージ要件を劇的に低下させ、同時にトークンマッチングスコアの解釈性を改善した。 この目的のために、ColBERTerはシングルベクター検索、マルチベクター改良、オプションの語彙マッチングコンポーネントを1つのモデルに統合する。 マルチベクターコンポーネントでは、ColBERTerは文書ごとの格納ベクトルの数を減らし、各文書の用語に固有の単語表現を学習し、効果的なスコアリングに必須でない単語表現を識別し削除することを学ぶ。 我々は、非常に小さなベクトル次元の使用を容易にするために、明示的なマルチタスク、マルチステージトレーニングを採用している。 MS MARCOとTREC-DLのコレクションの結果から、ColBERTerは最大2.5倍のストレージフットプリントを削減できるが、有効性は維持できる。 ColBERTerは、最小設定でトークンごとに1次元しか持たず、平文サイズと同等のインデックスストレージを実現し、非常に強力な効果をもたらす。 最後に,7つの高品質なドメイン外コレクションに対するcolberterの堅牢性を示し,従来の検索ベースラインよりも統計的に有意な利益を得た。

Recent progress in neural information retrieval has demonstrated large gains in effectiveness, while often sacrificing the efficiency and interpretability of the neural model compared to classical approaches. This paper proposes ColBERTer, a neural retrieval model using contextualized late interaction (ColBERT) with enhanced reduction. Along the effectiveness Pareto frontier, ColBERTer's reductions dramatically lower ColBERT's storage requirements while simultaneously improving the interpretability of its token-matching scores. To this end, ColBERTer fuses single-vector retrieval, multi-vector refinement, and optional lexical matching components into one model. For its multi-vector component, ColBERTer reduces the number of stored vectors per document by learning unique whole-word representations for the terms in each document and learning to identify and remove word representations that are not essential to effective scoring. We employ an explicit multi-task, multi-stage training to facilitate using very small vector dimensions. Results on the MS MARCO and TREC-DL collection show that ColBERTer can reduce the storage footprint by up to 2.5x, while maintaining effectiveness. With just one dimension per token in its smallest setting, ColBERTer achieves index storage parity with the plaintext size, with very strong effectiveness results. Finally, we demonstrate ColBERTer's robustness on seven high-quality out-of-domain collections, yielding statistically significant gains over traditional retrieval baselines.
翻訳日:2022-03-25 12:43:44 公開日:2022-03-24
# サンプリングに基づくベイズ推論における知識除去

Knowledge Removal in Sampling-based Bayesian Inference ( http://arxiv.org/abs/2203.12964v1 )

ライセンス: Link先を確認
Shaopeng Fu, Fengxiang He, Dacheng Tao(参考訳) 忘れられる権利は多くの国で合法化されているが、ai産業におけるその強制は耐え難いコストをもたらすだろう。 単一のデータ削除要求が来たとき、企業は大量のリソースで学習したモデル全体を削除する必要がある。 既存の研究では、明示的にパラメータ化されたモデルのためにデータから学んだ知識を除去する方法が提案されているが、サンプリングに基づくベイズ推定には適用できない。 本稿では,MCMCのための機械学習アルゴリズムを提案する。 まず,MCMCアンラーニング問題を明示的な最適化問題に変換する。 この問題変換に基づいて、MCMC影響関数は、データから学習した知識を確実に特徴付けるように設計され、MCMCアンラーニングアルゴリズムを提供する。 理論解析により、MCMCアンラーニングはMCMCモデルの一般化性を損なうものではないことが示された。 ガウス混合モデルとベイズニューラルネットワークの実験により,提案アルゴリズムの有効性が確認された。 コードは \url{https://github.com/fshp971/mcmc-unlearning} で入手できる。

The right to be forgotten has been legislated in many countries, but its enforcement in the AI industry would cause unbearable costs. When single data deletion requests come, companies may need to delete the whole models learned with massive resources. Existing works propose methods to remove knowledge learned from data for explicitly parameterized models, which however are not appliable to the sampling-based Bayesian inference, i.e., Markov chain Monte Carlo (MCMC), as MCMC can only infer implicit distributions. In this paper, we propose the first machine unlearning algorithm for MCMC. We first convert the MCMC unlearning problem into an explicit optimization problem. Based on this problem conversion, an {\it MCMC influence function} is designed to provably characterize the learned knowledge from data, which then delivers the MCMC unlearning algorithm. Theoretical analysis shows that MCMC unlearning would not compromise the generalizability of the MCMC models. Experiments on Gaussian mixture models and Bayesian neural networks confirm the effectiveness of the proposed algorithm. The code is available at \url{https://github.com/fshp971/mcmc-unlearning}.
翻訳日:2022-03-25 12:42:28 公開日:2022-03-24
# 深部神経進化を伴う脳転移性疾患における疾患の進行または退行の直接的評価

Direct evaluation of progression or regression of disease burden in brain metastatic disease with Deep Neuroevolution ( http://arxiv.org/abs/2203.12853v1 )

ライセンス: Link先を確認
Joseph Stember, Robert Young and Hrithwik Shalu(参考訳) 目的: がん治療研究のコアコンポーネントは、治療に対する反応を評価することである。 例えば、RECISTやRANOの基準に従って手動で行うことは退屈で時間を要するため、重要な腫瘍反応情報を見逃す可能性がある。 すべての病変を含む総体的変化を評価し,腫瘍進展や退縮の簡易的,情報的,自動的な評価を得たい。 臨床試験における患者満足度が低いため,少量のトレーニングセットで反応評価を行いたい。 深部神経進化(Deep Neuroevolution, DNE)は、小さなトレーニングセットでよく機能する放射線学人工知能(AI)を生成する。 そこで我々はDNEを用いて,転移性脳疾患の進行と退縮を予測する機能近似を行った。 方法】MRIコントラスト強調画像50対をトレーニングセットとして分析した。 これらのペアの半分は時間的に分離され、疾患進行の資格が与えられ、残りの25枚の画像は退縮した。 比較的小さなcnnのパラメータをランダムなcnn重み調整と変異適合性からなる突然変異を通して訓練した。 次に、最も優れた突然変異を次世代CNNに組み込み、約5万世代にわたってこのプロセスを繰り返す。 トレーニングセットにcnnを適用し、25の進歩と25の回帰イメージのクラスバランスを持つ別のテストセットも適用しました。 結果: DNEは単調収束を100%トレーニングセット精度で達成した。 dneはまた、100%テストセット精度に単調に収束した。 結論: dneは脳転移性疾患の進行と回帰を正確に分類できる。 今後の作業では、入力を2D画像スライスからフル3Dボリュームに拡張し、変更なしのカテゴリを含める予定である。 我々のようなアプローチは、究極的にはRANO/RECISTアセスメントに有用な補助となるだろうと考えています。

Purpose: A core component of advancing cancer treatment research is assessing response to therapy. Doing so by hand, for example as per RECIST or RANO criteria, is tedious, time-consuming, and can miss important tumor response information; most notably, they exclude non-target lesions. We wish to assess change in a holistic fashion that includes all lesions, obtaining simple, informative, and automated assessments of tumor progression or regression. Due to often low patient enrolments in clinical trials, we wish to make response assessments with small training sets. Deep neuroevolution (DNE) can produce radiology artificial intelligence (AI) that performs well on small training sets. Here we use DNE for function approximation that predicts progression versus regression of metastatic brain disease. Methods: We analyzed 50 pairs of MRI contrast-enhanced images as our training set. Half of these pairs, separated in time, qualified as disease progression, while the other 25 images constituted regression. We trained the parameters of a relatively small CNN via mutations that consisted of random CNN weight adjustments and mutation fitness. We then incorporated the best mutations into the next generations CNN, repeating this process for approximately 50,000 generations. We applied the CNNs to our training set, as well as a separate testing set with the same class balance of 25 progression and 25 regression images. Results: DNE achieved monotonic convergence to 100% training set accuracy. DNE also converged monotonically to 100% testing set accuracy. Conclusion: DNE can accurately classify brain-metastatic disease progression versus regression. Future work will extend the input from 2D image slices to full 3D volumes, and include the category of no change. We believe that an approach such as our could ultimately provide a useful adjunct to RANO/RECIST assessment.
翻訳日:2022-03-25 12:41:45 公開日:2022-03-24
# Dexterous Imitation を簡単にしたDexterous Manipulationのための学習ベースフレームワーク

Dexterous Imitation Made Easy: A Learning-Based Framework for Efficient Dexterous Manipulation ( http://arxiv.org/abs/2203.13251v1 )

ライセンス: Link先を確認
Sridhar Pandian Arunachalam, Sneha Silwal, Ben Evans, Lerrel Pinto(参考訳) 厳密な操作のための振る舞いの最適化は、これまで文献で研究されてきたモデルベース制御からモデルフリー強化学習に至るまで、ロボット工学における長年の課題である。 おそらく、複雑な操作戦略を学ぶための最も強力なテクニックの1つは模倣学習である。 しかし、デクスタース操作によるデモンストレーションからの収集と学習は極めて困難である。 マルチフィンガー制御に関わる複雑な高次元のアクション空間は、しばしば学習に基づく方法のサンプル効率が低下する。 本研究では,創発的操作のための新しい模倣学習フレームワーク「DIME(Dexterous Imitation Made Easy)」を提案する。 DIMEは、人間のオペレーターを観察し、ロボットハンドを遠隔操作するために、単一のRGBカメラしか必要としない。 一度デモが収集されると、DIMEは巧妙な操作ポリシーを訓練するために標準的な模倣学習手法を採用する。 シミュレーションと実ロボットベンチマークの両方において、DIMEは「フリップ」や「スピン」や「回転」といった複雑な操作タスクをアレグロの手で解くのに使えることを示した。 私たちのフレームワークは、事前のデモとともに、https://nyu-robot-learning.github.io/dimeで公開されています。

Optimizing behaviors for dexterous manipulation has been a longstanding challenge in robotics, with a variety of methods from model-based control to model-free reinforcement learning having been previously explored in literature. Perhaps one of the most powerful techniques to learn complex manipulation strategies is imitation learning. However, collecting and learning from demonstrations in dexterous manipulation is quite challenging. The complex, high-dimensional action-space involved with multi-finger control often leads to poor sample efficiency of learning-based methods. In this work, we propose 'Dexterous Imitation Made Easy' (DIME) a new imitation learning framework for dexterous manipulation. DIME only requires a single RGB camera to observe a human operator and teleoperate our robotic hand. Once demonstrations are collected, DIME employs standard imitation learning methods to train dexterous manipulation policies. On both simulation and real robot benchmarks we demonstrate that DIME can be used to solve complex, in-hand manipulation tasks such as 'flipping', 'spinning', and 'rotating' objects with the Allegro hand. Our framework along with pre-collected demonstrations is publicly available at https://nyu-robot-learning.github.io/dime.
翻訳日:2022-03-25 12:40:49 公開日:2022-03-24
# 知識を求める言語モデル:対話と即興補完のためのモジュール検索と生成

Language Models that Seek for Knowledge: Modular Search & Generation for Dialogue and Prompt Completion ( http://arxiv.org/abs/2203.13224v1 )

ライセンス: Link先を確認
Kurt Shuster, Mojtaba Komeili, Leonard Adolphs, Stephen Roller, Arthur Szlam, Jason Weston(参考訳) 言語モデル(LM)は、最近、モジュラリティ(Zhou et al., 2021)と検索(Adolphs et al., 2021)を組み合わせて、より現実的な応答を生成することが示されている。 Adolphs et al. (2021)の最近のアプローチを拡張して、インターネット検索をモジュールとして含めます。 したがって、SeeKeR (Search engine->Knowledge->Response) メソッドは、探索、知識の生成、最終的な応答の生成という3つのモジュールタスクに単一のLMを適用する。 本研究では,SeeKeR を対話モデルとして使用する場合,BlenderBot 2 (Chen et al., 2021) を同じ数のパラメータに対して,一貫性,知識,ターン毎の係合性の観点から,オープンドメイン知識に基づく会話において上回ることを示す。 SeeKeR は GPT2 (Radford et al., 2019) と GPT3 (Brown et al., 2020) をはるかに大きなモデルであるにもかかわらず、トピックのプロンプト補完に適用した。 私たちのコードとモデルは公開されています。

Language models (LMs) have recently been shown to generate more factual responses by employing modularity (Zhou et al., 2021) in combination with retrieval (Adolphs et al., 2021). We extend the recent approach of Adolphs et al. (2021) to include internet search as a module. Our SeeKeR (Search engine->Knowledge->Response) method thus applies a single LM to three modular tasks in succession: search, generating knowledge, and generating a final response. We show that, when using SeeKeR as a dialogue model, it outperforms the state-of-the-art model BlenderBot 2 (Chen et al., 2021) on open-domain knowledge-grounded conversations for the same number of parameters, in terms of consistency, knowledge and per-turn engagingness. SeeKeR applied to topical prompt completions as a standard language model outperforms GPT2 (Radford et al., 2019) and GPT3 (Brown et al., 2020) in terms of factuality and topicality, despite GPT3 being a vastly larger model. Our code and models are made publicly available.
翻訳日:2022-03-25 12:40:31 公開日:2022-03-24
# 顔行動単位を用いた連続的影響に対するランダムフォレスト回帰

Random Forest Regression for continuous affect using Facial Action Units ( http://arxiv.org/abs/2203.12818v1 )

ライセンス: Link先を確認
Saurabh Hinduja and Shaun Canavan and Liza Jivnani and Sk Rahatul Jannat and V Sri Chakra Kumar(参考訳) 本稿では,第3回ワークショップの覚醒とヴァレンストラックへのアプローチと,愛着的行動分析(abaw)に関するコンペについて述べる。 OpenFaceを用いて顔の特徴を抽出し,複数出力のランダムフォレスト回帰器を訓練した。 我々のアプローチはベースラインアプローチに匹敵する性能を示した。

In this paper we describe our approach to the arousal and valence track of the 3rd Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW). We extracted facial features using OpenFace and used them to train a multiple output random forest regressor. Our approach performed comparable to the baseline approach.
翻訳日:2022-03-25 12:39:07 公開日:2022-03-24
# Focus-and-Detect: 空中画像のための小さな物体検出フレームワーク

Focus-and-Detect: A Small Object Detection Framework for Aerial Images ( http://arxiv.org/abs/2203.12976v1 )

ライセンス: Link先を確認
Onur Can Koyun, Reyhan Kevser Keser, \.Ibrahim Batuhan Akkaya, Beh\c{c}et U\u{g}ur T\"oreyin(参考訳) 近年の進歩にもかかわらず、空中画像における物体検出は依然として困難な課題である。 空中画像の特定の問題は、小さな物体、密集した物体、異なる大きさの物体、異なる向きの物体などの検出問題を難しくする。 小型オブジェクト検出問題に対処するため,Focus-and-Detectと呼ばれる2段階オブジェクト検出フレームワークを提案する。 ガウス混合モデルによって監視される物体検出ネットワークからなる第一段階は、集束領域を構成する物体のクラスターを生成する。 第2段階は、同じく物体検出器ネットワークであり、焦点領域内の物体を予測する。 Incomplete Box Suppression (IBS) 法も提案され, 地域探索手法のトランケーション効果を克服した。 その結果、2段階のフレームワークはVisDrone検証データセット上で42.06のAPスコアを達成し、文献で報告されている他の最先端の小さなオブジェクト検出手法を最大限に活用した。

Despite recent advances, object detection in aerial images is still a challenging task. Specific problems in aerial images makes the detection problem harder, such as small objects, densely packed objects, objects in different sizes and with different orientations. To address small object detection problem, we propose a two-stage object detection framework called "Focus-and-Detect". The first stage which consists of an object detector network supervised by a Gaussian Mixture Model, generates clusters of objects constituting the focused regions. The second stage, which is also an object detector network, predicts objects within the focal regions. Incomplete Box Suppression (IBS) method is also proposed to overcome the truncation effect of region search approach. Results indicate that the proposed two-stage framework achieves an AP score of 42.06 on VisDrone validation dataset, surpassing all other state-of-the-art small object detection methods reported in the literature, to the best of authors' knowledge.
翻訳日:2022-03-25 12:38:59 公開日:2022-03-24
# (参考訳) 深いポートレートの喜び

Deep Portrait Delighting ( http://arxiv.org/abs/2203.12088v2 )

ライセンス: CC BY 4.0
Joshua Weir, Junhong Zhao, Andrew Chalmers, Taehyun Rhee(参考訳) 本稿では,制約のないポートレート画像から望ましくないシェーディング特徴を除去し,テクスチャを回復するディープニューラルネットワークを提案する。 トレーニング手法には3つの正規化戦略が組み込まれている: マスキング損失, 高周波シェーディング特徴の強調, 微妙な照明変化に対する感度を向上させるソフトシャドウ損失, シェーディングとテクスチャの分離を監督するシェーディングオフセット推定である。 本手法は,最新技術との比較により,快適な品質と一般化が向上することを示す。 さらに,この方法により,顔の照らしや意味解析などの感光性コンピュータビジョンタスクの性能が向上し,極端な照明条件を処理できることを実証する。

We present a deep neural network for removing undesirable shading features from an unconstrained portrait image, recovering the underlying texture. Our training scheme incorporates three regularization strategies: masked loss, to emphasize high-frequency shading features; soft-shadow loss, which improves sensitivity to subtle changes in lighting; and shading-offset estimation, to supervise separation of shading and texture. Our method demonstrates improved delighting quality and generalization when compared with the state-of-the-art. We further demonstrate how our delighting method can enhance the performance of light-sensitive computer vision tasks such as face relighting and semantic parsing, allowing them to handle extreme lighting conditions.
翻訳日:2022-03-25 12:18:24 公開日:2022-03-24
# (参考訳) IAM: 総合的かつ大規模なArgument Miningタスクデータセット

IAM: A Comprehensive and Large-Scale Dataset for Integrated Argument Mining Tasks ( http://arxiv.org/abs/2203.12257v2 )

ライセンス: CC0 1.0
Liying Cheng, Lidong Bing, Ruidan He, Qian Yu, Yan Zhang, Luo Si(参考訳) 伝統的に、議論は通常、多くの記事を読み、クレームを選択し、クレームのスタンスを特定し、クレームの証拠を求めるなど、手作業による準備プロセスを必要とする。 aiの議論が近年さらに注目を集める中、議論システムに関わる面倒なプロセスを自動化するための方法を探求する価値がある。 本研究では, クレーム抽出, 姿勢分類, 証拠抽出など, 一連の議論マイニングタスクに適用可能な, 包括的で大規模なデータセットIAMを導入する。 データセットは123のトピックに関連する1万以上の記事から収集されます。 データセット内の約70kの文は、その引数特性(クレーム、スタンス、証拠など)に基づいて完全に注釈付けされる。 さらに,(1)姿勢分類によるクレーム抽出 (cesc) と(2)クレーム・エビデンス対抽出 (cepe) という,議論作成プロセスに関連する2つの新しい統合的議論マイニングタスクを提案する。 統合タスク毎にパイプラインアプローチとエンドツーエンドメソッドを別々に採用する。 提案課題の価値と課題を実証した実験結果が報告され,今後の議論マイニング研究のモチベーションとなっている。

Traditionally, a debate usually requires a manual preparation process, including reading plenty of articles, selecting the claims, identifying the stances of the claims, seeking the evidence for the claims, etc. As the AI debate attracts more attention these years, it is worth exploring the methods to automate the tedious process involved in the debating system. In this work, we introduce a comprehensive and large dataset named IAM, which can be applied to a series of argument mining tasks, including claim extraction, stance classification, evidence extraction, etc. Our dataset is collected from over 1k articles related to 123 topics. Near 70k sentences in the dataset are fully annotated based on their argument properties (e.g., claims, stances, evidence, etc.). We further propose two new integrated argument mining tasks associated with the debate preparation process: (1) claim extraction with stance classification (CESC) and (2) claim-evidence pair extraction (CEPE). We adopt a pipeline approach and an end-to-end method for each integrated task separately. Promising experimental results are reported to show the values and challenges of our proposed tasks, and motivate future research on argument mining.
翻訳日:2022-03-25 11:46:25 公開日:2022-03-24
# (参考訳) MetricGAN+/-:未確認データにおけるノイズ低減のロバスト化

MetricGAN+/-: Increasing Robustness of Noise Reduction on Unseen Data ( http://arxiv.org/abs/2203.12369v2 )

ライセンス: CC BY 4.0
George Close, Thomas Hain and Stefan Goetze(参考訳) 音声強調システムの訓練は、しばしば人間の知覚に関する知識を含まないため、不自然な発音結果につながる可能性がある。 予測ネットワークを用いたモデルトレーニングの一環として,心理音響的動機づけによる音声知覚指標が最近注目されている。 しかしながら、これらの予測器の性能は、トレーニングデータに現れるメトリックスコアの分布によって制限される。 本研究では,追加のネットワーク - 予測ネットワークのロバスト性向上(および生成器の拡張による)を試み,より広い範囲のメートル法スコアの観測を可能にした「デジェネレータ (de-generator)」を提案する。 VoiceBank-DEMANDデータセットの実験結果によると、PSSQのスコアは3.8%(3.05対3.22 PESQ)で相対的に改善され、ノイズや音声が見えないように一般化された。

Training of speech enhancement systems often does not incorporate knowledge of human perception and thus can lead to unnatural sounding results. Incorporating psychoacoustically motivated speech perception metrics as part of model training via a predictor network has recently gained interest. However, the performance of such predictors is limited by the distribution of metric scores that appear in the training data. In this work, we propose MetricGAN+/- (an extension of MetricGAN+, one such metric-motivated system) which introduces an additional network - a "de-generator" which attempts to improve the robustness of the prediction network (and by extension of the generator) by ensuring observation of a wider range of metric scores in training. Experimental results on the VoiceBank-DEMAND dataset show relative improvement in PESQ score of 3.8% (3.05 vs 3.22 PESQ score), as well as better generalisation to unseen noise and speech.
翻訳日:2022-03-25 11:32:07 公開日:2022-03-24
# (参考訳) ポリシーレギュレータは、秘密裏に敵だ

Your Policy Regularizer is Secretly an Adversary ( http://arxiv.org/abs/2203.12592v2 )

ライセンス: CC BY 4.0
Rob Brekelmans, Tim Genewein, Jordi Grau-Moya, Gr\'egoire Del\'etang, Markus Kunesch, Shane Legg, Pedro Ortega(参考訳) 強化学習では,最大エントロピー正則化などの方針正則化手法が広く用いられ,学習方針の堅牢性が向上している。 本稿では,この頑健性が,想像上の敵によって限定された集合から選択される報奨関数の最悪の摂動に対するヘッジから生じることを示す。 凸双対性を用いて、kl と α-ダイバージェンス正規化(シャノンとツァリスエントロピー正規化を含む)の下での、この強固な対向的報酬摂動を特殊ケースとして特徴付ける。 重要なことに、一般化の保証はこのロバストな集合内で与えられる。 我々は,最悪の場合の報酬の摂動について詳細な議論を行い,その頑健さと一般化との関係を説明するために直感的な実証例を示す。 最後に、我々の分析が、逆報酬の堅牢性および経路整合性最適条件について、過去の結果を補完し、拡張する方法について論じる。

Policy regularization methods such as maximum entropy regularization are widely used in reinforcement learning to improve the robustness of a learned policy. In this paper, we show how this robustness arises from hedging against worst-case perturbations of the reward function, which are chosen from a limited set by an imagined adversary. Using convex duality, we characterize this robust set of adversarial reward perturbations under KL and alpha-divergence regularization, which includes Shannon and Tsallis entropy regularization as special cases. Importantly, generalization guarantees can be given within this robust set. We provide detailed discussion of the worst-case reward perturbations, and present intuitive empirical examples to illustrate this robustness and its relationship with generalization. Finally, we discuss how our analysis complements and extends previous results on adversarial reward robustness and path consistency optimality conditions.
翻訳日:2022-03-25 11:19:26 公開日:2022-03-24
# 因果不変変換を用いた分布外一般化

Out-of-distribution Generalization with Causal Invariant Transformations ( http://arxiv.org/abs/2203.11528v3 )

ライセンス: Link先を確認
Ruoyu Wang, Mingyang Yi, Zhitang Chen, Shengyu Zhu(参考訳) 現実世界のアプリケーションでは、アウト・オブ・ディストリビューション(OOD)データでうまく機能するモデルを学ぶことが重要かつ望ましい。 近年、因果性はood一般化問題に取り組むための強力なツールとなり、関心領域にまたがって不変な因果メカニズムに基づくアイデアが定着している。 一般に知られていない因果的メカニズムを活用するために、既存の著作物は因果的特徴の線形形式をとるか、あるいは十分に多くの多様な訓練領域を必要とする。 本研究では,これらの仮定を排除し,因果的特徴を明示的に回復することなくOOD問題に取り組む。 このアプローチは、非因果的特徴を変更するが因果部分は変更しない変換に基づいており、事前の知識から得られるか、あるいはマルチドメインシナリオでトレーニングデータから学ぶことができる。 不変因果機構の設定の下では、そのような変換がすべて利用可能であれば、単一のドメインデータのみを用いて、各ドメインにまたがる最小限の最適モデルを学習できることが理論的に示される。 これらの因果不変変換の完全な集合が非現実的であることを知ることは、これらの変換のサブセットのみを知るのに十分であることを示す。 理論的な知見に基づいて,OODの一般化能力を向上させるための正規化訓練手法を提案する。 合成データと実データの両方に関する広範な実験の結果は、数個の因果不変量変換であっても、提案アルゴリズムの有効性を検証する。

In real-world applications, it is important and desirable to learn a model that performs well on out-of-distribution (OOD) data. Recently, causality has become a powerful tool to tackle the OOD generalization problem, with the idea resting on the causal mechanism that is invariant across domains of interest. To leverage the generally unknown causal mechanism, existing works assume a linear form of causal feature or require sufficiently many and diverse training domains, which are usually restrictive in practice. In this work, we obviate these assumptions and tackle the OOD problem without explicitly recovering the causal feature. Our approach is based on transformations that modify the non-causal feature but leave the causal part unchanged, which can be either obtained from prior knowledge or learned from the training data in the multi-domain scenario. Under the setting of invariant causal mechanism, we theoretically show that if all such transformations are available, then we can learn a minimax optimal model across the domains using only single domain data. Noticing that knowing a complete set of these causal invariant transformations may be impractical, we further show that it suffices to know only a subset of these transformations. Based on the theoretical findings, a regularized training procedure is proposed to improve the OOD generalization capability. Extensive experimental results on both synthetic and real datasets verify the effectiveness of the proposed algorithm, even with only a few causal invariant transformations.
翻訳日:2022-03-25 11:16:43 公開日:2022-03-24
# 動的スケール深部カノニカル相関解析

Dynamically-Scaled Deep Canonical Correlation Analysis ( http://arxiv.org/abs/2203.12377v2 )

ライセンス: Link先を確認
Tomer Friedlander, Lior Wolf(参考訳) 正準相関解析(英: canonical correlation analysis、cca)は、それらの最大相関線形射影を見つけることにより、2つの視点の特徴抽出法である。 CCAのいくつかの変種は、特に2つのビューの高相関性非線形変換を学習するためのディープニューラルネットワークに基づく変種である。 これらのモデルが従来よりパラメータ化されているため、学習可能なパラメータはトレーニングプロセス後に入力から独立している。 入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。 深いccaモデルでは、最終層のパラメータはモデルの入力に基づいて条件づけされた第2のニューラルネットワークによってスケールされ、その結果、入力サンプルに依存するパラメータ化が行われる。 提案手法を複数のデータセット上で評価し,従来のパラメータ化CCAモデルと比較して学習結果がより相関していることを示す。 私たちのコードはhttps://github.com/tomerfr/DynamicallyScaledDeepCCAで利用可能です。

Canonical Correlation Analysis (CCA) is a method for feature extraction of two views by finding maximally correlated linear projections of them. Several variants of CCA have been introduced in the literature, in particular, variants based on deep neural networks for learning highly correlated nonlinear transformations of two views. As these models are parameterized conventionally, their learnable parameters remain independent of the inputs after the training process, which may limit their capacity for learning highly correlated representations. We introduce a novel dynamic scaling method for training an input-dependent canonical correlation model. In our deep-CCA models, the parameters of the last layer are scaled by a second neural network that is conditioned on the model's input, resulting in a parameterization that is dependent on the input samples. We evaluate our model on multiple datasets and demonstrate that the learned representations are more correlated in comparison to the conventionally-parameterized CCA-based models and also obtain preferable retrieval results. Our code is available at https://github.com/tomerfr/DynamicallyScaledDeepCCA.
翻訳日:2022-03-25 11:16:19 公開日:2022-03-24
# フラットミニマの探索によるフェデレーション学習の一般化

Improving Generalization in Federated Learning by Seeking Flat Minima ( http://arxiv.org/abs/2203.11834v2 )

ライセンス: Link先を確認
Debora Caldarola, Barbara Caputo, Marco Ciccone(参考訳) フェデレーション設定でトレーニングされたモデルは、しばしばパフォーマンスが低下し、特に不均一なシナリオに直面した場合、一般化に失敗する。 本研究では、損失の幾何とヘッセン固有スペクトルのレンズを通してそのような挙動を調査し、モデルの一般化能力の欠如と解の鋭さを関連付ける。 損失面のシャープネスと一般化ギャップを接続する先行研究により、我々は、そのことを示す。 一 シャープネス・アウェア・ミニミゼーション(SAM)又はその適応版(ASAM)でローカルにクライアントを訓練すること 二 サーバ側の確率重み(SWA)の平均化は、フェデレートラーニングにおける一般化を著しく改善し、集中型モデルとのギャップを埋めるのに役立つ。 均一な低損失の近傍でのパラメータを求めることにより、モデルは平らなミニマへ収束し、その一般化は均質シナリオと不均一シナリオの両方において著しく改善される。 実証的な結果は、様々なベンチマークビジョンデータセット(例えば、CIFAR10/100、Landmarks-User-160k、IDDA)とタスク(大規模な分類、セマンティックセグメンテーション、ドメインの一般化)におけるそれらの最適化の有効性を示す。

Models trained in federated settings often suffer from degraded performances and fail at generalizing, especially when facing heterogeneous scenarios. In this work, we investigate such behavior through the lens of geometry of the loss and Hessian eigenspectrum, linking the model's lack of generalization capacity to the sharpness of the solution. Motivated by prior studies connecting the sharpness of the loss surface and the generalization gap, we show that i) training clients locally with Sharpness-Aware Minimization (SAM) or its adaptive version (ASAM) and ii) averaging stochastic weights (SWA) on the server-side can substantially improve generalization in Federated Learning and help bridging the gap with centralized models. By seeking parameters in neighborhoods having uniform low loss, the model converges towards flatter minima and its generalization significantly improves in both homogeneous and heterogeneous scenarios. Empirical results demonstrate the effectiveness of those optimizers across a variety of benchmark vision datasets (e.g. CIFAR10/100, Landmarks-User-160k, IDDA) and tasks (large scale classification, semantic segmentation, domain generalization).
翻訳日:2022-03-25 11:16:03 公開日:2022-03-24
# 非分離型局所最小値を用いた非凸最適化における確率勾配の局所収束理論

A Local Convergence Theory for the Stochastic Gradient Descent Method in Non-Convex Optimization With Non-isolated Local Minima ( http://arxiv.org/abs/2203.10973v2 )

ライセンス: Link先を確認
Taehee Ko and Xiantao Li(参考訳) 現代の機械学習では非凸損失関数が頻繁に発生し、確率的最適化法の理論解析では、非孤立化ミニマの存在は、まだ探索されていないユニークな課題である。 本稿では,非分離大域的ミニマへの確率的勾配降下法の局所収束について検討する。 軽度の仮定の下では、確率安定性の概念を採用することにより、反復がミニマの近くに留まる確率を推定する。 そのような安定性を確立した後、与えられたエラー許容度$\epsilon$と失敗確率$\gamma$の様々なエラー基準で下界の複雑さを示す。

Non-convex loss functions arise frequently in modern machine learning, and for the theoretical analysis of stochastic optimization methods, the presence of non-isolated minima presents a unique challenge that has remained under-explored. In this paper, we study the local convergence of the stochastic gradient descent method to non-isolated global minima. Under mild assumptions, we estimate the probability for the iterations to stay near the minima by adopting the notion of stochastic stability. After establishing such stability, we present the lower bound complexity in terms of various error criteria for a given error tolerance $\epsilon$ and a failure probability $\gamma$.
翻訳日:2022-03-25 11:15:40 公開日:2022-03-24
# 変圧器を用いたエンド・ツー・エンドヒューマン・ゲイズ・ターゲット検出

End-to-End Human-Gaze-Target Detection with Transformers ( http://arxiv.org/abs/2203.10433v2 )

ライセンス: Link先を確認
Danyang Tu and Xiongkuo Min and Huiyu Duan and Guodong Guo and Guangtao Zhai and Wei Shen(参考訳) 本稿では,HGT(Human-Gaze-Target)検出のための効果的かつ効率的な手法を提案する。 現在のアプローチでは、hgt検出タスクを、人間の頭部の位置を最初に検出し、次に次の視線目標予測サブネットワークに供給する2段階のフレームワークを使用して、サルエント物体検出と人間の視線予測の別々のブランチに分離する。 対照的に、HGT検出タスクを人頭の位置と視線目標を同時に検出するものとして再定義する。 このようにして、HGTTR(Human-Gaze-Target Detection TRansformer)と呼ばれる手法は、HGT検出パイプラインを合理化して、他の全ての追加コンポーネントを除去する。 hgttrは、敬礼対象と人間の視線の関係を世界的イメージの文脈から考える。 さらに、人間の頭の位置を入力として要求する既存の2段階の手法とは異なり、HGTTRは1度に1人の人間の視線目標のみを予測できるため、すべての人の視線目標の位置を直接エンドツーエンドで予測することができる。 提案手法の有効性とロバスト性は,2つの標準ベンチマークデータセットである gazefollowing と videoattentiontarget の広範な実験により検証された。 ベルやホイッスルがなければ、HGTTRは既存の最先端の手法よりはるかに優れている(GazeFollowingでは6.4 mAP、VideoAttentionTargetでは10.3 mAP)。

In this paper, we propose an effective and efficient method for Human-Gaze-Target (HGT) detection, i.e., gaze following. Current approaches decouple the HGT detection task into separate branches of salient object detection and human gaze prediction, employing a two-stage framework where human head locations must first be detected and then be fed into the next gaze target prediction sub-network. In contrast, we redefine the HGT detection task as detecting human head locations and their gaze targets, simultaneously. By this way, our method, named Human-Gaze-Target detection TRansformer or HGTTR, streamlines the HGT detection pipeline by eliminating all other additional components. HGTTR reasons about the relations of salient objects and human gaze from the global image context. Moreover, unlike existing two-stage methods that require human head locations as input and can predict only one human's gaze target at a time, HGTTR can directly predict the locations of all people and their gaze targets at one time in an end-to-end manner. The effectiveness and robustness of our proposed method are verified with extensive experiments on the two standard benchmark datasets, GazeFollowing and VideoAttentionTarget. Without bells and whistles, HGTTR outperforms existing state-of-the-art methods by large margins (6.4 mAP gain on GazeFollowing and 10.3 mAP gain on VideoAttentionTarget) with a much simpler architecture.
翻訳日:2022-03-25 11:15:29 公開日:2022-03-24
# ビデオオブジェクトセグメンテーションのためのスケーラブルトランスフォーマーとオブジェクトを関連付ける

Associating Objects with Scalable Transformers for Video Object Segmentation ( http://arxiv.org/abs/2203.11442v2 )

ライセンス: Link先を確認
Zongxin Yang, Jiaxu Miao, Xiaohan Wang, Yunchao Wei, Yi Yang(参考訳) 本稿では,マルチオブジェクトシナリオに挑戦しながら,半教師付き映像オブジェクトセグメンテーションに取り組むための,より良く効率的な組込み学習を実現する方法について検討する。 最先端のメソッドは、1つの正のオブジェクトで機能をデコードし、複数のオブジェクトのシナリオで各ターゲットをマッチして分割し、複数の計算リソースを消費する。 そこで本研究では,複数のオブジェクトを協調的かつ協調的にマッチング・復号するAssociating Objects with Transformers (AOT)アプローチを提案する。 詳しくは、aotは複数のターゲットを同一の高次元埋め込み空間に関連付ける識別機構を採用している。 したがって、複数のオブジェクトのマッチングとセグメンテーションデコーディングを同時に処理できると同時に、単一のオブジェクトを処理できる。 多目的アソシエーションを十分にモデル化するために、Long Short-Term Transformer (LSTT) を考案し、階層的マッチングと伝播を構築する。 aotに基づいて、より柔軟でロバストなフレームワークを提案し、スケーラブルなlsttのバージョンが精度と効率のトレードオフをランタイムに適応できるように設計されているスケーラブルなトランスフォーマー(aost)とオブジェクトを関連付ける。 さらにaostは、識別と視覚埋め込みを結合する、より優れたレイヤ指向の方法も導入している。 我々は、AOTシリーズのフレームワークを調べるために、マルチオブジェクトとシングルオブジェクトのベンチマークに関する広範な実験を行う。 最先端の競合と比較すると,本手法は実行時の効率を向上し,性能を向上することができる。 特に、YouTube-VOS (86.5%)、DAVIS 2017 Val/Test (87.0%/84.7%)、DAVIS 2016 (93.0%)の3つの人気のあるベンチマークで、最先端のパフォーマンスを実現しています。 プロジェクトページ: https://github.com/z-x-yang/AOT.com

This paper investigates how to realize better and more efficient embedding learning to tackle the semi-supervised video object segmentation under challenging multi-object scenarios. The state-of-the-art methods learn to decode features with a single positive object and thus have to match and segment each target separately under multi-object scenarios, consuming multiple times computation resources. To solve the problem, we propose an Associating Objects with Transformers (AOT) approach to match and decode multiple objects jointly and collaboratively. In detail, AOT employs an identification mechanism to associate multiple targets into the same high-dimensional embedding space. Thus, we can simultaneously process multiple objects' matching and segmentation decoding as efficiently as processing a single object. To sufficiently model multi-object association, a Long Short-Term Transformer (LSTT) is devised to construct hierarchical matching and propagation. Based on AOT, we further propose a more flexible and robust framework, Associating Objects with Scalable Transformers (AOST), in which a scalable version of LSTT is designed to enable run-time adaptation of accuracy-efficiency trade-offs. Besides, AOST introduces a better layer-wise manner to couple identification and vision embeddings. We conduct extensive experiments on multi-object and single-object benchmarks to examine AOT series frameworks. Compared to the state-of-the-art competitors, our methods can maintain times of run-time efficiency with superior performance. Notably, we achieve new state-of-the-art performance on three popular benchmarks, i.e., YouTube-VOS (86.5%), DAVIS 2017 Val/Test (87.0%/84.7%), and DAVIS 2016 (93.0%). Project page: https://github.com/z-x-yang/AOT.
翻訳日:2022-03-25 11:13:49 公開日:2022-03-24
# トラッキングのための統合機能学習と関係モデリング:一ストリームフレームワーク

Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Framework ( http://arxiv.org/abs/2203.11991v2 )

ライセンス: Link先を確認
Botao Ye, Hong Chang, Bingpeng Ma, and Shiguang Shan(参考訳) 現在の人気2-stream, two-stage trackingフレームワークはテンプレートと検索領域の特徴を分離して抽出し,関係モデリングを行う。 上記の課題に対処するために,テンプレート検索画像対と双方向情報フローをブリッジすることで特徴学習と関係モデリングを統一する新しい一ストリーム追跡(OSTrack)フレームワークを提案する。 このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。 余分な重み付きモデリングモジュールは不要であり、実装は高度に並列化されているため、提案したトラッカーは高速に動作する。 推論効率をさらに向上するため,1ストリームフレームワークで計算された強い類似性に基づいて,ネットワーク内候補早期除去モジュールを提案する。 統一されたフレームワークとして、OSTrackは複数のベンチマークで最先端のパフォーマンスを達成し、特に1ショット追跡ベンチマークのGOT-10kでは、73.7%のAOを達成し、既存の最高の結果(SwinTrack)を4.3%改善した。 さらに,本手法は性能・速度のトレードオフを良好に維持し,より高速な収束を示す。 コードとモデルはhttps://github.com/botaoye/OSTrack.comから入手できる。

The current popular two-stream, two-stage tracking framework extracts the template and the search region features separately and then performs relation modeling, thus the extracted features lack the awareness of the target and have limited target-background discriminability. To tackle the above issue, we propose a novel one-stream tracking (OSTrack) framework that unifies feature learning and relation modeling by bridging the template-search image pairs with bidirectional information flows. In this way, discriminative target-oriented features can be dynamically extracted by mutual guidance. Since no extra heavy relation modeling module is needed and the implementation is highly parallelized, the proposed tracker runs at a fast speed. To further improve the inference efficiency, an in-network candidate early elimination module is proposed based on the strong similarity prior calculated in the one-stream framework. As a unified framework, OSTrack achieves state-of-the-art performance on multiple benchmarks, in particular, it shows impressive results on the one-shot tracking benchmark GOT-10k, i.e., achieving 73.7% AO, improving the existing best result (SwinTrack) by 4.3%. Besides, our method maintains a good performance-speed trade-off and shows faster convergence. The code and models will be available at https://github.com/botaoye/OSTrack.
翻訳日:2022-03-25 11:13:17 公開日:2022-03-24
# Adaptive Confidence Marginを用いた半監督深層表情認識に向けて

Towards Semi-Supervised Deep Facial Expression Recognition with An Adaptive Confidence Margin ( http://arxiv.org/abs/2203.12341v2 )

ライセンス: Link先を確認
Hangyu Li, Nannan Wang, Xi Yang, Xiaoyu Wang, and Xinbo Gao(参考訳) 半教師付き学習法において、信頼スコアが予め定義された閾値(すなわち、信頼率)よりも高いようなモデルを訓練するために、ラベル付きデータの一部のみが選択される。 我々は,ラベルなしデータをすべて活用することにより,認識性能をさらに向上させるべきであると主張している。 本稿では,Adaptive Confidence Margin (Ada-CM) を学習し,ラベルのないすべてのデータを半教師付き深層表情認識に活用する。 全未ラベル標本は、その信頼スコアと各トレーニングエポックにおける適応的に学習された信頼マージンを比較して2つのサブセットに分割される:(1)信頼スコアがマージン以下でないサンプルを含むサブセットI、(2)信頼スコアがマージン以下であるサンプルを含むサブセットII。 サブセットiのサンプルの場合、それらの予測を擬似ラベルに合わせるように制限する。 一方、サブセットIIのサンプルは、効果的な表情特徴を学習するための特徴レベルのコントラスト的目的に関与する。 我々は,Ada-CMを4つの挑戦的データセット上で広範囲に評価し,その手法が最先端の性能を達成することを示す。 アブレーション研究は我々の方法の有効性をさらに証明している。 ソースコードはhttps://github.com/hangyu94/Ada-CMで入手できる。

Only parts of unlabeled data are selected to train models for most semi-supervised learning methods, whose confidence scores are usually higher than the pre-defined threshold (i.e., the confidence margin). We argue that the recognition performance should be further improved by making full use of all unlabeled data. In this paper, we learn an Adaptive Confidence Margin (Ada-CM) to fully leverage all unlabeled data for semi-supervised deep facial expression recognition. All unlabeled samples are partitioned into two subsets by comparing their confidence scores with the adaptively learned confidence margin at each training epoch: (1) subset I including samples whose confidence scores are no lower than the margin; (2) subset II including samples whose confidence scores are lower than the margin. For samples in subset I, we constrain their predictions to match pseudo labels. Meanwhile, samples in subset II participate in the feature-level contrastive objective to learn effective facial expression features. We extensively evaluate Ada-CM on four challenging datasets, showing that our method achieves state-of-the-art performance, especially surpassing fully-supervised baselines in a semi-supervised manner. Ablation study further proves the effectiveness of our method. The source code is available at https://github.com/hangyu94/Ada-CM.
翻訳日:2022-03-25 11:12:53 公開日:2022-03-24
# 3次元透明物体再構成のためのハイブリッドメッシュニューラル表現法

A Hybrid Mesh-neural Representation for 3D Transparent Object Reconstruction ( http://arxiv.org/abs/2203.12613v2 )

ライセンス: Link先を確認
Jiamin Xu, Zihan Zhu, Hujun Bao, Weiwei Xu(参考訳) 自然光条件下で手持ちの撮像画像を用いて透明物体の3次元形状を復元する新しい手法を提案する。 明示的なメッシュとハイブリッド表現であるマルチレイヤパーセプトロン(MLP)ネットワークの利点を組み合わせて、最近のコントリビューションで使用されるキャプチャ設定を簡素化する。 マルチビューシルエットを用いて初期形状を得た後,表面の細部を再構成するための頂点変位場 (VDF) を符号化する曲面型局所MLPを導入する。 ローカルMLPの設計は、最適化アルゴリズムに有利な2層MLPネットワークを用いて、VDFを断片的に表現することができる。 体積の代わりに表面上の局所的なMLPを定義することで、探索空間も減少する。 このようなハイブリッド表現は、光路制約を表す光画素対応を我々の設計した光-セル対応に緩和することを可能にし、単一画像に基づく環境マットングアルゴリズムの実装を著しく単純化する。 地上真理モデルを用いた複数の透明物体に対する表現と再構成アルゴリズムの評価を行った。 提案手法は, 簡易なデータ取得装置を用いて, 最先端の手法よりも高品質な再構成結果が得られることを示す。

We propose a novel method to reconstruct the 3D shapes of transparent objects using hand-held captured images under natural light conditions. It combines the advantage of explicit mesh and multi-layer perceptron (MLP) network, a hybrid representation, to simplify the capture setting used in recent contributions. After obtaining an initial shape through the multi-view silhouettes, we introduce surface-based local MLPs to encode the vertex displacement field (VDF) for the reconstruction of surface details. The design of local MLPs allows to represent the VDF in a piece-wise manner using two layer MLP networks, which is beneficial to the optimization algorithm. Defining local MLPs on the surface instead of the volume also reduces the searching space. Such a hybrid representation enables us to relax the ray-pixel correspondences that represent the light path constraint to our designed ray-cell correspondences, which significantly simplifies the implementation of single-image based environment matting algorithm. We evaluate our representation and reconstruction algorithm on several transparent objects with ground truth models. Our experiments show that our method can produce high-quality reconstruction results superior to state-of-the-art methods using a simplified data acquisition setup.
翻訳日:2022-03-25 11:12:34 公開日:2022-03-24
# AP-BSN:非対称PDとBlind-Spotネットワークによる実世界画像の自己監視デノーミング

AP-BSN: Self-Supervised Denoising for Real-World Images via Asymmetric PD and Blind-Spot Network ( http://arxiv.org/abs/2203.11799v2 )

ライセンス: Link先を確認
Wooseok Lee, Sanghyun Son, Kyoung Mu Lee(参考訳) ブラインド・スポット・ネットワーク(BSN)とその変種は、自己監督型デノナイジングにおいて大きな進歩を遂げた。 それでも、ピクセル単位の独立ノイズのような実用性に乏しい仮定のため、合成ノイズ入力に縛られている。 したがって、自己教師付きBSNを用いて空間的に相関した実世界の雑音に対処することは困難である。 近年,実世界の雑音の空間相関を解消するために,ピクセルシャッフルダウンサンプリング(pd)が提案されている。 しかし,PDとBSNを直接統合することは容易ではないため,実世界の画像上での完全自己教師型復調モデルを回避することができる。 本稿では,この問題に対処するために,訓練と推論のための異なるpdストライド因子を導入する非対称pd(ap)を提案する。 提案手法は,特定のPDストライド要因による固有トレードオフを解消し,BSNを実用シナリオに適用できることを系統的に実証する。 この目的のために,実世界のsRGB画像に対する最先端の自己教師型デノケーション手法であるAP-BSNを開発した。 さらに、追加パラメータなしでAP-BSNの性能を大幅に改善するランダムリプレース改善を提案する。 広範囲な研究により,提案手法は,雑音レベルなどの追加知識を使わずに,他の自己教師なし・非ペア化手法よりも大きなマージンを越えていることが示された。

Blind-spot network (BSN) and its variants have made significant advances in self-supervised denoising. Nevertheless, they are still bound to synthetic noisy inputs due to less practical assumptions like pixel-wise independent noise. Hence, it is challenging to deal with spatially correlated real-world noise using self-supervised BSN. Recently, pixel-shuffle downsampling (PD) has been proposed to remove the spatial correlation of real-world noise. However, it is not trivial to integrate PD and BSN directly, which prevents the fully self-supervised denoising model on real-world images. We propose an Asymmetric PD (AP) to address this issue, which introduces different PD stride factors for training and inference. We systematically demonstrate that the proposed AP can resolve inherent trade-offs caused by specific PD stride factors and make BSN applicable to practical scenarios. To this end, we develop AP-BSN, a state-of-the-art self-supervised denoising method for real-world sRGB images. We further propose random-replacing refinement, which significantly improves the performance of our AP-BSN without any additional parameters. Extensive studies demonstrate that our method outperforms the other self-supervised and even unpaired denoising methods by a large margin, without using any additional knowledge, e.g., noise level, regarding the underlying unknown noise.
翻訳日:2022-03-25 11:12:14 公開日:2022-03-24