このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211215となっている論文です。

PDF登録状況(公開日: 20211215)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) メディアEval 2021における脳波パイロットサブタスクの概要:メディアの記憶可能性を予測する [全文訳有]

Overview of the EEG Pilot Subtask at MediaEval 2021: Predicting Media Memorability ( http://arxiv.org/abs/2201.00620v1 )

ライセンス: CC BY 4.0
Lorin Sweeney, Ana Matran-Fernandez, Sebastian Halder, Alba G. Seco de Herrera, Alan Smeaton and Graham Healy(参考訳) MediaEval'2021におけるMemorability-EEGパイロットサブタスクの目的は、脳波データの有用性を強調することでビデオの記憶可能性を予測するコンテキストにおいて、ニューラルネットワーク(単独または他のデータソースと組み合わせて)の使用への関心を促進することである。 作成したデータセットは、被験者の脳波記録から抽出された特徴で構成され、Predicting Media Memorability subtask 1のビデオのサブセットを視聴する。 この実証パイロットは、興味のある研究者に、事前のドメイン知識なしで神経信号をどのように利用できるかの感覚を与え、将来の記憶可能性タスクでそれを実現できる。 このデータセットは、ビデオの記憶可能性を予測するための新しい機械学習と処理戦略の探索を支援するとともに、記憶可能性に関する学際的関心を高め、新しいEEG-コンピュータビジョンアプローチへの扉を開くことができる。

The aim of the Memorability-EEG pilot subtask at MediaEval'2021 is to promote interest in the use of neural signals -- either alone or in combination with other data sources -- in the context of predicting video memorability by highlighting the utility of EEG data. The dataset created consists of pre-extracted features from EEG recordings of subjects while watching a subset of videos from Predicting Media Memorability subtask 1. This demonstration pilot gives interested researchers a sense of how neural signals can be used without any prior domain knowledge, and enables them to do so in a future memorability task. The dataset can be used to support the exploration of novel machine learning and processing strategies for predicting video memorability, while potentially increasing interdisciplinary interest in the subject of memorability, and opening the door to new combined EEG-computer vision approaches.
翻訳日:2022-01-09 17:17:38 公開日:2021-12-15
# (参考訳) 生成モデルを用いた強化学習のための量子アルゴリズム [全文訳有]

Quantum Algorithms for Reinforcement Learning with a Generative Model ( http://arxiv.org/abs/2112.08451v1 )

ライセンス: CC BY 4.0
Daochen Wang, Aarthi Sundaram, Robin Kothari, Ashish Kapoor, Martin Roetteler(参考訳) 強化学習は、エージェントがその累積報酬を最大化する環境とどのように相互作用すべきかを研究する。 この問題を抽象的に研究する標準的な方法は、エージェントが環境から必要とするサンプル数を問うことで、$\gamma$-discounted Markov decision process (MDP) の最適なポリシーを学ぶことである。 このようなMDPに対して、アルゴリズムが量子重ね合わせの環境からサンプルにアクセスできると仮定して、最適なポリシー(\pi^*$)、最適な値関数(v^*$)、最適な$Q$-function(q^*$)を近似する量子アルゴリズムを設計する。 この仮定は、例えば、環境がビデオゲームや他のプログラムである場合、環境のシミュレータが存在するときに正当化される。 私たちの量子アルゴリズムは、値の反復に触発され、近似精度(\epsilon$)とmdpの2つの主要なパラメータ(有効時間軸(\frac{1}{1-\gamma}$)と作用空間のサイズ(a$)で、最も考えられる古典的サンプルの複雑さよりも2倍のスピードアップを達成します。 さらに,$q^*$ を計算するための量子アルゴリズムは,一致する量子下限を証明すれば最適であることを示す。

Reinforcement learning studies how an agent should interact with an environment to maximize its cumulative reward. A standard way to study this question abstractly is to ask how many samples an agent needs from the environment to learn an optimal policy for a $\gamma$-discounted Markov decision process (MDP). For such an MDP, we design quantum algorithms that approximate an optimal policy ($\pi^*$), the optimal value function ($v^*$), and the optimal $Q$-function ($q^*$), assuming the algorithms can access samples from the environment in quantum superposition. This assumption is justified whenever there exists a simulator for the environment; for example, if the environment is a video game or some other program. Our quantum algorithms, inspired by value iteration, achieve quadratic speedups over the best-possible classical sample complexities in the approximation accuracy ($\epsilon$) and two main parameters of the MDP: the effective time horizon ($\frac{1}{1-\gamma}$) and the size of the action space ($A$). Moreover, we show that our quantum algorithm for computing $q^*$ is optimal by proving a matching quantum lower bound.
翻訳日:2021-12-26 14:13:47 公開日:2021-12-15
# 機能的残基同定のためのグラフ表現におけるタンパク質動的情報の符号化

Encoding protein dynamic information in graph representation for functional residue identification ( http://arxiv.org/abs/2112.12033v1 )

ライセンス: Link先を確認
Yuan Chiang, Wei-Han Hui, Shu-Wei Chang(参考訳) タンパク質機能予測の最近の進歩は、タンパク質の構造的・トポロジー的特徴と分子機能との相関をグラフベースで実現する。 しかし、生体内のタンパク質は静的ではなく、機能目的のためにコンフォメーションを変化させる動的分子である。 ここでは, 動的に相関する残基対間のエッジを連結することにより, ネイティブタンパク質コンホメーションと拡張タンパク質グラフに正規モード解析を適用する。 マルチラベル関数分類タスクでは,この動的インフォームド表現に基づく顕著な性能向上を示す。 提案したグラフニューラルネットワークであるProDARは、残基レベルのアノテーションの解釈可能性と一般化性を高め、タンパク質の構造的ニュアンスを強く反映する。 我々は,hMTH1,ニトロホリン,SARS-CoV-2受容体結合ドメインのクラス活性化マップを比較し,グラフ表現における動的情報の重要性を明らかにする。 本モデルでは,タンパク質のダイナミックフィンガープリントの学習に成功し,タンパク質機能に関する分子的知見を提供する。

Recent advances in protein function prediction exploit graph-based deep learning approaches to correlate the structural and topological features of proteins with their molecular functions. However, proteins in vivo are not static but dynamic molecules that alter conformation for functional purposes. Here we apply normal mode analysis to native protein conformations and augment protein graphs by connecting edges between dynamically correlated residue pairs. In the multilabel function classification task, our method demonstrates a remarkable performance gain based on this dynamics-informed representation. The proposed graph neural network, ProDAR, increases the interpretability and generalizability of residue-level annotations and robustly reflects structural nuance in proteins. We elucidate the importance of dynamic information in graph representation by comparing class activation maps for the hMTH1, nitrophorin, and SARS-CoV-2 receptor binding domain. Our model successfully learns the dynamic fingerprints of proteins and provides molecular insights into protein functions, with vast untapped potential for broad biotechnology and pharmaceutical applications.
翻訳日:2021-12-26 13:21:39 公開日:2021-12-15
# 能動的学習を用いたテキストアノテーションによる品質向上の試み

Assisted Text Annotation Using Active Learning to Achieve High Quality with Little Effort ( http://arxiv.org/abs/2112.11914v1 )

ライセンス: Link先を確認
Franziska Weeber and Felix Hamborg and Karsten Donnay and Bela Gipp(参考訳) 特にディープラーニング技術の普及以降、大量の注釈付きデータがこれまで以上に重要になっている。 しかし、手動アノテーションはコストがかかる。 研究者は、手動のアノテーションだけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案し、アノテーションのコストと労力を強く削減する。 そこで本研究では,アクティブラーニング(AL)アプローチと事前学習言語モデルを組み合わせて,テキスト文書中のアノテーションカテゴリを半自動同定する。 本研究の方向性を強調するために,ニュース記事中のフレームを識別するタスクにおけるアプローチを評価する。 予備的な結果から,ALを用いると,これらの複雑で微妙なフレームの正確な分類のためのアノテーションの数が大幅に減少することがわかった。 フレーミングデータセットでは、完全なデータセットでトレーニングされたモデルと同じパフォーマンスに達するために、ALアプローチはアノテーションの16.3%しか必要としない。

Large amounts of annotated data have become more important than ever, especially since the rise of deep learning techniques. However, manual annotations are costly. We propose a tool that enables researchers to create large, high-quality, annotated datasets with only a few manual annotations, thus strongly reducing annotation cost and effort. For this purpose, we combine an active learning (AL) approach with a pre-trained language model to semi-automatically identify annotation categories in the given text documents. To highlight our research direction's potential, we evaluate the approach on the task of identifying frames in news articles. Our preliminary results show that employing AL strongly reduces the number of annotations for correct classification of even these complex and subtle frames. On the framing dataset, the AL approach needs only 16.3\% of the annotations to reach the same performance as a model trained on the full dataset.
翻訳日:2021-12-26 12:45:41 公開日:2021-12-15
# 解釈可能な知識のトレース:因果関係を持つ単純で効率的な学生モデル

Interpretable Knowledge Tracing: Simple and Efficient Student Modeling with Causal Relations ( http://arxiv.org/abs/2112.11209v1 )

ライセンス: Link先を確認
Sein Minn, Jill-Jenn Vie, Koh Takeuchi, Hisashi Kashima, Feida Zhu(参考訳) 知能学習システムは、将来の学習環境において極めて重要になっている。 知識追跡(KT)はそのシステムの重要な部分です。 生徒の熟練度を推定し、成績を予測してカリキュラムを調整することである。 ディープラーニングベースのKTモデルは、従来のモデルと比較して大きな予測性能を示している。 しかし、認知理論に関連する数万のパラメータから心理的に有意義な説明を抽出することは困難である。 学生のパフォーマンス予測において高い精度を達成する方法はいくつかあるが、診断と予測の推論は学習科学においてより重要である。 kt問題には観察可能な特徴がほとんどないため,機械学習とデータマイニング手法を用いて,学生の反応データから有意義な潜伏特徴を抽出する。 本研究では,スキル習得,能力プロファイル(スキル間での学習),難易度という,3つの有意義な潜在機能に依存するシンプルなモデルである解釈可能な知識追跡(IKT)を提案する。 iktの将来の学生成績予測は、木製ナイーブベイズ分類器(tan)を用いて行われるため、深層学習に基づく学習モデルよりも容易に説明できる。 IKTはまた、大量のパラメータを必要とすることなく、ディープラーニングベースの学生モデルよりも優れた生徒パフォーマンス予測を示す。 学生のパフォーマンス予測への貢献を検討するために,各特徴についてアブレーション研究を行う。 このように、IKTは現実世界の教育システムにおいて、因果推論を用いた適応的でパーソナライズされた指示を提供する大きな可能性を秘めている。

Intelligent Tutoring Systems have become critically important in future learning environments. Knowledge Tracing (KT) is a crucial part of that system. It is about inferring the skill mastery of students and predicting their performance to adjust the curriculum accordingly. Deep Learning-based KT models have shown significant predictive performance compared with traditional models. However, it is difficult to extract psychologically meaningful explanations from the tens of thousands of parameters in neural networks, that would relate to cognitive theory. There are several ways to achieve high accuracy in student performance prediction but diagnostic and prognostic reasoning is more critical in learning sciences. Since KT problem has few observable features (problem ID and student's correctness at each practice), we extract meaningful latent features from students' response data by using machine learning and data mining techniques. In this work, we present Interpretable Knowledge Tracing (IKT), a simple model that relies on three meaningful latent features: individual skill mastery, ability profile (learning transfer across skills), and problem difficulty. IKT's prediction of future student performance is made using a Tree-Augmented Naive Bayes Classifier (TAN), therefore its predictions are easier to explain than deep learning-based student models. IKT also shows better student performance prediction than deep learning-based student models without requiring a huge amount of parameters. We conduct ablation studies on each feature to examine their contribution to student performance prediction. Thus, IKT has great potential for providing adaptive and personalized instructions with causal reasoning in real-world educational systems.
翻訳日:2021-12-26 12:45:26 公開日:2021-12-15
# (参考訳) eコマースのための製品自動複写 [全文訳有]

Automatic Product Copywriting for E-Commerce ( http://arxiv.org/abs/2112.11915v1 )

ライセンス: CC BY 4.0
Xueying Zhang, Yanyan Zou, Hainan Zhang, Jing Zhou, Shiliang Diao, Jiajia Chen, Zhuoye Ding, Zhen He, Xueqi He, Yun Xiao, Bo Long, Han Yu, Lingfei Wu(参考訳) 商品のコピーライティングは、Eコマースレコメンデーションプラットフォームの重要なコンポーネントである。 ユーザの興味を惹きつけるとともに,テキスト記述による製品特性の強調によるユーザエクスペリエンスの向上を目指す。 本稿では、JD.comのeコマース製品レコメンデーションプラットフォームにAPCG(Automatic Product Copywriting Generation)システムを導入した経験を報告する。 主な構成要素は2つある。 1) インハウスプラットフォームからの数百万のトレーニングデータに基づいて,トランスフォーマー・ポインターネットワークと事前学習されたシーケンス・ツー・シーケンスモデルから構築した自然言語生成 2) 自動評価と人体検診の両方に基づく複写品質管理を行う。 選択されたドメインでは、モデルがトレーニングされ、更新されたトレーニングデータで毎日更新される。 さらにこのモデルは、ライブブロードキャストプラットフォームのリアルタイムライティングアシスタントツールとしても使用しています。 APCGシステムは2021年2月からJD.comに配備されている。 sep 2021では、製品記述が2.53万回生成され、年間平均クリックスルー率 (ctr) とコンバージョン率 (cvr) がそれぞれ4.22%、ベースラインが3.61%改善されている。 本システムで蓄積したGross Merchandise Volume (GMV)は,2021年2月に比べて213.42%改善されている。

Product copywriting is a critical component of e-commerce recommendation platforms. It aims to attract users' interest and improve user experience by highlighting product characteristics with textual descriptions. In this paper, we report our experience deploying the proposed Automatic Product Copywriting Generation (APCG) system into the JD.com e-commerce product recommendation platform. It consists of two main components: 1) natural language generation, which is built from a transformer-pointer network and a pre-trained sequence-to-sequence model based on millions of training data from our in-house platform; and 2) copywriting quality control, which is based on both automatic evaluation and human screening. For selected domains, the models are trained and updated daily with the updated training data. In addition, the model is also used as a real-time writing assistant tool on our live broadcast platform. The APCG system has been deployed in JD.com since Feb 2021. By Sep 2021, it has generated 2.53 million product descriptions, and improved the overall averaged click-through rate (CTR) and the Conversion Rate (CVR) by 4.22% and 3.61%, compared to baselines, respectively on a year-on-year basis. The accumulated Gross Merchandise Volume (GMV) made by our system is improved by 213.42%, compared to the number in Feb 2021.
翻訳日:2021-12-26 12:41:45 公開日:2021-12-15
# リプシッツ回転を持つ LTB 曲線は正則である

LTB curves with Lipschitz turn are par-regular ( http://arxiv.org/abs/2112.09567v1 )

ライセンス: Link先を確認
Etienne Le Quentrec (AMU), Lo\"ic Mazo (UNISTRA), \'Etienne Baudrier (UNISTRA), Mohamed Tajine (UNISTRA)(参考訳) デジタル化プロセス中にトポロジを保存することは、最初の重要な要件である。 この目的のために、Digital Geometryでは、形状境界が正則であると仮定するのは古典的である。 パリレギュラリティは正のリーチを持つか、リプシッツ微分を持つ曲線のクラスc 1,1に属することが証明された。 最近我々は、局所的な曲がり角を持つ多角形を含むより大きいクラスを使うことを提案した。 この技術報告の目的は、ターンの概念(つまり積分曲率)のみを用いて、局所的なターンバウンド曲線のクラス内のパーレギュラー曲線のクラスを定義することである。 より正確には、前回の記事では、パーレギュラー曲線が局所的なターンバウンドであることを既に証明している。 ちなみにこの証明は、部分正則曲線の回転がその長さのリプシッツ函数であることを示す。 この後者の性質を検証する曲線のクラスをリプシッツ回転を持つ曲線と呼ぶ。 この技術的報告では、逆アサーションが証明される: リプシッツターンを持つ局所的なターンバウンド曲線は正則である。 同値性は Theorem 3.1 で記述され、逆アサーションは Lemma 3.2 で証明される。 第1節では、パリティの定義と正のリーチを持つ集合の定義を思い出す。 第2節では、局所的に曲がる曲線とリプシッツ回転を持つ曲線の概念を述べる。 後者の節を通して、いくつかの中間段階 (Lemmas 2.3 と 2.11) がそれらの関連する概念の導入の直後に証明される。 最後のセクション(第3節)は、概念の等価性の証明に捧げられている。

Preserving the topology during a digitization process is a requirement of first importance. To this end, it is classical in Digital Geometry to assume the shape borders to be par-regular. Par-regularity was proved to be equivalent to having positive reach or to belong to the class C 1,1 of curves with Lipschitz derivative. Recently, we proposed to use a larger class that encompasses polygons with obtuse angles, the locally turn-bounded curves. The aim of this technical report is to define the class of par-regular curves inside the class of locally turn-bounded curves using only the notion of turn, that is of integral curvature. To be more precise, in a previous article, we have already proved that par-regular curves are locally turn-bounded. Incidentally this proof lead us to show that the turn of par-regular curves is a Lipschitz function of their length. We call the class of curves verifying this latter property the curves with Lipschitz turn. In this technical report, we prove the converse assertion : locally turn-bounded curves with Lipschitz turn are par-regular. The equivalence is stated in Theorem 3.1 and the converse assertion is proved in Lemma 3.2. In section 1, we recall the definition of par-regularity and equivalently of sets with positive reach. In section 2, we present the notions of curves locally turn-bounded and of curves with Lipschitz turn. Throughout this latter section, some of intermediate steps (Lemmas 2.3 and 2.11) are proved just after the introduction of their related notions. The last section (section 3) is dedicated to the proof of the equivalence of the notions.
翻訳日:2021-12-20 15:43:41 公開日:2021-12-15
# 脳-コンピュータインタフェースのための信頼度を考慮した主語間伝達学習

Confidence-Aware Subject-to-Subject Transfer Learning for Brain-Computer Interface ( http://arxiv.org/abs/2112.09243v1 )

ライセンス: Link先を確認
Dong-Kyun Han, Serkan Musellim, Dong-Young Kim(参考訳) 脳波(EEG)のイントラオブジェクト間変動は脳-コンピュータインターフェース(BCI)の実用化を困難にしている。 一般に、BCIシステムは、システムが使用されるたびにモデルをチューニングするためにキャリブレーション手順を必要とする。 この問題はbciにとって大きな障害として認識されており、それを克服するために、転送学習(tl)に基づくアプローチが最近登場している。 しかし、多くのbciパラダイムはラベルを最初に示し、次に「画像」を測定する構造で構成されており、制御シグナルを含まないデータを含むソースサブジェクトの負の効果は、サブジェクトからサブジェクトへのtlプロセスにおいて無視されている。 本研究の目的は,被写体から被写体へのtlトレーニングに悪影響を与えると思われる被写体を,可能な限り多くの被写体のデータを用いて排除する方法を提案することである。 本稿では,tl訓練のための高信頼課題のみを用いたbciフレームワークを提案する。 本手法では,深層ニューラルネットワークがtlプロセスに有用な対象を選択し,小損失トリックに基づく共学習アルゴリズムを用いて雑音領域を除外する。 我々は,2つの公開データセット(2020年の国際BCIコンペティショントラック4とOpenBMIデータセット)上で,一括検証実験を行った。 実験の結果,BCI の一般化性能は,低損失の被験者を選別する自信認識型 TL により向上した。

The inter/intra-subject variability of electroencephalograp hy (EEG) makes the practical use of the brain-computer interface (BCI) difficult. In general, the BCI system requires a calibration procedure to tune the model every time the system is used. This problem is recognized as a major obstacle to BCI, and to overcome it, approaches based on transfer learning (TL) have recently emerged. However, many BCI paradigms are limited in that they consist of a structure that shows labels first and then measures "imagery", the negative effects of source subjects containing data that do not contain control signals have been ignored in many cases of the subject-to-subject TL process. The main purpose of this paper is to propose a method of excluding subjects that are expected to have a negative impact on subject-to-subject TL training, which generally uses data from as many subjects as possible. In this paper, we proposed a BCI framework using only high-confidence subjects for TL training. In our framework, a deep neural network selects useful subjects for the TL process and excludes noisy subjects, using a co-teaching algorithm based on the small-loss trick. We experimented with leave-one-subject-ou t validation on two public datasets (2020 international BCI competition track 4 and OpenBMI dataset). Our experimental results showed that confidence-aware TL, which selects subjects with small loss instances, improves the generalization performance of BCI.
翻訳日:2021-12-20 13:59:11 公開日:2021-12-15
# CPPE-5:医療用パーソナル防護機器データセット

CPPE-5: Medical Personal Protective Equipment Dataset ( http://arxiv.org/abs/2112.09569v1 )

ライセンス: Link先を確認
Rishit Dagli and Ali Mustufa Shaikh(参考訳) 今回我々は,医療用個人用保護具の下位分類について,pascal voc,imagenet,microso ft coco,openimagesなど,他の一般的なデータセットでは不可能であるcppe - 5(medical personal protective equipment)という新たな挑戦的データセットを提案する。 このデータセットでトレーニングされたモデルが複雑なシーンで実用的なシナリオで使用できるようにするために、我々のデータセットは、主に、それぞれのシーンに複数のオブジェクトを含む複雑なシーンを示す画像を含む。 できるだけ多くの非iconicイメージを取得し、この領域の他の既存のデータセットと異なり、すべてのイメージが実際のイメージであることを保証する。 データセットには5つのオブジェクトカテゴリ(カバー、フェイスシールド、手袋、マスク、ゴーグル)が含まれており、各イメージにはバウンディングボックスとポジティブラベルがアノテートされています。 我々は、他の一般的な広範カテゴリのデータセットと比較して、データセットの詳細な分析と、個人の防護機器に焦点を当てたデータセットを提示するが、現在、そのような公開データセットは存在しない。 最後に,性能解析を行い,ベースラインモデルと最先端モデルとの比較を行った。 私たちのコード、データ、トレーニングされたモデルは、https://git.io/cppe5 -datasetで利用可能です。

We present a new challenging dataset, CPPE - 5 (Medical Personal Protective Equipment), with the goal to allow the study of subordinate categorization of medical personal protective equipments, which is not possible with other popular data sets that focus on broad level categories (such as PASCAL VOC, ImageNet, Microsoft COCO, OpenImages, etc). To make it easy for models trained on this dataset to be used in practical scenarios in complex scenes, our dataset mainly contains images that show complex scenes with several objects in each scene in their natural context. The image collection for this dataset focusing on: obtaining as many non-iconic images as possible and making sure all the images are real-life images unlike other existing datasets in this area. Our dataset includes 5 object categories (coveralls, face shield, gloves, mask, and goggles) and each image is annotated with a set of bounding boxes and positive labels. We present a detailed analysis of the dataset in comparison to other popular broad category datasets as well as datasets focusing on personal protective equipments, we also find that at present there exist no such publicly available datasets. Finally we also analyze performance and compare model complexities on baseline and state-of-the-art models for bounding box results. Our code, data, and trained models are available at https://git.io/cppe5 -dataset .
翻訳日:2021-12-20 13:20:10 公開日:2021-12-15
# (参考訳) マルチジョブフェデレーション学習による効率的なデバイススケジューリング [全文訳有]

Efficient Device Scheduling with Multi-Job Federated Learning ( http://arxiv.org/abs/2112.05928v2 )

ライセンス: CC BY 4.0
Chendi Zhou, Ji Liu, Juncheng Jia, Jingbo Zhou, Yang Zhou, Huaiyu Dai, Dejing Dou(参考訳) 近年、エンドユーザーの複数の(エッジ)デバイスで大量の分散データを目撃しているが、分散データの集約は法律や規制によって機械学習ジョブでは依然として困難である。 フェデレートラーニング(FL)は、センシティブな生データを共有せずに分散データを扱うための効果的なアプローチとして現れ、グローバル機械学習モデルを協調的にトレーニングする。 flのサーバは、トレーニングプロセス中にデバイスを選択(およびスケジュール)する必要がある。 しかしながら、flを用いた複数ジョブ用のデバイスのスケジューリングは、依然として重要かつオープンな問題である。 本稿では,複数のジョブの並列トレーニングプロセスを実現するための,新しいマルチジョブFLフレームワークを提案する。 フレームワークはシステムモデルと2つのスケジューリング方法で構成される。 システムモデルでは、複数のジョブの並列トレーニングプロセスを提案し、多様なジョブのトレーニングプロセスにおいて、様々なデバイスのトレーニング時間とデータフェアネスに基づいてコストモデルを構築する。 コストを最小化しつつ、複数のジョブに対してデバイスをスケジュールする強化学習法とベイズ最適化法を提案する。 複数のジョブとデータセットで広範な実験を行う。 実験の結果,提案手法はトレーニング時間(最大8.67倍)と精度(最大44.6%)において,ベースラインアプローチよりも有意に優れていた。

Recent years have witnessed a large amount of decentralized data in multiple (edge) devices of end-users, while the aggregation of the decentralized data remains difficult for machine learning jobs due to laws or regulations. Federated Learning (FL) emerges as an effective approach to handling decentralized data without sharing the sensitive raw data, while collaboratively training global machine learning models. The servers in FL need to select (and schedule) devices during the training process. However, the scheduling of devices for multiple jobs with FL remains a critical and open problem. In this paper, we propose a novel multi-job FL framework to enable the parallel training process of multiple jobs. The framework consists of a system model and two scheduling methods. In the system model, we propose a parallel training process of multiple jobs, and construct a cost model based on the training time and the data fairness of various devices during the training process of diverse jobs. We propose a reinforcement learning-based method and a Bayesian optimization-based method to schedule devices for multiple jobs while minimizing the cost. We conduct extensive experimentation with multiple jobs and datasets. The experimental results show that our proposed approaches significantly outperform baseline approaches in terms of training time (up to 8.67 times faster) and accuracy (up to 44.6% higher).
翻訳日:2021-12-18 14:07:25 公開日:2021-12-15
# (参考訳) 運用環境におけるディープラーニングモデルのデプロイのためのレスポンシブ並列化アーキテクチャ [全文訳有]

Responsive parallelized architecture for deploying deep learning models in production environments ( http://arxiv.org/abs/2112.08933v1 )

ライセンス: CC BY 4.0
Nikhil Verma and Krishna Prasad(参考訳) リクルーターは、カリキュラムのビザ文書を閲覧することで、求職者の候補を簡単にショートリストできる。 非構造化文書 CV は候補ポートフォリオを保持し、詳細をリストアップするエンティティを命名する。 本研究の目的は、階層化されたラベルアテンションネットワークを用いてCVエンティティを体系的に予測するWeb指向で応答性の高い計算パイプラインの設計と提案である。

Recruiters can easily shortlist candidates for jobs via viewing their curriculum vitae document. Unstructured document CV beholds candidates portfolio and named entities listing details. The main aim of this study is to design and propose a web oriented, highly responsive, computational pipeline that systematically predicts CV entities using hierarchically refined label attention networks.
翻訳日:2021-12-18 11:35:29 公開日:2021-12-15
# (参考訳) SanMove: セルフアテンションネットワークによる次のロケーションレコメンデーション [全文訳有]

SanMove: Next Location Recommendation via Self-Attention Network ( http://arxiv.org/abs/2112.09076v1 )

ライセンス: CC BY 4.0
Huifeng Li, Bin Wang, Sulei Zhu, Yanyan Xu(参考訳) 現在、next location recommendationは位置情報ベースのソーシャルネットワークアプリケーションやサービスにおいて重要な役割を担っている。 Although many methods have been proposed to solve this problem, three important challenges have not been well addressed so far: (1) most existing methods are based on recurrent network, which is time-consuming to train long sequences due to not allowing for full parallelism; (2) personalized preferences generally are not considered reasonably; (3) existing methods rarely systematically studied how to efficiently utilize various auxiliary information (e.g., user ID and timestamp) in trajectory data and the spatio-temporal relations among non-consecutive locations. このような課題に対処するために,ユーザの長期的・短期的な移動パターンをキャプチャして次の位置を予測する,自己注意型ネットワークモデルであるSanMoveを提案する。 具体的には、SanMoveは長期優先学習モジュールを導入し、自己認識モジュールを使用して、ユーザのパーソナライズされた位置選好を表現できる、長期的なモビリティパターンをキャプチャする。 一方、SanMoveは時空間誘導非侵襲的自己注意(STNOVA)を使用して、補助情報を利用して短期的な嗜好を学習する。 実世界の2つのデータセットでSanMoveを評価し、SanMoveは最先端のRNNベースの予測モデルよりも高速であるだけでなく、次の位置予測のベースラインよりも優れていることを示す。

Currently, next location recommendation plays a vital role in location-based social network applications and services. Although many methods have been proposed to solve this problem, three important challenges have not been well addressed so far: (1) most existing methods are based on recurrent network, which is time-consuming to train long sequences due to not allowing for full parallelism; (2) personalized preferences generally are not considered reasonably; (3) existing methods rarely systematically studied how to efficiently utilize various auxiliary information (e.g., user ID and timestamp) in trajectory data and the spatio-temporal relations among non-consecutive locations. To address the above challenges, we propose a novel method named SanMove, a self-attention network based model, to predict the next location via capturing the long- and short-term mobility patterns of users. Specifically, SanMove introduces a long-term preference learning module, and it uses a self-attention module to capture the users long-term mobility pattern which can represent personalized location preferences of users. Meanwhile, SanMove uses a spatial-temporal guided non-invasive self-attention (STNOVA) to exploit auxiliary information to learn short-term preferences. We evaluate SanMove with two real-world datasets, and demonstrate SanMove is not only faster than the state-of-the-art RNN-based predict model but also outperforms the baselines for next location prediction.
翻訳日:2021-12-18 11:23:09 公開日:2021-12-15
# (参考訳) 強化学習における一般化のための特徴認識型反復モジュール [全文訳有]

Feature-Attending Recurrent Modules for Generalization in Reinforcement Learning ( http://arxiv.org/abs/2112.08369v1 )

ライセンス: CC BY 4.0
Wilka Carvalho, Andrew Lampinen, Kyriacos Nikiforou, Felix Hill, Murray Shanahan(参考訳) 深部強化学習(Deep RL)は近年,一般化のためのアルゴリズムの開発において大きな進歩を遂げている。 しかし、ほとんどのアルゴリズムは単一の一般化設定をターゲットにしている。 本研究では,3つの異なるタスク構造における一般化について検討する。 a) 定期的に発生する物体の動きの空間的及び時間的構成からなる作業 (b)定期的に発生する3dオブジェクトに対する積極的な知覚及びナビゲーションからなるタスク c) 定期的に発生するオブジェクト構成のシーケンス上で目標情報を記憶するタスク。 タスク補完は常に、タスク指向の知覚と振舞いの繰り返しセグメントを組み合わせて行われる。 繰り返し発生するタスクセグメントをキャプチャする表現を発見できれば,エージェントはタスク構造内で一般化できる,という仮説を立てる。 私たちのタスクでは、個々のオブジェクトの動きを認識する表現、3dオブジェクトへのナビゲーション、オブジェクト構成をナビゲートする表現に対応しています。 認知科学から着想を得て,エージェントの経験の反復的な部分の表現を「知覚的スキーマ」と呼ぶ。 本稿では,複数の比較的小さなリカレントモジュールにまたがって知覚スキーマが分散される状態表現を学習するFeature Attending Recurrent Modules (FARM)を提案する。 FARMと空間的注意を生かした繰り返しアーキテクチャを比較し,空間的位置の重み付き平均値に対する観測特性の低減を図る。 実験の結果,我々の研究する多様なオブジェクト中心ドメインにまたがって,farmの汎用性が向上することが示唆された。

Deep reinforcement learning (Deep RL) has recently seen significant progress in developing algorithms for generalization. However, most algorithms target a single type of generalization setting. In this work, we study generalization across three disparate task structures: (a) tasks composed of spatial and temporal compositions of regularly occurring object motions; (b) tasks composed of active perception of and navigation towards regularly occurring 3D objects; and (c) tasks composed of remembering goal-information over sequences of regularly occurring object-configuration s. These diverse task structures all share an underlying idea of compositionality: task completion always involves combining recurring segments of task-oriented perception and behavior. We hypothesize that an agent can generalize within a task structure if it can discover representations that capture these recurring task-segments. For our tasks, this corresponds to representations for recognizing individual object motions, for navigation towards 3D objects, and for navigating through object-configuration s. Taking inspiration from cognitive science, we term representations for recurring segments of an agent's experience, "perceptual schemas". We propose Feature Attending Recurrent Modules (FARM), which learns a state representation where perceptual schemas are distributed across multiple, relatively small recurrent modules. We compare FARM to recurrent architectures that leverage spatial attention, which reduces observation features to a weighted average over spatial positions. Our experiments indicate that our feature-attention mechanism better enables FARM to generalize across the diverse object-centric domains we study.
翻訳日:2021-12-18 11:11:11 公開日:2021-12-15
# (参考訳) 不確実性下における幾何学設計のための深部生成モデル [全文訳有]

Deep Generative Models for Geometric Design Under Uncertainty ( http://arxiv.org/abs/2112.08919v1 )

ライセンス: CC BY 4.0
Wei (Wayne) Chen, Doksoo Lee, Wei Chen(参考訳) 深層生成モデルは、幾何設計最適化を大幅に改善するコンパクトで表現豊かな設計表現を学習する効果を実証してきた。 しかし、これらのモデルは製造や製造による不確実性を考慮していない。 このような不確実性を定量化する過去の研究は、しばしば幾何学的変動を単純化するが、"現実世界"の不確実性とその設計性能への影響は、高次元性のために定量化が難しい。 本稿では,不確実性フレームワークに基づくジェネレーティブ・アドバイサル・ネットワーク・ベース・デザイン(GAN-DUF)を提案する。このモデルには,名目(理想)設計のコンパクトな表現と,名目設計の条件付き分布を同時に学習する深層生成モデルが含まれている。 2つの実世界のエンジニアリング設計例でそのフレームワークを実演し、製造後の優れた性能を持つソリューションを見つける能力を示した。

Deep generative models have demonstrated effectiveness in learning compact and expressive design representations that significantly improve geometric design optimization. However, these models do not consider the uncertainty introduced by manufacturing or fabrication. Past work that quantifies such uncertainty often makes simplified assumptions on geometric variations, while the "real-world" uncertainty and its impact on design performance are difficult to quantify due to the high dimensionality. To address this issue, we propose a Generative Adversarial Network-based Design under Uncertainty Framework (GAN-DUF), which contains a deep generative model that simultaneously learns a compact representation of nominal (ideal) designs and the conditional distribution of fabricated designs given any nominal design. We demonstrated the framework on two real-world engineering design examples and showed its capability of finding the solution that possesses better performances after fabrication.
翻訳日:2021-12-18 10:49:37 公開日:2021-12-15
# (参考訳) dsgpt: eコマースにおけるテキスト生成用トランスフォーマーのドメイン固有生成事前学習と要約 [全文訳有]

DSGPT: Domain-Specific Generative Pre-Training of Transformers for Text Generation in E-commerce Title and Review Summarization ( http://arxiv.org/abs/2112.08414v1 )

ライセンス: CC BY 4.0
Xueying Zhang, Yunjiang Jiang, Yue Shang, Zhaomeng Cheng, Chi Zhang, Xiaochuan Fan, Yun Xiao, Bo Long(参考訳) テキスト生成のための新しいドメイン固有生成前訓練法(DS-GPT)を提案し,それをEコマースモバイルディスプレイ上での製品タイトルと要約問題に適用し,まず,入力と出力を組み合わせて微調整タスクに適合するデコーダのみのトランスフォーマアーキテクチャを採用する。 第2に,関連する領域における少量の事前学習データのみの利用が強力であることを実証する。 WikipediaやCommonCrawlのような一般的なコーパスから言語モデルを事前トレーニングするには、膨大な時間とリソースのコミットメントが必要です。 ourdsgptは限定データセットである chinese short textsummarization dataset (lcsts) で事前トレーニングされている。 第3に、当社のモデルは製品関連の人間ラベルデータを必要としない。 タイトル要約タスクでは、アートの状態は、追加のバックグラウンド知識トレーニングと予測ステージを使用する。 対照的に、我々のモデルは、パブリックなTaobao.comdatasetを微調整した後、この知識を包括的に捉え、他の手法よりも大幅に改善する。 要約タスクをレビューするために、JD.comの社内データセットを使用し、微調整の柔軟性に欠ける標準的な機械翻訳手法に類似した改善を観察する。 提案する作業は、テキスト生成タスクを幅広く行うために、単に他のドメインに拡張することができる。

We propose a novel domain-specific generative pre-training (DS-GPT) method for text generation and apply it to the product titleand review summarization problems on E-commerce mobile display.First, we adopt a decoder-only transformer architecture, which fitswell for fine-tuning tasks by combining input and output all to-gether. Second, we demonstrate utilizing only small amount of pre-training data in related domains is powerful. Pre-training a languagemodel from a general corpus such as Wikipedia or the CommonCrawl requires tremendous time and resource commitment, andcan be wasteful if the downstream tasks are limited in variety. OurDSGPT is pre-trained on a limited dataset, the Chinese short textsummarization dataset (LCSTS). Third, our model does not requireproduct-relat ed human-labeled data. For title summarization task,the state of art explicitly uses additional background knowledgein training and predicting stages. In contrast, our model implic-itly captures this knowledge and achieves significant improvementover other methods, after fine-tuning on the public Taobao.comdataset. For review summarization task, we utilize JD.com in-housedataset, and observe similar improvement over standard machinetranslation methods which lack the flexibility of fine-tuning. Ourproposed work can be simply extended to other domains for a widerange of text generation tasks.
翻訳日:2021-12-18 10:38:04 公開日:2021-12-15
# (参考訳) 都市域における歩行者の快適性評価のための位置エンコードGAN [全文訳有]

Positional Encoding Augmented GAN for the Assessment of Wind Flow for Pedestrian Comfort in Urban Areas ( http://arxiv.org/abs/2112.08447v1 )

ライセンス: CC BY 4.0
Henrik H{\o}iness, Kristoffer Gjerde, Luca Oggiano, Knut Erik Teigen Giljarhus and Massimiliano Ruocco(参考訳) 計算流体力学(CFD)法による風流の近似には時間を要する。 風の流れを観察しながらプロトタイプをインタラクティブに設計するためのツールを作成するには、よりシンプルなモデルをシミュレートする必要がある。 詳細な計算結果をもたらす数値近似を実行する代わりに、ディープラーニングのデータ駆動手法は、わずかな時間で同様の結果を与えることができるかもしれない。 本研究は,cfdを用いた3次元流れ場計算から,建物足跡の2次元画像から画像への変換に基づく問題への課題を再現し,歩行者高さレベルの流れ場を予測する。 U-Netオートエンコーダ[3]と同様に,様々な領域における画像と画像の翻訳タスクの最先端を表現した Pix2Pix [1] や CycleGAN [2] などの生成敵ネットワーク (GAN) の利用について検討する。 モデルはデータセットの基盤となる分布をデータ駆動の方法で学習することができ、モデルがcfdからレイノルズ平均のnavier-stokes(rans)方程式を学ぶのに役立ちます。 高さ情報の有無に関わらず,様々な3次元ブラフ型建築物のシミュレーションデータセットを試作した。 さらに, モデル選択のための画像の質的, 定量的な評価を行い, CFDによるシミュレーションとの比較を行った。 入力に位置データを加えることで、異なるアーキテクチャにそのような情報を注入するための汎用フレームワークを提案することにより、より正確な結果が得られることを示す。 さらに, 注意機構とスペクトル正規化を適用し, モデル性能が向上し, 安定したトレーニングが容易になることを示す。

Approximating wind flows using computational fluid dynamics (CFD) methods can be time-consuming. Creating a tool for interactively designing prototypes while observing the wind flow change requires simpler models to simulate faster. Instead of running numerical approximations resulting in detailed calculations, data-driven methods in deep learning might be able to give similar results in a fraction of the time. This work rephrases the problem from computing 3D flow fields using CFD to a 2D image-to-image translation-based problem on the building footprints to predict the flow field at pedestrian height level. We investigate the use of generative adversarial networks (GAN), such as Pix2Pix [1] and CycleGAN [2] representing state-of-the-art for image-to-image translation task in various domains as well as U-Net autoencoder [3]. The models can learn the underlying distribution of a dataset in a data-driven manner, which we argue can help the model learn the underlying Reynolds-averaged Navier-Stokes (RANS) equations from CFD. We experiment on novel simulated datasets on various three-dimensional bluff-shaped buildings with and without height information. Moreover, we present an extensive qualitative and quantitative evaluation of the generated images for a selection of models and compare their performance with the simulations delivered by CFD. We then show that adding positional data to the input can produce more accurate results by proposing a general framework for injecting such information on the different architectures. Furthermore, we show that the models performances improve by applying attention mechanisms and spectral normalization to facilitate stable training.
翻訳日:2021-12-18 10:28:28 公開日:2021-12-15
# (参考訳) 環境科学における倫理的、責任ある、信頼できる人工知能の必要性 [全文訳有]

The Need for Ethical, Responsible, and Trustworthy Artificial Intelligence for Environmental Sciences ( http://arxiv.org/abs/2112.08453v1 )

ライセンス: CC BY-SA 4.0
Amy McGovern and Imme Ebert-Uphoff and David John Gagne II and Ann Bostrom(参考訳) 環境科学のあらゆる側面における人工知能(AI)と機械学習(ML)の手法の利用の増加を考えると、我々はAIの倫理的かつ責任ある利用について議論を始めることが不可欠である。 実際、AIが導入された他のドメインから多くを学ぶことができるが、多くの場合、刑事司法制度におけるハードコーディングの人種的偏見や金融システムによる経済的不平等の増加など、意図しない社会的結果をもたらす。 一般的な誤解は、ほとんどのデータが観測結果から来ているように、環境科学はAIが使われているときに意図しない結果に免疫を持ち、AIアルゴリズムは、しばしば客観的と見なされる数学的公式に基づいているということである。 この記事では、その逆を議論する。 具体例を用いて、環境科学においてAIが同様の結果をもたらす多くの方法を実証する。 本稿は、この方向における議論と研究の取り組みを刺激する。 コミュニティとして、AIの導入を通じて、他のドメインで犯された予測可能な間違いを繰り返すことは避けるべきです。 実際、適切な予防措置をとれば、AIは気候と環境の不正を減らすのに役立つ素晴らしいツールになり得る。 主に天気や気候の例に焦点を当てているが、結論は環境科学に広く当てはまる。

Given the growing use of Artificial Intelligence (AI) and machine learning (ML) methods across all aspects of environmental sciences, it is imperative that we initiate a discussion about the ethical and responsible use of AI. In fact, much can be learned from other domains where AI was introduced, often with the best of intentions, yet often led to unintended societal consequences, such as hard coding racial bias in the criminal justice system or increasing economic inequality through the financial system. A common misconception is that the environmental sciences are immune to such unintended consequences when AI is being used, as most data come from observations, and AI algorithms are based on mathematical formulas, which are often seen as objective. In this article, we argue the opposite can be the case. Using specific examples, we demonstrate many ways in which the use of AI can introduce similar consequences in the environmental sciences. This article will stimulate discussion and research efforts in this direction. As a community, we should avoid repeating any foreseeable mistakes made in other domains through the introduction of AI. In fact, with proper precautions, AI can be a great tool to help {\it reduce} climate and environmental injustice. We primarily focus on weather and climate examples but the conclusions apply broadly across the environmental sciences.
翻訳日:2021-12-18 10:03:45 公開日:2021-12-15
# (参考訳) ErAConD : 文法的誤り訂正のための誤り注釈付き会話対話データセット [全文訳有]

ErAConD : Error Annotated Conversational Dialog Dataset for Grammatical Error Correction ( http://arxiv.org/abs/2112.08466v1 )

ライセンス: CC BY 4.0
Xun Yuan, Derek Pham, Sam Davidson, Zhou Yu(参考訳) 現在利用可能な文法的誤り訂正(GEC)データセットは、よく書かれたテキストを使用してコンパイルされ、これらのデータセットの適用性は、非公式な書き込みやダイアログなどの他のドメインに制限される。 本稿では,オープンドメインチャットボットの会話から抽出された新しい並行GCCデータセットを提案する。 データセットの有用性を実証するために、アノテーション付きデータを用いて最先端のECCモデルを微調整し、モデル精度が16ポイント向上した。 GECモデルでは、偽陽性が言語学習者に深刻な混乱をもたらす可能性があるため、モデル精度がGECタスクのリコールよりも重要であると考えられるため、これは特に重要である。 また,理解性への影響を認識してエラーをランク付けし,データセットの再現性と拡張性を両立させる,詳細なアノテーションスキームを提案する。 実験の結果,会話シナリオにおけるGECモデルの性能向上におけるデータの有効性が示された。

Currently available grammatical error correction (GEC) datasets are compiled using well-formed written text, limiting the applicability of these datasets to other domains such as informal writing and dialog. In this paper, we present a novel parallel GEC dataset drawn from open-domain chatbot conversations; this dataset is, to our knowledge, the first GEC dataset targeted to a conversational setting. To demonstrate the utility of the dataset, we use our annotated data to fine-tune a state-of-the-art GEC model, resulting in a 16 point increase in model precision. This is of particular importance in a GEC model, as model precision is considered more important than recall in GEC tasks since false positives could lead to serious confusion in language learners. We also present a detailed annotation scheme which ranks errors by perceived impact on comprehensibility, making our dataset both reproducible and extensible. Experimental results show the effectiveness of our data in improving GEC model performance in conversational scenario.
翻訳日:2021-12-18 09:44:26 公開日:2021-12-15
# (参考訳) プログレッシブ量子による外部抵抗の獲得:高速アルゴリズムと理論的研究

Gaining Outlier Resistance with Progressive Quantiles: Fast Algorithms and Theoretical Studies ( http://arxiv.org/abs/2112.08471v1 )

ライセンス: CC BY 4.0
Yiyuan She, Zhifeng Wang, Jiahui Shen(参考訳) 異常値はビッグデータアプリケーションで広く発生し、統計的な推定や推論に重大な影響を与える可能性がある。 本稿では,任意に与えられた損失関数を頑健化するために,異常耐性推定の枠組みを導入する。 トリミング法と密接な関係を持ち、全てのサンプルに対して明示的なアウトライジング性パラメータを含み、計算、理論、パラメータチューニングを容易にする。 非凸性と非滑らかさの問題に取り組むため、実装の容易さと高速収束性を保証するスケーラブルなアルゴリズムを開発した。 特に、通常のデータセットにおいて、データ再サンプリング数が大幅に削減されるように、出発点の要件を緩和するための新しい手法を提案する。 統計処理と計算処理の併用により,M推定を超える漸近解析が可能である。 得られた抵抗推定器は、必ずしも大域的あるいは局所的に最適ではないが、低次元と高次元の両方で最小値の最適性を楽しむ。 回帰、分類、ニューラルネットワークの実験では、グロス異常の発生において提案手法の優れた性能を示す。

Outliers widely occur in big-data applications and may severely affect statistical estimation and inference. In this paper, a framework of outlier-resistant estimation is introduced to robustify an arbitrarily given loss function. It has a close connection to the method of trimming and includes explicit outlyingness parameters for all samples, which in turn facilitates computation, theory, and parameter tuning. To tackle the issues of nonconvexity and nonsmoothness, we develop scalable algorithms with implementation ease and guaranteed fast convergence. In particular, a new technique is proposed to alleviate the requirement on the starting point such that on regular datasets, the number of data resamplings can be substantially reduced. Based on combined statistical and computational treatments, we are able to perform nonasymptotic analysis beyond M-estimation. The obtained resistant estimators, though not necessarily globally or even locally optimal, enjoy minimax rate optimality in both low dimensions and high dimensions. Experiments in regression, classification, and neural networks show excellent performance of the proposed methodology at the occurrence of gross outliers.
翻訳日:2021-12-18 09:36:41 公開日:2021-12-15
# (参考訳) ラベル誘導型グループ化アルゴリズムによるテキストマイニング [全文訳有]

Text Mining Through Label Induction Grouping Algorithm Based Method ( http://arxiv.org/abs/2112.08486v1 )

ライセンス: CC BY 4.0
Gulshan Saleem, Nisar Ahmed, Usman Qamar(参考訳) 情報検索手法の主な焦点は、コスト効率の良い正確かつ効率的な結果を提供することである。 lingO (Label induction Grouping Algorithm) は、品質クラスタの形で検索結果を提供することを目的としたクラスタリングアルゴリズムであるが、いくつかの制限がある。 本稿では,より有意義な結果の達成と,アルゴリズム全体の性能向上に焦点をあてる。 lingOは、Latent Semantic Indexing(LSI)技術によるクラスタラベル誘導と、Vector Space Model(VSM)を用いたクラスタコンテンツ発見の2つの主要なステップで動作する。 lingOは、クラスタコンテンツ発見にVSMを使用するため、VSMをLSIに置き換えてクラスタコンテンツ発見を行い、LSIをOkapi BM25で使用することの可能性を分析する。 次のタスクは、修正されたメソッドの結果をlingoオリジナルメソッドと比較することです。 この研究は5つの異なるテキストベースのデータセットに適用され、各メソッドに対してより信頼性の高い結果を得る。 その結果,LSIをコンテンツディスカバリに使用する場合,lingOの方が40~50%よい結果が得られた。 VSMの代わりにLSI(LSI+Okapi BM25)のスコアリング法としてOkapi BM25を用いた理論的証拠から、VSMとLSIの結果を比較すると、スケーラビリティと性能の点でクラスタ生成性が向上する。

The main focus of information retrieval methods is to provide accurate and efficient results which are cost-effective too. LINGO (Label Induction Grouping Algorithm) is a clustering algorithm that aims to provide search results in form of quality clusters but also has a few limitations. In this paper, our focus is based on achieving results that are more meaningful and improving the overall performance of the algorithm. LINGO works on two main steps; Cluster Label Induction by using Latent Semantic Indexing technique (LSI) and Cluster content discovery by using the Vector Space Model (VSM). As LINGO uses VSM in cluster content discovery, our task is to replace VSM with LSI for cluster content discovery and to analyze the feasibility of using LSI with Okapi BM25. The next task is to compare the results of a modified method with the LINGO original method. The research is applied to five different text-based data sets to get more reliable results for every method. Research results show that LINGO produces 40-50% better results when using LSI for content Discovery. From theoretical evidence using Okapi BM25 for scoring method in LSI (LSI+Okapi BM25) for cluster content discovery instead of VSM, also results in better clusters generation in terms of scalability and performance when compares to both VSM and LSI's Results.
翻訳日:2021-12-18 09:35:36 公開日:2021-12-15
# (参考訳) 情報密度の大きい人間言語は通信速度を増大させるが、会話の可読度は低下する [全文訳有]

Human Languages with Greater Information Density Increase Communication Speed, but Decrease Conversation Breadth ( http://arxiv.org/abs/2112.08491v1 )

ライセンス: CC BY 4.0
Pedro Aceves and James A. Evans(参考訳) 言語は、人間の情報を伝達し、協調を達成する主要な媒体である。 最も重要な言語機能の1つは、会話を通じてメッセージが通信できるように世界を分類することである。 人間の言語が、色、音、数、移動、時間、空間、人的活動、性別、身体部分、生物学といった意味領域内の情報のエンコーディングにおいてどのように変化するかは分かっていないが、意味情報のグローバルな構造と人間のコミュニケーションへの影響についてはほとんど分かっていない。 大規模計算,人工知能技術,および15の分野(宗教,経済学,医学,エンターテイメント,政治,技術など)にわたる大規模並列コーパスを用いて,999の言語において,言語の情報・意味密度のかなりの変動と,人間のコミュニケーションと協調に対するそれらの影響を示す。 先行研究とは対照的に,高濃度言語は低密度言語に比べてより高速に情報を伝達できることを実証する。 そして、14言語に9000以上の実生活会話、140言語に90,000のウィキペディア記事を用いて、より密集した言語、会話、記事において特定のトピックを議論する方法がより多く存在することを示します。 これらの結果は、言語構造が会話の性質と質感を形作ることを示し、グループ、組織、市場、社会の行動に重要な影響を及ぼすことを示唆する、ヒトのコミュニケーションチャネルにおける重要な変動の源である。

Language is the primary medium through which human information is communicated and coordination is achieved. One of the most important language functions is to categorize the world so messages can be communicated through conversation. While we know a great deal about how human languages vary in their encoding of information within semantic domains such as color, sound, number, locomotion, time, space, human activities, gender, body parts and biology, little is known about the global structure of semantic information and its effect on human communication. Using large-scale computation, artificial intelligence techniques, and massive, parallel corpora across 15 subject areas--including religion, economics, medicine, entertainment, politics, and technology--in 999 languages, here we show substantial variation in the information and semantic density of languages and their consequences for human communication and coordination. In contrast to prior work, we demonstrate that higher density languages communicate information much more quickly relative to lower density languages. Then, using over 9,000 real-life conversations across 14 languages and 90,000 Wikipedia articles across 140 languages, we show that because there are more ways to discuss any given topic in denser languages, conversations and articles retrace and cycle over a narrower conceptual terrain. These results demonstrate an important source of variation across the human communicative channel, suggesting that the structure of language shapes the nature and texture of conversation, with important consequences for the behavior of groups, organizations, markets, and societies.
翻訳日:2021-12-18 09:28:08 公開日:2021-12-15
# (参考訳) 一様ランダムアサインメントとリワード最大化を組み合わせたリワードとのトレードオフ統計解析のための適応実験アルゴリズム [全文訳有]

Algorithms for Adaptive Experiments that Trade-off Statistical Analysis with Reward: Combining Uniform Random Assignment and Reward Maximization ( http://arxiv.org/abs/2112.08507v1 )

ライセンス: CC BY 4.0
Jacob Nogas, Tong Li, Fernando J. Yanez, Arghavan Modiri, Nina Deliu, Ben Prystawski, Sofia S. Villar, Anna Rafferty, Joseph J. Williams(参考訳) トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは、報酬を最大化することで、より多くの参加者をより効果的な腕に割り当てるためにデータが使用されるという適応的な実験に使用できる。 このような割当て戦略は、腕がないときの腕の違いを特定する統計的仮説テストのリスクを増大させ、真に腕があるときの腕の違いを結論付けない。 本稿では,統計的解析における一様ランダム化の利点と,トンプソンサンプリング(TS)による報酬最大化の利点を組み合わせた2つのアルゴリズムを探索する2本腕実験のシミュレーションを提案する。 まずTop-Two Thompson Samplingは、一定量の均一なランダムアロケーション(UR)を時間とともに均等に拡大する。 第2に、TS PostDiff (Posterior Probability of Difference)と呼ばれる新しいヒューリスティックアルゴリズム。 TS PostDiff は TS と UR を混合するためにベイズ的アプローチをとる: UR の割り当てによって参加者が割り振られる確率は、2つの腕の差が '小さい' (あるしきい値以下) であるという後続の確率である。 TS PostDiff法は複数の効果サイズに対して良好に動作し,真の効果サイズを推測したチューニングを必要としないことがわかった。

Multi-armed bandit algorithms like Thompson Sampling can be used to conduct adaptive experiments, in which maximizing reward means that data is used to progressively assign more participants to more effective arms. Such assignment strategies increase the risk of statistical hypothesis tests identifying a difference between arms when there is not one, and failing to conclude there is a difference in arms when there truly is one. We present simulations for 2-arm experiments that explore two algorithms that combine the benefits of uniform randomization for statistical analysis, with the benefits of reward maximization achieved by Thompson Sampling (TS). First, Top-Two Thompson Sampling adds a fixed amount of uniform random allocation (UR) spread evenly over time. Second, a novel heuristic algorithm, called TS PostDiff (Posterior Probability of Difference). TS PostDiff takes a Bayesian approach to mixing TS and UR: the probability a participant is assigned using UR allocation is the posterior probability that the difference between two arms is `small' (below a certain threshold), allowing for more UR exploration when there is little or no reward to be gained. We find that TS PostDiff method performs well across multiple effect sizes, and thus does not require tuning based on a guess for the true effect size.
翻訳日:2021-12-18 09:11:19 公開日:2021-12-15
# (参考訳) DocAMR:多文AMR表現と評価 [全文訳有]

DocAMR: Multi-Sentence AMR Representation and Evaluation ( http://arxiv.org/abs/2112.08513v1 )

ライセンス: CC BY-SA 4.0
Tahira Naseem, Austin Blodgett, Sadhana Kumaravel, Tim O'Gorman, Young-Suk Lee, Jeffrey Flanigan, Ram\'on Fernandez Astudillo, Radu Florian, Salim Roukos, Nathan Schneider(参考訳) 英文を抽象意味表現(abstract meaning representation, amr)グラフに解析することに関する広範な研究にもかかわらず、統一グラフ表現への全文書解析は明確な表現と評価を欠いている。 先行研究の超知覚レベルのコリファレンスアノテーションを生かして,統一グラフ表現を導出する単純なアルゴリズムを導入し,過剰なマージによる情報損失の落とし穴や,過度なマージによる一貫性の欠如を回避した。 次に、Smatchメトリックの改善について記述し、文書レベルのグラフの比較に使いやすくし、最高の文書レベルのAMRパーサを再評価する。 また,上位のamrパーサとコリファレンスレゾリューションシステムを組み合わせたパイプラインアプローチを提案し,今後の研究に強力なベースラインを提供する。

Despite extensive research on parsing of English sentences into Abstraction Meaning Representation (AMR) graphs, which are compared to gold graphs via the Smatch metric, full-document parsing into a unified graph representation lacks well-defined representation and evaluation. Taking advantage of a super-sentential level of coreference annotation from previous work, we introduce a simple algorithm for deriving a unified graph representation, avoiding the pitfalls of information loss from over-merging and lack of coherence from under-merging. Next, we describe improvements to the Smatch metric to make it tractable for comparing document-level graphs, and use it to re-evaluate the best published document-level AMR parser. We also present a pipeline approach combining the top performing AMR parser and coreference resolution systems, providing a strong baseline for future research.
翻訳日:2021-12-18 08:56:25 公開日:2021-12-15
# (参考訳) 推論による不変性 [全文訳有]

Invariance Through Inference ( http://arxiv.org/abs/2112.08526v1 )

ライセンス: CC BY 4.0
Takuma Yoneda, Ge Yang, Matthew R. Walter, Bradly Stadie(参考訳) Invariance through Inference(推論による不変性)と呼ばれる一般的なアプローチを導入し、未知の知覚変化を持つデプロイ環境におけるエージェントのテスト時間性能を改善する。 補間による不変の視覚特徴を生成する代わりに、推論による不変性は、デプロイメント時の適応を教師なしの学習問題に変える。 これは、ペア化されたデータに頼ることなく、エージェントの以前の経験に遅延した機能の分布を一致させようとする単純なアルゴリズムをデプロイすることで実現される。 単純ではあるが、このアイデアは、カメラのポーズや照明条件の変更など、デプロイメント時の報酬にアクセスできることなく、様々な適応シナリオを驚くほど改善することを示している。 画像に基づく観察を行うロボット環境である challenge distractor control suite で結果が示された。

We introduce a general approach, called Invariance through Inference, for improving the test-time performance of an agent in deployment environments with unknown perceptual variations. Instead of producing invariant visual features through interpolation, invariance through inference turns adaptation at deployment-time into an unsupervised learning problem. This is achieved in practice by deploying a straightforward algorithm that tries to match the distribution of latent features to the agent's prior experience, without relying on paired data. Although simple, we show that this idea leads to surprising improvements on a variety of adaptation scenarios without access to deployment-time rewards, including changes in camera poses and lighting conditions. Results are presented on challenging distractor control suite, a robotics environment with image-based observations.
翻訳日:2021-12-18 08:43:36 公開日:2021-12-15
# 実生実生Dブレーンモデル

Breeding realistic D-brane models ( http://arxiv.org/abs/2112.08391v1 )

ライセンス: Link先を確認
Gregory J. Loges, Gary Shiu(参考訳) 交差ブレーンは、様々な望ましい特性を持つ弦理論から粒子物理モデルを構築するための有用なメカニズムを提供する。 このようなモデルの景観は巨大であり、最も現象学的に興味深い地域に向かうことは、潜在的に困難である。 機械学習技術は、多数の一貫性と現象学的に望ましいモデルを構築するのに有効である。 本研究では,自然選択を模倣して集団を最適な解へと進化させる遺伝的アルゴリズムを用いて,一貫したD-ブレーンモデルを見つけるという問題を述べる。 4次元の${\cal n}=1$ 超対称型iiaオリエンティフォールドと交差するd6-ブレーンに対して、$\mathcal{o}(10^6)$一意で完全一貫性のあるモデルを簡単に構築でき、探索環境とハイパーパラメータの公平な選択により、得られたモデルの$\mathcal{o}(30\%)$が所望の標準模型ゲージ群因子を含むことを実証する。 大きさのサンプルを持つことで、標準モデルゲージ係数の制限なしに、ブレーンモデルと交差する際の予備的なランドスケープ統計を引き出すことができる。

Intersecting branes provide a useful mechanism to construct particle physics models from string theory with a wide variety of desirable characteristics. The landscape of such models can be enormous, and navigating towards regions which are most phenomenologically interesting is potentially challenging. Machine learning techniques can be used to efficiently construct large numbers of consistent and phenomenologically desirable models. In this work we phrase the problem of finding consistent intersecting D-brane models in terms of genetic algorithms, which mimic natural selection to evolve a population collectively towards optimal solutions. For a four-dimensional ${\cal N}=1$ supersymmetric type IIA orientifold with intersecting D6-branes, we demonstrate that $\mathcal{O}(10^6)$ unique, fully consistent models can be easily constructed, and, by a judicious choice of search environment and hyper-parameters, $\mathcal{O}(30\%)$ of the found models contain the desired Standard Model gauge group factor. Having a sizable sample allows us to draw some preliminary landscape statistics of intersecting brane models both with and without the restriction of having the Standard Model gauge factor.
翻訳日:2021-12-17 16:58:29 公開日:2021-12-15
# 多変量時系列天文学データにおける異常のリアルタイム検出

Real-time Detection of Anomalies in Multivariate Time Series of Astronomical Data ( http://arxiv.org/abs/2112.08415v1 )

ライセンス: Link先を確認
Daniel Muthukrishna, Kaisey S. Mandel, Michelle Lochner, Sara Webb, Gautham Narayan(参考訳) 天文学の過渡現象は、様々な時間スケールで一時的に明るくなり、宇宙論や天文学で最も重要な発見に繋がる恒星である。 これらの過渡現象のいくつかは超新星と呼ばれる恒星の爆発的な死であり、その他は希少でエキゾチックで全く新しい種類の恒星爆発である。 新しい天文学的なスカイサーベイは、かつてない数のマルチ波長のトランジェントを観測し、新しい興味深いトランジェントを視覚的に識別する標準的なアプローチを作成している。 この要求を満たすために, 高速かつ自動で過渡光曲線をリアルタイムに検出する2つの新しい手法を提案する。 どちらの方法も、既知の過渡数の光曲線を正確にモデル化できるなら、モデル予測からの逸脱はおそらく異常である、という単純な考え方に基づいている。 第1のアプローチは、時間的畳み込みネットワーク(tcns)を使用して構築された確率的ニューラルネットワークであり、第2のアプローチは、過渡の解釈可能なベイズパラメトリックモデルである。 ニューラルネットワークの柔軟性は、多くの回帰タスクにそのような強力なツールを与える特性であり、パラメトリックモデルと比較して異常検出にはあまり適さないことを示す。

Astronomical transients are stellar objects that become temporarily brighter on various timescales and have led to some of the most significant discoveries in cosmology and astronomy. Some of these transients are the explosive deaths of stars known as supernovae while others are rare, exotic, or entirely new kinds of exciting stellar explosions. New astronomical sky surveys are observing unprecedented numbers of multi-wavelength transients, making standard approaches of visually identifying new and interesting transients infeasible. To meet this demand, we present two novel methods that aim to quickly and automatically detect anomalous transient light curves in real-time. Both methods are based on the simple idea that if the light curves from a known population of transients can be accurately modelled, any deviations from model predictions are likely anomalies. The first approach is a probabilistic neural network built using Temporal Convolutional Networks (TCNs) and the second is an interpretable Bayesian parametric model of a transient. We show that the flexibility of neural networks, the attribute that makes them such a powerful tool for many regression tasks, is what makes them less suitable for anomaly detection when compared with our parametric model.
翻訳日:2021-12-17 16:58:05 公開日:2021-12-15
# ニューラルネットワークを用いた潮流モデル

Neural Network-based Power Flow Model ( http://arxiv.org/abs/2112.08418v1 )

ライセンス: Link先を確認
Thuan Pham, Xingpeng Li(参考訳) 電力フロー解析は電力系統網内の電力の流れを評価するために用いられる。 電力フロー計算は、各バスの電圧大きさ/位相角や各分岐のアクティブ/反応性電力フローなどのシステムの定常変数を決定するために用いられる。 DC電力フローモデルは、電力産業で広く使われている一般的な線形電力フローモデルである。 高速で頑健であるが、いくつかのクリティカルトランスミッションラインで不正確なラインフロー結果をもたらす可能性がある。 この欠点は、歴史的グリッドプロファイルを利用するデータ駆動方式によって部分的に解決できる。 本稿では,ニューラルネットワーク(NN)モデルを用いて,過去の電力システムデータを用いて電力フローの予測を行う。 トレーニングプロセスは時間がかかりますが、一度トレーニングすれば、ラインフローを見積もるのは非常に早いのです。 提案したNNベース電力フローモデルと従来の直流電力フローモデルとの総合的な性能解析を行った。 提案したNNベース電力フローモデルでは,直流電力フローモデルよりも高速かつ高精度に解を見つけることができる。

Power flow analysis is used to evaluate the flow of electricity in the power system network. Power flow calculation is used to determine the steady-state variables of the system, such as the voltage magnitude /phase angle of each bus and the active/reactive power flow on each branch. The DC power flow model is a popular linear power flow model that is widely used in the power industry. Although it is fast and robust, it may lead to inaccurate line flow results for some critical transmission lines. This drawback can be partially addressed by data-driven methods that take advantage of historical grid profiles. In this paper, a neural network (NN) model is trained to predict power flow results using historical power system data. Although the training process may take time, once trained, it is very fast to estimate line flows. A comprehensive performance analysis between the proposed NN-based power flow model and the traditional DC power flow model is conducted. It can be concluded that the proposed NN-based power flow model can find solutions quickly and more accurately than DC power flow model.
翻訳日:2021-12-17 16:57:44 公開日:2021-12-15
# ELight: 生活改善を伴う高効率フォトニックインメモリニューロコンピューティングの実現

ELight: Enabling Efficient Photonic In-Memory Neurocomputing with Life Enhancement ( http://arxiv.org/abs/2112.08512v1 )

ライセンス: Link先を確認
Hanqing Zhu, Jiaqi Gu, Chenghao Feng, Mingjie Liu, Zixuan Jiang, Ray T. Chen, and David Z. Pan(参考訳) 近年の光位相変化材料(PCM)の進歩により、フォトニックインメモリニューロコンピューティングは、ほぼゼロに近い静的電力消費、時間差、コンパクトフットプリントを備えた光ニューラルネットワーク(ONN)設計において、その優位性を示している。 しかし、フォトニックテンソルコアは、単一コアスケールの制限により大きな行列乗算を実装するために、大規模なハードウェア再利用を必要とする。 その結果、大量のPCM書き込みが深刻な動的パワーをもたらし、書き込み持続時間に制限のある脆弱なPCMを圧倒する。 本研究では,効率良く信頼性の高い光インメモリニューロコンピューティングのための書き込み作業全体の最小化を目的とした,相乗的最適化フレームワークelightを提案する。 まず,重み付きブロック間の類似性を促進するためのライトアウェアトレーニングを提案し,冗長な書き込みを除去してプログラミング作業を削減するポストトレーニング最適化手法と組み合わせる。 実験の結果、elightは書き込み数と動的パワーの合計を20倍以上削減できることがわかった。 ELightによって、フォトニックインメモリのニューロコンピューティングは、保存された精度、長寿命のオーダー、プログラミングエネルギーの低い機械学習における実行可能な応用に向けて前進する。

With the recent advances in optical phase change material (PCM), photonic in-memory neurocomputing has demonstrated its superiority in optical neural network (ONN) designs with near-zero static power consumption, time-of-light latency, and compact footprint. However, photonic tensor cores require massive hardware reuse to implement large matrix multiplication due to the limited single-core scale. The resultant large number of PCM writes leads to serious dynamic power and overwhelms the fragile PCM with limited write endurance. In this work, we propose a synergistic optimization framework, ELight, to minimize the overall write efforts for efficient and reliable optical in-memory neurocomputing. We first propose write-aware training to encourage the similarity among weight blocks, and combine it with a post-training optimization method to reduce programming efforts by eliminating redundant writes. Experiments show that ELight can achieve over 20X reduction in the total number of writes and dynamic power with comparable accuracy. With our ELight, photonic in-memory neurocomputing will step forward towards viable applications in machine learning with preserved accuracy, order-of-magnitude longer lifetime, and lower programming energy.
翻訳日:2021-12-17 16:57:30 公開日:2021-12-15
# 量子モデル学習エージェント:機械学習による量子システムの特性化

Quantum Model Learning Agent: characterisation of quantum systems through machine learning ( http://arxiv.org/abs/2112.08409v1 )

ライセンス: Link先を確認
Brian Flynn, Antonio Andreas Gentile, Nathan Wiebe, Raffaele Santagati, Anthony Laing(参考訳) 実際の量子系の正確なモデルはその振る舞いを研究するために重要であるが、経験的に蒸留することは困難である。 本稿では,量子モデル学習エージェント (QMLA) を用いて,対象システムのハミルトン的記述をリバースエンジニアリングするアルゴリズムについて報告する。 シミュレーション実験でQMLAの性能を検証し、候補ハミルトンモデルの設計のためのいくつかのメカニズムを実証し、同時に研究中のシステムを管理する物理的相互作用の性質に関する多くの仮説を楽しませた。 qmlaは、限定された事前情報を提供し、実験的なセットアップを制御する場合に、ほとんどのインスタンスで真のモデルを特定することが示される。 我々のプロトコルは、Ising、Heisenberg、Hubbardといったモデルファミリーを並列に探索し、システムダイナミクスを最もよく記述するファミリーを確実に特定することができる。 我々は,新しい仮説モデルを作成するための遺伝的アルゴリズムを組み込んで,大規模モデル空間で動作するqmlaを実演する。 次世代に伝播する機能を持つモデルの選定は、一般的にチェスやフットボールなどの競技者の評価に使用されるelo rating schemeにインスパイアされた客観的な機能に基づいている。 実モデルと比較すると,F_1$-score $\geq 0.88$のモデルが見出され,真モデルが72%のケースで正確に識別され,25万ドルを超える潜在的なモデルが探索される。 ターゲットシステムで実際に発生する相互作用をテストすることで、QMLAは基礎物理学の探索と量子デバイスのキャリブレーションとキャリブレーションの両方に有効なツールである。

Accurate models of real quantum systems are important for investigating their behaviour, yet are difficult to distill empirically. Here, we report an algorithm -- the Quantum Model Learning Agent (QMLA) -- to reverse engineer Hamiltonian descriptions of a target system. We test the performance of QMLA on a number of simulated experiments, demonstrating several mechanisms for the design of candidate Hamiltonian models and simultaneously entertaining numerous hypotheses about the nature of the physical interactions governing the system under study. QMLA is shown to identify the true model in the majority of instances, when provided with limited a priori information, and control of the experimental setup. Our protocol can explore Ising, Heisenberg and Hubbard families of models in parallel, reliably identifying the family which best describes the system dynamics. We demonstrate QMLA operating on large model spaces by incorporating a genetic algorithm to formulate new hypothetical models. The selection of models whose features propagate to the next generation is based upon an objective function inspired by the Elo rating scheme, typically used to rate competitors in games such as chess and football. In all instances, our protocol finds models that exhibit $F_1$-score $\geq 0.88$ when compared with the true model, and it precisely identifies the true model in 72% of cases, whilst exploring a space of over $250,000$ potential models. By testing which interactions actually occur in the target system, QMLA is a viable tool for both the exploration of fundamental physics and the characterisation and calibration of quantum devices.
翻訳日:2021-12-17 16:27:09 公開日:2021-12-15
# スピンドル振動のキャラクタリゼーションによる白箱SVMフレームワークとそのSwarm-based Optimization for Supervision of Toothed Milling Cutter

A White-Box SVM Framework and its Swarm-Based Optimization for Supervision of Toothed Milling Cutter through Characterization of Spindle Vibrations ( http://arxiv.org/abs/2112.08421v1 )

ライセンス: Link先を確認
Tejas Y. Deo, Abhishek D. Patange, Sujit S. Pardeshi, R. Jegadeeshwaran, Apoorva N. Khairnar, Hrushikesh S. Khade(参考訳) 本稿では, 実時間スピンドル振動のキャラクタリゼーションにより, 歯削カッターの監視を行うためのWhite-Box Support vector Machine(SVM)フレームワークとそのSwarmベースの最適化について述べる。 アクセラレーションの時間領域応答と統計的特徴から, プロセス内工具の摩耗(側面・鼻の摩耗, クレーター・ノッチの摩耗, エッジフラクチャー)による振動の異常モーメントについて検討した。 特徴選択のために決定木を用いた再帰的特徴除去法(rfecv)が実装されている。 さらに、ツールヘルスモニタリングのための標準svmの能力と、swarmベースのアルゴリズムの適用による最適化が検討されている。 5つのメタヒューリスティックアルゴリズム(エレファント・ハーディング最適化、モザイク・バタフライ最適化、ハリス・ホークス最適化、スライム・モールドアルゴリズム、モス探索アルゴリズム)の性能比較分析を行った。 ツール条件監視における機械学習モデルの性能に関する洞察を提供するグローバルおよびローカル表現を考慮したホワイトボックスアプローチが提案されている。

In this paper, a white-Box support vector machine (SVM) framework and its swarm-based optimization is presented for supervision of toothed milling cutter through characterization of real-time spindle vibrations. The anomalous moments of vibration evolved due to in-process tool failures (i.e., flank and nose wear, crater and notch wear, edge fracture) have been investigated through time-domain response of acceleration and statistical features. The Recursive Feature Elimination with Cross-Validation (RFECV) with decision trees as the estimator has been implemented for feature selection. Further, the competence of standard SVM has been examined for tool health monitoring followed by its optimization through application of swarm based algorithms. The comparative analysis of performance of five meta-heuristic algorithms (Elephant Herding Optimization, Monarch Butterfly Optimization, Harris Hawks Optimization, Slime Mould Algorithm, and Moth Search Algorithm) has been carried out. The white-box approach has been presented considering global and local representation that provides insight into the performance of machine learning models in tool condition monitoring.
翻訳日:2021-12-17 16:26:39 公開日:2021-12-15
# データ駆動モデリングのための動的システムの構造の活用

Leveraging the structure of dynamical systems for data-driven modeling ( http://arxiv.org/abs/2112.08458v1 )

ライセンス: Link先を確認
Alessandro Bucci, Onofrio Semeraro, Alexandre Allauzen, Sergio Chibbaro and Lionel Mathelin(参考訳) 複雑なシステムの時間的挙動の信頼できる予測は、多くの科学分野において必要である。 しかし、この強い関心はモデリングの問題によって妨げられている: しばしば、考慮中の系の物理を記述する支配方程式はアクセスできないか、またはそれらの解は予測時間制約と相容れない計算時間を必要とするかもしれない。 今日では、複雑なシステムを汎用的な機能形式で近似し、利用可能な観測からニヒロに知らせることが、近年の膨大な科学的研究によって示されているように、一般的な慣行となっている。 ディープニューラルネットワークに基づく多くの成功例がすでに利用可能であるが、モデルの一般化可能性や保証のマージンはしばしば見過ごされている。 本稿では,長期記憶ニューラルネットワークについて考察し,トレーニングセットとその構造が長期予測の品質に与える影響を徹底的に検討する。 エルゴディック理論を応用して、物理系の忠実なモデルを保証する事前計算に十分なデータの量を分析する。 本稿では,システムの不変性と基礎となるアトラクタの構造に基づいて,学習セットのインフォームドデザインが学習モデルを大幅に改善し,アクティブラーニングの文脈における研究の道筋を開く方法を示す。 さらに、メモリ対応モデルに依存する場合のメモリ初期化の非自明な効果を図示する。 本研究は,複雑な力学系の効率的なデータ駆動モデリングに必要なデータ量と選択について,エビデンスに基づくグッドプラクティスを提案する。

The reliable prediction of the temporal behavior of complex systems is required in numerous scientific fields. This strong interest is however hindered by modeling issues: often, the governing equations describing the physics of the system under consideration are not accessible or, when known, their solution might require a computational time incompatible with the prediction time constraints. Nowadays, approximating complex systems at hand in a generic functional format and informing it ex nihilo from available observations has become a common practice, as illustrated by the enormous amount of scientific work appeared in the last years. Numerous successful examples based on deep neural networks are already available, although generalizability of the models and margins of guarantee are often overlooked. Here, we consider Long-Short Term Memory neural networks and thoroughly investigate the impact of the training set and its structure on the quality of the long-term prediction. Leveraging ergodic theory, we analyze the amount of data sufficient for a priori guaranteeing a faithful model of the physical system. We show how an informed design of the training set, based on invariants of the system and the structure of the underlying attractor, significantly improves the resulting models, opening up avenues for research within the context of active learning. Further, the non-trivial effects of the memory initializations when relying on memory-capable models will be illustrated. Our findings provide evidence-based good-practice on the amount and the choice of data required for an effective data-driven modeling of any complex dynamical system.
翻訳日:2021-12-17 16:26:15 公開日:2021-12-15
# OptABC: 機械学習アルゴリズムのための最適ハイパーパラメータチューニングアプローチ

OptABC: an Optimal Hyperparameter Tuning Approach for Machine Learning Algorithms ( http://arxiv.org/abs/2112.08511v1 )

ライセンス: Link先を確認
Leila Zahedi, Farid Ghareh Mohammadi, M. Hadi Amini(参考訳) 機械学習アルゴリズムにおけるハイパーパラメータチューニングは、問題の大規模な性質のために計算的に難しいタスクである。 超パラメータチューニングのための効率的な戦略を開発するためには、Swarmインテリジェンスアルゴリズムを使用することが期待できる。 人工ビーコロニー(ABC)最適化はこの目的のために有望かつ効率的な最適化アルゴリズムである。 しかし、いくつかのケースでは、ABCは解の初期人口や高価な目的関数が不足しているため、収束速度や実行時間が遅い。 これらの問題に対処するため、ABCアルゴリズムがほぼ最適解への高速収束を支援するために、新しいアルゴリズムであるOptABCが提案されている。 optabcは、異なる機械学習モデルのハイパーパラメータをチューニングするために、人工蜂コロニーアルゴリズム、k平均クラスタリング、欲望アルゴリズム、および反対ベースの学習戦略を統合する。 optabcはこれらの技術を用いて初期人口を多様化させ、精度を著しく低下させることなく収束能力を高める。 提案手法の性能を検証するために,従来の最先端手法との比較を行った。 実験の結果,OptABCの有効性が文献の既存手法と比較された。

Hyperparameter tuning in machine learning algorithms is a computationally challenging task due to the large-scale nature of the problem. In order to develop an efficient strategy for hyper-parameter tuning, one promising solution is to use swarm intelligence algorithms. Artificial Bee Colony (ABC) optimization lends itself as a promising and efficient optimization algorithm for this purpose. However, in some cases, ABC can suffer from a slow convergence rate or execution time due to the poor initial population of solutions and expensive objective functions. To address these concerns, a novel algorithm, OptABC, is proposed to help ABC algorithm in faster convergence toward a near-optimum solution. OptABC integrates artificial bee colony algorithm, K-Means clustering, greedy algorithm, and opposition-based learning strategy for tuning the hyper-parameters of different machine learning models. OptABC employs these techniques in an attempt to diversify the initial population, and hence enhance the convergence ability without significantly decreasing the accuracy. In order to validate the performance of the proposed method, we compare the results with previous state-of-the-art approaches. Experimental results demonstrate the effectiveness of the OptABC compared to existing approaches in the literature.
翻訳日:2021-12-17 16:25:50 公開日:2021-12-15
# FLoRA:フェデレートラーニングのためのシングルショットハイパーパラメータ最適化

FLoRA: Single-shot Hyper-parameter Optimization for Federated Learning ( http://arxiv.org/abs/2112.08524v1 )

ライセンス: Link先を確認
Yi Zhou, Parikshit Ram, Theodoros Salonidis, Nathalie Baracaldo, Horst Samulowitz, Heiko Ludwig(参考訳) フェデレートラーニング(FL-HPO)におけるハイパーパラメータ最適化(HPO)の未探索問題に対処する。 本稿では,FL文献でよく取り上げられる確率的勾配降下/神経ネットワークに加えて,表型データや勾配促進訓練アルゴリズムのユースケースに対処できるFL-HPOソリューションフレームワークであるFederated Loss suRface Aggregation (FLoRA)を紹介する。 このフレームワークは、まず***single** FLトレーニングで使用される優れたハイパーパラメータのセットを特定することで、単発FL-HPOを可能にする。 これにより、HPOなしのFLトレーニングと比較して、FL-HPOソリューションを最小限の通信オーバーヘッドで実現できる。 我々は7つのopenmlデータセット上の勾配強化決定木に対するフローラの実証評価を行い, fl-hpoトレーニングに関わる参加者数の増加に対するロバスト性について検討した。

We address the relatively unexplored problem of hyper-parameter optimization (HPO) for federated learning (FL-HPO). We introduce Federated Loss suRface Aggregation (FLoRA), the first FL-HPO solution framework that can address use cases of tabular data and gradient boosting training algorithms in addition to stochastic gradient descent/neural networks commonly addressed in the FL literature. The framework enables single-shot FL-HPO, by first identifying a good set of hyper-parameters that are used in a **single** FL training. Thus, it enables FL-HPO solutions with minimal additional communication overhead compared to FL training without HPO. Our empirical evaluation of FLoRA for Gradient Boosted Decision Trees on seven OpenML data sets demonstrates significant model accuracy improvements over the considered baseline, and robustness to increasing number of parties involved in FL-HPO training.
翻訳日:2021-12-17 16:25:33 公開日:2021-12-15
# 強力なディープスパイクニューラルネットワークへの残差学習の進展

Advancing Residual Learning towards Powerful Deep Spiking Neural Networks ( http://arxiv.org/abs/2112.08954v1 )

ライセンス: Link先を確認
Yifan Hu, Yujie Wu, Lei Deng, Guoqi Li(参考訳) ニューロモルフィックコンピューティングの急速な進歩にもかかわらず、スパイキングニューラルネットワーク(SNN)の能力不足と表現力不足により、実際には適用範囲が厳しく制限されている。 残存学習とショートカットはディープニューラルネットワークのトレーニングに重要なアプローチとして証明されているが、スパイクベースのコミュニケーションと時空間ダイナミクスの特性にその適用性を評価することは滅多になかった。 本稿では,この無視が,従来の残差SNNにおける障害情報流とそれに伴う劣化問題を引き起こすことを最初に確認する。 次に,CIFAR-10上の482層,ImageNet上の104層など,直接訓練されたSNNの深さを大幅に拡張できる新しいSNN指向残差ブロックMS-ResNetを提案する。 フレームベースとニューロモルフィックの両方のデータセットにおけるms-resnetの有効性を検証し、ms-resnet104はimagenetにおいて76.02%の精度で優れた結果を得た。 大いなるエネルギー効率は、入力サンプルを分類するには平均1つのスパイクのみが必要であることも観察されている。 当社の強力でスケーラブルなモデルは,SNNのさらなる探索に強力なサポートを提供すると思います。

Despite the rapid progress of neuromorphic computing, inadequate capacity and insufficient representation power of spiking neural networks (SNNs) severely restrict their application scope in practice. Residual learning and shortcuts have been evidenced as an important approach for training deep neural networks, but rarely did previous work assess their applicability to the characteristics of spike-based communication and spatiotemporal dynamics. In this paper, we first identify that this negligence leads to impeded information flow and accompanying degradation problem in previous residual SNNs. Then we propose a novel SNN-oriented residual block, MS-ResNet, which is able to significantly extend the depth of directly trained SNNs, e.g. up to 482 layers on CIFAR-10 and 104 layers on ImageNet, without observing any slight degradation problem. We validate the effectiveness of MS-ResNet on both frame-based and neuromorphic datasets, and MS-ResNet104 achieves a superior result of 76.02% accuracy on ImageNet, the first time in the domain of directly trained SNNs. Great energy efficiency is also observed that on average only one spike per neuron is needed to classify an input sample. We believe our powerful and scalable models will provide a strong support for further exploration of SNNs.
翻訳日:2021-12-17 16:22:59 公開日:2021-12-15
# 教師なし意味情報を用いたDense Video Captioning

Dense Video Captioning Using Unsupervised Semantic Information ( http://arxiv.org/abs/2112.08455v1 )

ライセンス: Link先を確認
Valter Estevam and Rayson Laroca and Helio Pedrini and David Menotti(参考訳) 複雑なイベント(例えば、数分)を単純なイベント(例えば、数秒)に分解し、これらの単純なイベントを複数の複雑なイベント間で共有するという前提に基づいて、教師なしのセマンティックな視覚情報を学ぶ方法を提案する。 長い映像を短いフレームに分割し,その潜在表現を3次元畳み込みニューラルネットワークで抽出した。 クラスタリング手法は、視覚的コードブックを生成する表現をグループ化する(すなわち、長いビデオは、クラスタラベルによって与えられる整数列で表現される)。 コードブックエントリの共起確率行列を符号化して高密度表現を学習する。 この表現は,視覚的特徴しか持たないシナリオにおいて,高密度映像キャプションタスクの性能をいかに活用できるかを実証する。 このアプローチにより, bi-modal transformer (bmt) 法における音声信号の置き換えと, 同等の性能の時間的提案が可能となった。 さらに,視覚特徴のみを探索する手法やマルチモーダル手法との競合性能と比較して,視覚信号をバニラトランス方式で記述子に結合し,キャプションにおける最先端性能を実現する。 私たちのコードはhttps://github.com/v alterlej/dvcusiで入手できます。

We introduce a method to learn unsupervised semantic visual information based on the premise that complex events (e.g., minutes) can be decomposed into simpler events (e.g., a few seconds), and that these simple events are shared across several complex events. We split a long video into short frame sequences to extract their latent representation with three-dimensional convolutional neural networks. A clustering method is used to group representations producing a visual codebook (i.e., a long video is represented by a sequence of integers given by the cluster labels). A dense representation is learned by encoding the co-occurrence probability matrix for the codebook entries. We demonstrate how this representation can leverage the performance of the dense video captioning task in a scenario with only visual features. As a result of this approach, we are able to replace the audio signal in the Bi-Modal Transformer (BMT) method and produce temporal proposals with comparable performance. Furthermore, we concatenate the visual signal with our descriptor in a vanilla transformer method to achieve state-of-the-art performance in captioning compared to the methods that explore only visual features, as well as a competitive performance with multi-modal methods. Our code is available at https://github.com/v alterlej/dvcusi.
翻訳日:2021-12-17 15:53:49 公開日:2021-12-15
# 視覚分類のための近距離近傍の再考

Rethinking Nearest Neighbors for Visual Classification ( http://arxiv.org/abs/2112.08459v1 )

ライセンス: Link先を確認
Menglin Jia, Bor-Chun Chen, Zuxuan Wu, Claire Cardie, Serge Belongie, Ser-Nam Lim(参考訳) ニューラルネットワーク分類器は、現在の視覚分類の"pre-train then fine-tune"パラダイムのデファクト選択となっている。 本稿では,先進学習時代の古典的モデルフリー学習手法であるk$-Nearest-Neighbor (k-NN)分類器を,現代のニューラルネットワークに基づくアプローチの拡張として検討する。 遅延学習方法として、k-NNは、テスト画像とトップk隣人の距離をトレーニングセットで集約する。 我々は, 教師付き手法と自己指導型手法のどちらによっても生成される事前学習された視覚表現を持つk-NNを2段階に分けて導入する。 2) k-NN予測分布と拡張分類器の分布を線形に補間する。 そこで本研究では,k-NN統合の汎用性と柔軟性について,(1)k-NNが標準的な線形分類器よりも優れ,競争的な結果が得られることを示す。 2)k-NNを組み込むことはパラメトリック分類器の動作が悪く,/または低データ体制下では特に有益である。 これらの発見によって、コンピュータビジョンにおける深層学習、古典的手法の役割が再考されることを願っている。 私たちのコードは、https://github.com/K MnP/nn-revisit.comで利用可能です。

Neural network classifiers have become the de-facto choice for current "pre-train then fine-tune" paradigms of visual classification. In this paper, we investigate $k$-Nearest-Neighbor (k-NN) classifiers, a classical model-free learning method from the pre-deep learning era, as an augmentation to modern neural network based approaches. As a lazy learning method, k-NN simply aggregates the distance between the test image and top-k neighbors in a training set. We adopt k-NN with pre-trained visual representations produced by either supervised or self-supervised methods in two steps: (1) Leverage k-NN predicted probabilities as indications for easy \vs~hard examples during training. (2) Linearly interpolate the k-NN predicted distribution with that of the augmented classifier. Via extensive experiments on a wide range of classification tasks, our study reveals the generality and flexibility of k-NN integration with additional insights: (1) k-NN achieves competitive results, sometimes even outperforming a standard linear classifier. (2) Incorporating k-NN is especially beneficial for tasks where parametric classifiers perform poorly and / or in low-data regimes. We hope these discoveries will encourage people to rethink the role of pre-deep learning, classical methods in computer vision. Our code is available at: https://github.com/K MnP/nn-revisit.
翻訳日:2021-12-17 15:53:25 公開日:2021-12-15
# torch.fx: Pythonのディープラーニングのための実用的なプログラムキャプチャと変換

torch.fx: Practical Program Capture and Transformation for Deep Learning in Python ( http://arxiv.org/abs/2112.08429v1 )

ライセンス: Link先を確認
James K. Reed (Facebook AI), Zachary DeVito (Facebook AI), Horace He (Facebook AI), Ansley Ussery (Facebook AI), Jason Ansel (Facebook AI)(参考訳) 現代のディープラーニングフレームワークは、Pythonに組み込まれた命令型で熱心な実行プログラミングインターフェースを提供し、生産的な開発エクスペリエンスを提供します。 しかし、ディープラーニングの実践者は、パフォーマンス最適化、可視化、分析、ハードウェア統合のためのプログラム構造をキャプチャして変換する必要があることがある。 深層学習に使用されるプログラムキャプチャと変換の異なる設計について検討する。 長い尾ではなく典型的なディープラーニングのユースケースのために設計することで、プログラムのキャプチャと変換のためのシンプルなフレームワークを構築することができる。 我々は、Pythonで完全に書かれ、ML実践者による高い開発者の生産性のために最適化されたPyTorch用のプログラムキャプチャと変換ライブラリである torch.fx にこの原則を適用した。 torch.fxが以前PyTorchエコシステムでアクセスできなかったワークフローをどのように実現しているかを示すケーススタディを示す。

Modern deep learning frameworks provide imperative, eager execution programming interfaces embedded in Python to provide a productive development experience. However, deep learning practitioners sometimes need to capture and transform program structure for performance optimization, visualization, analysis, and hardware integration. We study the different designs for program capture and transformation used in deep learning. By designing for typical deep learning use cases rather than long tail ones, it is possible to create a simpler framework for program capture and transformation. We apply this principle in torch.fx, a program capture and transformation library for PyTorch written entirely in Python and optimized for high developer productivity by ML practitioners. We present case studies showing how torch.fx enables workflows previously inaccessible in the PyTorch ecosystem.
翻訳日:2021-12-17 15:46:15 公開日:2021-12-15
# 教師付き言語モデルファインチューニングのためのSoftTriple Lossの適用

Applying SoftTriple Loss for Supervised Language Model Fine Tuning ( http://arxiv.org/abs/2112.08462v1 )

ライセンス: Link先を確認
Witold Sosnowski, Anna Wroblewska and Piotr Gawrysiak(参考訳) クロスエントロピーとソフトトリプルの損失に基づく学習済み言語モデルの分類性能を向上させるために,新たな損失関数TripleEntropyを導入する。 この損失関数は、クロスエントロピー損失で微調整されたロバータベースラインモデルを約0.02%2.29%改善することができる。 一般的なデータセットの詳細なテストは、着実に伸びていることを示している。 トレーニングデータセットのサンプルが少ないほど、利得は高く、小規模データセットでは 0.78%、中規模では 0.86%、大規模では 0.20%、超大規模では 0.04% である。

We introduce a new loss function TripleEntropy, to improve classification performance for fine-tuning general knowledge pre-trained language models based on cross-entropy and SoftTriple loss. This loss function can improve the robust RoBERTa baseline model fine-tuned with cross-entropy loss by about (0.02% - 2.29%). Thorough tests on popular datasets indicate a steady gain. The fewer samples in the training dataset, the higher gain -- thus, for small-sized dataset it is 0.78%, for medium-sized -- 0.86% for large -- 0.20% and for extra-large 0.04%.
翻訳日:2021-12-17 15:14:08 公開日:2021-12-15
# Penn-Helsinkiによる現代英語の構文解析 : 最初の解析結果と解析

Penn-Helsinki Parsed Corpus of Early Modern English: First Parsing Results and Analysis ( http://arxiv.org/abs/2112.08532v1 )

ライセンス: Link先を確認
Seth Kulick, Neville Ryant, Beatrice Santorini(参考訳) 本稿では,現代英語のPenn-Helsinki Parsed Corpus(PPCEME)の構文変化研究のための重要な資料である190万語木バンクについて,最初の解析結果を示す。 我々は,penn treebankよりも大きく,多種多様な関数タグを含む,パースを困難にするppcemeの重要な特徴について述べる。 本稿では,バークレー・ニューラル・パーサの修正版とgabbard et al (2006) の機能タグ・リカバリのアプローチを用いて,本コーパスの結果を示す。 その単純さにもかかわらず、このアプローチは驚くほどうまく機能し、言語応用(例えば、興味のある構文構造を探す)をサポートするのに十分な精度で元の構造を復元できることを示唆している。 しかし、関数タグのサブセット(例えば、直接発話を示すタグ)については、追加作業が必要であり、このアプローチのさらなる限界について検討する。 その結果得られたパーサーは、正確なパースツリーの追加により構文変化の研究に有用性を持つ111億語のコーパスである初期の英語書籍をオンラインで解析するために使用される。

We present the first parsing results on the Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME), a 1.9 million word treebank that is an important resource for research in syntactic change. We describe key features of PPCEME that make it challenging for parsing, including a larger and more varied set of function tags than in the Penn Treebank. We present results for this corpus using a modified version of the Berkeley Neural Parser and the approach to function tag recovery of Gabbard et al (2006). Despite its simplicity, this approach works surprisingly well, suggesting it is possible to recover the original structure with sufficient accuracy to support linguistic applications (e.g., searching for syntactic structures of interest). However, for a subset of function tags (e.g., the tag indicating direct speech), additional work is needed, and we discuss some further limits of this approach. The resulting parser will be used to parse Early English Books Online, a 1.1 billion word corpus whose utility for the study of syntactic change will be greatly increased with the addition of accurate parse trees.
翻訳日:2021-12-17 15:13:54 公開日:2021-12-15
# AGMI:グラフニューラルネットワークを用いた薬物反応予測のための注意誘導マルチオミクス統合

AGMI: Attention-Guided Multi-omics Integration for Drug Response Prediction with Graph Neural Networks ( http://arxiv.org/abs/2112.08366v1 )

ライセンス: Link先を確認
Feng Ruiwei, Xie Yufeng, Lai Minshan, Chen Danny, Cao Ji, Wu Jian(参考訳) 正確な薬物反応予測(DRP)は、精密医療において重要な課題である。 本稿では、まず各セルラインに対してマルチエッジグラフ(meg)を構築し、次にグラフエッジアウェアネットワーク(genet)と呼ばれる新しい構造を用いて、マルチオミクス機能を集約して薬物応答を予測するdrpのための注意誘導型マルチオミクス統合(agmi)手法を提案する。 今回のagmiアプローチは,gnnを用いたdrpの遺伝子制約に基づくマルチオミクス統合と全ゲノム統合を初めて検討した。 CCLEとGDSCデータセットの実証実験により、AGMIは4つの指標で最先端のDRP法を8.3%--34.2%上回っていることがわかった。 私たちのデータとコードはhttps://github.com/y ivan-wyygdsg/agmiで入手できます。

Accurate drug response prediction (DRP) is a crucial yet challenging task in precision medicine. This paper presents a novel Attention-Guided Multi-omics Integration (AGMI) approach for DRP, which first constructs a Multi-edge Graph (MeG) for each cell line, and then aggregates multi-omics features to predict drug response using a novel structure, called Graph edge-aware Network (GeNet). For the first time, our AGMI approach explores gene constraint based multi-omics integration for DRP with the whole-genome using GNNs. Empirical experiments on the CCLE and GDSC datasets show that our AGMI largely outperforms state-of-the-art DRP methods by 8.3%--34.2% on four metrics. Our data and code are available at https://github.com/y ivan-WYYGDSG/AGMI.
翻訳日:2021-12-17 14:56:45 公開日:2021-12-15
# CNNモデルを用いた COVID-19 心電図の分類

COVID-19 Electrocardiograms Classification using CNN Models ( http://arxiv.org/abs/2112.08931v1 )

ライセンス: Link先を確認
Ismail Shahin, Ali Bou Nassif, Mohamed Bader Alsabek(参考訳) 新型コロナウイルス(COVID-19)の周期的な増加と流行、多くの国が影響を受けており、世界中の科学者、研究者、医師が手掛けた膨大な量の研究が続けられている。 疾患の予防接種に取り組むには,迅速な介入が不可欠である。 人工知能(AI)の実装は、ディープラーニングアルゴリズムの基本を適用することで、デジタルヘルス地区に多大な貢献をしている。 本研究では,心電図(ECG)データとディープラーニングアルゴリズム,特に畳み込みニューラルネットワーク(CNN)モデルを統合することで,新型コロナウイルスを自動的に診断する手法を提案する。 vgg16, vgg19, inceptionresnetv2, inceptionv3, resnet50, densenet201などのcnnモデルが提案されている。 VGG16モデルは、85.92%の精度で他のモデルよりも優れていた。 この結果,VGG16モデルに対するグリッド探索ハイパーパラメータ最適化手法の排他的利用に加えて,使用データセットの小型化によるVGG16モデルと比較して,他のモデルに比べて比較的精度が低いことが示された。 さらに,本研究では,データセットをさらに拡張し,適切なハイパーパラメータ最適化手法を適用することにより,全モデルの精度を向上させる可能性を秘めている。

With the periodic rise and fall of COVID-19 and numerous countries being affected by its ramifications, there has been a tremendous amount of work that has been done by scientists, researchers, and doctors all over the world. Prompt intervention is keenly needed to tackle the unconscionable dissemination of the disease. The implementation of Artificial Intelligence (AI) has made a significant contribution to the digital health district by applying the fundamentals of deep learning algorithms. In this study, a novel approach is proposed to automatically diagnose the COVID-19 by the utilization of Electrocardiogram (ECG) data with the integration of deep learning algorithms, specifically the Convolutional Neural Network (CNN) models. Several CNN models have been utilized in this proposed framework, including VGG16, VGG19, InceptionResnetv2, InceptionV3, Resnet50, and Densenet201. The VGG16 model has outperformed the rest of the models, with an accuracy of 85.92%. Our results show a relatively low accuracy in the rest of the models compared to the VGG16 model, which is due to the small size of the utilized dataset, in addition to the exclusive utilization of the Grid search hyperparameters optimization approach for the VGG16 model only. Moreover, our results are preparatory, and there is a possibility to enhance the accuracy of all models by further expanding the dataset and adapting a suitable hyperparameters optimization technique.
翻訳日:2021-12-17 14:55:41 公開日:2021-12-15
# Insta-VAX: ソーシャルメディアにおける抗ワクチン・誤情報ポスト検出のためのマルチモーダルベンチマーク

Insta-VAX: A Multimodal Benchmark for Anti-Vaccine and Misinformation Posts Detection on Social Media ( http://arxiv.org/abs/2112.08470v1 )

ライセンス: Link先を確認
Mingyang Zhou, Mahasweta Chakraborti, Sijia Qian, Zhou Yu, Jingwen Zhang(参考訳) 誤情報の投稿を含むソーシャルメディア上での反ワクチン投稿の共有は、混乱を生じさせ、ワクチンに対する大衆の信頼を低下させ、ワクチンの嫌悪感と抵抗に繋がる。 近年、オンラインネットワークにおける様々な言語的、視覚的形態の予防接種ポストが急速に増加し、効果的なコンテンツモデレーションとトラッキングに大きな課題が持ち上がっている。 ワクチン情報を理解するためにテキスト情報を活用するというこれまでの取り組みを拡張し、ヒトワクチンに関連するinstagram投稿64,957本からなる、新しいマルチモーダルデータセットinsta-vaxを提案する。 このデータセットに2人の専門家が検証したクラウドソースのアノテーション手順を適用した。 次に,最先端のNLPおよびコンピュータビジョン分類器を用いて,ポストが予防接種的態度を示すか,誤情報を含むかを検出する。 大規模な実験と分析により、マルチモーダルモデルは、ユニモーダルモデルよりも正確にポストを分類できるが、特に視覚的文脈理解と外部知識協調において改善が必要であることが示された。 データセットと分類器は、ワクチン誤情報問題に対処する社会科学および公衆衛生活動のためのワクチン議論の監視と追跡に貢献する。

Sharing of anti-vaccine posts on social media, including misinformation posts, has been shown to create confusion and reduce the publics confidence in vaccines, leading to vaccine hesitancy and resistance. Recent years have witnessed the fast rise of such anti-vaccine posts in a variety of linguistic and visual forms in online networks, posing a great challenge for effective content moderation and tracking. Extending previous work on leveraging textual information to understand vaccine information, this paper presents Insta-VAX, a new multi-modal dataset consisting of a sample of 64,957 Instagram posts related to human vaccines. We applied a crowdsourced annotation procedure verified by two trained expert judges to this dataset. We then bench-marked several state-of-the-art NLP and computer vision classifiers to detect whether the posts show anti-vaccine attitude and whether they contain misinformation. Extensive experiments and analyses demonstrate the multimodal models can classify the posts more accurately than the uni-modal models, but still need improvement especially on visual context understanding and external knowledge cooperation. The dataset and classifiers contribute to monitoring and tracking of vaccine discussions for social scientific and public health efforts in combating the problem of vaccine misinformation.
翻訳日:2021-12-17 14:31:41 公開日:2021-12-15
# 垂直的フェデレーション学習のためのデータ評価:情報理論的アプローチ

Data Valuation for Vertical Federated Learning: An Information-Theoreti c Approach ( http://arxiv.org/abs/2112.08364v1 )

ライセンス: Link先を確認
Xiao Han and Leye Wang and Junjie Wu(参考訳) フェデレーテッド・ラーニング(FL)は、現実のAIアプリケーションに対して、プライバシー保護と法規制の方法でサードパーティのデータコラボレーションを可能にする、有望な機械学習パラダイムである。 当事者のデータを評価する方法は重要な問題ですが、FLの問題です。 文献では、データのバリュエーションは与えられたタスクに対して特定のモデルを実行することに依存するか、あるいは単にタスクとは無関係である。 この作業はギャップを埋め、垂直FLタスクのための最初のプライバシ保存、タスク固有だがモデルフリーなデータ評価手法である‘emph{FedValue}’を提案する。 特に、FedValueは、ゲーム理論の観点から複数のパーティのデータ値を評価するために、Shapley-CMIと呼ばれる新しい情報理論メトリックを組み込んでいる。 さらに、サーバ支援型フェデレーション計算機構は、Shapley-CMIを計算し、一方、各パーティがデータ漏洩から保護されるように設計されている。 また,実際にShapley-CMI計算を高速化する手法を提案する。 6つのオープンデータセットに関する広範な実験は、垂直flタスクのデータバリュエーションに対するfeedvalueの有効性と効率を検証する。 特に、モデルフリー計量としてのShapley-CMIは、良好な性能を持つモデルのアンサンブルの実行に依存する測度と互換性がある。

Federated learning (FL) is a promising machine learning paradigm that enables cross-party data collaboration for real-world AI applications in a privacy-preserving and law-regulated way. How to valuate parties' data is a critical but challenging FL issue. In the literature, data valuation either relies on running specific models for a given task or is just task irrelevant; however, it is often requisite for party selection given a specific task when FL models have not been determined yet. This work thus fills the gap and proposes \emph{FedValue}, to our best knowledge, the first privacy-preserving, task-specific but model-free data valuation method for vertical FL tasks. Specifically, FedValue incorporates a novel information-theoreti c metric termed Shapley-CMI to assess data values of multiple parties from a game-theoretic perspective. Moreover, a novel server-aided federated computation mechanism is designed to compute Shapley-CMI and meanwhile protects each party from data leakage. We also propose several techniques to accelerate Shapley-CMI computation in practice. Extensive experiments on six open datasets validate the effectiveness and efficiency of FedValue for data valuation of vertical FL tasks. In particular, Shapley-CMI as a model-free metric performs comparably with the measures that depend on running an ensemble of well-performing models.
翻訳日:2021-12-17 14:22:27 公開日:2021-12-15
# StyleMC: マルチチャネルベースの高速テキストガイド画像生成と操作

StyleMC: Multi-Channel Based Fast Text-Guided Image Generation and Manipulation ( http://arxiv.org/abs/2112.08493v1 )

ライセンス: Link先を確認
Umut Kocasari, Alara Dirik, Mert Tiftikci and Pinar Yanardag(参考訳) 意味属性を操作するためにganの潜在空間で意味のある方向を見つけるには、通常、大量のラベル付きデータが必要である。 最近の研究は、コントラスト言語-画像事前学習(CLIP)の力を利用して、この制限を克服することを目的としている。 有望だが、これらの手法は所望の操作を達成するのに数時間の事前処理やトレーニングを必要とする。 本稿では,テキスト駆動画像生成と操作を高速かつ効率的に行うStyleMCを提案する。 StyleMCはCLIPベースの損失とアイデンティティ損失を使用して、他の属性に大きな影響を及ぼすことなく、単一のテキストプロンプトを介してイメージを操作する。 以前の作業とは異なり、stylemcはテキスト毎のプロンプトで安定したグローバル方向を見つけるのにほんの数秒のトレーニングしか必要とせず、プロンプトエンジニアリングは必要とせず、プレトレーニングされたstylegan2モデルでも使用できる。 提案手法の有効性を実証し,最先端手法と比較する。 私たちのコードはhttp://catlab-team.g ithub.io/stylemc.org で参照できます。

Discovering meaningful directions in the latent space of GANs to manipulate semantic attributes typically requires large amounts of labeled data. Recent work aims to overcome this limitation by leveraging the power of Contrastive Language-Image Pre-training (CLIP), a joint text-image model. While promising, these methods require several hours of preprocessing or training to achieve the desired manipulations. In this paper, we present StyleMC, a fast and efficient method for text-driven image generation and manipulation. StyleMC uses a CLIP-based loss and an identity loss to manipulate images via a single text prompt without significantly affecting other attributes. Unlike prior work, StyleMC requires only a few seconds of training per text prompt to find stable global directions, does not require prompt engineering and can be used with any pre-trained StyleGAN2 model. We demonstrate the effectiveness of our method and compare it to state-of-the-art methods. Our code can be found at http://catlab-team.g ithub.io/stylemc.
翻訳日:2021-12-17 14:17:50 公開日:2021-12-15
# 低アクセス環境における家庭用電力消費量の予測

Predicting Levels of Household Electricity Consumption in Low-Access Settings ( http://arxiv.org/abs/2112.08497v1 )

ライセンス: Link先を確認
Simone Fobi, Joel Mugyenyi, Nathaniel J. Williams, Vijay Modi and Jay Taneja(参考訳) 低所得環境では、電力事業者にとって最も重要な情報は、顧客が期待する消費である。 電力消費のアセスメントは、家庭のかなりの一部がまだ電気接続を持っていない環境では難しい。 このような設定では、予測される消費の絶対レベルは月5-100 kWhまで変化し、これらの顧客の間で高いばらつきをもたらす。 低消費者の割合が高消費者よりもはるかに少ない場合、貴重資源は危険にさらされる。 これは、建物の消費を予測しようとする低所得の環境において、総合的な管理区域ではなく、この種の研究である。 我々は、ケニアの2万人の電力利用者(ケニアの住宅顧客の0.01%)のユーティリティ料金のサンプルを用いて、電力化前の衛星画像から畳み込みニューラルネットワーク(cnn)を訓練する。 これは、新しい建物のセグメンテーションアプローチを使用して、コストのかかる衛星画像の膨大な量を活用して、希少で高価な顧客データを最大限に活用する2段階のアプローチで実現されている。 本手法は, 建物レベルでの競争精度を向上し, 消費変動の課題に対処できることを示す。 この研究は、建物の特徴と環境がどちらも消費水準を予測する上で重要であることを示している。 また、夜間照明や国勢調査データを含む低分解能地理空間データセットをトレーニングプロセスに加えることも検討した。 この結果は、ケニアの個別構造レベルでの粒度の予測を通じて、既にサイトの選択や配信レベルの計画に役立っているが、他の国に拡張できない理由はない。

In low-income settings, the most critical piece of information for electric utilities is the anticipated consumption of a customer. Electricity consumption assessment is difficult to do in settings where a significant fraction of households do not yet have an electricity connection. In such settings the absolute levels of anticipated consumption can range from 5-100 kWh/month, leading to high variability amongst these customers. Precious resources are at stake if a significant fraction of low consumers are connected over those with higher consumption. This is the first study of it's kind in low-income settings that attempts to predict a building's consumption and not that of an aggregate administrative area. We train a Convolutional Neural Network (CNN) over pre-electrification daytime satellite imagery with a sample of utility bills from 20,000 geo-referenced electricity customers in Kenya (0.01% of Kenya's residential customers). This is made possible with a two-stage approach that uses a novel building segmentation approach to leverage much larger volumes of no-cost satellite imagery to make the most of scarce and expensive customer data. Our method shows that competitive accuracies can be achieved at the building level, addressing the challenge of consumption variability. This work shows that the building's characteristics and it's surrounding context are both important in predicting consumption levels. We also evaluate the addition of lower resolution geospatial datasets into the training process, including nighttime lights and census-derived data. The results are already helping inform site selection and distribution-level planning, through granular predictions at the level of individual structures in Kenya and there is no reason this cannot be extended to other countries.
翻訳日:2021-12-17 14:17:31 公開日:2021-12-15
# 潜伏共同設立者の時系列における因果祖先グラフの特徴

Characterization of causal ancestral graphs for time series with latent confounders ( http://arxiv.org/abs/2112.08417v1 )

ライセンス: Link先を確認
Andreas Gerhardus(参考訳) 有向極大祖先グラフを一般化し,非オブザーブ変数を含む多変量時系列の有限個の正規サンプリングおよび正規サブサンプリング時間ステップ間の時間遅れ特有の因果関係と非依存を表現するためのグラフィカルモデルのクラスを導入する。 われわれはこれらのグラフを完全に特徴付け、それまで文献で考慮されていたもの以上の制約を課していることを示す。 これにより、追加の仮定を課すことなく、より強力な因果推論が可能になる。 さらに、有向部分祖先グラフの一般化において、新しいタイプのグラフのマルコフ同値クラスのグラフィカル表現を導入し、これらが現在の最先端因果探索アルゴリズムが学習するものよりも有益であることを示す。 また,観測回数を増やすことで得られた追加情報も分析する。

Generalizing directed maximal ancestral graphs, we introduce a class of graphical models for representing time lag specific causal relationships and independencies among finitely many regularly sampled and regularly subsampled time steps of multivariate time series with unobserved variables. We completely characterize these graphs and show that they entail constraints beyond those that have previously been considered in the literature. This allows for stronger causal inferences without having imposed additional assumptions. In generalization of directed partial ancestral graphs we further introduce a graphical representation of Markov equivalence classes of the novel type of graphs and show that these are more informative than what current state-of-the-art causal discovery algorithms learn. We also analyze the additional information gained by increasing the number of observed time steps.
翻訳日:2021-12-17 13:47:31 公開日:2021-12-15
# 動的拡張グラフモデルを用いた生涯生成モデル

Lifelong Generative Modelling Using Dynamic Expansion Graph Model ( http://arxiv.org/abs/2112.08370v1 )

ライセンス: Link先を確認
Fei Ye and Adrian G. Bors(参考訳) 変分オートエンコーダ(VAE)は、連続したタスクを学習する際に、劣化したパフォーマンスに悩まされる。 これは破滅的な忘れによって引き起こされる。 知識喪失に対処するために、VAEは生成的リプレイ(GR)メカニズムまたは拡張ネットワークアーキテクチャ(ENA)のいずれかを使用している。 本稿では,共同GR法とENA法を併用したVAEの忘れ行動について,負の辺縁対数線上の上限を導出することにより検討する。 この理論分析は、VAEが生涯学習中に学んだ知識を忘れる方法についての新しい洞察を与える。 この分析は、ENAフレームワークの下でモデル混合を考える際に達成される最高のパフォーマンスを示しており、コンポーネントの数に制限はない。 しかし、ENAベースのアプローチでは過剰な数のパラメータを必要とする可能性がある。 そこで我々は,新しい動的拡張グラフモデル(DEGM)を提案する。 degmは、以前のタスクからネットワークが既に学んだ情報と比較すると、新しいデータベースの新規性に応じて、そのアーキテクチャを拡張する。 DEGMトレーニングは知識構造化を最適化し、過去および最近では学習されたタスクに対応する共同確率表現を特徴付ける。 我々は,DEGMが各タスクに最適な性能を保証し,必要なパラメータ数を最小化できることを実証する。 Supplementary Materials (SM)とソースコードはhttps://github.com/d tuzi123/Expansion-Gr aph-Modelで入手できる。

Variational Autoencoders (VAEs) suffer from degenerated performance, when learning several successive tasks. This is caused by catastrophic forgetting. In order to address the knowledge loss, VAEs are using either Generative Replay (GR) mechanisms or Expanding Network Architectures (ENA). In this paper we study the forgetting behaviour of VAEs using a joint GR and ENA methodology, by deriving an upper bound on the negative marginal log-likelihood. This theoretical analysis provides new insights into how VAEs forget the previously learnt knowledge during lifelong learning. The analysis indicates the best performance achieved when considering model mixtures, under the ENA framework, where there are no restrictions on the number of components. However, an ENA-based approach may require an excessive number of parameters. This motivates us to propose a novel Dynamic Expansion Graph Model (DEGM). DEGM expands its architecture, according to the novelty associated with each new databases, when compared to the information already learnt by the network from previous tasks. DEGM training optimizes knowledge structuring, characterizing the joint probabilistic representations corresponding to the past and more recently learned tasks. We demonstrate that DEGM guarantees optimal performance for each task while also minimizing the required number of parameters. Supplementary materials (SM) and source code are available in https://github.com/d tuzi123/Expansion-Gr aph-Model.
翻訳日:2021-12-17 13:43:24 公開日:2021-12-15
# 問合せ型要約のためのニューラルモデル探索

Exploring Neural Models for Query-Focused Summarization ( http://arxiv.org/abs/2112.07637v2 )

ライセンス: Link先を確認
Jesse Vig, Alexander R. Fabbri, Wojciech Kry\'sci\'nski, Chien-Sheng Wu, Wenhao Liu(参考訳) クエリ中心の要約(qfs)は、特定の関心のある質問に答える要約を作成し、ユーザー制御とパーソナライゼーションの強化を可能にすることを目的としている。 QMSumやAQuaMuSeといった最近リリースされたデータセットは、QFSの研究活動を促進する一方で、適用可能なモデリング手法の広い領域に関する包括的な研究は欠如している。 本稿では,2段階抽出法とエンド・ツー・エンドモデルという2つの方法の一般クラスを考慮した,qfsに対する神経アプローチの系統的探索を行う。 これらのカテゴリにおいて,QMSumデータセットの最先端性能を最大3.38 ROUGE-1,3.72 ROUGE-2,3.28 ROUGE-Lのマージンで達成する既存手法と2つのモデル拡張について検討する。 定量的実験を通じて、異なるモデル構成間のトレードオフを強調し、要約タスク間の伝達能力を検討する。 コードとチェックポイントは、https://github.com/s alesforce/query-focu sed-sum.comで公開されている。

Query-focused summarization (QFS) aims to produce summaries that answer particular questions of interest, enabling greater user control and personalization. While recently released datasets, such as QMSum or AQuaMuSe, facilitate research efforts in QFS, the field lacks a comprehensive study of the broad space of applicable modeling methods. In this paper we conduct a systematic exploration of neural approaches to QFS, considering two general classes of methods: two-stage extractive-abstracti ve solutions and end-to-end models. Within those categories, we investigate existing methods and present two model extensions that achieve state-of-the-art performance on the QMSum dataset by a margin of up to 3.38 ROUGE-1, 3.72 ROUGE-2, and 3.28 ROUGE-L. Through quantitative experiments we highlight the trade-offs between different model configurations and explore the transfer abilities between summarization tasks. Code and checkpoints are made publicly available: https://github.com/s alesforce/query-focu sed-sum.
翻訳日:2021-12-17 11:54:54 公開日:2021-12-15
# (参考訳) ネットワークグラフに基づくニューラルアーキテクチャ探索 [全文訳有]

Network Graph Based Neural Architecture Search ( http://arxiv.org/abs/2112.07805v1 )

ライセンス: CC BY 4.0
Zhenhan Huang, Chunheng Jiang, Pin-Yu Chen and Jianxi Gao(参考訳) ニューラルアーキテクチャサーチはアーキテクチャ設計の自動化を可能にする。 その成功にもかかわらず、計算コストが高く、望ましいアーキテクチャの設計方法に関する洞察を与えていない。 本稿では,対応するグラフを書き換えてニューラルネットワークを探索し,グラフ特性によるアーキテクチャ性能の予測を行う,新しいニューラルネットワーク探索手法を提案する。 グラフ空間全体にわたって機械学習を実行せず、予測アーキテクチャ性能を用いてアーキテクチャを探索するため、探索プロセスは極めて効率的である。 グラフベースの検索は望ましいアーキテクチャを合理的に予測できると考えている。 さらに、アーキテクチャのパフォーマンスを予測するのに効果的なグラフプロパティも見つけます。 本研究は,ニューラルアーキテクチャを探索する新しい手法を提案し,ニューラルアーキテクチャの設計に関する洞察を提供する。

Neural architecture search enables automation of architecture design. Despite its success, it is computationally costly and does not provide an insight on how to design a desirable architecture. Here we propose a new way of searching neural network where we search neural architecture by rewiring the corresponding graph and predict the architecture performance by graph properties. Because we do not perform machine learning over the entire graph space and use predicted architecture performance to search architecture, the searching process is remarkably efficient. We find graph based search can give a reasonably good prediction of desirable architecture. In addition, we find graph properties that are effective to predict architecture performance. Our work proposes a new way of searching neural architecture and provides insights on neural architecture design.
翻訳日:2021-12-17 04:09:43 公開日:2021-12-15
# (参考訳) 表現アライメントによる特徴伝達の理解 [全文訳有]

Understanding Feature Transfer Through Representation Alignment ( http://arxiv.org/abs/2112.07806v1 )

ライセンス: CC BY 4.0
Ehsan Imani, Wei Hu, Martha White(参考訳) ランダム化されたラベルとは対照的にデータセットの真のラベルを使ったトレーニングは、より高速な最適化とより良い一般化につながる。 この違いは、自然データセットにおける入力とラベルのアライメントの概念に起因する。 異なるアーキテクチャを持つニューラルネットワークのトレーニングと、ランダムあるいは真のラベル上のオプティマイザは、隠れた表現とトレーニングラベルの間の同じ関係を強制するので、ニューラルネットワーク表現が転送に成功している理由が分かる。 まず、アライメント特徴が遷移を促進し、古典的な合成伝達問題において、アライメントが類似および異種タスクへの正負の伝達決定因子であることを示す。 次に、さまざまなニューラルネットワークアーキテクチャを調査し、それを見つけます。 (a)アライメントは様々なアーキテクチャとオプティマイザにまたがって出現し、深さからより多くのアライメントが生じる (b)出力に近い層でアライメントが増加すること、及び (c)既存の高性能深部CNNは高レベルのアライメントを示す。

Training with the true labels of a dataset as opposed to randomized labels leads to faster optimization and better generalization. This difference is attributed to a notion of alignment between inputs and labels in natural datasets. We find that training neural networks with different architectures and optimizers on random or true labels enforces the same relationship between the hidden representations and the training labels, elucidating why neural network representations have been so successful for transfer. We first highlight why aligned features promote transfer and show in a classic synthetic transfer problem that alignment is the determining factor for positive and negative transfer to similar and dissimilar tasks. We then investigate a variety of neural network architectures and find that (a) alignment emerges across a variety of different architectures and optimizers, with more alignment arising from depth (b) alignment increases for layers closer to the output and (c) existing high-performance deep CNNs exhibit high levels of alignment.
翻訳日:2021-12-17 03:56:58 公開日:2021-12-15
# (参考訳) クラス不均衡画像を用いた深層学習技術による雑草認識 [全文訳有]

Weed Recognition using Deep Learning Techniques on Class-imbalanced Imagery ( http://arxiv.org/abs/2112.07819v1 )

ライセンス: CC BY 4.0
A S M Mahmudul Hasan and Ferdous Sohel and Dean Diepeveen and Hamid Laga and Michael G.K. Jones(参考訳) ほとんどの雑草は、高価値作物に必要な栄養素を競うことで農業生産性に悪影響を及ぼす。 大規模な作付け地では手作業による雑草は実用的ではない。 農作物の自動雑草管理システムを開発するための研究が数多く行われている。 このプロセスでは、主要なタスクの1つは、画像から雑草を認識することである。 しかし、雑草認識は難しい課題である。 雑草や作物は色、食感、形状に類似しており、画像記録時の画像条件、地理的、気象条件によりさらに悪化する可能性があるためである。 高度な機械学習技術は、画像から雑草を認識するために使用できる。 本稿では,VGG16,ResNet-50,Inc eption-V3,Inception- ResNet-v2,MobileNetV 2の5つの最先端ディープニューラルネットワークを調査し,雑草認識の性能評価を行った。 いくつかの実験的な設定と複数のデータセットの組み合わせを使用しました。 特に,より小さなデータセットを複数組み合わせ,データ拡張によるクラス不均衡を緩和し,このデータセットをディープニューラルネットワークのベンチマークに用いた大きな雑草クロップデータセットを構築した。 作物や雑草のデータセットの画像を用いて,特徴を抽出し,微調整するための事前訓練した重みを保存し,伝達学習技術の利用について検討した。 vgg16は他の大規模データセットよりも優れており、resnet-50は大規模データセットの他のディープネットワークよりも優れていた。

Most weed species can adversely impact agricultural productivity by competing for nutrients required by high-value crops. Manual weeding is not practical for large cropping areas. Many studies have been undertaken to develop automatic weed management systems for agricultural crops. In this process, one of the major tasks is to recognise the weeds from images. However, weed recognition is a challenging task. It is because weed and crop plants can be similar in colour, texture and shape which can be exacerbated further by the imaging conditions, geographic or weather conditions when the images are recorded. Advanced machine learning techniques can be used to recognise weeds from imagery. In this paper, we have investigated five state-of-the-art deep neural networks, namely VGG16, ResNet-50, Inception-V3, Inception-ResNet-v2 and MobileNetV2, and evaluated their performance for weed recognition. We have used several experimental settings and multiple dataset combinations. In particular, we constructed a large weed-crop dataset by combining several smaller datasets, mitigating class imbalance by data augmentation, and using this dataset in benchmarking the deep neural networks. We investigated the use of transfer learning techniques by preserving the pre-trained weights for extracting the features and fine-tuning them using the images of crop and weed datasets. We found that VGG16 performed better than others on small-scale datasets, while ResNet-50 performed better than other deep networks on the large combined dataset.
翻訳日:2021-12-17 03:34:45 公開日:2021-12-15
# (参考訳) 形式的文書に対する任意クエリを用いた値検索 [全文訳有]

Value Retrieval with Arbitrary Queries for Form-like Documents ( http://arxiv.org/abs/2112.07820v1 )

ライセンス: CC BY 4.0
Mingfei Gao, Le Xue, Chetan Ramaiah, Chen Xing, Ran Xu, Caiming Xiong(参考訳) 本稿では,フォームライクな文書に対する任意のクエリを用いた値検索を提案する。 フィールドアイテムの固定セットにのみ対処する従来の手法とは異なり,本手法は,フォームのレイアウトやセマンティクスの理解に基づいて任意のクエリのターゲット値を予測する。 モデル性能をさらに向上するために,大規模モデル事前学習における文書理解を改善するシンプルな文書言語モデリング(simpleDLM)戦略を提案する。 実験結果から,本手法はベースラインを著しく上回り,従来の手法と比較して,F1スコアあたり17倍程度の性能向上を実現していることがわかった。 コードは公開される予定だ。

We propose value retrieval with arbitrary queries for form-like documents to reduce human effort of processing forms. Unlike previous methods that only address a fixed set of field items, our method predicts target value for an arbitrary query based on the understanding of layout and semantics of a form. To further boost model performance, we propose a simple document language modeling (simpleDLM) strategy to improve document understanding on large-scale model pre-training. Experimental results show that our method outperforms our baselines significantly and the simpleDLM further improves our performance on value retrieval by around 17\% F1 score compared with the state-of-the-art pre-training method. Code will be made publicly available.
翻訳日:2021-12-17 03:17:59 公開日:2021-12-15
# (参考訳) CentSmoothie:薬物と薬物の相互作用を予測するためのハイパーグラフニューラルネットワーク [全文訳有]

CentSmoothie: Central-Smoothing Hypergraph Neural Networks for Predicting Drug-Drug Interactions ( http://arxiv.org/abs/2112.07837v1 )

ライセンス: CC BY 4.0
Duc Anh Nguyen, Canh Hao Nguyen, and Hiroshi Mamitsuka(参考訳) 薬物-薬物相互作用の予測は、薬物情報と多くの対の既知の副作用を用いて、一対の薬物の副作用(望ましくない結果)を予測する問題である。 この問題は、DDIグラフ内の各一対のノードの予測ラベル(すなわち副作用)として定式化することができ、そのノードは薬物であり、エッジは既知のラベルと相互作用する薬物である。 この問題の最先端の方法はグラフニューラルネットワーク(GNN)であり、グラフの近傍情報を利用してノード表現を学習する。 しかし、DDIには副作用の性質から複雑な関係を持つラベルが多数存在する。 GNNは、しばしばラベル関係を反映せず、稀なラベルの難易度において最高の性能を得られない1ホットベクトルとしてラベルを固定する。 本稿では,DDIを3つのハイパーエッジを持つハイパーグラフとして定式化し,薬物のノードが2個,ラベルのノードが1個である。 次に、ノードとラベルの表現を完全に学習するハイパーグラフニューラルネットワークであるCentSmoothieを紹介します。 我々はシミュレーションと実際のデータセットにおけるCentSmoothieの性能上の利点を実証的に示す。

Predicting drug-drug interactions (DDI) is the problem of predicting side effects (unwanted outcomes) of a pair of drugs using drug information and known side effects of many pairs. This problem can be formulated as predicting labels (i.e. side effects) for each pair of nodes in a DDI graph, of which nodes are drugs and edges are interacting drugs with known labels. State-of-the-art methods for this problem are graph neural networks (GNNs), which leverage neighborhood information in the graph to learn node representations. For DDI, however, there are many labels with complicated relationships due to the nature of side effects. Usual GNNs often fix labels as one-hot vectors that do not reflect label relationships and potentially do not obtain the highest performance in the difficult cases of infrequent labels. In this paper, we formulate DDI as a hypergraph where each hyperedge is a triple: two nodes for drugs and one node for a label. We then present CentSmoothie, a hypergraph neural network that learns representations of nodes and labels altogether with a novel central-smoothing formulation. We empirically demonstrate the performance advantages of CentSmoothie in simulations as well as real datasets.
翻訳日:2021-12-17 03:10:42 公開日:2021-12-15
# (参考訳) LoSAC:フェデレーション最適化のための効率的な局所確率平均制御法 [全文訳有]

LoSAC: An Efficient Local Stochastic Average Control Method for Federated Optimization ( http://arxiv.org/abs/2112.07839v1 )

ライセンス: CC BY 4.0
Huiming Chen, Huandong Wang, Quanming Yao, Yong Li, Depeng Jin, Qiang Yang(参考訳) フェデレーション最適化(FedOpt)は、多数の分散クライアントにわたる学習モデルを協調的にトレーニングすることを目的としたもので、フェデレーション学習には不可欠である。 FedOptの主な関心事は、モデルのばらつきと通信効率に起因し、パフォーマンスに大きな影響を及ぼす可能性がある。 本論文では、異種分散データからより効率的に学習するための新しい手法、すなわちLoSACを提案する。 その重要なアルゴリズム的洞察は、通常のローカルモデル更新後のグローバルフル勾配の推定値をローカルに更新することである。 これにより、LoSACはクライアントの情報をよりコンパクトな方法でリフレッシュすることができる。 特に,LoSACの収束結果について検討した。 さらに、LoSACのボーナスは、最新の技術であるDeep Leakage Gradients (DLG)から情報漏洩を保護する能力である。 最後に、実験は、最先端のFedOptアルゴリズムと比較してLoSACの優位性を検証した。 具体的には、LoSACは平均で100\%以上の通信効率を著しく向上させ、モデルの分散問題を緩和し、DLGに対する防御能力と同等にする。

Federated optimization (FedOpt), which targets at collaboratively training a learning model across a large number of distributed clients, is vital for federated learning. The primary concerns in FedOpt can be attributed to the model divergence and communication efficiency, which significantly affect the performance. In this paper, we propose a new method, i.e., LoSAC, to learn from heterogeneous distributed data more efficiently. Its key algorithmic insight is to locally update the estimate for the global full gradient after {each} regular local model update. Thus, LoSAC can keep clients' information refreshed in a more compact way. In particular, we have studied the convergence result for LoSAC. Besides, the bonus of LoSAC is the ability to defend the information leakage from the recent technique Deep Leakage Gradients (DLG). Finally, experiments have verified the superiority of LoSAC comparing with state-of-the-art FedOpt algorithms. Specifically, LoSAC significantly improves communication efficiency by more than $100\%$ on average, mitigates the model divergence problem and equips with the defense ability against DLG.
翻訳日:2021-12-17 02:54:17 公開日:2021-12-15
# (参考訳) データセットを修正してモデルを修正する [全文訳有]

Fix your Models by Fixing your Datasets ( http://arxiv.org/abs/2112.07844v1 )

ライセンス: CC BY 4.0
Atindriyo Sanyal, Vikram Chatterji, Nidhi Vyas, Ben Epstein, Nikita Demir, Anthony Corletti(参考訳) 基礎となるトレーニングデータの品質は、より一般化した高性能な機械学習モデルを構築する上で非常に重要です。 しかし、現在の機械学習(ML)ツールは、データ品質を改善するための合理化されたプロセスを欠いている。 したがって、データ品質の洞察を得て、エラーを反復的に抽出して、ダウンストリームのユースケースを最も代表するデータセットを取得することは、いまだにアドホックな手作業です。 このデータツーリングのギャップに対処するためには、データ中心のテクニックによって純粋に改善されたMLワークフローを構築する必要があります。 より具体的には,(1)データセットにノイズや誤りのあるサンプルを見つけるための体系的枠組みを導入し,(2)トレーニングに含まれる場合,最大モデルの性能向上をもたらす最も有益なサンプルを特定する。 当社のフレームワークが2つのFortune 500企業のプライベートエンタープライズデータセットとパブリックで有効であることを示し、この作業が、よりインテリジェントなデータディスカバリとプルーニングを行うためのMLチームの基盤となると確信しています。

The quality of underlying training data is very crucial for building performant machine learning models with wider generalizabilty. However, current machine learning (ML) tools lack streamlined processes for improving the data quality. So, getting data quality insights and iteratively pruning the errors to obtain a dataset which is most representative of downstream use cases is still an ad-hoc manual process. Our work addresses this data tooling gap, required to build improved ML workflows purely through data-centric techniques. More specifically, we introduce a systematic framework for (1) finding noisy or mislabelled samples in the dataset and, (2) identifying the most informative samples, which when included in training would provide maximal model performance lift. We demonstrate the efficacy of our framework on public as well as private enterprise datasets of two Fortune 500 companies, and are confident this work will form the basis for ML teams to perform more intelligent data discovery and pruning.
翻訳日:2021-12-17 02:12:52 公開日:2021-12-15
# (参考訳) 臨界特性を持つ非同期ゲームにおける確率論理ゲート [全文訳有]

Probabilistic Logic Gate in Asynchronous Game of Life with Critical Property ( http://arxiv.org/abs/2112.07846v1 )

ライセンス: CC BY 4.0
Yukio-Pegio Gunji, Yoshihiko Ohzawa and Terutaka Tanaka(参考訳) メタヒューリスティック・自己組織化臨界(SOC)は、摂動環境下での堅牢な計算に寄与する。 臨界状態のコンピュータシステムにおける論理ゲートの実装は、メタヒューリスティックスとsocの役割を研究する興味深い方法の1つである。 本稿では,セルラーオートマトン,ゲーム・オブ・ライフ(GL)の動作を非同期に更新し,非同期GLを用いて確率論理ゲートを実装する。 我々は、非同期 gl が位相遷移を示し、1 の状態の密度が臨界点での力則とともに減衰し、臨界点における系が非同期 gl において最も計算可能性が高いことを見出した。 高い性能を示す非同期GLに AND と OR ゲートを実装した。 論理ゲートの操作には調律摂動が重要な役割を果たしているため,確率的論理ゲートの操作と摂動の干渉を明らかにした。

Metaheuristic and self-organizing criticality (SOC) could contribute to robust computation under perturbed environments. Implementing a logic gate in a computing system in a critical state is one of the intriguing ways to study the role of metaheuristics and SOCs. Here, we study the behavior of cellular automaton, game of life (GL), in asynchronous updating and implement probabilistic logic gates by using asynchronous GL. We find that asynchronous GL shows a phase transition, that the density of the state of 1 decays with the power law at the critical point, and that systems at the critical point have the most computability in asynchronous GL. We implement AND and OR gates in asynchronous GL with criticality, which shows good performance. Since tuning perturbations play an essential role in operating logic gates, our study reveals the interference between manipulation and perturbation in probabilistic logic gates.
翻訳日:2021-12-17 02:07:27 公開日:2021-12-15
# (参考訳) 確率ゲームにおける分散q-learningの有限サンプル解析

Finite-Sample Analysis of Decentralized Q-Learning for Stochastic Games ( http://arxiv.org/abs/2112.07859v1 )

ライセンス: CC BY 4.0
Zuguang Gao, Qianqian Ma, Tamer Ba\c{s}ar, John R. Birge(参考訳) 確率ゲームでの学習はマルチエージェント強化学習 (marl) において最も一般的かつ基本的な設定である。 本稿では,非漸近的体制における確率ゲームにおける分散マルルについて考察する。 特に,完全分散型q-ラーニングアルゴリズムの有限サンプル複雑性を,一般サム確率ゲーム (sgs) の重要なクラスにおいて確立する。 我々は,各エージェントが報酬や他のエージェントの行動を観察できない完全分散型MARLの実践的かつ挑戦的な設定に焦点を当てる。 実際、各エージェントは、他の意思決定者の存在に完全に従わない。 表型および線形関数近似の場合も検討されている。 表形式では,分散q-learningアルゴリズムのサンプル複雑性を分析し,マルコフ完全平衡(nash平衡)に収束する。 線形関数近似を用いて、結果は線形近似平衡(私たちが提案する新しい平衡の概念)への収束であり、これは各エージェントのポリシーが線型空間内の(他のエージェントへの)最良の応答であることを示すものである。 両方の設定で結果を示す数値実験も提供されている。

Learning in stochastic games is arguably the most standard and fundamental setting in multi-agent reinforcement learning (MARL). In this paper, we consider decentralized MARL in stochastic games in the non-asymptotic regime. In particular, we establish the finite-sample complexity of fully decentralized Q-learning algorithms in a significant class of general-sum stochastic games (SGs) - weakly acyclic SGs, which includes the common cooperative MARL setting with an identical reward to all agents (a Markov team problem) as a special case. We focus on the practical while challenging setting of fully decentralized MARL, where neither the rewards nor the actions of other agents can be observed by each agent. In fact, each agent is completely oblivious to the presence of other decision makers. Both the tabular and the linear function approximation cases have been considered. In the tabular setting, we analyze the sample complexity for the decentralized Q-learning algorithm to converge to a Markov perfect equilibrium (Nash equilibrium). With linear function approximation, the results are for convergence to a linear approximated equilibrium - a new notion of equilibrium that we propose - which describes that each agent's policy is a best reply (to other agents) within a linear space. Numerical experiments are also provided for both settings to demonstrate the results.
翻訳日:2021-12-17 01:50:30 公開日:2021-12-15
# (参考訳) Interscript: エラーフィードバックによるスクリプトのインタラクティブ学習のためのデータセット [全文訳有]

Interscript: A dataset for interactive learning of scripts through error feedback ( http://arxiv.org/abs/2112.07867v1 )

ライセンス: CC BY 4.0
Niket Tandon, Aman Madaan, Peter Clark, Keisuke Sakaguchi, Yiming Yang(参考訳) エンドユーザは、人間の言語の構造的複雑さを無視して、デプロイされた構造化予測モデルが一貫性のない出力を生成する場合、どのようにフィードバックを提供できるか? これは、最近、合成または制約された設定が進歩し、新しいトピックであり、次の大きな飛躍は、実世界の設定におけるモデルのテストとチューニングである。 我々は、複雑な日常的なタスクを生成するデプロイモデルのユーザフィードバックを含む新しいデータセット、Interscriptを提案する。 Interscriptには8,466のデータポイント -- 入力はおそらく誤ったスクリプトであり、ユーザのフィードバックであり、出力は修正されたスクリプトである。 対話型学習の最先端を飛躍的に前進させる2つのユースケースを仮定する。 データセットは、https://github.com/a llenai/interscript.c om/で入手できる。

How can an end-user provide feedback if a deployed structured prediction model generates inconsistent output, ignoring the structural complexity of human language? This is an emerging topic with recent progress in synthetic or constrained settings, and the next big leap would require testing and tuning models in real-world settings. We present a new dataset, Interscript, containing user feedback on a deployed model that generates complex everyday tasks. Interscript contains 8,466 data points -- the input is a possibly erroneous script and a user feedback, and the output is a modified script. We posit two use-cases of \ours that might significantly advance the state-of-the-art in interactive learning. The dataset is available at: https://github.com/a llenai/interscript.
翻訳日:2021-12-17 01:48:46 公開日:2021-12-15
# (参考訳) 社会的バイアス検出のための事前訓練型言語モデルのための少数ショットインストラクションプロンプト [全文訳有]

Few-shot Instruction Prompts for Pretrained Language Models to Detect Social Biases ( http://arxiv.org/abs/2112.07868v1 )

ライセンス: CC BY 4.0
Shrimai Prabhumoye, Rafal Kocielnik, Mohammad Shoeybi, Anima Anandkumar, Bryan Catanzaro(参考訳) テキスト中の社会的バイアスの検出は、ニュアンス、主観性、高品質のラベル付きデータセットの取得が困難であること、特に社会的バイアスと社会の進化性を考慮すると困難である。 これらの課題に対処するために,あらかじめ訓練された言語モデル(LM)をプロンプトする数ショットの命令ベース手法を提案する。 埋め込みスペースでラベル付けされるクエリに最も近い小さなサポートリポジトリからラベルバランスのよい例をいくつか選択する。 次に、ラベル付き例のこのサブセット、分類すべきクエリテキスト、バイアスの定義からなる命令をLMに提供し、意思決定を促す。 数発の文脈で使用される大きなlmsは、微粒度モデルとよく似た、時には優れた精度で、異なる種類の微粒度バイアスを検出できることを実証する。 最大530Bパラメータモデルは、より小さなモデルに比べて社会的バイアスを検出するのに著しく効果的である(他のモデルと比較して、AUCメトリックは少なくとも20%改善されている)。 また、ラベル付きリポジトリを100サンプルまで削減した数ショット設定で高いAUC(ドロップ数は5%未満)を維持している。 事前訓練された大規模な言語モデルにより、新しいバイアス検出器の構築がより簡単かつ迅速に行える。

Detecting social bias in text is challenging due to nuance, subjectivity, and difficulty in obtaining good quality labeled datasets at scale, especially given the evolving nature of social biases and society. To address these challenges, we propose a few-shot instruction-based method for prompting pre-trained language models (LMs). We select a few label-balanced exemplars from a small support repository that are closest to the query to be labeled in the embedding space. We then provide the LM with instruction that consists of this subset of labeled exemplars, the query text to be classified, a definition of bias, and prompt it to make a decision. We demonstrate that large LMs used in a few-shot context can detect different types of fine-grained biases with similar and sometimes superior accuracy to fine-tuned models. We observe that the largest 530B parameter model is significantly more effective in detecting social bias compared to smaller models (achieving at least 20% improvement in AUC metric compared to other models). It also maintains a high AUC (dropping less than 5%) in a few-shot setting with a labeled repository reduced to as few as 100 samples. Large pretrained language models thus make it easier and quicker to build new bias detectors.
翻訳日:2021-12-17 01:39:49 公開日:2021-12-15
# (参考訳) AMRをSPARQLに変換する学習 [全文訳有]

Learning to Transpile AMR into SPARQL ( http://arxiv.org/abs/2112.07877v1 )

ライセンス: CC BY-SA 4.0
Mihaela Bornea, Ramon Fernandez Astudillo, Tahira Naseem, Nandana Mihindukulasooriya, Ibrahim Abdelaziz, Pavan Kapanipathi, Radu Florian, Salim Roukos(参考訳) 本稿では,AMR(Abstract Meaning Representation)をSPARQL for Knowledge Base Question Answering (KBQA)に変換する遷移ベースシステムを提案する。 これにより、抽象問題の一部を強力な事前訓練されたセマンティックパーサに委譲し、少量のペアデータによるトランスパイリングを学習することができる。 我々は、AMRとSPARQLの構造に関する最近の研究から出発するが、一連のルールを適用するのではなく、BARTモデルにこれらの関係を選択的に利用するように教える。 さらに、AMRを明示的に符号化するのではなく、BARTの注意機構におけるパーサ状態をエンコードする。 結果は単純で、決定のためのテキストを提供し、LC-QuAD (F1 53.4) におけるAMRベースのKBQAの最近の進歩を上回り、QALD (F1 30.8) と一致する。

We propose a transition-based system to transpile Abstract Meaning Representation (AMR) into SPARQL for Knowledge Base Question Answering (KBQA). This allows to delegate part of the abstraction problem to a strongly pre-trained semantic parser, while learning transpiling with small amount of paired data. We departure from recent work relating AMR and SPARQL constructs, but rather than applying a set of rules, we teach the BART model to selectively use these relations. Further, we avoid explicitly encoding AMR but rather encode the parser state in the attention mechanism of BART, following recent semantic parsing works. The resulting model is simple, provides supporting text for its decisions, and outperforms recent progress in AMR-based KBQA in LC-QuAD (F1 53.4), matching it in QALD (F1 30.8), while exploiting the same inductive biases.
翻訳日:2021-12-17 01:19:38 公開日:2021-12-15
# (参考訳) 量子クーポンコレクタによる実験的量子アドバンテージ [全文訳有]

Experimental quantum advantage with quantum coupon collector ( http://arxiv.org/abs/2112.07884v1 )

ライセンス: CC BY 4.0
Min-Gang Zhou, Xiao-Yu Cao, Yu-Shuo Lu, Yang Wang, Yu Bao, Zhao-Ying Jia, Yao Fu, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 量子アドバンテージを持つ通信や計算のスキームが近年増加しており、量子技術が応用可能性の肥大化を示唆している。 しかし、これらのスキームを実験的に示すことは、高次元状態や高い絡み合った状態を作るのが困難であるため、中心的な課題である。 本研究では,コヒーレントな状態と単純な線形光学素子を用いて量子クーポンコレクタプロトコルを導入,解析し,現実的な実験装置を用いて実演に成功した。 提案プロトコルは,クーポンコレクタ問題の古典的限界と比較して,特定の集合を学習するのに要するサンプル数を著しく削減できることを示した。 また,量子ブラインドボックスゲームを構築し,量子クーポンコレクタのポテンシャル値と拡張について考察する。 提案されたゲームによって送信された情報も古典的な限界を破った。 これらの結果は、機械学習と通信複雑性における量子力学の利点を強く証明している。

An increasing number of communication and computational schemes with quantum advantages have recently been proposed, which implies that quantum technology has fertile application prospects. However, demonstrating these schemes experimentally continues to be a central challenge because of the difficulty in preparing high-dimensional states or highly entangled states. In this study, we introduce and analyse a quantum coupon collector protocol by employing coherent states and simple linear optical elements, which was successfully demonstrated using realistic experimental equipment. We showed that our protocol can significantly reduce the number of samples needed to learn a specific set compared with the classical limit of the coupon collector problem. We also discuss the potential values and expansions of the quantum coupon collector by constructing a quantum blind box game. The information transmitted by the proposed game also broke the classical limit. These results strongly prove the advantages of quantum mechanics in machine learning and communication complexity.
翻訳日:2021-12-17 01:04:21 公開日:2021-12-15
# (参考訳) 高度データマイニングツールを用いた緊急医療問題における心筋梗塞の検討とその効果 [全文訳有]

Investigating myocardial infarction and its effects in patients with urgent medical problems using advanced data mining tools ( http://arxiv.org/abs/2112.07890v1 )

ライセンス: CC BY 4.0
Tanya Aghazadeh and Mostafa Bagheri(参考訳) 医学では、異なる疾患に関する複数のデータを集めることが非常に重要であり、このデータの最も重要な目的の1つは疾患を調べることである。 心筋梗塞は死亡の重大な危険因子であり、過去の研究では、心臓疾患の患者に重点を置いており、人口動態、心エコー、心電図による心筋梗塞の可能性を測定している。 対照的に,本研究の目的は,緊急手術を考慮し,心筋梗塞予測を行うことにより,心筋梗塞時の心筋力を同定するために,データ解析アルゴリズムを活用し,心臓発作患者におけるその正確性を比較することである。 この目的のために, 年齢, 緊急手術時, クレアチンホスホキナーゼ (cpk) 試験, 心拍数, 血糖値, 静脈の計14例の診療記録を, ランダム決定森林, 決定木, サポートベクターマシン (svm), k-nearest neighbor, 順序ロジスティック回帰などのデータ分析の分類手法を用いて収集し, 検討した。 最後に, 平均評価指標から, 精度が76%の無作為決定林のモデルを最適モデルとして選択した。 また、クレアチンホスホキナーゼテストの7つの特徴、尿素、白血球数、血糖、時間、ヘモグロビンが、射出分画変数の最も効果的な特徴として同定されている。

In medical science, it is very important to gather multiple data on different diseases and one of the most important objectives of the data is to investigate the diseases. Myocardial infarction is a serious risk factor in mortality and in previous studies, the main emphasis has been on people with heart disease and measuring the likelihood of myocardial infarction in them through demographic features, echocardiography, and electrocardiogram. In contrast, the purpose of the present study is to utilize data analysis algorithms and compare their accuracy in patients with a heart attack in order to identify the heart muscle strength during myocardial infarction by taking into account emergency operations and consequently predict myocardial infarction. For this purpose, 105 medical records of myocardial infarction patients with fourteen features including age, the time of emergency operation, Creatine Phosphokinase (CPK) test, heart rate, blood sugar, and vein are gathered and investigated through classification techniques of data analysis including random decision forests, decision tree, support vector machine (SVM), k-nearest neighbor, and ordinal logistic regression. Finally, the model of random decision forests with an accuracy of 76% is selected as the best model in terms of the mean evaluation indicator. Also, seven features of the creatine Phosphokinase test, urea, white and red blood cell count, blood sugar, time, and hemoglobin are identified as the most effective features of the ejection fraction variable.
翻訳日:2021-12-17 00:48:42 公開日:2021-12-15
# (参考訳) 弱ラベルデータからの問合せ学習によるゼロショット音源分離 [全文訳有]

Zero-shot Audio Source Separation through Query-based Learning from Weakly-labeled Data ( http://arxiv.org/abs/2112.07891v1 )

ライセンス: CC BY 4.0
Ke Chen, Xingjian Du, Bilei Zhu, Zejun Ma, Taylor Berg-kirkpatrick, Shlomo Dubnov(参考訳) 音源を異なる音源に分離する深層学習技術はいくつかの課題に直面している。 標準アーキテクチャでは、異なるタイプのオーディオソースに対して別々のモデルをトレーニングする必要がある。 一部のユニバーサルセパレータは、複数のソースを対象とする単一のモデルを採用しているが、見えないソースへの一般化は困難である。 本稿では,汎用オーディオソースセパレータを,大きくて弱いラベルのデータセットであるaudiosetからトレーニングするための3成分パイプラインを提案する。 まず,弱ラベル学習データを処理するためのトランスベース音響イベント検出システムを提案する。 第2に,モデルトレーニングにこのデータを活用するクエリベースの音声分離モデルを考案する。 第3に,分離のための音声ターゲットを指定するクエリをエンコードする潜在組み込みプロセッサを設計し,ゼロショット一般化を可能にした。 提案手法では,複数の音源の分離に単一モデルを用い,学習のための弱ラベルデータのみに依存する。 さらに、提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。 分離性能を評価するため,不随意オーディオセットのトレーニング中,MUSDB18上でモデルを検証した。 さらに、トレーニングから遠ざかる音源タイプについて、別の実験を行うことで、ゼロショット性能を検証する。 このモデルは、両方のケースで現在の教師付きモデルに匹敵するソース・ツー・ディストーション比(SDR)性能を達成する。

Deep learning techniques for separating audio into different sound sources face several challenges. Standard architectures require training separate models for different types of audio sources. Although some universal separators employ a single model to target multiple sources, they have difficulty generalizing to unseen sources. In this paper, we propose a three-component pipeline to train a universal audio source separator from a large, but weakly-labeled dataset: AudioSet. First, we propose a transformer-based sound event detection system for processing weakly-labeled training data. Second, we devise a query-based audio separation model that leverages this data for model training. Third, we design a latent embedding processor to encode queries that specify audio targets for separation, allowing for zero-shot generalization. Our approach uses a single model for source separation of multiple sound types, and relies solely on weakly-labeled data for training. In addition, the proposed audio separator can be used in a zero-shot setting, learning to separate types of audio sources that were never seen in training. To evaluate the separation performance, we test our model on MUSDB18, while training on the disjoint AudioSet. We further verify the zero-shot performance by conducting another experiment on audio source types that are held-out from training. The model achieves comparable Source-to-Distortion Ratio (SDR) performance to current supervised models in both cases.
翻訳日:2021-12-17 00:39:38 公開日:2021-12-15
# (参考訳) グラフ分割の学習 [全文訳有]

Learning Graph Partitions ( http://arxiv.org/abs/2112.07897v1 )

ライセンス: CC BY 4.0
Sayan Mukherjee(参考訳) 連結されたコンポーネントにグラフを分割すると、oracleはグラフの任意の2つの頂点が同じコンポーネントにあるかどうかを断言する。 我々は$n\ge k\ge 2$に対して、$k$コンポーネントを持つ$n$-vertex隠れグラフのコンポーネントを学ぶには、少なくとも$\frac{1}{2}(n-k)(k-1)$メンバシップクエリが必要であることを証明している。 これは、Reyzin と Srivastava (2007) がこの問題に対して提案した$O(nk)$アルゴリズムの最適性を証明し、$Omega(n\log k)$クエリの最もよく知られた情報理論境界を改善する。 さらに,本研究では,完全分割を学習するよりも漸近的に少ないクエリで$G$の成分数を学習できるオラクルを構築し,同じ著者による別の質問に答える。 最後に、このオラクルのより適用可能なバージョンを紹介し、このオラクルを使って$m$のエッジ隠れグラフを学習および検証するための$\widetilde\Theta(m) $クエリの漸近的に厳密な境界を証明します。

Given a partition of a graph into connected components, the membership oracle asserts whether any two vertices of the graph lie in the same component or not. We prove that for $n\ge k\ge 2$, learning the components of an $n$-vertex hidden graph with $k$ components requires at least $\frac{1}{2}(n-k)(k-1)$ membership queries. This proves the optimality of the $O(nk)$ algorithm proposed by Reyzin and Srivastava (2007) for this problem, improving on the best known information-theoreti c bound of $\Omega(n\log k)$ queries. Further, we construct an oracle that can learn the number of components of $G$ in asymptotically fewer queries than learning the full partition, thus answering another question posed by the same authors. Lastly, we introduce a more applicable version of this oracle, and prove asymptotically tight bounds of $\widetilde\Theta(m) $ queries for both learning and verifying an $m$-edge hidden graph $G$ using this oracle.
翻訳日:2021-12-17 00:24:15 公開日:2021-12-15
# (参考訳) LongT5:ロングシーケンスのための効率的なテキストからテキストへの変換 [全文訳有]

LongT5: Efficient Text-To-Text Transformer for Long Sequences ( http://arxiv.org/abs/2112.07916v1 )

ライセンス: CC BY 4.0
Mandy Guo, Joshua Ainslie, David Uthus, Santiago Ontanon, Jianmo Ni, Yun-Hsuan Sung, Yinfei Yang(参考訳) 近年の研究では,(1)入力長の増大,(2)モデルサイズの増加がトランスフォーマーベースニューラルモデルの性能を向上させることが示されている。 本稿では,LongT5と呼ばれる新しいモデルを提案し,入力長とモデルサイズを同時にスケーリングする効果について検討する。 具体的には, 長入力トランスフォーマー (etc) から注目されるアイデアを統合し, 要約事前学習 (pegasus) からスケーラブルなt5アーキテクチャへの事前学習戦略を採用した。 結果として、私たちが"em transient global} (tglobal)"と呼ぶ新しいアテンションメカニズムが生まれました。これはetのローカル/グローバルアテンションメカニズムを模倣したものですが、追加のサイドインプットは必要ありません。 いくつかの要約タスクで最先端の結果を達成でき、質問応答タスクで元のt5モデルよりも優れています。

Recent work has shown that either (1) increasing the input length or (2) increasing model size can improve the performance of Transformer-based neural models. In this paper, we present a new model, called LongT5, with which we explore the effects of scaling both the input length and model size at the same time. Specifically, we integrated attention ideas from long-input transformers (ETC), and adopted pre-training strategies from summarization pre-training (PEGASUS) into the scalable T5 architecture. The result is a new attention mechanism we call {\em Transient Global} (TGlobal), which mimics ETC's local/global attention mechanism, but without requiring additional side-inputs. We are able to achieve state-of-the-art results on several summarization tasks and outperform the original T5 models on question answering tasks.
翻訳日:2021-12-17 00:14:55 公開日:2021-12-15
# (参考訳) SPTS:シングルポイントテキストスポッティング [全文訳有]

SPTS: Single-Point Text Spotting ( http://arxiv.org/abs/2112.07917v1 )

ライセンス: CC BY 4.0
Dezhi Peng, Xinyu Wang, Yuliang Liu, Jiaxin Zhang, Mingxin Huang, Songxuan Lai, Shenggao Zhu, Jing Li, Dahua Lin, Chunhua Shen, Lianwen Jin(参考訳) ほとんどすべてのシーンテキストスポッティング(検出と認識)手法はコストの高いボックスアノテーション(テキスト行ボックス、ワードレベルボックス、文字レベルボックスなど)に依存している。 学習シーンのテキストスポッティングモデルを,各インスタンスの単一ポイントの極めて低コストなアノテーションで実現できることを,初めて実証した。 本稿では,シーンテキストスポッティングを言語モデルのようなシーケンス予測タスクとして扱う,エンドツーエンドのシーンテキストスポッティング手法を提案する。 入力として画像が与えられると、所望の検知および認識結果を離散トークンの列として定式化し、自動回帰変換器を用いてシーケンスを予測する。 複数の水平・多目的・任意形状のシーンテキストベンチマークで有望な結果が得られる。 最も顕著なことは、性能がポイントアノテーションの位置にあまり敏感でないことを示し、正確な位置を必要とするバウンディングボックスよりも注釈付けや自動生成がずっと容易であることを意味する。 このような先駆的な試みは、以前よりもはるかに大規模なシーンテキストスポッティングの応用の可能性を示していると我々は信じている。

Almost all scene text spotting (detection and recognition) methods rely on costly box annotation (e.g., text-line box, word-level box, and character-level box). For the first time, we demonstrate that training scene text spotting models can be achieved with an extremely low-cost annotation of a single-point for each instance. We propose an end-to-end scene text spotting method that tackles scene text spotting as a sequence prediction task, like language modeling. Given an image as input, we formulate the desired detection and recognition results as a sequence of discrete tokens and use an auto-regressive transformer to predict the sequence. We achieve promising results on several horizontal, multi-oriented, and arbitrarily shaped scene text benchmarks. Most significantly, we show that the performance is not very sensitive to the positions of the point annotation, meaning that it can be much easier to be annotated and automatically generated than the bounding box that requires precise positions. We believe that such a pioneer attempt indicates a significant opportunity for scene text spotting applications of a much larger scale than previously possible.
翻訳日:2021-12-16 23:54:53 公開日:2021-12-15
# (参考訳) 認知症における画像解析と機械学習競技の10年 [全文訳有]

Ten years of image analysis and machine learning competitions in dementia ( http://arxiv.org/abs/2112.07922v1 )

ライセンス: CC BY 4.0
Esther E. Bron, Stefan Klein, Annika Reinke, Janne M. Papma, Lena Maier-Hein, Daniel C. Alexander, Neil P. Oxtoby(参考訳) マルチパラメトリックバイオマーカー、特にニューロイメージングに基づく機械学習手法は、認知症の早期診断を改善し、どの個人が認知症を発症するリスクがあるかを予測する大きな可能性を秘めている。 認知症における機械学習とニューロイメージングの分野のアルゴリズムをベンチマークし、臨床と臨床試験での使用可能性を評価するために、過去10年間に7つの大きな課題が組織された: ミリアド、アルツハイマー病ビッグデータドリーム、キャデメンティア、機械学習チャレンジ、mciニューロイメージング、タッドポール、予測分析コンペティション。 2つのチャレンジ評価フレームワークに基づいて、研究課題、データセット、検証アプローチ、結果、影響について、これらの大きな課題がどのように相互補完しているかを分析した。 7つの大きな課題は, 認知症のスクリーニング, 診断, 予測, モニタリングに関連する問題に対処した。 臨床質問やタスク,パフォーマンス指標にはほとんど重複がなかった。 幅広い質問に対する洞察を提供するという利点がある一方で、課題を越えた結果の検証も制限されている。 一般に、入賞アルゴリズムは厳密なデータ前処理を行い、幅広い入力特徴を組み合わせた。 最先端のパフォーマンスにもかかわらず、課題によって評価された手法のほとんどは臨床的に使われていない。 影響を高めるために、将来の課題は、高いパフォーマンスに関連する要因(すなわち特徴、モデル)の統計分析、アルツハイマー病以外の臨床問題、アルツハイマー病の神経画像化イニシアチブを超えてテストデータを使用することにより多くの注意を払うことができる。 過去10年間に学んだ可能性と教訓を考えると、今後10年間にわたる機械学習とニューロイメージングにおける大きな課題の展望にワクワクしています。

Machine learning methods exploiting multi-parametric biomarkers, especially based on neuroimaging, have huge potential to improve early diagnosis of dementia and to predict which individuals are at-risk of developing dementia. To benchmark algorithms in the field of machine learning and neuroimaging in dementia and assess their potential for use in clinical practice and clinical trials, seven grand challenges have been organized in the last decade: MIRIAD, Alzheimer's Disease Big Data DREAM, CADDementia, Machine Learning Challenge, MCI Neuroimaging, TADPOLE, and the Predictive Analytics Competition. Based on two challenge evaluation frameworks, we analyzed how these grand challenges are complementing each other regarding research questions, datasets, validation approaches, results and impact. The seven grand challenges addressed questions related to screening, diagnosis, prediction and monitoring in (pre-clinical) dementia. There was little overlap in clinical questions, tasks and performance metrics. Whereas this has the advantage of providing insight on a broad range of questions, it also limits the validation of results across challenges. In general, winning algorithms performed rigorous data pre-processing and combined a wide range of input features. Despite high state-of-the-art performances, most of the methods evaluated by the challenges are not clinically used. To increase impact, future challenges could pay more attention to statistical analysis of which factors (i.e., features, models) relate to higher performance, to clinical questions beyond Alzheimer's disease, and to using testing data beyond the Alzheimer's Disease Neuroimaging Initiative. Given the potential and lessons learned in the past ten years, we are excited by the prospects of grand challenges in machine learning and neuroimaging for the next ten years and beyond.
翻訳日:2021-12-16 23:33:49 公開日:2021-12-15
# (参考訳) ブロックチェーン対応サーバレスフェデレーション学習 [全文訳有]

Blockchain-enabled Server-less Federated Learning ( http://arxiv.org/abs/2112.07938v1 )

ライセンス: CC BY 4.0
Francesc Wilhelmi, Lorenza Giupponi, Paolo Dini(参考訳) 大規模なフェデレートラーニング(FL)最適化に参加するデバイスの異種性により、Blockchain(BC)技術によって強化された非同期サーバレスFLソリューションに焦点を当てる。 同期処理を前提としたFLアプローチとは対照的に,クライアントがローカル更新を送信する際にモデル集約を行う非同期手法を提案する。 非同期設定は、異種クライアントによる実用的な大規模設定において、フェデレーション最適化のアイデアとよく適合する。 したがって、通信オーバーヘッドやアイドル期間の点で効率が向上する可能性がある。 BC対応FLの学習完了遅延を評価するため,バッチサービスキュー理論に基づく解析モデルを提案する。 さらに,同期機構と非同期機構の両方の性能を評価するシミュレーション結果を提供する。 BC対応FL最適化に関わる重要な側面として、ネットワークサイズ、リンク容量、ユーザ要求などが挙げられ、分析される。 結果が示すように、同期設定は非同期ケースよりも高い予測精度をもたらす。 それにもかかわらず、非同期フェデレーション最適化は多くの場合、レイテンシをはるかに低くするので、大きなデータセット、厳しいタイミング制約(例えば、準リアルタイムアプリケーション)、あるいは非常に多様なトレーニングデータを扱う際に、魅力的なFLソリューションとなる。

Motivated by the heterogeneous nature of devices participating in large-scale Federated Learning (FL) optimization, we focus on an asynchronous server-less FL solution empowered by Blockchain (BC) technology. In contrast to mostly adopted FL approaches, which assume synchronous operation, we advocate an asynchronous method whereby model aggregation is done as clients submit their local updates. The asynchronous setting fits well with the federated optimization idea in practical large-scale settings with heterogeneous clients. Thus, it potentially leads to higher efficiency in terms of communication overhead and idle periods. To evaluate the learning completion delay of BC-enabled FL, we provide an analytical model based on batch service queue theory. Furthermore, we provide simulation results to assess the performance of both synchronous and asynchronous mechanisms. Important aspects involved in the BC-enabled FL optimization, such as the network size, link capacity, or user requirements, are put together and analyzed. As our results show, the synchronous setting leads to higher prediction accuracy than the asynchronous case. Nevertheless, asynchronous federated optimization provides much lower latency in many cases, thus becoming an appealing FL solution when dealing with large data sets, tough timing constraints (e.g., near-real-time applications), or highly varying training data.
翻訳日:2021-12-16 23:06:26 公開日:2021-12-15
# (参考訳) 時間空間補助ネットワークによるトランスコード映像復元 [全文訳有]

Transcoded Video Restoration by Temporal Spatial Auxiliary Network ( http://arxiv.org/abs/2112.07948v1 )

ライセンス: CC BY 4.0
Li Xu, Gang He, Jinjia Zhou, Jie Lei, Weiying Xie, Yunsong Li, Yu-Wing Tai(参考訳) YoutubeやTikTokのようなほとんどのビデオプラットフォームでは、再生されたビデオは通常、デバイスによるハードウェアエンコーディング、ビデオ編集アプリによるソフトウェアエンコーディング、ビデオアプリケーションサーバによるシングル/マルチビデオトランスコーディングのような複数のビデオエンコーディングを行う。 圧縮ビデオ復元の以前の作品は、通常圧縮アーティファクトがワンタイムエンコーディングによって引き起こされると仮定している。 したがって、導出された解は通常、あまりうまく機能しない。 本稿では,トランスコードビデオ復元のための時間空間補助ネットワーク(tsan)を提案する。 本手法では,ビデオエンコーディングとトランスコーディングのユニークな特徴を考察し,最初の浅いエンコードビデオは,ネットワークが自己教師あり注意訓練を行うのを支援する中間ラベルであると考えている。 また,隣接したマルチフレーム情報を用いて,時間的変形可能なアライメントとピラミッド空間融合を提案する。 実験の結果,提案手法の性能は従来の手法よりも優れていることがわかった。 コードはhttps://github.com/i cecherylxuli/tsanで入手できる。

In most video platforms, such as Youtube, and TikTok, the played videos usually have undergone multiple video encodings such as hardware encoding by recording devices, software encoding by video editing apps, and single/multiple video transcoding by video application servers. Previous works in compressed video restoration typically assume the compression artifacts are caused by one-time encoding. Thus, the derived solution usually does not work very well in practice. In this paper, we propose a new method, temporal spatial auxiliary network (TSAN), for transcoded video restoration. Our method considers the unique traits between video encoding and transcoding, and we consider the initial shallow encoded videos as the intermediate labels to assist the network to conduct self-supervised attention training. In addition, we employ adjacent multi-frame information and propose the temporal deformable alignment and pyramidal spatial fusion for transcoded video restoration. The experimental results demonstrate that the performance of the proposed method is superior to that of the previous techniques. The code is available at https://github.com/i cecherylXuli/TSAN.
翻訳日:2021-12-16 22:39:39 公開日:2021-12-15
# (参考訳) 物体追跡:判別的重み生成による物体空間の構築 [全文訳有]

Object Pursuit: Building a Space of Objects via Discriminative Weight Generation ( http://arxiv.org/abs/2112.07954v1 )

ライセンス: CC BY 4.0
Chuanyu Pan, Yanchao Yang, Kaichun Mo, Yueqi Duan, and Leonidas Guibas(参考訳) 視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。 既存のオブジェクト中心の表現は、シーン内のオブジェクトを識別する監督に依存するか、または現実世界の複雑なシーンにほとんど対処できない教師なしのアンタングルを実行する。 アノテーションの負担軽減とデータの統計的複雑さの制約緩和のために,本手法では,オブジェクト中心表現を学習しながら,オブジェクトと対応するトレーニング信号の多様なバリエーションを効果的にサンプリングする。 学習を通して、オブジェクトは未知のアイデンティティを持つランダムな順序で1つずつストリームされ、畳み込みのハイパーネットワークを通して各オブジェクトの識別重みを合成できる潜在コードと関連付けられる。 また、学習対象の再同定と学習プロセスを効率的かつ堅牢にするために、学習対象の欠落防止が用いられる。 提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析する。 さらに,下流タスクにおけるラベル効率を向上させるための表現学習における提案フレームワークの能力を示す。 私たちのコードとトレーニングされたモデルは公開されます。

We propose a framework to continuously learn object-centric representations for visual learning and understanding. Existing object-centric representations either rely on supervisions that individualize objects in the scene, or perform unsupervised disentanglement that can hardly deal with complex scenes in the real world. To mitigate the annotation burden and relax the constraints on the statistical complexity of the data, our method leverages interactions to effectively sample diverse variations of an object and the corresponding training signals while learning the object-centric representations. Throughout learning, objects are streamed one by one in random order with unknown identities, and are associated with latent codes that can synthesize discriminative weights for each object through a convolutional hypernetwork. Moreover, re-identification of learned objects and forgetting prevention are employed to make the learning process efficient and robust. We perform an extensive study of the key features of the proposed framework and analyze the characteristics of the learned representations. Furthermore, we demonstrate the capability of the proposed framework in learning representations that can improve label efficiency in downstream tasks. Our code and trained models will be made publicly available.
翻訳日:2021-12-16 22:27:38 公開日:2021-12-15
# (参考訳) メディア記憶力の予測 : 視覚的, テキスト的, 聴覚的特徴の比較 [全文訳有]

Predicting Media Memorability: Comparing Visual, Textual and Auditory Features ( http://arxiv.org/abs/2112.07969v1 )

ライセンス: CC BY 4.0
Lorin Sweeney and Graham Healy and Alan F. Smeaton(参考訳) 本稿では,メディア記憶可能性を自動的に予測するタスクを設定し,メディア記憶可能性の問題に対処することを目的としたmediaeval 2021におけるメディア記憶可能性予測タスクのアプローチについて述べる。 今年は,3つの探索されたモダリティのそれぞれについてより深い洞察を得るとともに,昨年の提出(2020年)の成果を参考として,比較の観点からタスクに取り組む。 昨年のように、TRECVid2019データセットでテストされた私たちの最高の短期記憶モデル(0.132)は、TRECVidデータでトレーニングされていないフレームベースのCNNで、Memento10kデータセットでテストされた最高の短期記憶モデル(0.524)は、DenseNet121ビジュアル機能に適合したベイジアンライド回帰器でした。

This paper describes our approach to the Predicting Media Memorability task in MediaEval 2021, which aims to address the question of media memorability by setting the task of automatically predicting video memorability. This year we tackle the task from a comparative standpoint, looking to gain deeper insights into each of three explored modalities, and using our results from last year's submission (2020) as a point of reference. Our best performing short-term memorability model (0.132) tested on the TRECVid2019 dataset -- just like last year -- was a frame based CNN that was not trained on any TRECVid data, and our best short-term memorability model (0.524) tested on the Memento10k dataset, was a Bayesian Ride Regressor fit with DenseNet121 visual features.
翻訳日:2021-12-16 22:02:08 公開日:2021-12-15
# (参考訳) 背景制約を考慮した時間的行動提案生成 [全文訳有]

Temporal Action Proposal Generation with Background Constraint ( http://arxiv.org/abs/2112.07984v1 )

ライセンス: CC BY-SA 4.0
Haosen Yang, Wenhao Wu, Lining Wang, Sheng Jin, Boyang Xia, Hongxun Yao, Hujie Huang(参考訳) 時間的アクション提案生成(TAPG)は、時間的境界のある未トリミングビデオ中のアクションインスタンスを見つけることを目的とした課題である。 提案の信頼性を評価するため、既存の研究は、提案と根本真実の間の時間的相互統合(tIoU)によって監督される提案の行動スコアを予測するのが一般的である。 本稿では,提案の信頼度を制限するために,背景予測スコアを活用し,低品質提案をさらに抑制するための汎用的補助的背景制約概念を提案する。 このように、バックグラウンド制約の概念は既存のTAPGメソッド(例えばBMN、GTAD)に簡単にプラグアンドプレイできる。 この観点から、アクションとバックグラウンドの豊富な情報を活用するために、bcnet(background constraint network)を提案する。 具体的には、フレームとクリップレベルでの注意機構により、アクションとバックグラウンドの整合性をモデル化する、信頼性評価のためのアクション-背景相互作用モジュールを提案する。 一般的なベンチマークである activitynet-1.3 と thumos14 で広範な実験が行われている。 その結果,本手法は最先端手法よりも優れていた。 本手法は,既存の行動分類器を備え,時間的行動局所化タスクにおいて顕著な性能を実現する。

Temporal action proposal generation (TAPG) is a challenging task that aims to locate action instances in untrimmed videos with temporal boundaries. To evaluate the confidence of proposals, the existing works typically predict action score of proposals that are supervised by the temporal Intersection-over-Un ion (tIoU) between proposal and the ground-truth. In this paper, we innovatively propose a general auxiliary Background Constraint idea to further suppress low-quality proposals, by utilizing the background prediction score to restrict the confidence of proposals. In this way, the Background Constraint concept can be easily plug-and-played into existing TAPG methods (e.g., BMN, GTAD). From this perspective, we propose the Background Constraint Network (BCNet) to further take advantage of the rich information of action and background. Specifically, we introduce an Action-Background Interaction module for reliable confidence evaluation, which models the inconsistency between action and background by attention mechanisms at the frame and clip levels. Extensive experiments are conducted on two popular benchmarks, i.e., ActivityNet-1.3 and THUMOS14. The results demonstrate that our method outperforms state-of-the-art methods. Equipped with the existing action classifier, our method also achieves remarkable performance on the temporal action localization task.
翻訳日:2021-12-16 21:56:11 公開日:2021-12-15
# (参考訳) 自動微分による分析スパーシティ優先の教師付き学習 [全文訳有]

Supervised learning of analysis-sparsity priors with automatic differentiation ( http://arxiv.org/abs/2112.07990v1 )

ライセンス: CC BY 4.0
Hashem Ghanem, Joseph Salmon, Nicolas Keriven, and Samuel Vaiter(参考訳) 空間的先行性は、一般に装飾や画像再構成に使用される。 分析型事前の場合、辞書はスパースとなる可能性のある信号の表現を定義する。 ほとんどの状況では、この辞書は知られておらず、復元誤差を最小にすることで、対の接地信号と測定値から復元される。 これは階層的な最適化の問題を定義し、二段階最適化とすることができる。 しかし、この問題は解決不可能であり、再構成とその微分 wrt は閉形式表現を持たない。 しかし、フォワードバックワード分割 (fb) アルゴリズムを用いて反復的に再構成を計算できる。 本稿では、前述のFBアルゴリズムの出力による再構成を近似する。 次に, 自動微分を利用して, この出力wrt辞書の勾配評価を行い, 予測された勾配降下によって学習する。 実験により,1次元全変動辞書(tv)を分割定数信号から学習することに成功した。 同じケーススタディでは,0中心列の辞書への探索を制限し,好ましくない局所的極小を除去し,数値的安定性を向上させることを提案する。

Sparsity priors are commonly used in denoising and image reconstruction. For analysis-type priors, a dictionary defines a representation of signals that is likely to be sparse. In most situations, this dictionary is not known, and is to be recovered from pairs of ground-truth signals and measurements, by minimizing the reconstruction error. This defines a hierarchical optimization problem, which can be cast as a bi-level optimization. Yet, this problem is unsolvable, as reconstructions and their derivative wrt the dictionary have no closed-form expression. However, reconstructions can be iteratively computed using the Forward-Backward splitting (FB) algorithm. In this paper, we approximate reconstructions by the output of the aforementioned FB algorithm. Then, we leverage automatic differentiation to evaluate the gradient of this output wrt the dictionary, which we learn with projected gradient descent. Experiments show that our algorithm successfully learns the 1D Total Variation (TV) dictionary from piecewise constant signals. For the same case study, we propose to constrain our search to dictionaries of 0-centered columns, which removes undesired local minima and improves numerical stability.
翻訳日:2021-12-16 21:43:43 公開日:2021-12-15
# (参考訳) astroparticle実験における相互作用局在化のためのドメイン不定形ニューラルネットワーク [全文訳有]

Domain-informed neural networks for interaction localization within astroparticle experiments ( http://arxiv.org/abs/2112.07995v1 )

ライセンス: CC BY-SA 4.0
Shixiao Liang, Aaron Higuera, Christina Peters, Venkat Roy, Waheed U. Bajwa, Hagit Shatkay, Christopher D. Tunnell(参考訳) 本稿では,ダークマター研究のための時間投影チャンバー(tpc)技術を用いた粒子間相互作用の定位を例に,実験粒子物理学のためのドメインインフォームドニューラルネットワークアーキテクチャを提案する。 TPC内で発生する信号の重要な特徴は、再構成と呼ばれるプロセスを通じて粒子相互作用の局所化を可能にすることである。 マルチ層パーセプトロン (MLP) はTPCの再構築において主要な候補となっているが、そのようなブラックボックスアプローチは基礎となる科学的プロセスの事前の知識を反映していない。 本稿では,ニューラルネットワークを用いたインタラクションのローカライズに目を向け,信号特性と検出器形状の両方の観点から,事前検出知識を多層ニューラルネットワークの特徴エンコーディングと出力層にエンコードする。 結果として生じるドメイン情報ニューラルネットワーク(DiNN)は、TPC内で発生する信号の空間的局所性を考慮するために、初期特徴符号化層におけるニューロンの受容野を制限する。 DiNNのこの側面は、初期層内のニューロンが後続層内の少数のニューロンにのみ接続するというグラフニューラルネットワークの出現する領域と類似しており、MLPと比較してネットワーク内のパラメータの数を大幅に減少させる。 さらに、検出器幾何を考慮するため、ネットワークの出力層は2つの幾何変換を用いて修正され、dinnが検出器の内部に局在を生じさせることが保証される。 最終的な結果は、MLPよりも60%少ないパラメータを持つニューラルネットワークアーキテクチャであるが、それでも同様のローカライゼーションパフォーマンスを実現し、アーキテクチャに追加のドメイン知識をエンコードできるため、パフォーマンスを改善した将来のアーキテクチャ開発へのパスを提供する。

This work proposes a domain-informed neural network architecture for experimental particle physics, using particle interaction localization with the time-projection chamber (TPC) technology for dark matter research as an example application. A key feature of the signals generated within the TPC is that they allow localization of particle interactions through a process called reconstruction. While multilayer perceptrons (MLPs) have emerged as a leading contender for reconstruction in TPCs, such a black-box approach does not reflect prior knowledge of the underlying scientific processes. This paper looks anew at neural network-based interaction localization and encodes prior detector knowledge, in terms of both signal characteristics and detector geometry, into the feature encoding and the output layers of a multilayer neural network. The resulting Domain-informed Neural Network (DiNN limits the receptive fields of the neurons in the initial feature encoding layers in order to account for the spatially localized nature of the signals produced within the TPC. This aspect of the DiNN, which has similarities with the emerging area of graph neural networks in that the neurons in the initial layers only connect to a handful of neurons in their succeeding layer, significantly reduces the number of parameters in the network in comparison to an MLP. In addition, in order to account for the detector geometry, the output layers of the network are modified using two geometric transformations to ensure the DiNN produces localizations within the interior of the detector. The end result is a neural network architecture that has 60% fewer parameters than an MLP, but that still achieves similar localization performance and provides a path to future architectural developments with improved performance because of their ability to encode additional domain knowledge into the architecture.
翻訳日:2021-12-16 21:33:52 公開日:2021-12-15
# (参考訳) ディイルトクロスアテンションを用いた様々な照明条件下での連続深さ予測 [全文訳有]

Consistent Depth Prediction under Various Illuminations using Dilated Cross Attention ( http://arxiv.org/abs/2112.08006v1 )

ライセンス: CC BY 4.0
Zitian Zhang, Chuhua Xian(参考訳) 本稿では,様々な照明条件下での複雑なシーンにおける一貫した深度予測の課題を解決することを目的とする。 既存のRGB-Dセンサーや仮想レンダリングに基づく屋内データセットには、スパース深度マップ(NYU深度V2)と非リアル照明(SUN CG, SceneNet RGB-D)という2つの重要な制限がある。 我々は,インターネット3D屋内シーンを用いて照明を手動で調整し,写真リアルなRGB写真とその対応する深度とBRDFマップを描画し,Variデータセットと呼ばれる新しい屋内深度データセットを取得することを提案する。 我々は,大域的な情報処理とパラメータの削減のために,深度的に分離可能な拡張畳み込みを符号化特徴に適用し,DCAという単純な畳み込みブロックを提案する。 異なる照度下での奥行き予測の一貫性を保つため,これらの拡張特徴を横断的に注目する。 本手法は,variデータセットの最先端手法と比較することで評価し,実験で有意な改善が得られた。 また,nyu深度v2のモデルを用いてアブレーション実験を行い,実世界データを評価し,dcaブロックの有効性をさらに検証した。 コード、事前トレーニングされた重み付け、Variデータセットはオープンソースである。

In this paper, we aim to solve the problem of consistent depth prediction in complex scenes under various illumination conditions. The existing indoor datasets based on RGB-D sensors or virtual rendering have two critical limitations - sparse depth maps (NYU Depth V2) and non-realistic illumination (SUN CG, SceneNet RGB-D). We propose to use internet 3D indoor scenes and manually tune their illuminations to render photo-realistic RGB photos and their corresponding depth and BRDF maps, obtaining a new indoor depth dataset called Vari dataset. We propose a simple convolutional block named DCA by applying depthwise separable dilated convolution on encoded features to process global information and reduce parameters. We perform cross attention on these dilated features to retain the consistency of depth prediction under different illuminations. Our method is evaluated by comparing it with current state-of-the-art methods on Vari dataset and a significant improvement is observed in our experiments. We also conduct the ablation study, finetune our model on NYU Depth V2 and also evaluate on real-world data to further validate the effectiveness of our DCA block. The code, pre-trained weights and Vari dataset are open-sourced.
翻訳日:2021-12-16 21:20:14 公開日:2021-12-15
# (参考訳) ニューラルネットワークによる量子状態の分離近似の構築 [全文訳有]

Building separable approximations for quantum states via neural networks ( http://arxiv.org/abs/2112.08055v1 )

ライセンス: CC BY 4.0
Antoine Girardin, Nicolas Brunner and Tam\'as Kriv\'achy(参考訳) 与えられた目標状態に最も近い分離可能な状態を見つけることは、状態が絡み合っているか分離可能であるかを判断するよりも、非常に難しい作業である。 この課題に取り組むために、ニューラルネットワークを用いて分離可能な状態をパラメータ化し、トレース距離やヒルベルト・シュミット距離などの微分可能な距離に関して、所定の目標状態までの距離を最小化するよう訓練する。 アルゴリズムの出力を調べることにより、対象状態が絡み合っているか否かを推定し、最も近い分離可能な状態の近似を構築することができる。 本手法はバイパルタイト状態の様々なクラスでベンチマークを行い, 局所次元が$d=10$である場合でも, 優れた一致を求める。 さらに, 分離可能性の異なる概念を考慮し, マルチパーティイトの場合において効率的な手法を示す。 3および4パーティのghzおよびw状態を調べると、既知の境界を回復し、トライセパビリティなど、新しいものを得る。 最後に,ニューラルネットワークの結果を用いて分析的洞察を得る方法を示す。

Finding the closest separable state to a given target state is a notoriously difficult task, even more difficult than deciding whether a state is entangled or separable. To tackle this task, we parametrize separable states with a neural network and train it to minimize the distance to a given target state, with respect to a differentiable distance, such as the trace distance or Hilbert-Schmidt distance. By examining the output of the algorithm, we can deduce whether the target state is entangled or not, and construct an approximation for its closest separable state. We benchmark the method on a variety of well-known classes of bipartite states and find excellent agreement, even up to local dimension of $d=10$. Moreover, we show our method to be efficient in the multipartite case, considering different notions of separability. Examining three and four-party GHZ and W states we recover known bounds and obtain novel ones, for instance for triseparability. Finally, we show how to use the neural network's results to gain analytic insight.
翻訳日:2021-12-16 21:07:01 公開日:2021-12-15
# (参考訳) 時系列生成のための画像ベース生成広告ネットワークの活用 [全文訳有]

Leveraging Image-based Generative Adversarial Networks for Time Series Generation ( http://arxiv.org/abs/2112.08060v1 )

ライセンス: CC BY 4.0
Justin Hellermann, Stefan Lessmann(参考訳) 生成モデルは、サンプリング品質、多様性、特徴の絡み合いに関して大きな成功を収めた画像データを合成する。 時系列生成モデルは、時間的ダイナミクスを捉え、サンプリングの反転を可能にする表現の欠如によるこれらの利点を欠いている。 本稿では,時系列生成における画像ベース生成対向ネットワークの利用を容易にするために,時間的回帰プロット(IRP)表現を提案する。 この表現は時系列特性のキャプチャに有効であり、他の表現と比較して可逆性とスケール不変性による利点が証明される。 実験的なベンチマークによってこれらの特徴が確認され、IRPが標準のワッサースタインGANに勾配のペナルティを付与し、特殊なRNNベースのGANより優れ、同時にモデルの複雑さを低減できることを示した。

Generative models synthesize image data with great success regarding sampling quality, diversity and feature disentanglement. Generative models for time series lack these benefits due to a missing representation, which captures temporal dynamics and allows inversion for sampling. The paper proposes the intertemporal return plot (IRP) representation to facilitate the use of image-based generative adversarial networks for time series generation. The representation proves effective in capturing time series characteristics and, compared to alternative representations, benefits from invertibility and scale-invariance. Empirical benchmarks confirm these features and demonstrate that the IRP enables an off-the-shelf Wasserstein GAN with gradient penalty to sample realistic time series, which outperform a specialized RNN-based GAN, while simultaneously reducing model complexity.
翻訳日:2021-12-16 20:46:55 公開日:2021-12-15
# (参考訳) 頭部運動ダイナミクスによる説明可能な人中心交通予測 [全文訳有]

Head Matters: Explainable Human-centered Trait Prediction from Head Motion Dynamics ( http://arxiv.org/abs/2112.08068v1 )

ライセンス: CC BY 4.0
Surbhi Madan, Monika Gahalawat, Tanaya Guha and Ramanathan Subramanian(参考訳) 本研究は,行動分析のための基本頭部運動ユニットkinemesの有用性を実証し,パーソナリティとインタビュー特性の予測を行う。 頭部運動パターンをキネムの配列に変換することにより、標的特性を特徴付ける潜在時間的シグネチャの発見が容易となり、効率的かつ説明可能な特徴予測が可能になる。 kinemes と face action coding system (facs) 機能を利用した予測 (a)第1回印象候補上映ビデオにおけるオセアン人格特性、及び b)mitデータセットにおけるインタビューの特徴は、(1)キネメシーケンスで訓練された長期記憶(lstm)ネットワークは、顔画像で訓練された畳み込みニューラルネットワーク(cnn)よりも優れており、(2)facsアクションユニット(aus)とキネムを組み合わせることで正確な予測と説明が行われ、(3)予測性能は、頭と顔の動きが観察される時間長に影響される。

We demonstrate the utility of elementary head-motion units termed kinemes for behavioral analytics to predict personality and interview traits. Transforming head-motion patterns into a sequence of kinemes facilitates discovery of latent temporal signatures characterizing the targeted traits, thereby enabling both efficient and explainable trait prediction. Utilizing Kinemes and Facial Action Coding System (FACS) features to predict (a) OCEAN personality traits on the First Impressions Candidate Screening videos, and (b) Interview traits on the MIT dataset, we note that: (1) A Long-Short Term Memory (LSTM) network trained with kineme sequences performs better than or similar to a Convolutional Neural Network (CNN) trained with facial images; (2) Accurate predictions and explanations are achieved on combining FACS action units (AUs) with kinemes, and (3) Prediction performance is affected by the time-length over which head and facial movements are observed.
翻訳日:2021-12-16 20:37:19 公開日:2021-12-15
# (参考訳) 改良されたステレオ再建のための深さ微細化 [全文訳有]

Depth Refinement for Improved Stereo Reconstruction ( http://arxiv.org/abs/2112.08070v1 )

ライセンス: CC BY 4.0
Amit Bracha, Noam Rotstein, David Bensa\"id, Ron Slossberg and Ron Kimmel(参考訳) 深さ推定は、ロボット工学、拡張現実、自動運転など、環境の3Dアセスメントを必要とする膨大な数のアプリケーションの基礎である。 深度推定の1つの顕著な手法はステレオマッチングであり、他の深度センシング技術よりもアクセスしやすいと考えられており、リアルタイムに深度推定を作成でき、近年の深度学習の進歩から大きな恩恵を受けている。 しかし,現在の立体画像からの奥行き推定手法では,まだ欠点が指摘されている。 立体マッチングアルゴリズムは、まず、幾何学的三角法を適用する前に、左右画像間の不一致マップを推定する。 簡単な解析により、深度誤差は物体の距離に比例することがわかった。 したがって、一定差分誤差は、カメラから遠く離れた物体に対して大きな深さ誤差に変換される。 この二次関係を緩和するために,奥行き推定に細分化ネットワークを用いた簡易かつ効果的な手法を提案する。 解析的および実証的な結果から,提案手法が2次関係を減少させることを示す。 本研究では,sceneflowやkittiデータセットなど,よく知られたベンチマークやデータセットで提案手法を評価し,奥行き精度指標の大幅な改善を示す。

Depth estimation is a cornerstone of a vast number of applications requiring 3D assessment of the environment, such as robotics, augmented reality, and autonomous driving to name a few. One prominent technique for depth estimation is stereo matching which has several advantages: it is considered more accessible than other depth-sensing technologies, can produce dense depth estimates in real-time, and has benefited greatly from the advances of deep learning in recent years. However, current techniques for depth estimation from stereoscopic images still suffer from a built-in drawback. To reconstruct depth, a stereo matching algorithm first estimates the disparity map between the left and right images before applying a geometric triangulation. A simple analysis reveals that the depth error is quadratically proportional to the object's distance. Therefore, constant disparity errors are translated to large depth errors for objects far from the camera. To mitigate this quadratic relation, we propose a simple but effective method that uses a refinement network for depth estimation. We show analytical and empirical results suggesting that the proposed learning procedure reduces this quadratic relation. We evaluate the proposed refinement procedure on well-known benchmarks and datasets, like Sceneflow and KITTI datasets, and demonstrate significant improvements in the depth accuracy metric.
翻訳日:2021-12-16 20:20:46 公開日:2021-12-15
# (参考訳) 認知認識コグネート検出 [全文訳有]

Cognition-aware Cognate Detection ( http://arxiv.org/abs/2112.08087v1 )

ライセンス: CC BY 4.0
Diptesh Kanojia, Prashant Sharma, Sayali Ghodekar, Pushpak Bhattacharyya, Gholamreza Haffari, Malhar Kulkarni(参考訳) コグネートの自動検出は、機械翻訳、言語間情報検索、計算系統解析、言語間名前付きエンティティ認識の下流のnlpタスクを支援する。 コグネート検出のタスクに対する従来のアプローチは、正書法、音声学的、意味的類似性に基づく特徴集合を用いる。 本稿では,人間の視線行動から認知的特徴を抽出し,特徴集合を豊かにするための新しい手法を提案する。 視線行動データを収集し,コグネート検出のタスクにおいて,認知的特徴の抽出が有用であることを示す。 しかし、データ収集とアノテーションはコストのかかるタスクである。 収集した視線行動データを用いて、より大きなサンプルに対する認知的特徴を予測し、予測された認知的特徴がタスク性能を著しく改善することを示す。 これまでに提案した手法と比較して, 収集した視線特徴の10%, 予測した視線特徴の12%の改善を報告した。 さらに,収集した視線行動データをコードと言語横断モデルとともにリリースする。

Automatic detection of cognates helps downstream NLP tasks of Machine Translation, Cross-lingual Information Retrieval, Computational Phylogenetics and Cross-lingual Named Entity Recognition. Previous approaches for the task of cognate detection use orthographic, phonetic and semantic similarity based features sets. In this paper, we propose a novel method for enriching the feature sets, with cognitive features extracted from human readers' gaze behaviour. We collect gaze behaviour data for a small sample of cognates and show that extracted cognitive features help the task of cognate detection. However, gaze data collection and annotation is a costly task. We use the collected gaze behaviour data to predict cognitive features for a larger sample and show that predicted cognitive features, also, significantly improve the task performance. We report improvements of 10% with the collected gaze features, and 12% using the predicted gaze features, over the previously proposed approaches. Furthermore, we release the collected gaze behaviour data along with our code and cross-lingual models.
翻訳日:2021-12-16 20:09:40 公開日:2021-12-15
# (参考訳) 生成モデルを用いたMOBAゲームにおける制御可能なエージェントを目指して [全文訳有]

Towards Controllable Agent in MOBA Games with Generative Modeling ( http://arxiv.org/abs/2112.08093v1 )

ライセンス: CC BY 4.0
Shubao Zhang(参考訳) 本稿では,マルチプレイヤーオンラインバトルアリーナ(moba)ゲームにおいて,人間のように行動し,人間と協調する能力を有するアクションコントロール可能なエージェントを開発するための新しい手法を提案する。 制御問題を行動生成過程としてモデル化することにより,学習エージェントのための深い潜在アライメントニューラルネットワークモデルと,エージェントの動作を制御するための対応するサンプリングアルゴリズムを考案する。 特に,コア潜在アライメントモデルの決定論的・確率的注意実装を提案する。 キングズ名誉ゲームにおけるシミュレーションおよびオンライン実験は,提案手法の有効性を実証するものである。

We propose novel methods to develop action controllable agent that behaves like a human and has the ability to align with human players in Multiplayer Online Battle Arena (MOBA) games. By modeling the control problem as an action generation process, we devise a deep latent alignment neural network model for training agent, and a corresponding sampling algorithm for controlling an agent's action. Particularly, we propose deterministic and stochastic attention implementations of the core latent alignment model. Both simulated and online experiments in the game Honor of Kings demonstrate the efficacy of the proposed methods.
翻訳日:2021-12-16 19:53:40 公開日:2021-12-15
# (参考訳) 二重正規化によるロバストニューラルネットワークの分類 [全文訳有]

Robust Neural Network Classification via Double Regularization ( http://arxiv.org/abs/2112.08102v1 )

ライセンス: CC0 1.0
Olof Zetterqvist, Rebecka J\"ornsten, Johan Jonasson(参考訳) データに誤記された観察が存在することは、統計学や機械学習において、従来の分類器と、ニューラルネットワークのような柔軟な分類器の両方の一般化特性の貧弱さに関係している、と悪名高い問題である。 本稿では,分類モデルの複雑性に対するペナルティと,訓練観察の最適重み付けを組み合わせたニューラルネットワーク学習損失の新たな二重正則化を提案する。 組み合わせたペナルティは、誤ラベル付きトレーニングデータの異なる設定でのオーバーフィッティングに対する一般化特性の向上と強靭性、およびトレーニング時の初期パラメータ値の変化に対する効果をもたらす。 本提案手法は,ロジスティック回帰の単純な場合から導出した理論的正当性を示す。 ニューラルネット分類のための二重正則化モデルを実演する。 (i)MNISTおよび (二)CIFAR-10は、どちらも模擬誤記の場合。 また, DRFitは, 精度のよいラベル付きデータポイントを同定する。 性能を犠牲にすることなく、誤ラベルに対する過度な適合を同時に低減し、ラベルの信頼性を正確に測定する分類器を得る。

The presence of mislabeled observations in data is a notoriously challenging problem in statistics and machine learning, associated with poor generalization properties for both traditional classifiers and, perhaps even more so, flexible classifiers like neural networks. Here we propose a novel double regularization of the neural network training loss that combines a penalty on the complexity of the classification model and an optimal reweighting of training observations. The combined penalties result in improved generalization properties and strong robustness against overfitting in different settings of mislabeled training data and also against variation in initial parameter values when training. We provide a theoretical justification for our proposed method derived for a simple case of logistic regression. We demonstrate the double regularization model, here denoted by DRFit, for neural net classification of (i) MNIST and (ii) CIFAR-10, in both cases with simulated mislabeling. We also illustrate that DRFit identifies mislabeled data points with very good precision. This provides strong support for DRFit as a practical of-the-shelf classifier, since, without any sacrifice in performance, we get a classifier that simultaneously reduces overfitting against mislabeling and gives an accurate measure of the trustworthiness of the labels.
翻訳日:2021-12-16 19:38:32 公開日:2021-12-15
# (参考訳) 近接機械翻訳の高速化 [全文訳有]

Faster Nearest Neighbor Machine Translation ( http://arxiv.org/abs/2112.08152v1 )

ライセンス: CC BY 4.0
Shuhe Wang, Jiwei Li, Yuxian Meng, Rongbin Ouyang, Guoyin Wang, Xiaoya Li, Tianwei Zhang, Shi Zong(参考訳) k$NNベースのニューラルマシン翻訳($k$NN-MT)は、さまざまなMTタスクで最先端の結果を得た。 k$NN-MTの重大な欠点のひとつは、データストア全体からクエリ表現に最も近い$k$を識別する非効率性にある。 本稿では,この問題に対処するため,textbf{Faster $k$NN-MT}を提案する。 より高速な$k$nn-mtの基本的な考え方は、階層的なクラスタリング戦略を使用して、データストア内のクエリとデータポイントの間の距離を近似する。 我々は,これら2つの部品をより高速に計算する方法を提案する。 異なるMTベンチマークの広範な実験により、fast $k$NN-MTより高速で、バニラよりもわずかに(1.2倍)遅い一方、モデル性能は$k$NN-MTに保たれていることがわかった。 より高速な$k$NN-MTは、現実世界のMTサービスに$k$NN-MTモデルのデプロイを可能にする。

$k$NN based neural machine translation ($k$NN-MT) has achieved state-of-the-art results in a variety of MT tasks. One significant shortcoming of $k$NN-MT lies in its inefficiency in identifying the $k$ nearest neighbors of the query representation from the entire datastore, which is prohibitively time-intensive when the datastore size is large. In this work, we propose \textbf{Faster $k$NN-MT} to address this issue. The core idea of Faster $k$NN-MT is to use a hierarchical clustering strategy to approximate the distance between the query and a data point in the datastore, which is decomposed into two parts: the distance between the query and the center of the cluster that the data point belongs to, and the distance between the data point and the cluster center. We propose practical ways to compute these two parts in a significantly faster manner. Through extensive experiments on different MT benchmarks, we show that \textbf{Faster $k$NN-MT} is faster than Fast $k$NN-MT \citep{meng2021fast} and only slightly (1.2 times) slower than its vanilla counterpart while preserving model performance as $k$NN-MT. Faster $k$NN-MT enables the deployment of $k$NN-MT models on real-world MT services.
翻訳日:2021-12-16 19:21:33 公開日:2021-12-15
# (参考訳) ドメイン間のFew-shot学習のための階層的変動記憶 [全文訳有]

Hierarchical Variational Memory for Few-shot Learning Across Domains ( http://arxiv.org/abs/2112.08181v1 )

ライセンス: CC BY 4.0
Yingjun Du, Xiantong Zhen, Ling Shao, Cees G. M. Snoek(参考訳) ニューラルメモリは、少数のトレーニングサンプルで新しいタスクへの迅速な適応を可能にする。 既存のメモリモデルは、単一の最終層からのみ機能を格納するが、トレーニングとテストディストリビューション間のドメインシフトの存在下では、うまく一般化しない。 フラットメモリに頼るのではなく、異なる意味レベルで機能を格納する階層的な代替を提案する。 プロトタイプの各レベルが階層的メモリから対応する情報をフェッチする階層的プロトタイプモデルを提案する。 ドメインシフトの状況が要求される場合、モデルは異なるセマンティックレベルの機能を柔軟に依存する能力を備えています。 我々は,階層的メモリとプロトタイプを協調的に最適化する階層的変動推論フレームワークにより,モデルをメタラーニングする。 異なる意味レベルの重要性を探求し、活用するために、さらに、各レベルにおけるプロトタイプに関連する重みをデータ駆動方式で学習し、モデルが最も一般化可能な特徴を適応的に選択できるようにする。 我々は,モデルにおける各成分の有効性を示すため,徹底的なアブレーション研究を行う。 クロスドメインにおける新しい最先端性能と、従来の数ショット分類における競合性能は、階層的変動メモリの利点をさらに裏付けるものである。

Neural memory enables fast adaptation to new tasks with just a few training samples. Existing memory models store features only from the single last layer, which does not generalize well in presence of a domain shift between training and test distributions. Rather than relying on a flat memory, we propose a hierarchical alternative that stores features at different semantic levels. We introduce a hierarchical prototype model, where each level of the prototype fetches corresponding information from the hierarchical memory. The model is endowed with the ability to flexibly rely on features at different semantic levels if the domain shift circumstances so demand. We meta-learn the model by a newly derived hierarchical variational inference framework, where hierarchical memory and prototypes are jointly optimized. To explore and exploit the importance of different semantic levels, we further propose to learn the weights associated with the prototype at each level in a data-driven way, which enables the model to adaptively choose the most generalizable features. We conduct thorough ablation studies to demonstrate the effectiveness of each component in our model. The new state-of-the-art performance on cross-domain and competitive performance on traditional few-shot classification further substantiates the benefit of hierarchical variational memory.
翻訳日:2021-12-16 19:06:03 公開日:2021-12-15
# (参考訳) N3H-Core:FPGAベースの異種コンピューティングコアによるニューロン設計ニューラルネットワーク加速器 [全文訳有]

N3H-Core: Neuron-designed Neural Network Accelerator via FPGA-based Heterogeneous Computing Cores ( http://arxiv.org/abs/2112.08193v1 )

ライセンス: CC BY 4.0
Yu Gong, Zhihan Xu, Zhezhi He, Weifeng Zhang, Xiaobing Tu, Xiaoyao Liang, Li Jiang(参考訳) FPGAの再構成可能性とハイパフォーマンスコンピューティング能力は、高速進化するニューラルネットワークの計算要求を本質的に満足しているため、FPGAによるニューラルネットワーク推論の高速化が一般的な選択肢として浮上している。 しかし、FPGA上の一般的な神経アクセラレータ(例えばXilinx DPU)は主にDSPリソースを使用して処理ユニットを構築するが、リッチなLUTリソースは十分に活用されていない。 本研究では,ソフトウェア・ハードウェア共同設計手法を用いて,ニューラルネットワークアクセラレーションのためのFPGAベースの異種コンピューティングシステムを開発する。 ハードウェアの観点から、提案する加速器は、dspおよびlutベースのgemm(general matrix-multiplicatio n)コンピューティングコアで構成され、コンピュータシステム全体を異質な方法で構成する。 DSPおよびLUTベースのGEMMコアは、統一命令セットアーキテクチャ(ISA)と統一バッファで計算される。 ニューラルネットワーク推論パスのデータフローに沿って、畳み込み/全接続された層の計算を2つの部分に分割し、DSPおよびLUTベースのGEMMコアで非同期に処理する。 ソフトウェアの観点からは,システム設計構成の異なる異種加速器の遅延と資源利用を数学的・体系的にモデル化する。 強化学習手法を活用し,ワークロード分割戦略,混合精度量子化手法,dspコアとlutコアのリソース割り当てなど,目標ヘテロジニアスアクセラレータの設計仕様のエンドツーエンド選択と最適化を実現するフレームワークを構築した。 提案した設計フレームワークとヘテロジニアスコンピューティングシステムにより,提案設計は最新のMix&Match設計よりも高い精度で1.12-1.32倍のレイテンシで性能を向上する。 N3Hコアは、https://github.com/e lliothe/N3H_Coreでオープンソース化されている。

Accelerating the neural network inference by FPGA has emerged as a popular option, since the reconfigurability and high performance computing capability of FPGA intrinsically satisfies the computation demand of the fast-evolving neural algorithms. However, the popular neural accelerators on FPGA (e.g., Xilinx DPU) mainly utilize the DSP resources for constructing their processing units, while the rich LUT resources are not well exploited. Via the software-hardware co-design approach, in this work, we develop an FPGA-based heterogeneous computing system for neural network acceleration. From the hardware perspective, the proposed accelerator consists of DSP- and LUT-based GEneral Matrix-Multiplicatio n (GEMM) computing cores, which forms the entire computing system in a heterogeneous fashion. The DSP- and LUT-based GEMM cores are computed w.r.t a unified Instruction Set Architecture (ISA) and unified buffers. Along the data flow of the neural network inference path, the computation of the convolution/fully-co nnected layer is split into two portions, handled by the DSP- and LUT-based GEMM cores asynchronously. From the software perspective, we mathematically and systematically model the latency and resource utilization of the proposed heterogeneous accelerator, regarding varying system design configurations. Through leveraging the reinforcement learning technique, we construct a framework to achieve end-to-end selection and optimization of the design specification of target heterogeneous accelerator, including workload split strategy, mixed-precision quantization scheme, and resource allocation of DSP- and LUT-core. In virtue of the proposed design framework and heterogeneous computing system, our design outperforms the state-of-the-art Mix&Match design with latency reduced by 1.12-1.32x with higher inference accuracy. The N3H-core is open-sourced at: https://github.com/e lliothe/N3H_Core.
翻訳日:2021-12-16 18:47:57 公開日:2021-12-15
# (参考訳) 敗血症患者に対する機械学習による死亡予測における社会的要因の差異 [全文訳有]

Disparities in Social Determinants among Performances of Mortality Prediction with Machine Learning for Sepsis Patients ( http://arxiv.org/abs/2112.08224v1 )

ライセンス: CC BY 4.0
Hanyin Wang, Yikuan Li, Andrew Naidech, Yuan Luo(参考訳) セプシスは米国の重度の重篤な患者にとって最も命の危険を伴う状況の1つだが、セプシスの診断基準の標準化はまだ進行中である。 敗血症患者の社会的決定要因の相違は、機械学習を用いたリスク予測性能に干渉する可能性がある。 6つの敗血症基準で特定された患者のうち、人種、性別、婚姻状況、保険の種類、言語を含む社会的決定要因の方法の相違が森林計画によって明らかにされた。 敗血症患者の院内死亡を予測するために16種類の機械学習分類器を訓練した。 トレーニングされたモデルの性能はランダムに実施されたテストセット全体でテストされ、それぞれのサブポピュレーションは、人種、性別、婚姻状況、保険タイプ、言語の各社会的決定要因に基づいて構築された。 mimic-iiiデータベースから合計11,791名のクリティカルケア患者を解析した。 各セプシスの識別方法によって特定された集団内では、人種、婚姻状況、保険の種類、言語に関する下位集団間で有意な差が見られた。 アジアとヒスパニックの患者に機械学習モデルを適用した際,セプシス3基準で同定した5,783例において,死亡予測における統計的に有意なパフォーマンス低下が認められた。 対数比較の結果,アジア系と白人の死亡率予測,アジア系,その他の人種の患者,英語系とスペイン語系の患者の死亡率の差がみられた。 各種敗血症基準で同定された患者の割合の差は, 異なる社会的決定群間でみられた。 正確な診断には,患者の社会的要因の相違を克服するために,敗血症の多彩な診断システムが必要である。

Background Sepsis is one of the most life-threatening circumstances for critically ill patients in the US, while a standardized criteria for sepsis identification is still under development. Disparities in social determinants of sepsis patients can interfere with the risk prediction performances using machine learning. Methods Disparities in social determinants, including race, gender, marital status, insurance types and languages, among patients identified by six available sepsis criteria were revealed by forest plots. Sixteen machine learning classifiers were trained to predict in-hospital mortality for sepsis patients. The performance of the trained model was tested on the entire randomly conducted test set and each sub-population built based on each of the following social determinants: race, gender, marital status, insurance type, and language. Results We analyzed a total of 11,791 critical care patients from the MIMIC-III database. Within the population identified by each sepsis identification method, significant differences were observed among sub-populations regarding race, marital status, insurance type, and language. On the 5,783 sepsis patients identified by the Sepsis-3 criteria statistically significant performance decreases for mortality prediction were observed when applying the trained machine learning model on Asian and Hispanic patients. With pairwise comparison, we detected performance discrepancies in mortality prediction between Asian and White patients, Asians and patients of other races, as well as English-speaking and Spanish-speaking patients. Conclusions Disparities in proportions of patients identified by various sepsis criteria were detected among the different social determinant groups. To achieve accurate diagnosis, a versatile diagnostic system for sepsis is needed to overcome the social determinant disparities of patients.
翻訳日:2021-12-16 18:28:15 公開日:2021-12-15
# (参考訳) ネットワークシステムにおける効率的な学習のためのオンライン特徴選択 [全文訳有]

Online Feature Selection for Efficient Learning in Networked Systems ( http://arxiv.org/abs/2112.08253v1 )

ライセンス: CC BY-SA 4.0
Xiaoxuan Wang, Rolf Stadler(参考訳) データ駆動エンジニアリングのための現在のAI/MLメソッドは、主にオフラインでトレーニングされたモデルを使用する。 このようなモデルは、通信や計算コストの観点から構築するコストが高く、長期にわたって収集されるデータに依存する可能性がある。 さらに、システム変更が発生すると時代遅れになる。 これらの課題に対処するために,モデルトレーニングのための利用可能なデータソース数を自動削減するオンライン学習手法について検討する。 このアルゴリズムは,少数の測定を受信した後,多数の利用可能なデータソースから小さな特徴セットを選択する。 アルゴリズムは、特徴ランク付けアルゴリズム、特徴セット安定度、検索ポリシーで初期化される。 本アルゴリズムは,社内テストベッドからのトレースと運用中のデータセンタからのトレースを用いて,広範な実験評価を行う。 その結果,OSFS は全データセットに対して 1-3 桁の規模で設定された特徴量を大幅に削減できることがわかった。 最も重要なことは、OSFSが生成する特徴セットでトレーニングされた予測器の精度が、オフライン特徴選択によって得られた特徴セットで予測器をトレーニングした時よりも幾分良いことである。 したがって、OSFSはオンラインの特徴選択アルゴリズムとして有効であり、特徴選択に使用されるサンプル間隔に関して堅牢であることが示されている。 また,モデルの基礎となるデータにコンセプトドリフトが発生すると,特徴集合を再計算し,予測モデルを再学習することで,その効果を緩和できることがわかった。

Current AI/ML methods for data-driven engineering use models that are mostly trained offline. Such models can be expensive to build in terms of communication and computing cost, and they rely on data that is collected over extended periods of time. Further, they become out-of-date when changes in the system occur. To address these challenges, we investigate online learning techniques that automatically reduce the number of available data sources for model training. We present an online algorithm called Online Stable Feature Set Algorithm (OSFS), which selects a small feature set from a large number of available data sources after receiving a small number of measurements. The algorithm is initialized with a feature ranking algorithm, a feature set stability metric, and a search policy. We perform an extensive experimental evaluation of this algorithm using traces from an in-house testbed and from a data center in operation. We find that OSFS achieves a massive reduction in the size of the feature set by 1-3 orders of magnitude on all investigated datasets. Most importantly, we find that the accuracy of a predictor trained on a OSFS-produced feature set is somewhat better than when the predictor is trained on a feature set obtained through offline feature selection. OSFS is thus shown to be effective as an online feature selection algorithm and robust regarding the sample interval used for feature selection. We also find that, when concept drift in the data underlying the model occurs, its effect can be mitigated by recomputing the feature set and retraining the prediction model.
翻訳日:2021-12-16 18:18:56 公開日:2021-12-15
# (参考訳) 誘導型グラフニューラルネットワークに対するモデル盗み攻撃 [全文訳有]

Model Stealing Attacks Against Inductive Graph Neural Networks ( http://arxiv.org/abs/2112.08331v1 )

ライセンス: CC BY 4.0
Yun Shen, Xinlei He, Yufei Han, Yang Zhang(参考訳) 現実世界のデータの多くはグラフの形で収集される。 新しい機械学習(ML)モデルのファミリーであるグラフニューラルネットワーク(GNN)は、グラフデータを完全に活用して強力なアプリケーションを構築するために提案されている。 特に、目に見えないデータに一般化できるインダクティブGNNは、この方向に主流になる。 機械学習モデルは様々なタスクで大きな可能性を示しており、多くの現実世界のシナリオでデプロイされている。 優れたモデルをトレーニングするには、大量のデータと計算資源が必要であるため、貴重な知的財産権が得られる。 これまでの研究によると、MLモデルはターゲットモデルの機能を盗むために盗む攻撃をモデル化する傾向がある。 しかし、その多くは画像やテキストで訓練されたモデルに焦点を当てている。 一方、グラフデータ、すなわちGNNで訓練されたモデルには、ほとんど注意が払われていない。 本稿では,誘導型GNNに対する最初の盗難攻撃を提案し,そのギャップを埋める。 我々は,脅威モデルを体系的に定義し,敵の背景知識とターゲットモデルの応答に基づいて6つの攻撃を提案する。 6つのベンチマークデータセットに対する評価から,提案モデルがGNNに対する攻撃を盗むことにより,有望な性能が得られることが示された。

Many real-world data come in the form of graphs. Graph neural networks (GNNs), a new family of machine learning (ML) models, have been proposed to fully leverage graph data to build powerful applications. In particular, the inductive GNNs, which can generalize to unseen data, become mainstream in this direction. Machine learning models have shown great potential in various tasks and have been deployed in many real-world scenarios. To train a good model, a large amount of data as well as computational resources are needed, leading to valuable intellectual property. Previous research has shown that ML models are prone to model stealing attacks, which aim to steal the functionality of the target models. However, most of them focus on the models trained with images and texts. On the other hand, little attention has been paid to models trained with graph data, i.e., GNNs. In this paper, we fill the gap by proposing the first model stealing attacks against inductive GNNs. We systematically define the threat model and propose six attacks based on the adversary's background knowledge and the responses of the target models. Our evaluation on six benchmark datasets shows that the proposed model stealing attacks against GNNs achieve promising performance.
翻訳日:2021-12-16 17:57:53 公開日:2021-12-15
# マルチソース属性を取り入れた細部認識深着アニメーション

Detail-aware Deep Clothing Animations Infused with Multi-source Attributes ( http://arxiv.org/abs/2112.07974v1 )

ライセンス: Link先を確認
Tianxing Li, Rui Shi, Takashi Kanai(参考訳) 本稿では,様々な形状の身体で身に着ける衣服のリッチで合理的な変形を再現する新しい学習ベースの衣料変形法を提案する。 異なる衣服のトポロジやポーズに対して多くの訓練されたモデルを必要とする既存の学習ベース手法とは対照的に,我々は統合された枠組みを用いて高忠実度変形を効率的かつ容易に生成する。 マルチソース属性による変形予測の課題に対処するため,新しい視点から3つの戦略を提案する。 具体的には、衣服と体の間のフィットが折りたたみの程度に重要な影響を与えることを発見した。 次に、属性パーサを設計し、詳細を意識したエンコーディングを生成し、それらをグラフニューラルネットワークに注入することで、様々な属性の下で詳細を識別する。 さらに,より収束性を高め,過度に滑らかな変形を避けるために,学習課題の複雑さを軽減するために出力再構成を提案する。 実験の結果,提案手法は一般化能力と細部品質の面で既存の手法よりも優れた性能が得られることがわかった。

This paper presents a novel learning-based clothing deformation method to generate rich and reasonable detailed deformations for garments worn by bodies of various shapes in various animations. In contrast to existing learning-based methods, which require numerous trained models for different garment topologies or poses and are unable to easily realize rich details, we use a unified framework to produce high fidelity deformations efficiently and easily. To address the challenging issue of predicting deformations influenced by multi-source attributes, we propose three strategies from novel perspectives. Specifically, we first found that the fit between the garment and the body has an important impact on the degree of folds. We then designed an attribute parser to generate detail-aware encodings and infused them into the graph neural network, therefore enhancing the discrimination of details under diverse attributes. Furthermore, to achieve better convergence and avoid overly smooth deformations, we proposed output reconstruction to mitigate the complexity of the learning task. Experiment results show that our proposed deformation method achieves better performance over existing methods in terms of generalization ability and quality of details.
翻訳日:2021-12-16 17:29:34 公開日:2021-12-15
# GAN生成顔画像の周波数スペクトルの非同期性を探る

Exploring the Asynchronous of the Frequency Spectra of GAN-generated Facial Images ( http://arxiv.org/abs/2112.08050v1 )

ライセンス: Link先を確認
Binh M. Le and Simon S. Woo(参考訳) generative adversarial networks (gans) の急速な進歩は、悪意のある目的、特に偽の顔画像の作成において、その誤用を懸念させている。 提案手法の多くはganベースの合成画像の検出に成功しているが、偽画像データセットの大量のトレーニングの必要性と、未知の顔画像に対する検出器の一般化の課題によって、依然として制限されている。 本稿では,ganベース合成画像の識別のために教師なし学習モデルと教師なし学習モデルの両方を訓練するのに有効であるカラーチャネルの非同期周波数スペクトルを探索する新しい手法を提案する。 提案する1つのソースドメインの機能から学習し、その特徴の分布を事前に知る他のターゲットドメインで検証するトレーニングモデルの転送可能性についても検討する。 実験の結果,周波数領域におけるスペクトルの相違は,様々な種類のGAN生成画像の検出に有効であることがわかった。

The rapid progression of Generative Adversarial Networks (GANs) has raised a concern of their misuse for malicious purposes, especially in creating fake face images. Although many proposed methods succeed in detecting GAN-based synthetic images, they are still limited by the need for large quantities of the training fake image dataset and challenges for the detector's generalizability to unknown facial images. In this paper, we propose a new approach that explores the asynchronous frequency spectra of color channels, which is simple but effective for training both unsupervised and supervised learning models to distinguish GAN-based synthetic images. We further investigate the transferability of a training model that learns from our suggested features in one source domain and validates on another target domains with prior knowledge of the features' distribution. Our experimental results show that the discrepancy of spectra in the frequency domain is a practical artifact to effectively detect various types of GAN-based generated images.
翻訳日:2021-12-16 17:29:14 公開日:2021-12-15
# COVID-19コンテキストにおける手話要素の視覚的表現の定量的解析

Quantitative analysis of visual representation of sign elements in COVID-19 context ( http://arxiv.org/abs/2112.08219v1 )

ライセンス: Link先を確認
Mar\'ia Jes\'us Cano-Mart\'inez and Miguel Carrasco and Joaqu\'in Sandoval and C\'esar Gonz\'alez-Mart\'in(参考訳) 表現(Representation)とは、人間が外部と内部の両方で起きていることの現実を表わす方法である。 このように、コミュニケーションの手段としての視覚表現は、話し言葉や書き言葉と同じように、要素を使って物語を構築する。 本研究は、covid-19 美術館のinstagram アカウントで収集した画像を用いて、流行に関連づけられた視覚創造に使用される要素の定量的分析を行うためにコンピュータ解析を用いて、世界規模のイベントにおける主観的体験を表現するために使用されるさまざまな要素を分析する。 このプロセスは、機械学習に基づいて画像中の物体を検知し、アルゴリズムが各研究画像に含まれる物体を学習し、検出することができるようにしている。 本研究は,物語を創造するために画像に繰り返される要素と,サンプルに確立された関連の関係を明らかにしたものであり,すべての創作が伴う主観性にもかかわらず,視覚的表現に含まれる対象の選択に関して,共有された決定のパラメータが存在することを結論づける。

Representation is the way in which human beings re-present the reality of what is happening, both externally and internally. Thus, visual representation as a means of communication uses elements to build a narrative, just as spoken and written language do. We propose using computer analysis to perform a quantitative analysis of the elements used in the visual creations that have been produced in reference to the epidemic, using the images compiled in The Covid Art Museum's Instagram account to analyze the different elements used to represent subjective experiences with regard to a global event. This process has been carried out with techniques based on machine learning to detect objects in the images so that the algorithm can be capable of learning and detecting the objects contained in each study image. This research reveals that the elements that are repeated in images to create narratives and the relations of association that are established in the sample, concluding that, despite the subjectivity that all creation entails, there are certain parameters of shared and reduced decisions when it comes to selecting objects to be included in visual representations
翻訳日:2021-12-16 17:28:57 公開日:2021-12-15
# 存在規則言語のプログラム表現力の特徴付け

Characterizing the Program Expressive Power of Existential Rule Languages ( http://arxiv.org/abs/2112.08136v1 )

ライセンス: Link先を確認
Heng Zhang(参考訳) 既存のルール言語はオントロジーによるクエリ応答(OMQA)で広く使われているオントロジー言語のファミリーである。 しかし、ほとんどの場合、プログラム表現力として知られるOMQAのドメイン知識を表現する表現力はまだ十分に理解されていない。 本稿では,タプル生成依存言語(tgd)や線形tgd,連結型tgdなど,いくつかの重要な存在規則言語のプログラム表現力に関する多くの新しい特徴付けについて述べる。 キャラクタリゼーションは自然モデル理論特性と時折オートマトン理論特性を使用し、これらの言語におけるOMQAのドメイン知識の定義可能性を特定する強力なツールを提供する。

Existential rule languages are a family of ontology languages that have been widely used in ontology-mediated query answering (OMQA). However, for most of them, the expressive power of representing domain knowledge for OMQA, known as the program expressive power, is not well-understood yet. In this paper, we establish a number of novel characterizations for the program expressive power of several important existential rule languages, including tuple-generating dependencies (TGDs), linear TGDs, as well as disjunctive TGDs. The characterizations employ natural model-theoretic properties, and automata-theoretic properties sometimes, which thus provide powerful tools for identifying the definability of domain knowledge for OMQA in these languages.
翻訳日:2021-12-16 17:28:12 公開日:2021-12-15
# 多様体グラフ埋め込みのための一般化固有ベクトルの高速計算

Fast Computation of Generalized Eigenvectors for Manifold Graph Embedding ( http://arxiv.org/abs/2112.07862v1 )

ライセンス: Link先を確認
Fei Chen, Gene Cheung, Xue Zhang(参考訳) 我々の目標は、クラスタリングなどのその後のデータ処理に対して、入力グラフ(グラフ埋め込みとして知られる)内のノードの低次元潜在座標を効率的に計算することです。 連続多様体上の一様サンプルとして解釈される有限グラフ(多様体グラフと呼ばれる)に着目し、高速な実行のために既存の高速極端固有ベクトル計算アルゴリズムを利用する。 まず、スパース行列対 $(\A,\B)$ に対して一般化された固有値問題(英語版)を、$\A = \L - \mu \Q + \epsilon \I$ はグラフの和 Laplacian $\L$ と非連結二脚差分行列 $\Q$ で表す。 eigenvector $\v$ minimizing rayleigh quotient $\frac{\v^{\top} \a \v}{\v^{\top} \v}$ これにより、1ドルホップの隣接距離を最小化し、切断された2ドルホップの隣人間の距離を最大化し、グラフ構造を保存する。 固有ベクトル直交性を定義する行列 $\b = \text{diag}(\{\b_i\})$ は、サンプリング領域の境界/内部ノードが同じ一般化次数を持つように選択される。 グラフノードに対する$K$次元潜在ベクトルは、$(\A,\B)$の最初の$K$一般化固有ベクトルであり、$K \ll N$ を LOBPCG を用いて$\cO(N)$ で計算する。 実験により, 埋め込みは文献の中で最速であり, 多様体グラフのクラスタリング性能は最適であることがわかった。

Our goal is to efficiently compute low-dimensional latent coordinates for nodes in an input graph -- known as graph embedding -- for subsequent data processing such as clustering. Focusing on finite graphs that are interpreted as uniformly samples on continuous manifolds (called manifold graphs), we leverage existing fast extreme eigenvector computation algorithms for speedy execution. We first pose a generalized eigenvalue problem for sparse matrix pair $(\A,\B)$, where $\A = \L - \mu \Q + \epsilon \I$ is a sum of graph Laplacian $\L$ and disconnected two-hop difference matrix $\Q$. Eigenvector $\v$ minimizing Rayleigh quotient $\frac{\v^{\top} \A \v}{\v^{\top} \v}$ thus minimizes $1$-hop neighbor distances while maximizing distances between disconnected $2$-hop neighbors, preserving graph structure. Matrix $\B = \text{diag}(\{\b_i\})$ that defines eigenvector orthogonality is then chosen so that boundary / interior nodes in the sampling domain have the same generalized degrees. $K$-dimensional latent vectors for the $N$ graph nodes are the first $K$ generalized eigenvectors for $(\A,\B)$, computed in $\cO(N)$ using LOBPCG, where $K \ll N$. Experiments show that our embedding is among the fastest in the literature, while producing the best clustering performance for manifold graphs.
翻訳日:2021-12-16 17:26:24 公開日:2021-12-15
# 多要素ガウス過程分類を用いた心房細動モデルの誘導可能領域の高速評価

Fast characterization of inducible regions of atrial fibrillation models with multi-fidelity Gaussian process classification ( http://arxiv.org/abs/2112.08075v1 )

ライセンス: Link先を確認
Lia Gandera, Simone Pezzutoa, Ali Gharaviri, Rolf Krause, Paris Perdikaris, Francisco Sahli Costabal(参考訳) 心房細動の計算モデルは最適なアブレーション部位の予測に成功している。 アブレーションパターンの効果を評価するための重要なステップは、異なる、潜在的にランダムな場所からモデルをペーストし、不整脈をatriaで誘発できるかどうかを決定することである。 本研究では、リーマン多様体上の多元的ガウス過程分類を用いて、不整脈が引き起こされるアトリアの領域を効率的に決定することを提案する。 心房表面上で直接動作する確率的分類器を構築する。 我々は,低分解能モデルを利用して心房表面を探索し,高分解能モデルとシームレスに結合して誘導性領域を同定する。 40個のサンプルで訓練すると,心房細動モデルとして使用される近隣の分類器より10%高く,アブレーションを伴う心房細動の有無で9%高いバランスのバランスの取れた精度を示す。 この新しい技術により、心房細動に対する計算モデルのより高速で正確な臨床応用が可能になることを願っている。

Computational models of atrial fibrillation have successfully been used to predict optimal ablation sites. A critical step to assess the effect of an ablation pattern is to pace the model from different, potentially random, locations to determine whether arrhythmias can be induced in the atria. In this work, we propose to use multi-fidelity Gaussian process classification on Riemannian manifolds to efficiently determine the regions in the atria where arrhythmias are inducible. We build a probabilistic classifier that operates directly on the atrial surface. We take advantage of lower resolution models to explore the atrial surface and combine seamlessly with high-resolution models to identify regions of inducibility. When trained with 40 samples, our multi-fidelity classifier shows a balanced accuracy that is 10% higher than a nearest neighbor classifier used as a baseline atrial fibrillation model, and 9% higher in presence of atrial fibrillation with ablations. We hope that this new technique will allow faster and more precise clinical applications of computational models for atrial fibrillation.
翻訳日:2021-12-16 17:25:53 公開日:2021-12-15
# 回路アーキテクチャと機械学習アルゴリズムの進歩によるアナログ・混合信号回路合成

Analog/Mixed-Signal Circuit Synthesis Enabled by the Advancements of Circuit Architectures and Machine Learning Algorithms ( http://arxiv.org/abs/2112.07824v1 )

ライセンス: Link先を確認
Shiyu Su, Qiaochu Zhang, Mohsen Hassanpourghadi, Juzheng Liu, Rezwan A Rasul, and Mike Shuo-Wei Chen(参考訳) アナログ混合信号(AMS)回路アーキテクチャは、技術スケーリングとより高い柔軟性/再構成性への需要により、よりデジタルフレンドリーに進化してきた。 一方、AMS回路の設計複雑性とコストは、複雑なAMS回路の回路サイズ、レイアウト、検証を最適化する必要があるため、大幅に増大している。 一方、機械学習(ML)アルゴリズムは、過去10年間で指数関数的に成長しており、電子設計自動化(EDA)コミュニティによって積極的に活用されている。 本稿では、この傾向によってもたらされる機会と課題を明らかにし、ams回路アーキテクチャと機械学習アルゴリズムの最近の進化によって実現される、いくつかの新しいams設計手法について概説する。 具体的には,ニューラルネットワークを用いたサーロゲートモデルを用いて回路設計パラメータ探索とレイアウトイテレーションを高速化する。 最後に、AMS回路のいくつかの例を、仕様からシリコンプロトタイプまで迅速に合成し、人間の介入を大幅に削減する。

Analog mixed-signal (AMS) circuit architecture has evolved towards more digital friendly due to technology scaling and demand for higher flexibility/reconfig urability. Meanwhile, the design complexity and cost of AMS circuits has substantially increased due to the necessity of optimizing the circuit sizing, layout, and verification of a complex AMS circuit. On the other hand, machine learning (ML) algorithms have been under exponential growth over the past decade and actively exploited by the electronic design automation (EDA) community. This paper will identify the opportunities and challenges brought about by this trend and overview several emerging AMS design methodologies that are enabled by the recent evolution of AMS circuit architectures and machine learning algorithms. Specifically, we will focus on using neural-network-based surrogate models to expedite the circuit design parameter search and layout iterations. Lastly, we will demonstrate the rapid synthesis of several AMS circuit examples from specification to silicon prototype, with significantly reduced human intervention.
翻訳日:2021-12-16 17:25:22 公開日:2021-12-15
# TAFA:時間近似アーキテクチャを用いたアナログ混合信号FIRフィルタの設計自動化

TAFA: Design Automation of Analog Mixed-Signal FIR Filters Using Time Approximation Architecture ( http://arxiv.org/abs/2112.07825v1 )

ライセンス: Link先を確認
Shiyu Su, Qiaochu Zhang, Juzheng Liu, Mohsen Hassanpourghadi, Rezwan Rasul, and Mike Shuo-Wei Chen(参考訳) デジタル回路のCADサポートにより,デジタル有限インパルス応答(FIR)フィルタの設計は完全に合成可能である。 対照的に、アナログ混合信号(ams)フィルタの設計は、アーキテクチャの選択、設計、レイアウトを含む、主に手動のプロセスである。 本研究は,スイッチトキャパシタや抵抗器などの可変パッシブコンポーネントを必要とせず,時間近似アーキテクチャを用いてams firフィルタ設計を自動化するシステム設計手法を提案する。 フィルタの柔軟性を高めるだけでなく、アナログの複雑さを減らして設計の自動化を促進する。 提案した設計フローは,時間量子化効果を考慮したフィルタのインパルス応答を自動的に最適化するハイブリッド近似方式を特徴とする。 さらに、勾配に基づく探索アルゴリズムと組み合わせて、人工ニューラルネットワーク(ann)に基づくレイアウト認識回帰モデルを用いて、フィルタ設計の自動化と高速化を行う。 提案手法では,65nmプロセスにおけるAMS FIRフィルタの高速な合成を仕様からレイアウトまで示す。

A digital finite impulse response (FIR) filter design is fully synthesizable, thanks to the mature CAD support of digital circuitry. On the contrary, analog mixed-signal (AMS) filter design is mostly a manual process, including architecture selection, schematic design, and layout. This work presents a systematic design methodology to automate AMS FIR filter design using a time approximation architecture without any tunable passive component, such as switched capacitor or resistor. It not only enhances the flexibility of the filter but also facilitates design automation with reduced analog complexity. The proposed design flow features a hybrid approximation scheme that automatically optimize the filter's impulse response in light of time quantization effects, which shows significant performance improvement with minimum designer's efforts in the loop. Additionally, a layout-aware regression model based on an artificial neural network (ANN), in combination with gradient-based search algorithm, is used to automate and expedite the filter design. With the proposed framework, we demonstrate rapid synthesis of AMS FIR filters in 65nm process from specification to layout.
翻訳日:2021-12-16 17:25:06 公開日:2021-12-15
# 圧縮センシングを用いた通信効率の良い分散SGD

Communication-Effici ent Distributed SGD with Compressed Sensing ( http://arxiv.org/abs/2112.07836v1 )

ライセンス: Link先を確認
Yujie Tang, Vikram Ramanathan, Junshan Zhang, Na Li(参考訳) 中央サーバに接続された一連のエッジデバイスに対する大規模分散最適化について検討し,サーバとエッジデバイス間の通信帯域の制限が最適化手順に重大なボトルネックを課す。 近年のフェデレート学習の進歩に触発されて,通信負担を軽減するために,分散確率勾配降下(SGD)型アルゴリズムを提案する。 アルゴリズムの核心は、デバイス側で局所確率勾配を圧縮するために圧縮センシング技術を使用することであり、サーバ側では、ノイズの多い集約圧縮局所勾配から大域的確率勾配のスパース近似を回復する。 我々は,通信チャネルによって発生する雑音摂動の存在下でのアルゴリズムの収束に関する理論的解析を行い,その効果を裏付ける数値実験を行う。

We consider large scale distributed optimization over a set of edge devices connected to a central server, where the limited communication bandwidth between the server and edge devices imposes a significant bottleneck for the optimization procedure. Inspired by recent advances in federated learning, we propose a distributed stochastic gradient descent (SGD) type algorithm that exploits the sparsity of the gradient, when possible, to reduce communication burden. At the heart of the algorithm is to use compressed sensing techniques for the compression of the local stochastic gradients at the device side; and at the server side, a sparse approximation of the global stochastic gradient is recovered from the noisy aggregated compressed local gradients. We conduct theoretical analysis on the convergence of our algorithm in the presence of noise perturbation incurred by the communication channels, and also conduct numerical experiments to corroborate its effectiveness.
翻訳日:2021-12-16 17:24:47 公開日:2021-12-15
# EDAsistant: In-Situ Code Search and Recommendationによる計算ノートの探索データ解析支援

EDAssistant: Supporting Exploratory Data Analysis in Computational Notebooks with In-Situ Code Search and Recommendation ( http://arxiv.org/abs/2112.07858v1 )

ライセンス: Link先を確認
Xingjun Li, Yizhi Zhang, Justin Leung, Chengnian Sun, Jian Zhao(参考訳) 計算ノート(例えばJupyter Notebook)を用いて、データサイエンティストは以前の経験とオンライン例のような外部知識に基づいて探索データ分析(EDA)を合理化する。 初心者やデータサイエンティストが、データセットや調査する問題に関する特定の知識を欠いている場合、外部情報を効果的に取得し、理解することがedaの実行に不可欠である。 本稿では,サンプルノートをその場で検索し,有用なapiを推薦する機能を備えたjupyterlab拡張であるed assistantを提案する。 コード検索とレコメンデーションは、オンラインに収集された大量のEDAノートブックでトレーニングされた最先端の機械学習モデルによって実現される。 ユーザスタディは、EDAとデータサイエンティストの現在の実践(例えば、外部検索エンジン)を調査するために行われる。 以上の結果から, 参加者は, EDAのスムーズでコンテクスト内サポートを高く評価し, 有効性と有用性を示した。 また、コードレコメンデーションツールに関するいくつかの設計上の意味を報告します。

Using computational notebooks (e.g., Jupyter Notebook), data scientists rationalize their exploratory data analysis (EDA) based on their prior experience and external knowledge such as online examples. For novices or data scientists who lack specific knowledge about the dataset or problem to investigate, effectively obtaining and understanding the external information is critical to carry out EDA. This paper presents EDAssistant, a JupyterLab extension that supports EDA with in-situ search of example notebooks and recommendation of useful APIs, powered by novel interactive visualization of search results. The code search and recommendation are enabled by state-of-the-art machine learning models, trained on a large corpus of EDA notebooks collected online. A user study is conducted to investigate both EDAssistant and data scientists' current practice (i.e., using external search engines). The results demonstrate the effectiveness and usefulness of EDAssistant, and participants appreciated its smooth and in-context support of EDA. We also report several design implications regarding code recommendation tools.
翻訳日:2021-12-16 17:23:06 公開日:2021-12-15
# エッジフォッグクラウド型医療用インターネットにおけるエネルギー効率の高いリアルタイム心臓モニタリング

Energy-Efficient Real-Time Heart Monitoring on Edge-Fog-Cloud Internet-of-Medical- Things ( http://arxiv.org/abs/2112.07901v1 )

ライセンス: Link先を確認
Berken Utku Demirel, Islam Abdelsalam Bayoumy, Mohammad Abdullah Al Faruque(参考訳) 近年のウェアラブルデバイスとIoT(Internet of Medical Things)の発展により、心電図(ECG)信号のリアルタイムモニタリングと記録が可能になった。 しかし、エネルギーとメモリの制約により、低消費電力のウェアラブルデバイスではECG信号の継続的な監視は困難である。 そこで本稿では,低消費電力ウェアラブルデバイスの心臓を連続的に監視するための新しいエネルギー効率の高い手法を提案する。 提案手法は3つの異なる層から構成される。 1)ECG信号の品質を向上するノイズ/アーチファクト検出層 2)ecg信号の異常を検出する正規/異常ビート分類層、及び 3)心電図信号から疾患を検出する異常ビート分類層。 さらに、エッジフォッグ/クラウド間のエネルギー消費と遅延を低減するために、分散マルチ出力畳み込みニューラルネットワーク(CNN)アーキテクチャを使用する。 本手法はmit-bih不整脈データセット上で99.2%の精度に達する。 実ハードウェアの評価は,最小ramが32kbのデバイスに適していることを示す。 さらに, 提案手法は, 最先端技術に比べてエネルギー効率が 7 倍に向上する。

The recent developments in wearable devices and the Internet of Medical Things (IoMT) allow real-time monitoring and recording of electrocardiogram (ECG) signals. However, continuous monitoring of ECG signals is challenging in low-power wearable devices due to energy and memory constraints. Therefore, in this paper, we present a novel and energy-efficient methodology for continuously monitoring the heart for low-power wearable devices. The proposed methodology is composed of three different layers: 1) a Noise/Artifact detection layer to grade the quality of the ECG signals; 2) a Normal/Abnormal beat classification layer to detect the anomalies in the ECG signals, and 3) an Abnormal beat classification layer to detect diseases from ECG signals. Moreover, a distributed multi-output Convolutional Neural Network (CNN) architecture is used to decrease the energy consumption and latency between the edge-fog/cloud. Our methodology reaches an accuracy of 99.2% on the well-known MIT-BIH Arrhythmia dataset. Evaluation on real hardware shows that our methodology is suitable for devices having a minimum RAM of 32KB. Moreover, the proposed methodology achieves $7\times$ more energy efficiency compared to state-of-the-art works.
翻訳日:2021-12-16 17:22:46 公開日:2021-12-15
# 最大コレントロピー基準に基づく位相雑音の存在下におけるチャネルパラメータ推定

Channel Parameter Estimation in the Presence of Phase Noise Based on Maximum Correntropy Criterion ( http://arxiv.org/abs/2112.07955v1 )

ライセンス: Link先を確認
Amir Alizadeh and Ghosheh Abed Hodtani(参考訳) 振動子出力は一般に位相ノイズを持ち、出力電力スペクトル密度(PSD)はディラックデルタ関数の周りに分散する。 本稿では,位相雑音に伴う送信信号がガウス雑音に付加され受信機で受信されるAWGNチャネルについて検討する。 平均二乗(LMS)や平均MSE基準のような従来のチャネル推定アルゴリズムはこのチャネル推定には適さない。 私たち (i)この位相雑音チャネル推定を情報理論学習(itl)基準、すなわち最大コレントロピー基準(mcc)を用いて分析することにより、チャネル推定器の定常状態挙動のロバスト性が導かれる。 2) 新しい混合LMSアルゴリズムとして, MSEとMCCを組み合わせることにより収束率を向上させる。

Oscillator output generally has phase noise causing the output power spectral density (PSD) to disperse around a Dirac delta function. In this paper, the AWGN channel is considered, where the sent signal accompanying with phase noise is added to the channel Gaussian noise and received at the receiver. Conventional channel estimation algorithms such as least mean square (LMS) and mean MSE criterion are not suitable for this channel estimation. We (i) analyze this phase noise channel estimation with information theoretic learning (ITL) criterion, i.e., maximum correntropy criterion (MCC), leading to robustness in the channel estimator's steady state behavior; and (ii) improve the convergence rate by combining MSE and MCC as a novel mixed-LMS algorithm.
翻訳日:2021-12-16 17:22:30 公開日:2021-12-15
# マルチモーダルネットワークによるテロ組織の運用の類似性

Multi-modal Networks Reveal Patterns of Operational Similarity of Terrorist Organizations ( http://arxiv.org/abs/2112.07998v1 )

ライセンス: Link先を確認
Gian Maria Campedelli, Iain J. Cruickshank, Kathleen M. Carley(参考訳) テロ集団間の作戦的類似性のダイナミクスを捉えることは、テロ対策と情報監視に有効な洞察を提供するために重要である。 しかし、その理論的かつ実用的な妥当性にもかかわらず、この問題に対する研究は現在不足している。 我々は、同様の行動を共有するテロリスト集団のクラスターを検出するための新しい計算枠組みを提案し、集団が毎年展開する戦術のレパートリー、攻撃対象、武器の利用に焦点をあてる。 特に、1997年から2018年にかけて少なくとも50件の攻撃を企てた組織を考慮に入れ、全世界で4万2000件以上のイベントに責任を持つ105団体を計上し、3セットの結果を提示する。 まず、長年にわたり世界のテロリズムは、運用上の結束性の向上によって特徴付けられてきたことを示す。 第2に、グループ間のコクラスタリングの年々の安定性は2009年から2018年にかけて特に高く、過去10年間の類似パターンの時間的一貫性を示している。 第3に,2つの組織間の運用上の類似性には3つの要因がある。 (a) 総合的な活動 b) 運用上のレパートリーの多様性の相違 (c)多様性と活動の総合的な尺度の違い グループの操作的嗜好、地理的ホモフィリー、イデオロギー的親和性は、操作的類似性を決定する上で一貫した役割を持たない。

Capturing dynamics of operational similarity among terrorist groups is critical to provide actionable insights for counter-terrorism and intelligence monitoring. Yet, in spite of its theoretical and practical relevance, research addressing this problem is currently lacking. We tackle this problem proposing a novel computational framework for detecting clusters of terrorist groups sharing similar behaviors, focusing on groups' yearly repertoire of deployed tactics, attacked targets, and utilized weapons. Specifically considering those organizations that have plotted at least 50 attacks from 1997 to 2018, accounting for a total of 105 groups responsible for more than 42,000 events worldwide, we offer three sets of results. First, we show that over the years global terrorism has been characterized by increasing operational cohesiveness. Second, we highlight that year-to-year stability in co-clustering among groups has been particularly high from 2009 to 2018, indicating temporal consistency of similarity patterns in the last decade. Third, we demonstrate that operational similarity between two organizations is driven by three factors: (a) their overall activity; (b) the difference in the diversity of their operational repertoires; (c) the difference in a combined measure of diversity and activity. Groups' operational preferences, geographical homophily and ideological affinity have no consistent role in determining operational similarity.
翻訳日:2021-12-16 17:22:14 公開日:2021-12-15
# 凸制約による最適化問題に対するDNNソリューションの実現とその直流最適潮流問題への応用

Ensuring DNN Solution Feasibility for Optimization Problems with Convex Constraints and Its Application to DC Optimal Power Flow Problems ( http://arxiv.org/abs/2112.08091v1 )

ライセンス: Link先を確認
Tianyu Zhao, Xiang Pan, Minghua Chen, and Steven H. Low(参考訳) ソリューションの実現性を保証することは、制約付き最適化問題を解決するためのDeep Neural Network (DNN) スキームを開発する上で重要な課題である。 本稿では,凸制約や汎用関数といった問題に対するDNNソリューションの実現性を体系的に保証する「予防学習」フレームワークを提案する。 まず,等価制約の保証だけでなく,dnn が予測する変数数を削減するために,予測・再構成設計を適用する。 そこで本研究では,DNNトレーニングにおける不等式制約を体系的に校正し,予測誤差を予測し,結果の解決を確実にする。 キャリブレーションサイズとDNNサイズを特徴付けることで,汎用性を確保する。 実現可能性保証を犠牲にすることなく,dnnの最適性性能を向上させるための新しい逆サンプル認識学習アルゴリズムを提案する。 全体として、フレームワークは2つのDNNを提供する。 十分なDNNサイズを特徴付けることによる1つは、普遍的実現性を保証する一方で、提案したトレーニングアルゴリズムのもう1つは、最適化をさらに改善し、DNNの普遍的実現性を同時に維持する。 本稿では,グリッド動作における直流最適潮流問題に対するDeepOPF+の開発に予防学習フレームワークを適用した。 既存のDNNベースのスキームを改良し、実現可能性を確保し、軽量と重負荷の両方で一貫したスピードアップ性能を実現する。 IEEE Case-30/118/300テストケースのシミュレーション結果から、DeepOPF+は、最先端反復解法と比較して、$<0.5%の最適性損失と最大2桁の計算スピードアップで100\%の実現可能な解を生成することが示された。

Ensuring solution feasibility is a key challenge in developing Deep Neural Network (DNN) schemes for solving constrained optimization problems, due to inherent DNN prediction errors. In this paper, we propose a "preventive learning'" framework to systematically guarantee DNN solution feasibility for problems with convex constraints and general objective functions. We first apply a predict-and-reconstr uct design to not only guarantee equality constraints but also exploit them to reduce the number of variables to be predicted by DNN. Then, as a key methodological contribution, we systematically calibrate inequality constraints used in DNN training, thereby anticipating prediction errors and ensuring the resulting solutions remain feasible. We characterize the calibration magnitudes and the DNN size sufficient for ensuring universal feasibility. We propose a new Adversary-Sample Aware training algorithm to improve DNN's optimality performance without sacrificing feasibility guarantee. Overall, the framework provides two DNNs. The first one from characterizing the sufficient DNN size can guarantee universal feasibility while the other from the proposed training algorithm further improves optimality and maintains DNN's universal feasibility simultaneously. We apply the preventive learning framework to develop DeepOPF+ for solving the essential DC optimal power flow problem in grid operation. It improves over existing DNN-based schemes in ensuring feasibility and attaining consistent desirable speedup performance in both light-load and heavy-load regimes. Simulation results over IEEE Case-30/118/300 test cases show that DeepOPF+ generates $100\%$ feasible solutions with $<$0.5% optimality loss and up to two orders of magnitude computational speedup, as compared to a state-of-the-art iterative solver.
翻訳日:2021-12-16 17:21:53 公開日:2021-12-15
# 楕円偏微分方程式に対する深部演算子の指数収束

Exponential Convergence of Deep Operator Networks for Elliptic Partial Differential Equations ( http://arxiv.org/abs/2112.08125v1 )

ライセンス: Link先を確認
Carlo Marcati and Christoph Schwab(参考訳) 楕円型二階PDEの係数対解写像の指数収束率でエミュレートする無限次元空間間の深い作用素ネットワーク(ONets)を構築する。 特に、d$-dimensional periodic domain, $d=1, 2, \dots$, and with analytic right-hand side and coefficients に設定された問題を考える。 異種材料における拡散反応問題,パラメトリック拡散方程式,線形等方性エラストスタシスなどの楕円系について検討した。 解析的解を持つ境界値問題に対してスペクトルコロケーション法の指数収束を利用する。 現在の周期的および解析的設定では、これは古典楕円正則性から従う。 ONetブランチと[Chen and Chen, 1993] および [Lu et al., 2021] のトランク構成では、係数対解写像を正確に$H^1$ノルムで$\varepsilon>0$にエミュレートするディープオネットの存在を示す。 我々は、onet内のニューラルネットワークが、物理空間次元に応じて$\kappa>0$のいくつかの値に対して$\mathcal{o}(\left|\log(\varepsilon)\ri ght|^\kappa)$を持つことを証明する。

We construct deep operator networks (ONets) between infinite-dimensional spaces that emulate with an exponential rate of convergence the coefficient-to-solut ion map of elliptic second-order PDEs. In particular, we consider problems set in $d$-dimensional periodic domains, $d=1, 2, \dots$, and with analytic right-hand sides and coefficients. Our analysis covers diffusion-reaction problems, parametric diffusion equations, and elliptic systems such as linear isotropic elastostatics in heterogeneous materials. We leverage the exponential convergence of spectral collocation methods for boundary value problems whose solutions are analytic. In the present periodic and analytic setting, this follows from classical elliptic regularity. Within the ONet branch and trunk construction of [Chen and Chen, 1993] and of [Lu et al., 2021], we show the existence of deep ONets which emulate the coefficient-to-solut ion map to accuracy $\varepsilon>0$ in the $H^1$ norm, uniformly over the coefficient set. We prove that the neural networks in the ONet have size $\mathcal{O}(\left|\log(\varepsilon)\ri ght|^\kappa)$ for some $\kappa>0$ depending on the physical space dimension.
翻訳日:2021-12-16 17:19:49 公開日:2021-12-15
# チンパンジーの音声プリント? 人声からの伝達学習実験からの洞察

Chimpanzee voice prints? Insights from transfer learning experiments from human voices ( http://arxiv.org/abs/2112.08165v1 )

ライセンス: Link先を確認
Mael Leroux, Orestes Gutierrez Al-Khudhairy, Nicolas Perony, Simon W. Townsend(参考訳) 個々の声の差は動物界で広く見られる。 人間では、これらの違いは声のレパートリー全体に浸透し、「声のプリント」を構成する。 近親類である類人猿は、特定の呼び出しタイプ内で個々のシグネチャを持っているが、ユニークな音声プリントの可能性はほとんど調査されていない。 これは部分的には、小さなデータセットから有意義な特徴を抽出することに関連する制限に起因する。 機械学習の進歩は、従来の音響的特徴の代替、すなわち事前訓練された学習抽出器を強調している。 本稿では,1万点以上の人間の音声プリントをトレーニングしたディープニューラルネットワークに基づく特徴抽出器を利用して,チンパンジーの音声プリントを識別する情報空間を提供する。 従来の音響的特徴を用いた結果と比較し,非ヒト動物における「声紋」の同定における方法論の利点と意義について考察した。

Individual vocal differences are ubiquitous in the animal kingdom. In humans, these differences pervade the entire vocal repertoire and constitute a "voice print". Apes, our closest-living relatives, possess individual signatures within specific call types, but the potential for a unique voice print has been little investigated. This is partially attributed to the limitations associated with extracting meaningful features from small data sets. Advances in machine learning have highlighted an alternative to traditional acoustic features, namely pre-trained learnt extractors. Here, we present an approach building on these developments: leveraging a feature extractor based on a deep neural network trained on over 10,000 human voice prints to provide an informative space over which we identify chimpanzee voice prints. We compare our results with those obtained by using traditional acoustic features and discuss the benefits of our methodology and the significance of our findings for the identification of "voice prints" in non-human animals.
翻訳日:2021-12-16 17:19:26 公開日:2021-12-15
# スマートセンサによる業務管理の強化:ロジスティクスワーカーの幸福感,インタラクション,パフォーマンスの測定と改善

Enhancing operations management through smart sensors: measuring and improving well-being, interaction and performance of logistics workers ( http://arxiv.org/abs/2112.08213v1 )

ライセンス: Link先を確認
D. Aloini, A. Fronzetti Colladon, P. Gloor, E. Guerrazzi, A. Stefanini(参考訳) 目的 この研究の目的は、イタリアの物流ハブの物質処理活動について探索的な調査を行うことである。 ウェアラブルセンサーやその他のスマートツールが作業中の人間や環境の特徴の収集に使用された。 これらの要因は、労働者のパフォーマンスや幸福度と相関した。 人的・環境的要因は, 従業員のパフォーマンス, 幸福, 安全に大きな影響を与えるため, 経営管理活動において重要な役割を担っている。 驚くべきことに、こうした側面が物流事業に与える影響に関する実証研究は、いまだに限られている。 このギャップを埋めようと、この研究は、スマートツールを活用するロジスティクスワーカーのパフォーマンスに影響を与える人間と環境の要因を実証的に探求した。 その結果、人間の態度、相互作用、感情、環境条件は、労働者のパフォーマンスや幸福に著しく影響を与え、それぞれの労働者の個性によって異なる関係を示すことが示唆された。 実践的な意味 著者の研究は、従業員をプロファイリングし、個人化された人材管理を採用するための新しい道を開き、管理者に労働者の幸福とパフォーマンスを潜在的にチェックし改善できる運用システムを提供する。 原点/価値 この研究の原点は、個人、協力的、および環境データをリアルタイムで記録することによって、作業中に人体と環境要素の詳細な調査から来ています。 著者の知る限りでは,実世界の物流業務においてこのような詳細な分析が実施されたのは,本論文が初めてである。

Purpose The purpose of the research is to conduct an exploratory investigation of the material handling activities of an Italian logistics hub. Wearable sensors and other smart tools were used for collecting human and environmental features during working activities. These factors were correlated with workers' performance and well-being. Design/methodology/a pproach Human and environmental factors play an important role in operations management activities since they significantly influence employees' performance, well-being and safety. Surprisingly, empirical studies about the impact of such aspects on logistics operations are still very limited. Trying to fill this gap, the research empirically explores human and environmental factors affecting the performance of logistics workers exploiting smart tools. Findings Results suggest that human attitudes, interactions, emotions and environmental conditions remarkably influence workers' performance and well-being, however, showing different relationships depending on individual characteristics of each worker. Practical implications The authors' research opens up new avenues for profiling employees and adopting an individualized human resource management, providing managers with an operational system capable to potentially check and improve workers' well-being and performance. Originality/value The originality of the study comes from the in-depth exploration of human and environmental factors using body-worn sensors during work activities, by recording individual, collaborative and environmental data in real-time. To the best of the authors' knowledge, the current paper is the first time that such a detailed analysis has been carried out in real-world logistics operations.
翻訳日:2021-12-16 17:19:11 公開日:2021-12-15
# 不完全学習ダイナミクスの存在下での保証された収縮制御

Guaranteed Contraction Control in the Presence of Imperfectly Learned Dynamics ( http://arxiv.org/abs/2112.08222v1 )

ライセンス: Link先を確認
Pan Zhao, Ziyao Guo, Yikun Cheng, Aditya Gahlawat and Naira Hovakimyan(参考訳) 本稿では,不確かさに適合する非線形システムの収縮メトリックと外乱推定に基づく軌道中心学習制御のアプローチを提案する。 このアプローチでは、ディープニューラルネットワークを含む幅広いモデルの学習ツールを使用して、不確実なダイナミクスを学習すると同時に、学習のない特別なケースを含む学習フェーズ全体を通して、過渡的なトラッキングパフォーマンスの保証を提供する。 提案手法では,事前計算可能な推定誤差境界(eebs)を用いて不確かさのポイントワイズ値を推定するために外乱推定法が提案されている。 学習されたダイナミクス、推定された外乱、およびeebは、学習されたモデルが貧弱であっても、学習フェーズを通じて所望の軌道が所望の軌道に指数収束することを保証する制御則を計算するために、強固なリーマンエネルギー条件に組み込まれている。 一方、精度の向上により、学習したモデルを高レベルプランナーに組み込むことで、より優れた軌道計画、例えば、エネルギー消費量の低減や旅行時間の短縮など、性能の向上を図ることができる。 提案されたフレームワークは、平面四角形ナビゲーションの例で検証される。

This paper presents an approach for trajectory-centric learning control based on contraction metrics and disturbance estimation for nonlinear systems subject to matched uncertainties. The approach allows for the use of a broad class of model learning tools including deep neural networks to learn uncertain dynamics while still providing guarantees of transient tracking performance throughout the learning phase, including the special case of no learning. Within the proposed approach, a disturbance estimation law is proposed to estimate the pointwise value of the uncertainty, with pre-computable estimation error bounds (EEBs). The learned dynamics, the estimated disturbances, and the EEBs are then incorporated in a robust Riemannian energy condition to compute the control law that guarantees exponential convergence of actual trajectories to desired ones throughout the learning phase, even when the learned model is poor. On the other hand, with improved accuracy, the learned model can be incorporated in a high-level planner to plan better trajectories with improved performance, e.g., lower energy consumption and shorter travel time. The proposed framework is validated on a planar quadrotor navigation example.
翻訳日:2021-12-16 17:18:44 公開日:2021-12-15
# (参考訳) 対人訓練の収束性とロバスト性について [全文訳有]

On the Convergence and Robustness of Adversarial Training ( http://arxiv.org/abs/2112.08304v1 )

ライセンス: CC BY 4.0
Yisen Wang, Xingjun Ma, James Bailey, Jinfeng Yi, Bowen Zhou, Quanquan Gu(参考訳) ディープニューラルネットワーク(DNN)の敵例に対する堅牢性を改善することは、セキュアなディープラーニングにとって重要な課題である。 既存の防衛技術以外にも、プロジェクテッド・グラディエント・デセント(PGD)による敵の訓練が最も効果的である。 比較学習は、分類損失を最大化して逆例を生成する \textit{inner maximization} と、内最大化から生成された逆例の損失を最小化してモデルパラメータを求める \textit{outer minimization} とを用いて、min-max最適化問題を解く。 したがって, 内面最大化の精度を測る基準は, 敵の訓練に不可欠である。 本稿では,制約付き最適化のための一階定常条件 (fosc) を提案し,内部最大化における逆例の収束品質を定量的に評価する。 FOSCでは、より堅牢性を確保するために、トレーニングの「textit{later stage}」において、より良い収束品質を持つ逆例を使用することが不可欠である。 しかし、初期段階では高いコンバージェンス品質の敵意は必要とせず、強固さを損なうこともある。 これらの観察に基づいて,生成した逆行例の収束品質を徐々に向上させ,逆行訓練のロバスト性を大幅に向上させる \textit{dynamic} トレーニング戦略を提案する。 その結果,提案手法の有効性が示唆された。

Improving the robustness of deep neural networks (DNNs) to adversarial examples is an important yet challenging problem for secure deep learning. Across existing defense techniques, adversarial training with Projected Gradient Decent (PGD) is amongst the most effective. Adversarial training solves a min-max optimization problem, with the \textit{inner maximization} generating adversarial examples by maximizing the classification loss, and the \textit{outer minimization} finding model parameters by minimizing the loss on adversarial examples generated from the inner maximization. A criterion that measures how well the inner maximization is solved is therefore crucial for adversarial training. In this paper, we propose such a criterion, namely First-Order Stationary Condition for constrained optimization (FOSC), to quantitatively evaluate the convergence quality of adversarial examples found in the inner maximization. With FOSC, we find that to ensure better robustness, it is essential to use adversarial examples with better convergence quality at the \textit{later stages} of training. Yet at the early stages, high convergence quality adversarial examples are not necessary and may even lead to poor robustness. Based on these observations, we propose a \textit{dynamic} training strategy to gradually increase the convergence quality of the generated adversarial examples, which significantly improves the robustness of adversarial training. Our theoretical and empirical results show the effectiveness of the proposed method.
翻訳日:2021-12-16 17:17:56 公開日:2021-12-15
# HyObscure: プライバシ保護データパブリッシングのためのハイブリッドオブスカー

HyObscure: Hybrid Obscuring for Privacy-Preserving Data Publishing ( http://arxiv.org/abs/2112.07850v1 )

ライセンス: Link先を確認
Xiao Han and Yuncong Yang and Junjie Wu(参考訳) データユーティリティを確保しながらプライバシリークを最小限に抑えることは、プライバシ保存データパブリッシングタスクにおけるデータホルダーにとって重要な問題である。 以前のほとんどの研究は、1つのタイプのデータのみに関係しており、実際の異種データを保護するには不十分で、常に成長する機械学習ベースの推論攻撃を防御するのは難しいプライバシ利用のトレードオフを達成するために、1つの難解な方法である \eg, obfuscation, generalizationを頼りにしている。 この研究は、一般化と難読化の両方の操作が異種データ保護に使用される場合、プライバシ保存データパブリッシングに関するパイロット研究を行う。 この目的のために、我々はまずプライバシとユーティリティの定量化のための新しい対策を提案し、一般化と難読化の連立効果を考慮したハイブリッドプライバシ保存データオブシュークリング問題を定式化する。 次にHyObscureと呼ばれる新しいハイブリッド保護機構を設計し、特定のユーティリティ保証の下での最大プライバシー保護のための一般化と難読化操作を相互に最適化する。 反復過程の収束とHyObscureのプライバシー漏洩境界も理論上提供される。 広範囲な実験により、ハイオブスキュアは様々なシナリオで様々な推論攻撃に直面した際に、様々な最先端のベースラインメソッドを大きく上回っていることが示されている。 HyObscureはまた、データサイズに線形にスケールし、異なるキーパラメータで堅牢に振る舞う。

Minimizing privacy leakage while ensuring data utility is a critical problem to data holders in a privacy-preserving data publishing task. Most prior research concerns only with one type of data and resorts to a single obscuring method, \eg, obfuscation or generalization, to achieve a privacy-utility tradeoff, which is inadequate for protecting real-life heterogeneous data and is hard to defend ever-growing machine learning based inference attacks. This work takes a pilot study on privacy-preserving data publishing when both generalization and obfuscation operations are employed for heterogeneous data protection. To this end, we first propose novel measures for privacy and utility quantification and formulate the hybrid privacy-preserving data obscuring problem to account for the joint effect of generalization and obfuscation. We then design a novel hybrid protection mechanism called HyObscure, to cross-iteratively optimize the generalization and obfuscation operations for maximum privacy protection under a certain utility guarantee. The convergence of the iterative process and the privacy leakage bound of HyObscure are also provided in theory. Extensive experiments demonstrate that HyObscure significantly outperforms a variety of state-of-the-art baseline methods when facing various inference attacks under different scenarios. HyObscure also scales linearly to the data size and behaves robustly with varying key parameters.
翻訳日:2021-12-16 16:51:23 公開日:2021-12-15
# 生体ニューロンとシナプスによる計画

Planning with Biological Neurons and Synapses ( http://arxiv.org/abs/2112.08186v1 )

ライセンス: Link先を確認
Francesco d'Amore, Daniel Mitropolsky, Pierluigi Crescenzi, Emanuele Natale, Christos H. Papadimitriou(参考訳) 我々はブロック世界の計画問題を再考し、この課題に対して既知のヒューリスティックを実装した。 重要なことに、我々の実装は、ニューロンのスパイクによってのみ実行されるという意味で、生物学的に妥当である。 過去50年にわたってブロック世界で多くのことが達成されてきたが、この種のアルゴリズムはこれが最初のものであると信じている。 入力はブロックスタックの初期セットとターゲットセットをエンコードするシンボルのシーケンスであり、出力は '`put the top block in the stack 1 on the table'' のような動作コマンドのシーケンスである。 これは、最近提案された計算フレームワークで、神経活動と認知機能の間のギャップを埋めることで脳内の計算をモデル化することを目的としている。 その基本的な対象はニューロンのアセンブリ(被験者がオブジェクト、概念、単語などについて考えていることを示す同時発火の安定的なニューロンの集合)であり、そのコマンドにはプロジェクトとマージが含まれ、実行モデルは広く受け入れられた神経科学のテネットに基づいている。 この枠組みのプログラムは基本的にニューロンとシナプスの力学系を構築し、最終的には高い確率でタスクを達成する。 この研究の目的は、アセンブリ計算における合理的に大きなプログラムが正しく確実に実行できることを実証的に確立することであり、ブロック世界の計画のような高度な認知機能(理想化されていれば)は、そのようなプログラムによってうまく実装できる。

We revisit the planning problem in the blocks world, and we implement a known heuristic for this task. Importantly, our implementation is biologically plausible, in the sense that it is carried out exclusively through the spiking of neurons. Even though much has been accomplished in the blocks world over the past five decades, we believe that this is the first algorithm of its kind. The input is a sequence of symbols encoding an initial set of block stacks as well as a target set, and the output is a sequence of motion commands such as ``put the top block in stack 1 on the table''. The program is written in the Assembly Calculus, a recently proposed computational framework meant to model computation in the brain by bridging the gap between neural activity and cognitive function. Its elementary objects are assemblies of neurons (stable sets of neurons whose simultaneous firing signifies that the subject is thinking of an object, concept, word, etc.), its commands include project and merge, and its execution model is based on widely accepted tenets of neuroscience. A program in this framework essentially sets up a dynamical system of neurons and synapses that eventually, with high probability, accomplishes the task. The purpose of this work is to establish empirically that reasonably large programs in the Assembly Calculus can execute correctly and reliably; and that rather realistic -- if idealized -- higher cognitive functions, such as planning in the blocks world, can be implemented successfully by such programs.
翻訳日:2021-12-16 16:50:57 公開日:2021-12-15
# 変装音声における感情状態における話者識別のための複数特徴抽出手法の活用

The exploitation of Multiple Feature Extraction Techniques for Speaker Identification in Emotional States under Disguised Voices ( http://arxiv.org/abs/2112.07940v1 )

ライセンス: Link先を確認
Noor Ahmad Al Hindawi, Ismail Shahin, Ali Bou Nassif(参考訳) 人工知能の改良により、話者識別(SI)技術は大きな方向性をもたらし、現在では様々な分野で広く使われている。 SIの最も重要なコンポーネントの1つは特徴抽出であり、SIプロセスとパフォーマンスに大きな影響を与える。 その結果、多くの特徴抽出戦略が徹底的に研究され、対比され、分析された。 本稿では,感情環境下での疑似音声における話者識別のための特徴抽出手法を5つ活用する。 この研究を著しく評価するために、高ピッチ、低ピッチ、電子音声変換(EVC)の3つの効果が使用される。 実験結果から,MFCC,MFCCs-delta,MF CCs-deltaが最高の特徴抽出法であることがわかった。

Due to improvements in artificial intelligence, speaker identification (SI) technologies have brought a great direction and are now widely used in a variety of sectors. One of the most important components of SI is feature extraction, which has a substantial impact on the SI process and performance. As a result, numerous feature extraction strategies are thoroughly investigated, contrasted, and analyzed. This article exploits five distinct feature extraction methods for speaker identification in disguised voices under emotional environments. To evaluate this work significantly, three effects are used: high-pitched, low-pitched, and Electronic Voice Conversion (EVC). Experimental results reported that the concatenated Mel-Frequency Cepstral Coefficients (MFCCs), MFCCs-delta, and MFCCs-delta-delta is the best feature extraction method.
翻訳日:2021-12-16 16:50:10 公開日:2021-12-15
# マスクは私のプライバシーを守るのか? マスク付き顔画像から保護属性を予測するディープラーニング

Does a Face Mask Protect my Privacy?: Deep Learning to Predict Protected Attributes from Masked Face Images ( http://arxiv.org/abs/2112.07879v1 )

ライセンス: Link先を確認
Sachith Seneviratne, Nuran Kasthuriarachchi, Sanka Rasnayaka, Danula Hettiachchi and Ridwan Shariffdeen(参考訳) 無接触で効率的なシステムは、新型コロナウイルスのパンデミックとの戦いの予防策を提唱するために急速に実装されている。 このようなシステムのプラスの利点にもかかわらず、ユーザーのプライバシーを侵害することで悪用される可能性がある。 本研究では,マスクされた顔画像を用いて,プライバシーに敏感な生体情報を予測することで,顔バイオメトリックシステムのプライバシー侵害性を分析する。 我々は,20,003個の合成マスク画像を用いたResNet-50アーキテクチャに基づくCNNのトレーニングと適用を行い,プライバシーの侵害性を測定する。 マスクを着用することによるプライバシー上のメリットは広く信じられているが,マスクを着用する場合のプライバシー侵害性には大きな違いはない。 実験では、マスク付き顔画像から性別(94.7%)、人種(83.1%)、年齢(mae 6.21およびrmse 8.33)を正確に予測することができた。 提案手法は,プライバシに敏感な情報を利用する人工知能システムのプライバシー侵害性を評価するためのベースラインユーティリティとして機能する。 我々は、再生産性と研究コミュニティによる幅広い利用に対するすべての貢献をオープンソースにしています。

Contactless and efficient systems are implemented rapidly to advocate preventive methods in the fight against the COVID-19 pandemic. Despite the positive benefits of such systems, there is potential for exploitation by invading user privacy. In this work, we analyse the privacy invasiveness of face biometric systems by predicting privacy-sensitive soft-biometrics using masked face images. We train and apply a CNN based on the ResNet-50 architecture with 20,003 synthetic masked images and measure the privacy invasiveness. Despite the popular belief of the privacy benefits of wearing a mask among people, we show that there is no significant difference to privacy invasiveness when a mask is worn. In our experiments we were able to accurately predict sex (94.7%),race (83.1%) and age (MAE 6.21 and RMSE 8.33) from masked face images. Our proposed approach can serve as a baseline utility to evaluate the privacy-invasiveness of artificial intelligence systems that make use of privacy-sensitive information. We open-source all contributions for re-producibility and broader use by the research community.
翻訳日:2021-12-16 16:49:28 公開日:2021-12-15
# 平面物体追跡のためのホログラフィ分解ネットワーク

Homography Decomposition Networks for Planar Object Tracking ( http://arxiv.org/abs/2112.07909v1 )

ライセンス: Link先を確認
Xinrui Zhan, Yueran Liu, Jianke Zhu, Yang Li(参考訳) 平面オブジェクトトラッキングは、ロボット工学、ビジュアルサーボ、ビジュアルSLAMといったAIアプリケーションにおいて重要な役割を果たす。 以前の平面トラッカーは、ほとんどのシナリオでうまく機能するが、高速な動きと2つの連続するフレーム間の大きな変換のため、依然として困難な作業である。 この問題の根本原因は、ホモグラフィパラメータ空間の探索範囲が大きくなると、そのような非線形システムの条件数が不安定に変化することである。 そこで本研究では,ホモグラフィ変換を2つのグループに分解することにより,条件数を大幅に削減し安定化する新しいホモグラフィ分解ネットワーク(hdn)を提案する。 特に、類似性変換推定器は、深い畳み込み同変ネットワークによって第一群をロバストに予測するように設計されている。 スケールと回転推定を高い信頼度で活用することにより、簡単な回帰モデルにより残留変換を推定する。 さらに、提案するエンドツーエンドネットワークを半教師付き方式でトレーニングする。 大規模な実験により,提案手法は,挑戦的なPOT,UCSB,POICデータセットに対して,最先端の平面追跡手法よりも高い性能を示した。

Planar object tracking plays an important role in AI applications, such as robotics, visual servoing, and visual SLAM. Although the previous planar trackers work well in most scenarios, it is still a challenging task due to the rapid motion and large transformation between two consecutive frames. The essential reason behind this problem is that the condition number of such a non-linear system changes unstably when the searching range of the homography parameter space becomes larger. To this end, we propose a novel Homography Decomposition Networks~(HDN) approach that drastically reduces and stabilizes the condition number by decomposing the homography transformation into two groups. Specifically, a similarity transformation estimator is designed to predict the first group robustly by a deep convolution equivariant network. By taking advantage of the scale and rotation estimation with high confidence, a residual transformation is estimated by a simple regression model. Furthermore, the proposed end-to-end network is trained in a semi-supervised fashion. Extensive experiments show that our proposed approach outperforms the state-of-the-art planar tracking methods at a large margin on the challenging POT, UCSB and POIC datasets.
翻訳日:2021-12-16 16:49:09 公開日:2021-12-15
# (参考訳) マルチパースペクティブ検索エンジンの設計課題 [全文訳有]

Design Challenges for a Multi-Perspective Search Engine ( http://arxiv.org/abs/2112.08357v1 )

ライセンス: CC BY-SA 4.0
Sihao Chen and Siyi Liu and Xander Uyttendaele and Yi Zhang and William Bruno and Dan Roth(参考訳) 多くのユーザーは文書検索システム(例えば検索エンジン)に目を向けて、議論の余地のある質問への回答を求める。 このようなユーザークエリに応答するには、通常、webドキュメント内の応答を識別し、異なる視点に基づいて応答を集約する必要がある。 古典的な文書検索システムは、ユーザへの直接的かつ多様な応答のセットの提供に不足している。 自然に、ドキュメント内でそのような応答を特定することは自然言語理解のタスクです。 本稿では,これらの言語理解目標を文書検索で合成する課題について検討し,新しい視点指向文書検索パラダイムについて検討する。 目的を達成するために,自然言語理解の課題を議論し,評価する。 設計上の課題と原則に従い,実用的なパイプラインシステムの実証と評価を行う。 プロトタイプシステムを用いてユーザ調査を行い,提案手法の有用性を評価し,議論を呼ぶ質問に対するユーザ情報のニーズを理解する。

Many users turn to document retrieval systems (e.g. search engines) to seek answers to controversial questions. Answering such user queries usually require identifying responses within web documents, and aggregating the responses based on their different perspectives. Classical document retrieval systems fall short at delivering a set of direct and diverse responses to the users. Naturally, identifying such responses within a document is a natural language understanding task. In this paper, we examine the challenges of synthesizing such language understanding objectives with document retrieval, and study a new perspective-oriented document retrieval paradigm. We discuss and assess the inherent natural language understanding challenges in order to achieve the goal. Following the design challenges and principles, we demonstrate and evaluate a practical prototype pipeline system. We use the prototype system to conduct a user survey in order to assess the utility of our paradigm, as well as understanding the user information needs for controversial queries.
翻訳日:2021-12-16 16:47:41 公開日:2021-12-15
# マルチモーダルシステムの共同需要予測:マルチタスク型時空間グラフニューラルネットワークアプローチ

Joint Demand Prediction for Multimodal Systems: A Multi-task Multi-relational Spatiotemporal Graph Neural Network Approach ( http://arxiv.org/abs/2112.08078v1 )

ライセンス: Link先を確認
Yuebing Liang and Guan Huang and Zhan Zhao(参考訳) 都市交通システムの効率的な運用と管理には動的需要予測が不可欠である。 異なる輸送モードの要求が相互に関連付けられるという事実を無視して、シングルモード需要予測に関する広範な研究が行われている。 近年の努力にもかかわらず、マルチモーダル需要予測の既存のアプローチは、様々な空間単位と異なるモードにまたがる不均質な時空間相関を持つ多重ネットワークを考慮できるほど柔軟ではない。 そこで本研究では,マルチモーダル需要予測のためのマルチリレーショナル時空間グラフニューラルネットワーク(st-mrgnn)を提案する。 具体的には、モード間の空間的依存関係を複数のモーダル内およびモーダル間関係グラフで符号化する。 マルチリレーショナルグラフニューラルネットワーク(MRGNN)を導入し、関係グラフ内のメッセージパッシング機構を学習するための一般化グラフ畳み込みネットワークと、異なる関係を要約するアグリゲーションモジュールからなる、クロスモードな異種空間依存を捕捉する。 さらにMRGNNと時間的ゲート畳み込み層を統合し、異種時空間相関をモデル化する。 ニューヨーク市から実世界の地下鉄および配車データセットを用いて広範な実験を行い,提案手法の既存手法に対する性能向上を検証した。 この改善は需要の少ない場所では特に大きい。 ST-MRGNNの注意機構のさらなる解析は、クロスモード相互作用を理解するための優れた解釈可能性を示す。

Dynamic demand prediction is crucial for the efficient operation and management of urban transportation systems. Extensive research has been conducted on single-mode demand prediction, ignoring the fact that the demands for different transportation modes can be correlated with each other. Despite some recent efforts, existing approaches to multimodal demand prediction are generally not flexible enough to account for multiplex networks with diverse spatial units and heterogeneous spatiotemporal correlations across different modes. To tackle these issues, this study proposes a multi-relational spatiotemporal graph neural network (ST-MRGNN) for multimodal demand prediction. Specifically, the spatial dependencies across modes are encoded with multiple intra- and inter-modal relation graphs. A multi-relational graph neural network (MRGNN) is introduced to capture cross-mode heterogeneous spatial dependencies, consisting of generalized graph convolution networks to learn the message passing mechanisms within relation graphs and an attention-based aggregation module to summarize different relations. We further integrate MRGNNs with temporal gated convolution layers to jointly model heterogeneous spatiotemporal correlations. Extensive experiments are conducted using real-world subway and ride-hailing datasets from New York City, and the results verify the improved performance of our proposed approach over existing methods across modes. The improvement is particularly large for demand-sparse locations. Further analysis of the attention mechanisms of ST-MRGNN also demonstrates its good interpretability for understanding cross-mode interactions.
翻訳日:2021-12-16 16:32:09 公開日:2021-12-15
# 行動クローニングを用いたベイズ最適化による強化学習アルゴリズムのハイパーパラメータの自動チューニング

Automatic tuning of hyper-parameters of reinforcement learning algorithms using Bayesian optimization with behavioral cloning ( http://arxiv.org/abs/2112.08094v1 )

ライセンス: Link先を確認
Juan Cruz Barsce, Jorge A. Palombarini, Ernesto C. Mart\'inez(参考訳) 機械学習アルゴリズムにおける複数のハイパーパラメータの最適設定は、利用可能なデータを最大限活用するための鍵となる。 この目的のために、進化戦略、ランダム探索、ベイズ最適化、親指のヒューリスティック規則などのいくつかの手法が提案されている。 強化学習(RL)では、学習エージェントが環境と相互作用しながら収集したデータの情報内容は、多くのハイパーパラメータの設定に大きく依存する。 したがって、RLアルゴリズムのユーザは、グリッド探索やNelder-Mead Simplexアルゴリズムのような、ほとんどのRLタスクにとって非常に非効率な検索ベースの最適化手法に頼る必要があり、学習曲線を著しく遅くし、データ収集を意図的にバイアスする負担をユーザに任せる。 本研究では,RLアルゴリズムをよりユーザに依存しないものにするため,ベイズ最適化を用いた自律型ハイパーパラメータ設定手法を提案する。 獲得関数の強化学習変種を最大化する効果を向上させる行動的クローニングを行うことにより、過去のエピソードと異なるハイパーパラメータ値のデータをメタラーニングレベルで利用する。 また、強化学習エージェント設計においてベイズ最適化を密に統合することにより、与えられたタスクの最適ポリシーに収束するために必要な状態遷移の数を減少させる。 計算実験は、他の手作業による調整や最適化に基づくアプローチと比較して有望な結果を示し、生成されたデータの情報量を増やすためにアルゴリズムのハイパーパラメータを変更することの利点を強調している。

Optimal setting of several hyper-parameters in machine learning algorithms is key to make the most of available data. To this aim, several methods such as evolutionary strategies, random search, Bayesian optimization and heuristic rules of thumb have been proposed. In reinforcement learning (RL), the information content of data gathered by the learning agent while interacting with its environment is heavily dependent on the setting of many hyper-parameters. Therefore, the user of an RL algorithm has to rely on search-based optimization methods, such as grid search or the Nelder-Mead simplex algorithm, that are very inefficient for most RL tasks, slows down significantly the learning curve and leaves to the user the burden of purposefully biasing data gathering. In this work, in order to make an RL algorithm more user-independent, a novel approach for autonomous hyper-parameter setting using Bayesian optimization is proposed. Data from past episodes and different hyper-parameter values are used at a meta-learning level by performing behavioral cloning which helps improving the effectiveness in maximizing a reinforcement learning variant of an acquisition function. Also, by tightly integrating Bayesian optimization in a reinforcement learning agent design, the number of state transitions needed to converge to the optimal policy for a given task is reduced. Computational experiments reveal promising results compared to other manual tweaking and optimization-based approaches which highlights the benefits of changing the algorithm hyper-parameters to increase the information content of generated data.
翻訳日:2021-12-16 16:31:45 公開日:2021-12-15
# 隠れ視からのラベルなしデータの過信予測のモデル化

Taming Overconfident Prediction on Unlabeled Data from Hindsight ( http://arxiv.org/abs/2112.08200v1 )

ライセンス: Link先を確認
Jing Li, Yuangang Pan, Ivor W. Tsang(参考訳) ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習(SSL)において優れたパフォーマンスを達成するための鍵となる要素である。 予測の不確実性は通常、出力空間の変換確率によって計算される \emph{entropy} として表される。 既存の作品の多くは、決定クラス(最大確率)を真のラベルとして受け入れるか、(より小さな確率で)微妙な予測を抑制することによって、低エントロピー予測を蒸留している。 不可解なことに、これらの蒸留戦略は通常ヒューリスティックであり、モデルのトレーニングには役に立たない。 そこで本研究では,まずソフトスレッショルドを用いて,決定予測と無視予測を適応的にマスキングし,次に情報予測をシームレスにシャープし,情報予測のみを蒸留する,Adaptive Sharpening (\ADS) という2つのメカニズムを提案する。 さらに, 種々の蒸留戦略との比較により, 理論上, \adsの特性を解析した。 数多くの実験により、 \ADS はプラグインにすることで最先端のSSLメソッドを大幅に改善することを確認した。 提案した<ADS>は,蒸留法に基づくSSL研究の基盤となる。

Minimizing prediction uncertainty on unlabeled data is a key factor to achieve good performance in semi-supervised learning (SSL). The prediction uncertainty is typically expressed as the \emph{entropy} computed by the transformed probabilities in output space. Most existing works distill low-entropy prediction by either accepting the determining class (with the largest probability) as the true label or suppressing subtle predictions (with the smaller probabilities). Unarguably, these distillation strategies are usually heuristic and less informative for model training. From this discernment, this paper proposes a dual mechanism, named ADaptive Sharpening (\ADS), which first applies a soft-threshold to adaptively mask out determinate and negligible predictions, and then seamlessly sharpens the informed predictions, distilling certain predictions with the informed ones only. More importantly, we theoretically analyze the traits of \ADS by comparing with various distillation strategies. Numerous experiments verify that \ADS significantly improves the state-of-the-art SSL methods by making it a plug-in. Our proposed \ADS forges a cornerstone for future distillation-based SSL research.
翻訳日:2021-12-16 16:31:22 公開日:2021-12-15
# ブラックボックス最適化のための検索空間の実用性予測:シンプルで予算対応のアプローチ

Predicting the utility of search spaces for black-box optimization:a simple, budget-aware approach ( http://arxiv.org/abs/2112.08250v1 )

ライセンス: Link先を確認
Setareh Ariafar, Justin Gilmer, Zack Nado, Jasper Snoek, Rodolphe Jenatton, George E. Dahl(参考訳) ブラックボックス最適化は、d-次元コンパクト空間のような解を探索するための探索空間を特定する必要があり、この選択は妥当な予算で最良の結果を得るために重要である。 残念なことに、多くのアプリケーションで高品質な検索スペースを決定することは難しい。 例えば、予算が限られている新しい問題に対して、機械学習パイプラインのハイパーパラメータをチューニングする場合、潜在的に有望な領域を除外し、検索スペースをトラクタブルに抑えるためのバランスを取る必要がある。 この研究の目的は、例えばディープニューラルネットワークのチューニングの応用を通じて、予算で条件付けられた検索空間の品質を予測することの課題を動機付け、ベイズ最適化のような確率的応答曲面モデルに適用されたユーティリティ関数に基づいた単純なスコアリング方法を提供することである。 提案手法は,様々な状況において有意義な予算条件スコアを算出できることを示す。 また,正確なスコアが探索空間の構築と解析に有用であることを示す実験的な証拠を提供する。 最終的には、深層学習のための実験的なワークフローにおいて、探索空間のスコアリングが標準的実践となるべきだと考えています。

Black box optimization requires specifying a search space to explore for solutions, e.g. a d-dimensional compact space, and this choice is critical for getting the best results at a reasonable budget. Unfortunately, determining a high quality search space can be challenging in many applications. For example, when tuning hyperparameters for machine learning pipelines on a new problem given a limited budget, one must strike a balance between excluding potentially promising regions and keeping the search space small enough to be tractable. The goal of this work is to motivate -- through example applications in tuning deep neural networks -- the problem of predicting the quality of search spaces conditioned on budgets, as well as to provide a simple scoring method based on a utility function applied to a probabilistic response surface model, similar to Bayesian optimization. We show that the method we present can compute meaningful budget-conditional scores in a variety of situations. We also provide experimental evidence that accurate scores can be useful in constructing and pruning search spaces. Ultimately, we believe scoring search spaces should become standard practice in the experimental workflow for deep learning.
翻訳日:2021-12-16 16:31:02 公開日:2021-12-15
# (参考訳) 全てを規定する1つのシステム:顧客サービスチャットボットのためのユニバーサルインテント認識システム [全文訳有]

One System to Rule them All: a Universal Intent Recognition System for Customer Service Chatbots ( http://arxiv.org/abs/2112.08261v1 )

ライセンス: CC0 1.0
Juan Camilo Vasquez-Correa, Juan Carlos Guerrero-Sierra, Jose Luis Pemberty-Tamayo, Juan Esteban Jaramillo, Andres Felipe Tejada-Castro(参考訳) カスタマーサービスチャットボットは、異なる企業が提供する製品やサービスに関する情報を顧客に提供するために設計された会話システムである。 特に、意図認識は、チャットボットシステムの自然言語基盤機能における中核的な構成要素の1つである。 チャットボットが認識するために訓練されるさまざまな意図のうち、あらゆるカスタマーサービスのチャットボットに共通する一連の意図がある。 普遍的な意図には、敬礼、人間エージェントへの会話の切り替え、別れなどが含まれる。 これらの普遍的な意図を認識するシステムは、特定のカスタマーサービスチャットボットのトレーニングプロセスを最適化するのに非常に役立つだろう。 本研究では,28種類のチャットボットに共通する11個の意図の群を識別する汎用的意図認識システムの開発を提案する。 提案システムは,Word2vecやBERTのような最先端の単語埋め込みモデルと,畳み込みニューラルネットワークと繰り返しニューラルネットワークに基づく深層分類器を考察した。 提案したモデルは、それらの普遍意図を最大80.4\%の精度で識別することができる。 さらに,提案システムは,短文と長文の両方で表現された意図を認識するのに等しく正確である。 同時に、誤分類エラーは、別れや肯定的なコメントなど、非常に類似した意味領域を持つインテント間で発生することが多い。 提案するシステムは,ユーザサービスのチャットボットのトレーニングプロセスを最適化するのに非常に役立つだろう。 同時に、提案手法は、トランスファー学習戦略を適用して、より具体的なチャットボットを訓練するための適切なベースモデルとなる。

Customer service chatbots are conversational systems designed to provide information to customers about products/services offered by different companies. Particularly, intent recognition is one of the core components in the natural language understating capabilities of a chatbot system. Among the different intents that a chatbot is trained to recognize, there is a set of them that is universal to any customer service chatbot. Universal intents may include salutation, switch the conversation to a human agent, farewells, among others. A system to recognize those universal intents will be very helpful to optimize the training process of specific customer service chatbots. We propose the development of a universal intent recognition system, which is trained to recognize a selected group of 11 intents that are common in 28 different chatbots. The proposed system is trained considering state-of-the-art word-embedding models such as word2vec and BERT, and deep classifiers based on convolutional and recurrent neural networks. The proposed model is able to discriminate between those universal intents with a balanced accuracy up to 80.4\%. In addition, the proposed system is equally accurate to recognize intents expressed both in short and long text requests. At the same time, misclassification errors often occurs between intents with very similar semantic fields such as farewells and positive comments. The proposed system will be very helpful to optimize the training process of a customer service chatbot because some of the intents will be already available and detected by our system. At the same time, the proposed approach will be a suitable base model to train more specific chatbots by applying transfer learning strategies.
翻訳日:2021-12-16 16:30:12 公開日:2021-12-15
# クラスタ割り当てを用いたグラフ表現学習

Graph Representation Learning via Contrasting Cluster Assignments ( http://arxiv.org/abs/2112.07934v1 )

ライセンス: Link先を確認
Chunyang Zhang, Hongyu Yao, C. L. Philip Chen and Yuena Lin(参考訳) コントラスト学習の台頭に伴い、教師なしグラフ表現学習は近年ブームとなり、一部の機械学習タスクでは教師なしグラフ学習を上回っている。 グラフ表現学習の既存のコントラストモデルのほとんどは、ローカルとグローバルの埋め込み間の相互情報を最大化することに注力するか、あるいは主にノードレベルでのコントラストに依存する。 しかし、ネットワークトポロジーのローカルおよびグローバルなビューを包括的に探究するには、まだ不十分である。 前者は地域とグローバルの関係を考察するが、その粗いグローバル情報は、地域とグローバルな見解の協調に繋がる。 後者はノードレベルの特徴アライメントに注意を払うため、グローバルビューの役割は目立たないように見える。 この2つの極端なケースに陥ることを避けるため、GRCCAと呼ばれるクラスタ割り当てを対比して、教師なしグラフ表現モデルを提案する。 クラスタリングアルゴリズムとコントラスト学習を組み合わせることにより,局所的およびグローバルな情報を合成的に有効に活用する。 これは対照的な効果を促進するだけでなく、より高品質なグラフ情報も提供する。 一方、GRCCAはさらにクラスタレベルの情報を発掘し、グラフトポロジを超えたノード間の因果関係の洞察を得る。 具体的には、まず異なるグラフ拡張戦略を持つ2つの拡張グラフを生成し、それぞれクラスタ割り当てとプロトタイプを取得するためにクラスタリングアルゴリズムを使用する。 提案したGRCCAは、異なる拡張グラフから同一ノードを補完し、クロスエントロピー損失を最小限に抑えてクラスタ割り当てを相互に認識する。 その効果を示すために,3つの下流タスクにおける最先端モデルとの比較を行った。 実験の結果, GRCCAはほとんどのタスクにおいて強い競争力を持つことがわかった。

With the rise of contrastive learning, unsupervised graph representation learning has been booming recently, even surpassing the supervised counterparts in some machine learning tasks. Most of existing contrastive models for graph representation learning either focus on maximizing mutual information between local and global embeddings, or primarily depend on contrasting embeddings at node level. However, they are still not exquisite enough to comprehensively explore the local and global views of network topology. Although the former considers local-global relationship, its coarse global information leads to grudging cooperation between local and global views. The latter pays attention to node-level feature alignment, so that the role of global view appears inconspicuous. To avoid falling into these two extreme cases, we propose a novel unsupervised graph representation model by contrasting cluster assignments, called as GRCCA. It is motivated to make good use of local and global information synthetically through combining clustering algorithms and contrastive learning. This not only facilitates the contrastive effect, but also provides the more high-quality graph information. Meanwhile, GRCCA further excavates cluster-level information, which make it get insight to the elusive association between nodes beyond graph topology. Specifically, we first generate two augmented graphs with distinct graph augmentation strategies, then employ clustering algorithms to obtain their cluster assignments and prototypes respectively. The proposed GRCCA further compels the identical nodes from different augmented graphs to recognize their cluster assignments mutually by minimizing a cross entropy loss. To demonstrate its effectiveness, we compare with the state-of-the-art models in three different downstream tasks. The experimental results show that GRCCA has strong competitiveness in most tasks.
翻訳日:2021-12-16 16:20:37 公開日:2021-12-15
# (参考訳) 1つのサイズがすべてに合わない:NLPタスク間の差分私的学習のための戦略の検討 [全文訳有]

One size does not fit all: Investigating strategies for differentially-priva te learning across NLP tasks ( http://arxiv.org/abs/2112.08159v1 )

ライセンス: CC BY-SA 4.0
Manuel Senge, Timour Igamberdiev, Ivan Habernal(参考訳) 現代のNLPモデルのトレーニングにおけるプライバシの保護には、コストがかかる。 微分プライベート確率勾配降下 (dp-sgd) において、より厳格なプライバシー保証は一般的にモデル性能を低下させる。 しかし、NLPにおけるDP-SGDの効率に関する以前の研究は、決定的あるいは反直観的である。 本稿では,5つの異なるnlpタスクにおける7つのダウンストリームデータセットの異なるプライバシ保存戦略について,現代的なニューラルモデルを用いて徹底的に分析する。 従来のNLPタスクの解決方法とは異なり、プライバシ保護戦略は勝利パターンを示しておらず、各タスクとプライバシ体制は適切なパフォーマンスを達成するために特別な処理を必要とする。

Preserving privacy in training modern NLP models comes at a cost. We know that stricter privacy guarantees in differentially-priva te stochastic gradient descent (DP-SGD) generally degrade model performance. However, previous research on the efficiency of DP-SGD in NLP is inconclusive or even counter-intuitive. In this short paper, we provide a thorough analysis of different privacy preserving strategies on seven downstream datasets in five different `typical' NLP tasks with varying complexity using modern neural models. We show that unlike standard non-private approaches to solving NLP tasks, where bigger is usually better, privacy-preserving strategies do not exhibit a winning pattern, and each task and privacy regime requires a special treatment to achieve adequate performance.
翻訳日:2021-12-16 16:19:17 公開日:2021-12-15
# (参考訳) 英語レトリバーからの多言語IR学習 [全文訳有]

Learning Cross-Lingual IR from an English Retriever ( http://arxiv.org/abs/2112.08185v1 )

ライセンス: CC BY 4.0
Yulong Li, Martin Franz, Md Arafat Sultan, Bhavani Iyer, Young-Suk Lee, Avirup Sil(参考訳) 我々は多段階知識蒸留(KD)を用いて学習した新たな言語間情報検索(CLIR)モデルを提案する。 教師と学生は異種システムであり、前者は機械翻訳と単言語IRに依存し、後者は単一のCLIR操作を実行する。 学習者は2つのKD目標を最適化することにより,多言語表現とCLIRの両方を学習できることを示す。 英語のみの検索者から多言語表現を学習するには、教師トークンを再配置してアライメントを行う新しい言語間アライメントアルゴリズムを用いる。 xor-tydiベンチマークの評価では、従来のクロスリンガルラベルirデータによる微調整アプローチよりもはるかに効果的であり、25.4 recall@5ktの精度が向上した。

We present a new cross-lingual information retrieval (CLIR) model trained using multi-stage knowledge distillation (KD). The teacher and the student are heterogeneous systems-the former is a pipeline that relies on machine translation and monolingual IR, while the latter executes a single CLIR operation. We show that the student can learn both multilingual representations and CLIR by optimizing two corresponding KD objectives. Learning multilingual representations from an English-only retriever is accomplished using a novel cross-lingual alignment algorithm that greedily re-positions the teacher tokens for alignment. Evaluation on the XOR-TyDi benchmark shows that the proposed model is far more effective than the existing approach of fine-tuning with cross-lingual labeled IR data, with a gain in accuracy of 25.4 Recall@5kt.
翻訳日:2021-12-16 16:09:26 公開日:2021-12-15
# (参考訳) Lesan - 低リソース言語のための機械翻訳 [全文訳有]

Lesan -- Machine Translation for Low Resource Languages ( http://arxiv.org/abs/2112.08191v1 )

ライセンス: CC BY 4.0
Asmelash Teka Hadgu, Abel Aregawi, Adam Beaudoin(参考訳) 世界中の何百万人もの人々が、web上のコンテンツにアクセスできない。 機械翻訳(MT)システムは、これを多くの言語で変更する可能性がある。 現在のMTシステムは、例えばドイツ語と英語のような高資源言語対に対して非常に正確な結果を提供する。 しかし、多くの低資源言語では、MTはまだ活発に研究されている。 主な課題は、これらのシステムを構築するためのデータセットの欠如である。 本稿では低リソース言語のためのMTシステムであるLesanを紹介する。 我々のパイプラインは、オンラインおよびオフラインソース、Ethiopic用のカスタムOCRシステム、自動アライメントモジュールを活用することで、低リソースMTのボトルネックを解決する。 パイプラインの最後のステップは、並列コーパスを入力として、翻訳モデルを提供するシーケンスからシーケンスモデルです。 Lesanの翻訳モデルはTransformerアーキテクチャに基づいている。 ベースモデルを構築した後、バック翻訳は単言語コーパスを活用するために使用される。 現在、レサンはティグリニャ語、アムハラ語、英語への翻訳を支援している。 われわれは、lesanがgoogle translateやmicrosoft translatorのような最先端のシステムを6つのペアで上回っていることを示す。 Lesanは無料で提供されており、これまでに1000万以上の翻訳を提供している。 現在、217のtigrinyaと15,009のamharic wikipediaの記事しかない。 私たちはLesanが、何百万人もの人々のMTを通じてWebへのアクセスを民主化するために貢献すると考えています。

Millions of people around the world can not access content on the Web because most of the content is not readily available in their language. Machine translation (MT) systems have the potential to change this for many languages. Current MT systems provide very accurate results for high resource language pairs, e.g., German and English. However, for many low resource languages, MT is still under active research. The key challenge is lack of datasets to build these systems. We present Lesan, an MT system for low resource languages. Our pipeline solves the key bottleneck to low resource MT by leveraging online and offline sources, a custom OCR system for Ethiopic and an automatic alignment module. The final step in the pipeline is a sequence to sequence model that takes parallel corpus as input and gives us a translation model. Lesan's translation model is based on the Transformer architecture. After constructing a base model, back translation, is used to leverage monolingual corpora. Currently Lesan supports translation to and from Tigrinya, Amharic and English. We perform extensive human evaluation and show that Lesan outperforms state-of-the-art systems such as Google Translate and Microsoft Translator across all six pairs. Lesan is freely available and has served more than 10 million translations so far. At the moment, there are only 217 Tigrinya and 15,009 Amharic Wikipedia articles. We believe that Lesan will contribute towards democratizing access to the Web through MT for millions of people.
翻訳日:2021-12-16 16:01:18 公開日:2021-12-15
# (参考訳) 畳み込みニューラルネットワークのプルーニングに及ぼす事前学習の影響に関する実験的研究 [全文訳有]

An Experimental Study of the Impact of Pre-training on the Pruning of a Convolutional Neural Network ( http://arxiv.org/abs/2112.08227v1 )

ライセンス: CC BY 4.0
Nathan Hubens, Matei Mancas, Bernard Gosselin, Marius Preda, Titus Zaharia(参考訳) 近年、ディープニューラルネットワークは様々なアプリケーション領域で広く成功を収めている。 しかし、それらは重要な計算とメモリ資源を必要としており、特にモバイルデバイスやリアルタイムアプリケーションにおいて、その展開を著しく妨げている。 ニューラルネットワークは通常、ネットワークの重みに対応する多くのパラメータを含む。 このようなパラメータは、トレーニングプロセスの助けを借りて得られ、ネットワークの性能を決定する。 しかし、それらは非常に冗長である。 プルーニング法は、無関係な重みを識別して取り除き、パラメータ集合のサイズを減少させようとする。 本稿では, 刈り取り効率に及ぼすトレーニング戦略の影響について検討する。 1)微調整と(2)スクラッチによる2つのトレーニングモードを考察し比較した。 4つのデータセット(CIFAR10、CIFAR100、SVHN、Caltech101)と2つの異なるCNN(VGG16、MobileNet)で得られた実験結果は、大きなコーパス(例えばImageNet)で事前トレーニングされたネットワークが、特定のデータセットで微調整されたネットワークを、スクラッチからトレーニングされた同じネットワークよりもはるかに効率的に(最大80%のパラメータ還元)切断できることを示した。

In recent years, deep neural networks have known a wide success in various application domains. However, they require important computational and memory resources, which severely hinders their deployment, notably on mobile devices or for real-time applications. Neural networks usually involve a large number of parameters, which correspond to the weights of the network. Such parameters, obtained with the help of a training process, are determinant for the performance of the network. However, they are also highly redundant. The pruning methods notably attempt to reduce the size of the parameter set, by identifying and removing the irrelevant weights. In this paper, we examine the impact of the training strategy on the pruning efficiency. Two training modalities are considered and compared: (1) fine-tuned and (2) from scratch. The experimental results obtained on four datasets (CIFAR10, CIFAR100, SVHN and Caltech101) and for two different CNNs (VGG16 and MobileNet) demonstrate that a network that has been pre-trained on a large corpus (e.g. ImageNet) and then fine-tuned on a particular dataset can be pruned much more efficiently (up to 80% of parameter reduction) than the same network trained from scratch.
翻訳日:2021-12-16 15:56:48 公開日:2021-12-15
# (参考訳) 自動意思決定のための規範的機械学習:挑戦と機会 [全文訳有]

Prescriptive Machine Learning for Automated Decision Making: Challenges and Opportunities ( http://arxiv.org/abs/2112.08268v1 )

ライセンス: CC BY 4.0
Eyke H\"ullermeier(参考訳) 機械学習(ml)の最近の応用は、予測(地上事実)の目的に主に使用されるモデルのデータ駆動構成という意味での予測モデリングの使用から、規範的モデリングの使用への顕著なシフトを示している。 これが意味することは、現実世界のシナリオにおいて、適切な行動方針に関する適切な決定を規定するモデルを学ぶというタスクである。 この人はその仕事に雇われるべきですか。 この記事では、規範的モデリングは、学習のための新しい技術条件と、信頼性、責任、意思決定の倫理に関する新しい要求を伴います。 したがって、合理的かつ責任ある方法で行動する意思決定エージェントのデータ駆動設計を支援するためには、厳密な規範的MLの方法論的基盤が必要である。 この短い論文の目的は、規範mlの特定の特徴を詳述し、それが示唆するいくつかの重要な課題を強調することである。 さらに、現代のAI研究の他の分野との接続を図り、(一般化された)決定論的枠組みにおける規範的MLの基盤を提唱する。

Recent applications of machine learning (ML) reveal a noticeable shift from its use for predictive modeling in the sense of a data-driven construction of models mainly used for the purpose of prediction (of ground-truth facts) to its use for prescriptive modeling. What is meant by this is the task of learning a model that stipulates appropriate decisions about the right course of action in real-world scenarios: Which medical therapy should be applied? Should this person be hired for the job? As argued in this article, prescriptive modeling comes with new technical conditions for learning and new demands regarding reliability, responsibility, and the ethics of decision making. Therefore, to support the data-driven design of decision-making agents that act in a rational but at the same time responsible manner, a rigorous methodological foundation of prescriptive ML is needed. The purpose of this short paper is to elaborate on specific characteristics of prescriptive ML and to highlight some key challenges it implies. Besides, drawing connections to other branches of contemporary AI research, the grounding of prescriptive ML in a (generalized) decision-theoretic framework is advocated.
翻訳日:2021-12-16 15:47:21 公開日:2021-12-15
# (参考訳) 物体の状態検出と物体検出:新しいデータセットと定量的実験 [全文訳有]

Detecting Object States vs Detecting Objects: A New Dataset and a Quantitative Experimental Study ( http://arxiv.org/abs/2112.08281v1 )

ライセンス: CC BY 4.0
Filippos Gouidis, Theodoris Patkos, Antonis Argyros and Dimitris Plexousakis(参考訳) 画像中の物体状態の検出(状態検出 - SD)は理論的および実用的重要性の問題であり、アクション認識やアベイランス検出といった他の重要なコンピュータビジョン問題と密接に関連している。 また、ロボットシステムやインテリジェントエージェントなど、動的ドメインにおける推論と行動を必要とするあらゆるエンティティにも高い関連性がある。 その重要性にもかかわらず、これまでこの問題の研究は限られてきた。 本稿では,SD問題に関する系統的研究を試みる。 まず、オブジェクトの18のカテゴリと9のステートクラスに対する19,000以上のアノテーションからなる新しい公開データセットであるObject State Detection Dataset(OSDD)を紹介します。 第二に、オブジェクト検出(OD)に使用される標準的なディープラーニングフレームワークを用いて、SD問題の振る舞いの詳細な研究に向けて、多数の適切な設計実験を行う。 本研究は,様々なシナリオにおいて,sdの性能に関するベースラインの設定と,odと比較しての相対的な性能の設定を可能にする。 全体として、実験の結果、sdはodよりも困難であり、この重大な問題を解決するために、調整済みsdメソッドを開発する必要があることが確認された。

The detection of object states in images (State Detection - SD) is a problem of both theoretical and practical importance and it is tightly interwoven with other important computer vision problems, such as action recognition and affordance detection. It is also highly relevant to any entity that needs to reason and act in dynamic domains, such as robotic systems and intelligent agents. Despite its importance, up to now, the research on this problem has been limited. In this paper, we attempt a systematic study of the SD problem. First, we introduce the Object State Detection Dataset (OSDD), a new publicly available dataset consisting of more than 19,000 annotations for 18 object categories and 9 state classes. Second, using a standard deep learning framework used for Object Detection (OD), we conduct a number of appropriately designed experiments, towards an in-depth study of the behavior of the SD problem. This study enables the setup of a baseline on the performance of SD, as well as its relative performance in comparison to OD, in a variety of scenarios. Overall, the experimental outcomes confirm that SD is harder than OD and that tailored SD methods need to be developed for addressing effectively this significant problem.
翻訳日:2021-12-16 15:35:59 公開日:2021-12-15
# (参考訳) ニューラルNLIにおける自然論理推論の分解 [全文訳有]

Decomposing Natural Logic Inferences in Neural NLI ( http://arxiv.org/abs/2112.08289v1 )

ライセンス: CC BY 4.0
Julia Rozanova, Deborah Ferreira, Marco Valentino, Mokanrarangan Thayaparan, Andre Freitas(参考訳) ニューラルNLIモデルとその推論戦略の解釈に関心を寄せ、これらのモデルが自然論理の中心となる重要な意味的特徴(単調性と概念包摂性)を捉えているかどうかを調査する。 下向き単調な文脈における妥当な推論を正しく特定することは、否定範囲や一般化量化器といった言語現象を仮定して、NLIのパフォーマンスの揺らぎとして知られている。 この難しさを理解するため,我々は,文脈の性質としてモノトニック性を強調し,意思決定プロセスに中間の文脈埋め込みにおいて,モデルがモノトニック性情報を取得する程度を検討する。 調査パラダイムの最近の進歩をふまえて,様々なモデルにまたがる単調性特徴の比較を行った。 ベンチマークで高いスコアを得るNLIモデルの表現において、単調性情報は顕著に弱く、微調整戦略に基づくこれらのモデルに対する以前の改良は、より強力な単調性機能を導入し、課題セットの性能を改善した。

In the interest of interpreting neural NLI models and their reasoning strategies, we carry out a systematic probing study which investigates whether these models capture the crucial semantic features central to natural logic: monotonicity and concept inclusion. Correctly identifying valid inferences in downward-monotone contexts is a known stumbling block for NLI performance, subsuming linguistic phenomena such as negation scope and generalized quantifiers. To understand this difficulty, we emphasize monotonicity as a property of a context and examine the extent to which models capture monotonicity information in the contextual embeddings which are intermediate to their decision making process. Drawing on the recent advancement of the probing paradigm, we compare the presence of monotonicity features across various models. We find that monotonicity information is notably weak in the representations of popular NLI models which achieve high scores on benchmarks, and observe that previous improvements to these models based on fine-tuning strategies have introduced stronger monotonicity features together with their improved performance on challenge sets.
翻訳日:2021-12-16 15:23:20 公開日:2021-12-15
# 信頼できない検出の存在下での信頼性の高いマルチオブジェクト追跡

Reliable Multi-Object Tracking in the Presence of Unreliable Detections ( http://arxiv.org/abs/2112.08345v1 )

ライセンス: Link先を確認
Travis Mandel, Mark Jimenez, Emily Risley, Taishi Nammoto, Rebekka Williams, Max Panoff, Meynard Ballesteros, Bobbie Suarez(参考訳) 近年のマルチオブジェクトトラッキング(mot)システムは高精度な物体検出器を活用しているが、そのような検出器の訓練には大量のラベル付きデータが必要である。 このようなデータは人間や車には広く見られるが、他の動物種にははるかに少ない。 我々は,検出品質が貧弱であってもロバストな性能を維持するためのアルゴリズムであるロバスト信頼度追跡(rct)を提案する。 検出信頼情報を破棄する従来の手法とは対照的に、RCTは、トラックの初期化、拡張トラック、フィルタトラックの正確な検出信頼値を頼りに、根本的に異なるアプローチをとっている。 特に、RCTは、(単一のオブジェクトトラッカーとともに)低信頼度検出を用いて、オブジェクトの連続的な追跡を効率的に行うことにより、アイデンティティスイッチを最小化することができる。 信頼性の低い検出の存在下での追跡者評価のために,実世界の水中魚追跡データセットfishtracを提案する。 FISHTRACおよびUA-DETRACデータセットの評価において、RTTは、最先端のディープ・シングル・マルチオブジェクト・トラッカーやより古典的なアプローチを含む不完全な検出を行う場合、他のアルゴリズムよりも優れることがわかった。 具体的には、RCTは、すべてのシーケンスに対して結果を返すのに成功するメソッドで最高の平均HOTAを持ち、他のメソッドよりもはるかに少ないIDスイッチを持つ。

Recent multi-object tracking (MOT) systems have leveraged highly accurate object detectors; however, training such detectors requires large amounts of labeled data. Although such data is widely available for humans and vehicles, it is significantly more scarce for other animal species. We present Robust Confidence Tracking (RCT), an algorithm designed to maintain robust performance even when detection quality is poor. In contrast to prior methods which discard detection confidence information, RCT takes a fundamentally different approach, relying on the exact detection confidence values to initialize tracks, extend tracks, and filter tracks. In particular, RCT is able to minimize identity switches by efficiently using low-confidence detections (along with a single object tracker) to keep continuous track of objects. To evaluate trackers in the presence of unreliable detections, we present a challenging real-world underwater fish tracking dataset, FISHTRAC. In an evaluation on FISHTRAC as well as the UA-DETRAC dataset, we find that RCT outperforms other algorithms when provided with imperfect detections, including state-of-the-art deep single and multi-object trackers as well as more classic approaches. Specifically, RCT has the best average HOTA across methods that successfully return results for all sequences, and has significantly less identity switches than other methods.
翻訳日:2021-12-16 15:11:02 公開日:2021-12-15
# 3次元質問応答

3D Question Answering ( http://arxiv.org/abs/2112.08359v1 )

ライセンス: Link先を確認
Shuquan Ye and Dongdong Chen and Songfang Han and Jing Liao(参考訳) VQA(Visual Question Answering)は近年大きく進歩している。 しかし、ほとんどの取り組みは2次元画像質問応答タスクのみに焦点を当てている。 本稿では,VQAを3次元領域に拡張する最初の試みについて述べる。 画像ベースのVQAとは異なり、3D Question Answering (3DQA)はカラーポイントクラウドを入力とし、3D関連の質問に答えるために外観と3D幾何学的理解能力の両方を必要とする。 そこで本研究では, 2つのエンコーダから構成したトランスフォーマ3dqaフレームワーク \textbf{``3dqa-tr"} を提案する。 外観, 幾何学, 言語的問題に関するマルチモーダルな情報は, 3D-Linguistic Bert を用いて, 目標解の予測を行うことができる。 提案する3DQAフレームワークの有効性を検証するため,ScanNetデータセット上に構築され,$\sim$6Kの質問,$\sim$30Kの回答を含む最初の3DQAデータセットである『textbf{``ScanQA"』を開発した。 このデータセットに関する大規模な実験は、既存のVQAフレームワークよりも提案した3DQAフレームワークの明らかな優位性と、主要な設計の有効性を示している。 私たちのコードとデータセットは、この方向の研究を促進するために公開されます。

Visual Question Answering (VQA) has witnessed tremendous progress in recent years. However, most efforts only focus on the 2D image question answering tasks. In this paper, we present the first attempt at extending VQA to the 3D domain, which can facilitate artificial intelligence's perception of 3D real-world scenarios. Different from image based VQA, 3D Question Answering (3DQA) takes the color point cloud as input and requires both appearance and 3D geometry comprehension ability to answer the 3D-related questions. To this end, we propose a novel transformer-based 3DQA framework \textbf{``3DQA-TR"}, which consists of two encoders for exploiting the appearance and geometry information, respectively. The multi-modal information of appearance, geometry, and the linguistic question can finally attend to each other via a 3D-Linguistic Bert to predict the target answers. To verify the effectiveness of our proposed 3DQA framework, we further develop the first 3DQA dataset \textbf{``ScanQA"}, which builds on the ScanNet dataset and contains $\sim$6K questions, $\sim$30K answers for $806$ scenes. Extensive experiments on this dataset demonstrate the obvious superiority of our proposed 3DQA framework over existing VQA frameworks, and the effectiveness of our major designs. Our code and dataset will be made publicly available to facilitate the research in this direction.
翻訳日:2021-12-16 15:10:38 公開日:2021-12-15
# context-aware lexical replacement によるテキスト生成のトレース

Tracing Text Provenance via Context-Aware Lexical Substitution ( http://arxiv.org/abs/2112.07873v1 )

ライセンス: Link先を確認
Xi Yang, Jie Zhang, Kejiang Chen, Weiming Zhang, Zehua Ma, Feng Wang, Nenghai Yu(参考訳) 人間や言語モデルによって作成されたテキストコンテンツは、しばしば敵によって盗まれ、誤用される。 テキスト証明の追跡は、テキストコンテンツの所有権を主張したり、マシン生成のフェイクニュースのような誤解を招くコンテンツを配布する悪意のあるユーザーを特定するのに役立つ。 これを達成しようとする試みは、主に透かし技術に基づいている。 特に、従来のテキスト透かし法は、行間隔やフォントなどのテキストフォーマットを少し変更することで透かしを埋め込むが、ocrのようなクロスメディア伝送には脆弱である。 これを考慮すると、自然言語の透かし法は、原文中の単語を手作り語彙資源(例えばWordNet)の同義語に置き換えることによって透かしを表すが、それらが全体文の意味に与える影響を考慮していない。 近年, 文の論理的・意味的一貫性を損なう不明瞭な単語(例えば関数語)を修飾することにより, 透かしを埋め込むトランスフォーマーネットワークが提案されている。 さらに、訓練されたネットワークは、他の異なるタイプのテキストコンテンツで失敗する。 上記の制限に対処するため,文脈対応語彙置換(LS)に基づく自然言語透かし方式を提案する。 具体的には、候補と原文間の意味的関連性を推定することにより、LS候補を提案するためにBERTを用いる。 これに基づいて、シンクロシティと置換性の観点から選択戦略を設計し、単語が透かし信号を運ぶのに適切かどうかを検証する。 客観的および主観的尺度の両面において,我々の透かし方式は,原文の意味的整合性を十分に保ち,既存手法よりも伝達性が高いことを示す。 さらに、提案したLSアプローチは、スタンフォード語置換ベンチマークにおける最先端のアプローチよりも優れている。

Text content created by humans or language models is often stolen or misused by adversaries. Tracing text provenance can help claim the ownership of text content or identify the malicious users who distribute misleading content like machine-generated fake news. There have been some attempts to achieve this, mainly based on watermarking techniques. Specifically, traditional text watermarking methods embed watermarks by slightly altering text format like line spacing and font, which, however, are fragile to cross-media transmissions like OCR. Considering this, natural language watermarking methods represent watermarks by replacing words in original sentences with synonyms from handcrafted lexical resources (e.g., WordNet), but they do not consider the substitution's impact on the overall sentence's meaning. Recently, a transformer-based network was proposed to embed watermarks by modifying the unobtrusive words (e.g., function words), which also impair the sentence's logical and semantic coherence. Besides, one well-trained network fails on other different types of text content. To address the limitations mentioned above, we propose a natural language watermarking scheme based on context-aware lexical substitution (LS). Specifically, we employ BERT to suggest LS candidates by inferring the semantic relatedness between the candidates and the original sentence. Based on this, a selection strategy in terms of synchronicity and substitutability is further designed to test whether a word is exactly suitable for carrying the watermark signal. Extensive experiments demonstrate that, under both objective and subjective metrics, our watermarking scheme can well preserve the semantic integrity of original sentences and has a better transferability than existing methods. Besides, the proposed LS approach outperforms the state-of-the-art approach on the Stanford Word Substitution Benchmark.
翻訳日:2021-12-16 15:10:11 公開日:2021-12-15
# 大きなデュアルエンコーダは一般的なリトリバー

Large Dual Encoders Are Generalizable Retrievers ( http://arxiv.org/abs/2112.07899v1 )

ライセンス: Link先を確認
Jianmo Ni, Chen Qu, Jing Lu, Zhuyun Dai, Gustavo Hern\'andez \'Abrego, Ji Ma, Vincent Y. Zhao, Yi Luan, Keith B. Hall, Ming-Wei Chang, Yinfei Yang(参考訳) あるドメインで訓練されたデュアルエンコーダは、検索タスクのために他のドメインに一般化できないことが示されている。 1つの広く信じられているのは、二重エンコーダのボトルネック層であり、最終スコアはクエリベクトルと通過ベクトルの間のドット積であり、二重エンコーダをドメイン外一般化のための効果的な検索モデルにするには限界すぎるということである。 本稿では、ボトルネック埋め込みサイズを固定しつつ、二重エンコーダモデル {\em のサイズを拡大することで、この信念に挑戦する。 マルチステージトレーニングでは,モデルサイズのスケールアップがさまざまな検索タスク,特にドメイン外一般化において大きな改善をもたらします。 実験結果から, 2つのエンコーダ, \textbf{G}eneralizable \textbf{T}5-based dense \textbf{R}etrievers (GTR), outform %ColBERT~\cite{khattab2020colbert}, and existing sparse and dense retriever on the BEIR dataset~\cite{thakur2021beir} が顕著であった。 最も驚くべきことに、我々のアブレーション調査では、GTRは非常にデータ効率が良く、ドメイン外で最高のパフォーマンスを達成するためには、MS Marcoが管理するデータの10%しか必要としない。 すべてのGTRモデルはhttps://tfhub.dev/go ogle/collections/gtr /1でリリースされる。

It has been shown that dual encoders trained on one domain often fail to generalize to other domains for retrieval tasks. One widespread belief is that the bottleneck layer of a dual encoder, where the final score is simply a dot-product between a query vector and a passage vector, is too limited to make dual encoders an effective retrieval model for out-of-domain generalization. In this paper, we challenge this belief by scaling up the size of the dual encoder model {\em while keeping the bottleneck embedding size fixed.} With multi-stage training, surprisingly, scaling up the model size brings significant improvement on a variety of retrieval tasks, especially for out-of-domain generalization. Experimental results show that our dual encoders, \textbf{G}eneralizable \textbf{T}5-based dense \textbf{R}etrievers (GTR), outperform %ColBERT~\cite{khattab2020colbert} and existing sparse and dense retrievers on the BEIR dataset~\cite{thakur2021beir} significantly. Most surprisingly, our ablation study finds that GTR is very data efficient, as it only needs 10\% of MS Marco supervised data to achieve the best out-of-domain performance. All the GTR models are released at https://tfhub.dev/go ogle/collections/gtr /1.
翻訳日:2021-12-16 15:09:42 公開日:2021-12-15
# (参考訳) checkdst: 対話状態追跡性能の実世界の一般化の測定 [全文訳有]

CheckDST: Measuring Real-World Generalization of Dialogue State Tracking Performance ( http://arxiv.org/abs/2112.08321v1 )

ライセンス: CC BY 4.0
Hyundong Cho, Chinnadhurai Sankar, Christopher Lin, Kaushik Ram Sadagopan, Shahin Shayandeh, Asli Celikyilmaz, Jonathan May, Ahmad Beirami(参考訳) 最近のニューラルモデルは、対話状態追跡(DST)ベンチマークのための関節ゴール精度(JGA)に関する新しい最先端の結果を引き続き達成している。 しかし、現実的な摂動を伴う発話や対話の流れを含む会話に対して、JGAの急激な低下を示すため、彼らの頑健さを疑問視する。 CheckList (Ribeiro et al., 2020)にインスパイアされた我々は、拡張テストセットでよく知られた弱点をテストすることで、堅牢性の包括的な次元におけるDSTモデルの比較を容易にするCheckDSTと呼ばれるメトリクスのコレクションを設計する。 我々は、最近のDSTモデルをCheckDSTで評価し、より高いJGAが全体的な堅牢性を保証しないため、JGAの最先端を追求するよりも、モデルをより公平に評価すべきだと主張している。 自己回帰型言語モデルに基づくモデルは言語多様性に一般化するが、名前付きエンティティを記憶し、しばしば幻覚を与える傾向があるのに対し、スパンベースの分類モデルは名前付きエンティティには弾力性があるが、言語多様性には頑健ではない。 それぞれの弱点のため、どちらのアプローチも実際のデプロイメントには適していない。 CheckDSTは,様々な手法の強みを具現化したタスク指向対話モデルを開発する上で,今後の研究に役立つガイドであると考えている。

Recent neural models that extend the pretrain-then-finetu ne paradigm continue to achieve new state-of-the-art results on joint goal accuracy (JGA) for dialogue state tracking (DST) benchmarks. However, we call into question their robustness as they show sharp drops in JGA for conversations containing utterances or dialog flows with realistic perturbations. Inspired by CheckList (Ribeiro et al., 2020), we design a collection of metrics called CheckDST that facilitate comparisons of DST models on comprehensive dimensions of robustness by testing well-known weaknesses with augmented test sets. We evaluate recent DST models with CheckDST and argue that models should be assessed more holistically rather than pursuing state-of-the-art on JGA since a higher JGA does not guarantee better overall robustness. We find that span-based classification models are resilient to unseen named entities but not robust to language variety, whereas those based on autoregressive language models generalize better to language variety but tend to memorize named entities and often hallucinate. Due to their respective weaknesses, neither approach is yet suitable for real-world deployment. We believe CheckDST is a useful guide for future research to develop task-oriented dialogue models that embody the strengths of various methods.
翻訳日:2021-12-16 15:08:08 公開日:2021-12-15
# oracleの言語グラフは事前学習されたトランスフォーマリズムモデルを補完する:クロスフォルマリズムの比較

Oracle Linguistic Graphs Complement a Pretrained Transformer Language Model: A Cross-formalism Comparison ( http://arxiv.org/abs/2112.07874v1 )

ライセンス: Link先を確認
Jakob Prange, Nathan Schneider, Lingpeng Kong(参考訳) 基本的に、言語グラフ表現がニューラルネットワークのモデリングを補完し、改善できる範囲について検討する。 7つの異なる形式のうちの1つから、事前学習されたトランスフォーマリズムと接地グラフからなるアンサンブル構成により、全体的な意味構成構造は、言語モデリングのパフォーマンス - 構文的構成構造と構文的および意味的依存構造に最も有用であることが分かる。 さらに、効果は音声のクラスによって大きく異なる。 結論として,神経シンボリック言語モデリングにおける有望な傾向を示し,異なる形式的手法による設計選択を定量化する今後の研究を招待する。

We examine the extent to which, in principle, linguistic graph representations can complement and improve neural language modeling. With an ensemble setup consisting of a pretrained Transformer and ground-truth graphs from one of 7 different formalisms, we find that, overall, semantic constituency structures are most useful to language modeling performance -- outpacing syntactic constituency structures as well as syntactic and semantic dependency structures. Further, effects vary greatly depending on part-of-speech class. In sum, our findings point to promising tendencies in neuro-symbolic language modeling and invite future research quantifying the design choices made by different formalisms.
翻訳日:2021-12-16 14:49:43 公開日:2021-12-15
# Lex Rosetta: 言語, 判決, 法的ドメイン間の予測モデルの移行

Lex Rosetta: Transfer of Predictive Models Across Languages, Jurisdictions, and Legal Domains ( http://arxiv.org/abs/2112.07882v1 )

ライセンス: Link先を確認
Jaromir Savelka, Hannes Westermann, Karim Benyekhlef, Charlotte S. Alexander, Jayla C. Grant, David Restrepo Amariles, Rajaa El Hamdani, S\'ebastien Mee\`us, Micha{\l} Araszkiewicz, Kevin D. Ashley, Alexandra Ashley, Karl Branting, Mattia Falduti, Matthias Grabmair, Jakub Hara\v{s}ta, Tereza Novotn\'a, Elizabeth Tippett, Shiwanni Johnson(参考訳) 本稿では,司法管轄区域,法体系(一般法・民法),言語,ドメイン(文脈)をまたいだ判断機能分節化のための予測モデルとして,多言語文埋め込みの利用について検討する。 元の文脈以外で言語資源を利用するメカニズムは、法体系、言語、伝統の違いが研究成果の広範な採用を妨げるため、AI & Lawにおいて潜在的に有益である。 言語間で転送可能なGRU(Gated Recurrent Units)を用いたシーケンスラベリングモデルにおけるLanguage-Agnostic Sentence Representationsの使用を分析する。 異なる文脈間での移動を調査するため,適応的決定の関数的セグメンテーションのためのアノテーションスキームを開発した。 モデルは、訓練された文脈を超えて一般化することを発見した(例えば、米国からの行政判断に基づいて訓練されたモデルは、イタリアの刑事法決定に適用できる)。 さらに,複数のコンテキストでモデルをトレーニングすることで頑健性が向上し,それまで認識されていなかったコンテキストで評価した場合の全体的なパフォーマンスが向上することが分かった。 最後に、すべてのコンテキストからトレーニングデータをプールすることで、モデルのコンテキスト内パフォーマンスが向上することがわかった。

In this paper, we examine the use of multi-lingual sentence embeddings to transfer predictive models for functional segmentation of adjudicatory decisions across jurisdictions, legal systems (common and civil law), languages, and domains (i.e. contexts). Mechanisms for utilizing linguistic resources outside of their original context have significant potential benefits in AI & Law because differences between legal systems, languages, or traditions often block wider adoption of research outcomes. We analyze the use of Language-Agnostic Sentence Representations in sequence labeling models using Gated Recurrent Units (GRUs) that are transferable across languages. To investigate transfer between different contexts we developed an annotation scheme for functional segmentation of adjudicatory decisions. We found that models generalize beyond the contexts on which they were trained (e.g., a model trained on administrative decisions from the US can be applied to criminal law decisions from Italy). Further, we found that training the models on multiple contexts increases robustness and improves overall performance when evaluating on previously unseen contexts. Finally, we found that pooling the training data from all the contexts enhances the models' in-context performance.
翻訳日:2021-12-16 14:49:27 公開日:2021-12-15
# 知識豊富な自己教師付きエンティティリンク

Knowledge-Rich Self-Supervised Entity Linking ( http://arxiv.org/abs/2112.07887v1 )

ライセンス: Link先を確認
Sheng Zhang, Hao Cheng, Shikhar Vashishth, Cliff Wong, Jinfeng Xiao, Xiaodong Liu, Tristan Naumann, Jianfeng Gao, Hoifung Poon(参考訳) エンティティリンクは多彩なバリエーションや一般的な曖昧さ、特に無数のエンティティを持つ高価値ドメインなど、大きな課題に直面している。 標準的な分類アプローチは、アノテーションのボトルネックに悩まされ、見えないエンティティを効果的に処理できない。 ゼロショットエンティティリンクは、新しいエンティティに一般化するための有望な方向として現れてきたが、トレーニング中のゴールドエンティティ参照やすべてのエンティティの標準記述の例が必要であり、どちらもwikipedia以外ではめったに利用できない。 本稿では、容易に利用可能なドメイン知識を活用して、エンティティリンクのための知識豊富な自己スーパービジョン($\tt kriss$)について検討する。 トレーニングでは、ドメインオントロジーを用いてラベルなしテキストの自己教師付き言及例を生成し、コントラスト学習を用いて文脈エンコーダを訓練する。 推論では、各エンティティのプロトタイプとして自己教師付き参照をサンプリングし、テスト参照を最も類似したプロトタイプにマッピングしてリンクする。 提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。 バイオメディシンをケーススタディとして,生体医学文献と臨床ノートにまたがる7つの標準データセットについて広範な実験を行った。 ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$\tt KRISSBERT$を生成し,20以上の絶対点の精度で従来の自己管理手法よりも優れていた。

Entity linking faces significant challenges, such as prolific variations and prevalent ambiguities, especially in high-value domains with myriad entities. Standard classification approaches suffer from the annotation bottleneck and cannot effectively handle unseen entities. Zero-shot entity linking has emerged as a promising direction for generalizing to new entities, but it still requires example gold entity mentions during training and canonical descriptions for all entities, both of which are rarely available outside of Wikipedia. In this paper, we explore Knowledge-RIch Self-Supervision ($\tt KRISS$) for entity linking, by leveraging readily available domain knowledge. In training, it generates self-supervised mention examples on unlabeled text using a domain ontology and trains a contextual encoder using contrastive learning. For inference, it samples self-supervised mentions as prototypes for each entity and conducts linking by mapping the test mention to the most similar prototype. Our approach subsumes zero-shot and few-shot methods, and can easily incorporate entity descriptions and gold mention labels if available. Using biomedicine as a case study, we conducted extensive experiments on seven standard datasets spanning biomedical literature and clinical notes. Without using any labeled information, our method produces $\tt KRISSBERT$, a universal entity linker for four million UMLS entities, which attains new state of the art, outperforming prior self-supervised methods by as much as over 20 absolute points in accuracy.
翻訳日:2021-12-16 14:49:05 公開日:2021-12-15
# イベントリンク:ウィキペディアへのイベントの調停

Event Linking: Grounding Event Mentions to Wikipedia ( http://arxiv.org/abs/2112.07888v1 )

ライセンス: Link先を確認
Xiaodong Yu, Wenpeng Yin, Nitish Gupta, Dan Roth(参考訳) 記事の補完には、その構成イベントを理解する必要がある。 しかし、イベントが言及されるコンテキストには、しばしばこのイベントの詳細が欠けている。 では、そのコンテキストに加えて、この特定のイベントに関する知識はどこで得られるのか? この作業は、イベントレベルの新しい自然言語理解タスクであるイベントリンクを定義する。 イベントリンクは、例えばニュース記事に現れるイベント言及と、最も適切なwikipediaページをリンクしようとする。 このページは、イベントが何を指すのかについての豊富な知識を提供する予定である。 この新しい問題の研究を標準化するために、我々は3次元で貢献する。 まず、イベントリンクタスクを正式に定義したコミュニティ初の作業である。 次に、この新しいタスクのデータセットを収集します。 具体的には、まずwikipediaからトレーニングセットを自動収集し、次に2つの評価セットを作成します。1つはwikipediaドメインから、もう1つはドメイン内パフォーマンスを報告し、もう1つは現実世界のニュースドメインから、もう1つはドメイン外パフォーマンスをテストする。 第3に,最初のイベントリンク方式であるEveLINKを提案する。 全体として、イベントリンクはコミュニティからより多くの労力を必要とするかなり困難なタスクである。 データとコードはここで入手できる。 https://github.com/c ogcomp/event-linking 。

Comprehending an article requires understanding its constituent events. However, the context where an event is mentioned often lacks the details of this event. Then, where can we obtain more knowledge of this particular event in addition to its context? This work defines Event Linking, a new natural language understanding task at the event level. Event linking tries to link an event mention, appearing in a news article for example, to the most appropriate Wikipedia page. This page is expected to provide rich knowledge about what the event refers to. To standardize the research of this new problem, we contribute in three-fold. First, this is the first work in the community that formally defines event linking task. Second, we collect a dataset for this new task. In specific, we first gather training set automatically from Wikipedia, then create two evaluation sets: one from the Wikipedia domain as well, reporting the in-domain performance; the other from the real-world news domain, testing the out-of-domain performance. Third, we propose EveLINK, the first-ever Event Linking approach. Overall, event linking is a considerably challenging task requiring more effort from the community. Data and code are available here: https://github.com/C ogComp/event-linking .
翻訳日:2021-12-16 14:48:38 公開日:2021-12-15
# 統一知識表現を用いた知識接地対話生成

Knowledge-Grounded Dialogue Generation with a Unified Knowledge Representation ( http://arxiv.org/abs/2112.07924v1 )

ライセンス: Link先を確認
Yu Li, Baolin Peng, Yelong Shen, Yi Mao, Lars Liden, Zhou Yu, Jianfeng Gao(参考訳) 知識接地対話システムは、トレーニングデータや異種知識源の欠如により構築が困難である。 既存のシステムは、トレーニングデータでカバーされるトピックが限られているため、目に見えないトピックではパフォーマンスが低下する。 さらに、異質な知識源は、異なる知識表現の知識源が異なる知識エンコーダを必要とするため、システムが他のタスクに一般化することを難しくする。 これらの課題に対処するため,我々は,異なる知識ソースを,知識接地対話生成タスクのための統一知識表現に相同化する言語モデル plug を提案する。 PLUGは、統一本質的な知識表現に基づく対話生成タスクで事前訓練される。 ダウンストリームの知識に基づく対話生成タスクを,いくつかのトレーニング例で一般化することができる。 2つのベンチマークにおける経験的評価は、我々のモデルは異なる知識ベースタスク間でよく一般化されていることを示している。 完全な教師付き設定で最先端のメソッドと同等のパフォーマンスを達成でき、ゼロショットと少数ショット設定で他のメソッドを大幅に上回ることができる。

Knowledge-grounded dialogue systems are challenging to build due to the lack of training data and heterogeneous knowledge sources. Existing systems perform poorly on unseen topics due to limited topics covered in the training data. In addition, heterogeneous knowledge sources make it challenging for systems to generalize to other tasks because knowledge sources in different knowledge representations require different knowledge encoders. To address these challenges, we present PLUG, a language model that homogenizes different knowledge sources to a unified knowledge representation for knowledge-grounded dialogue generation tasks. PLUG is pre-trained on a dialogue generation task conditioned on a unified essential knowledge representation. It can generalize to different downstream knowledge-grounded dialogue generation tasks with a few training examples. The empirical evaluation on two benchmarks shows that our model generalizes well across different knowledge-grounded tasks. It can achieve comparable performance with state-of-the-art methods under a fully-supervised setting and significantly outperforms other methods in zero-shot and few-shot settings.
翻訳日:2021-12-16 14:48:23 公開日:2021-12-15
# コンテキスト特徴とグローバル特徴を組み合わせた名前付きエンティティ認識アーキテクチャ

Named entity recognition architecture combining contextual and global features ( http://arxiv.org/abs/2112.08033v1 )

ライセンス: Link先を確認
Tran Thi Hong Hanh, Antoine Doucet, Nicolas Sidere, Jose G. Moreno, and Senja Pollak(参考訳) 名前付きエンティティ認識(NER)は、文書内の名前付きエンティティ(組織、場所、...)を事前に定義されたカテゴリに分類することを目的とした、情報抽出技術である。 これらのフレーズを正しく識別することは、情報アクセスを単純化する上で重要な役割を果たす。 しかし、名前付きエンティティ(nes)は複数のフォームを持ち、コンテキスト依存であるため、依然として難しい作業である。 文脈は文脈の特徴によって表されるが、グローバルな関係はしばしばそれらのモデルによって誤解される。 本稿では,XLNet のコンテキスト特徴と Graph Convolution Network (GCN) のグローバル特徴を組み合わせた NER の性能向上を提案する。 広く使われているデータセットであるCoNLL 2003の実験は、私たちの戦略の利点を示し、その結果は最先端技術(SOTA)と競合する。

Named entity recognition (NER) is an information extraction technique that aims to locate and classify named entities (e.g., organizations, locations,...) within a document into predefined categories. Correctly identifying these phrases plays a significant role in simplifying information access. However, it remains a difficult task because named entities (NEs) have multiple forms and they are context-dependent. While the context can be represented by contextual features, global relations are often misrepresented by those models. In this paper, we propose the combination of contextual features from XLNet and global features from Graph Convolution Network (GCN) to enhance NER performance. Experiments over a widely-used dataset, CoNLL 2003, show the benefits of our strategy, with results competitive with the state of the art (SOTA).
翻訳日:2021-12-16 14:48:05 公開日:2021-12-15
# 相対モデル比較のための動的人間評価

Dynamic Human Evaluation for Relative Model Comparisons ( http://arxiv.org/abs/2112.08048v1 )

ライセンス: Link先を確認
Th\'orhildur Thorleiksd\'ottir, Cedric Renggli, Nora Hollenstein, Ce Zhang(参考訳) 人間の判断の収集は現在、自然言語生成システムにおいて最も信頼できる評価方法である。 自動メトリクスは、生成されたテキストの品質の側面を測定するために適用される欠陥を報告し、人間の判断と不相関であることが示されている。 しかし、人間評価は時間とコストがかかるため、人間評価実験の設計と実施に関するコンセンサスが欠如している。 したがって、自然言語生成システムを評価する際に、人間の判断を効率的に収集するための合理化アプローチが必要である。 そこで本研究では,生成した出力を相対比較設定で評価する際に必要な人間のアノテーション数を測定するための動的手法を提案する。 シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するためのエージェントベース評価フレームワークを提案する。 主な結果は、優れたモデルに関する決定は、異なるラベリング戦略をまたいで高い確率で行えることを示しており、タスクごとに単一のランダムワーカーを割り当てるには、全体のラベリング労力が最小であり、したがってコストが最小となる。

Collecting human judgements is currently the most reliable evaluation method for natural language generation systems. Automatic metrics have reported flaws when applied to measure quality aspects of generated text and have been shown to correlate poorly with human judgements. However, human evaluation is time and cost-intensive, and we lack consensus on designing and conducting human evaluation experiments. Thus there is a need for streamlined approaches for efficient collection of human judgements when evaluating natural language generation systems. Therefore, we present a dynamic approach to measure the required number of human annotations when evaluating generated outputs in relative comparison settings. We propose an agent-based framework of human evaluation to assess multiple labelling strategies and methods to decide the better model in a simulation and a crowdsourcing case study. The main results indicate that a decision about the superior model can be made with high probability across different labelling strategies, where assigning a single random worker per task requires the least overall labelling effort and thus the least cost.
翻訳日:2021-12-16 14:47:51 公開日:2021-12-15
# KGR^4:Commonsense生成のための検索,レトロスペクティブ,リファイン,再考

KGR^4: Retrieval, Retrospect, Refine and Rethink for Commonsense Generation ( http://arxiv.org/abs/2112.08266v1 )

ライセンス: Link先を確認
Xin Liu, Dayiheng Liu, Baosong Yang, Haibo Zhang, Junwei Ding, Wenqing Yao, Weihua Luo, Haiying Zhang, Jinsong Su(参考訳) 生成的コモンセンス推論は、いくつかの概念から日常的なシナリオを記述する文を生成する必要があるが、近年注目されている。 しかし、既存のモデルは、生成する文がしばしば意味が無く、文法的に不正確なため、人間と同様に機能することができない。 本稿では,人間が文を作る過程に触発されて,検索,振り返り,精錬,再考の4段階からなる,新しい知識エンハンスド・コモンセンス生成フレームワーク「kgr^4」を提案する。 本手法では,まず,外部コーパスから関連する文を検索する検索を行う。 そして、これらのプロトタイプを編集またはコピーして候補文を生成するジェネレータをトレーニングし、その中の潜在的なエラーをオートエンコーダベースのリファインダで修正します。 最後に、異なるハイパーパラメータを持つジェネレータによって生成される候補文から出力文を選択する。 CommonGenベンチマークの実験結果と詳細な分析は、我々のフレームワークの有効性を強く実証している。 特に、KGR^4は公式のリーダーボードで33.56のSPICEポイントを獲得し、2.49のSPICEポイントを達成し、最先端のパフォーマンスを達成した。

Generative commonsense reasoning requires machines to generate sentences describing an everyday scenario given several concepts, which has attracted much attention recently. However, existing models cannot perform as well as humans, since sentences they produce are often implausible and grammatically incorrect. In this paper, inspired by the process of humans creating sentences, we propose a novel Knowledge-enhanced Commonsense Generation framework, termed KGR^4, consisting of four stages: Retrieval, Retrospect, Refine, Rethink. Under this framework, we first perform retrieval to search for relevant sentences from external corpus as the prototypes. Then, we train the generator that either edits or copies these prototypes to generate candidate sentences, of which potential errors will be fixed by an autoencoder-based refiner. Finally, we select the output sentence from candidate sentences produced by generators with different hyper-parameters. Experimental results and in-depth analysis on the CommonGen benchmark strongly demonstrate the effectiveness of our framework. Particularly, KGR^4 obtains 33.56 SPICE points in the official leaderboard, outperforming the previously-reported best result by 2.49 SPICE points and achieving state-of-the-art performance.
翻訳日:2021-12-16 14:46:34 公開日:2021-12-15
# 機械翻訳におけるドメインロバスト性とドメイン適応性の改善

Improving both domain robustness and domain adaptability in machine translation ( http://arxiv.org/abs/2112.08288v1 )

ライセンス: Link先を確認
Wen Lai, Jind\v{r}ich Libovick\'y, Alexander Fraser(参考訳) ニューラルマシン翻訳における領域適応の2つの問題に対処する。 まず、トレーニングデータから両方のドメインの品質を向上し、トレーニングデータに見つからないドメインに到達したいと考えています。 第2に、数百のドメイン内並列文でシステムを微調整できるように、システムを適応させたいと考えています。 本稿では,ドメインの堅牢性に対処する単語適応型モデリングと,ドメイン適応性に対処するメタラーニングという,従来の2つのアプローチの新たな組み合わせを紹介する。

We address two problems of domain adaptation in neural machine translation. First, we want to reach domain robustness, i.e., good quality of both domains from the training data, and domains unseen in the training data. Second, we want our systems to be adaptive, i.e., making it possible to finetune systems with just hundreds of in-domain parallel sentences. In this paper, we introduce a novel combination of two previous approaches, word adaptive modelling, which addresses domain robustness, and meta-learning, which addresses domain adaptability, and we present empirical results showing that our new combination improves both of these properties.
翻訳日:2021-12-16 14:46:11 公開日:2021-12-15
# 私の好きな新作映画」は私の好きな映画ですか。 再帰名詞句の理解の探究

Is "my favorite new movie" my favorite movie? Probing the Understanding of Recursive Noun Phrases ( http://arxiv.org/abs/2112.08326v1 )

ライセンス: Link先を確認
Qing Lyu, Hua Zheng, Daoxin Li, Li Zhang, Marianna Apidianaki, Chris Callison-Burch(参考訳) 再帰名詞句(NP)は興味深い意味を持つ。 例えば、"my favorite new movie" は必ずしも "my favorite movie" ではなく、"my new favorite movie" は "my favorite movie" である。 これは人間には常識であるが、事前訓練された言語モデルがそのような知識を持っているかどうかは不明である。 本稿では,再帰的名詞句読解法 (RNPC) の課題として,再帰的名詞句読解法 (Recursive Noun Phrase Challenge) を導入する。 我々のデータセットで評価すると、最先端のTransformerモデルは偶然のパフォーマンスしか達成できない。 しかし,このような知識は適切なデータを用いて学習可能であることを示す。 我々はさらに,修飾子意味カテゴリーや修飾子スコープを含むタスクから学習可能な関連言語特徴のモデルについても検討した。 最後に、RNPCでトレーニングされたモデルは、外部ハーム検出タスクにおいて強力なゼロショット性能を達成し、下流アプリケーションにおける再帰的NPの理解の有用性を示す。 すべてのコードとデータはhttps://github.com/v eronica320/Recursive -NPsでリリースされる。

Recursive noun phrases (NPs) have interesting semantic properties. For example, "my favorite new movie" is not necessarily "my favorite movie", whereas "my new favorite movie" is. This is common sense to humans, yet it is unknown whether pre-trained language models have such knowledge. We introduce the Recursive Noun Phrase Challenge (RNPC), a challenge set targeting the understanding of recursive NPs. When evaluated on our dataset, state-of-the-art Transformer models only achieve around chance performance. Still, we show that such knowledge is learnable with appropriate data. We further probe the models for relevant linguistic features that can be learned from our tasks, including modifier semantic category and modifier scope. Finally, models trained on RNPC achieve strong zero-shot performance on an extrinsic Harm Detection task, showing the usefulness of the understanding of recursive NPs in downstream applications. All code and data will be released at https://github.com/v eronica320/Recursive -NPs.
翻訳日:2021-12-16 14:46:00 公開日:2021-12-15
# タスク指向対話におけるエンティティリンクのための事前学習型トランスフォーマーモデルの評価

Evaluating Pretrained Transformer Models for Entity Linking in Task-Oriented Dialog ( http://arxiv.org/abs/2112.08327v1 )

ライセンス: Link先を確認
Sai Muralidhar Jayanthi, Varsha Embar, Karthik Raghunathan(参考訳) 自然言語タスクに対する事前学習型トランスフォーマーモデル(PTM)の適用性は広く実証されているが,テキストの短いフレーズを理解する能力は少ない。 この目的のために,タスク指向対話における教師なしエンティティリンクのレンズから,構文,意味,ショートフォーム,数値,音声の5つの特徴を評価する。 これらの結果から, PTMのいくつかは, 他の神経ベースラインと競合するが, 従来の手法と比較するとサブパーの結果が得られた。 それらの欠点のいくつかは、テキスト類似性タスクにptmsを微調整することで対処できることが判明し、意味的および構文的対応の理解能力が向上し、エンティティ参照における短縮形、数値的および音韻的バリエーションも改善された。 予測におけるニュアンスを理解するための定性的分析を行い、さらなる改善のスコープについて議論する。 コードはhttps://github.com/m urali 1996/el_todにある。

The wide applicability of pretrained transformer models (PTMs) for natural language tasks is well demonstrated, but their ability to comprehend short phrases of text is less explored. To this end, we evaluate different PTMs from the lens of unsupervised Entity Linking in task-oriented dialog across 5 characteristics -- syntactic, semantic, short-forms, numeric and phonetic. Our results demonstrate that several of the PTMs produce sub-par results when compared to traditional techniques, albeit competitive to other neural baselines. We find that some of their shortcomings can be addressed by using PTMs fine-tuned for text-similarity tasks, which illustrate an improved ability in comprehending semantic and syntactic correspondences, as well as some improvements for short-forms, numeric and phonetic variations in entity mentions. We perform qualitative analysis to understand nuances in their predictions and discuss scope for further improvements. Code can be found at https://github.com/m urali1996/el_tod
翻訳日:2021-12-16 14:45:44 公開日:2021-12-15
# AllWOZ:多言語タスク指向対話システムを目指して

AllWOZ: Towards Multilingual Task-Oriented Dialog Systems for All ( http://arxiv.org/abs/2112.08333v1 )

ライセンス: Link先を確認
Lei Zuo, Kun Qian, Bowen Yang, Zhou Yu(参考訳) Amazon AlexaやApple Siriのような最先端の自然言語技術の一般的な問題は、彼らのサービスが言語障壁のためにほとんどの途上国の市民に拡張されないことである。 このような人口は、NLP製品を作るための言語に資源が不足しているために苦しんでいる。 本稿では,英語,マンダリン,韓国語,ベトナム語,ヒンディー語,フランス語,ポルトガル語,タイ語を含む8言語を対象とした多言語多言語タスク指向顧客サービスダイアログであるAllWOZを提案する。 さらに,メタ学習にmT5を適用することで,多言語データセットのベンチマークを作成する。

A commonly observed problem of the state-of-the-art natural language technologies, such as Amazon Alexa and Apple Siri, is that their services do not extend to most developing countries' citizens due to language barriers. Such populations suffer due to the lack of available resources in their languages to build NLP products. This paper presents AllWOZ, a multilingual multi-domain task-oriented customer service dialog dataset covering eight languages: English, Mandarin, Korean, Vietnamese, Hindi, French, Portuguese, and Thai. Furthermore, we create a benchmark for our multilingual dataset by applying mT5 with meta-learning.
翻訳日:2021-12-16 14:45:23 公開日:2021-12-15
# DG2: 文書接地対話生成によるデータ拡張

DG2: Data Augmentation Through Document Grounded Dialogue Generation ( http://arxiv.org/abs/2112.08342v1 )

ライセンス: Link先を確認
Qingyang Wu, Song Feng, Derek Chen, Sachindra Joshi, Luis A. Lastras, Zhou Yu(参考訳) トレーニング用ダイアログシステムのためのデータ収集は、人間の関与と広範なアノテーションを必要とするため、非常に高価である。 特に文書化された対話システムでは、人間の専門家はユーザの質問に答えるために構造化されていない文書を注意深く読む必要がある。 その結果、既存のドキュメント・グラウンド・ダイアログデータセットは比較的小規模であり、対話システムの効果的なトレーニングを妨げている。 本稿では,生成対話モデルを用いて文書に基づく自動データ拡張手法を提案する。 対話モデルは、入力文書が与えられた多様な対話を合成できるユーザボットとエージェントボットで構成され、下流モデルのトレーニングに使用される。 元のデータセットを補うと、従来のデータ拡張手法よりも大幅に改善される。 低リソース環境でも優れたパフォーマンスを実現しています。

Collecting data for training dialog systems can be extremely expensive due to the involvement of human participants and need for extensive annotation. Especially in document-grounded dialog systems, human experts need to carefully read the unstructured documents to answer the users' questions. As a result, existing document-grounded dialog datasets are relatively small-scale and obstruct the effective training of dialogue systems. In this paper, we propose an automatic data augmentation technique grounded on documents through a generative dialogue model. The dialogue model consists of a user bot and agent bot that can synthesize diverse dialogues given an input document, which are then used to train a downstream model. When supplementing the original dataset, our method achieves significant improvement over traditional data augmentation methods. We also achieve great performance in the low-resource setting.
翻訳日:2021-12-16 14:45:12 公開日:2021-12-15
# 迅速指向性:連続的プロンプトの離散的解釈の奇妙なケース

PROMPT WAYWARDNESS: The Curious Case of Discretized Interpretation of Continuous Prompts ( http://arxiv.org/abs/2112.08348v1 )

ライセンス: Link先を確認
Daniel Khashabi, Shane Lyu, Sewon Min, Lianhui Qin, Kyle Richardson, Sameer Singh, Sean Welleck, Hannaneh Hajishirzi, Tushar Khot, Ashish Sabharwal, Yejin Choi(参考訳) 対象タスクの微調整連続プロンプトは、最近フルモデル微調整のコンパクトな代替として登場した。 これらの有望な結果に触発され、我々はそれらが解決する問題に忠実な連続的プロンプトの離散的(テキスト的)解釈を抽出する可能性を検討する。 実際には、連続的プロンプトによって解決されたタスクと、近隣の離散的プロンプトの間の「途中」の挙動を観察する: 任意のテキスト(例えば、異なるタスクや矛盾するタスクの定義)に投影されている間、タスクを解く連続的プロンプトを見つけることができ、タスクの同じサイズの最高の連続的プロンプトの非常に小さな(2%)マージン以内にいる。 この奇異で驚くべき行動の背後にある直感や、様々なパラメータの効果を定量化する広範な経験的分析を提供する。 例えば、より大きなモデルサイズの場合、より高い進路性、すなわち、より精度の低い任意のテキストにより密にマッピングするプロンプトを見つけることができる。 これらの発見は、継続的なプロンプトを忠実に解釈することの難しさと、モデルとタスク間の一般化に関する重要な意味を持ち、言語モデルを推進するための将来の進歩のためのガイダンスを提供する。

Fine-tuning continuous prompts for target tasks has recently emerged as a compact alternative to full model fine-tuning. Motivated by these promising results, we investigate the feasibility of extracting a discrete (textual) interpretation of continuous prompts that is faithful to the problem they solve. In practice, we observe a "wayward" behavior between the task solved by continuous prompts and their nearest neighbor discrete projections: We can find continuous prompts that solve a task while being projected to an arbitrary text (e.g., definition of a different or even a contradictory task), while being within a very small (2%) margin of the best continuous prompt of the same size for the task. We provide intuitions behind this odd and surprising behavior, as well as extensive empirical analyses quantifying the effect of various parameters. For instance, for larger model sizes we observe higher waywardness, i.e, we can find prompts that more closely map to any arbitrary text with a smaller drop in accuracy. These findings have important implications relating to the difficulty of faithfully interpreting continuous prompts and their generalization across models and tasks, providing guidance for future progress in prompting language models.
翻訳日:2021-12-16 14:43:47 公開日:2021-12-15
# タスク指向対話システムのためのデータベース検索結果の曖昧化

Database Search Results Disambiguation for Task-Oriented Dialog Systems ( http://arxiv.org/abs/2112.08351v1 )

ライセンス: Link先を確認
Kun Qian, Ahmad Beirami, Satwik Kottur, Shahin Shayandeh, Paul Crook, Alborz Geramifard, Zhou Yu, Chinnadhurai Sankar(参考訳) タスク指向のダイアログシステムが私たちの生活でますます普及している中、より現実的なタスクが提案され、検討されています。 しかし、新たな課題が生まれている。 例えば、現在のダイアログシステムは、既存の公開データセットにそのようなシナリオがないため、データベースをクエリするときに複数の検索結果を効果的に処理できない。 本稿では,データベース検索結果の曖昧さを解消する新しい課題であるデータベース検索結果(dsr)の曖昧さを解消することを提案する。 そこで本研究では,タスク指向の対話データセット (multiwoz と sgd) を,曖昧さを解消するターンで拡張する。 (a)予め定義された文法を合成的に生成し、 b) サブセットのために人間のパラフレーズを収集すること。 拡張ダイアログデータのトレーニングは、修正されていないターンのパフォーマンスを犠牲にすることなく、曖昧なシナリオに対処するモデルの能力を向上させる。 さらに,本モデルでは,ドメイン内データがない場合でも,DSRの曖昧性向上に寄与し,ユニバーサルダイアログスキルとして学習できることが示唆された。 私たちのデータとコードは公開されます。

As task-oriented dialog systems are becoming increasingly popular in our lives, more realistic tasks have been proposed and explored. However, new practical challenges arise. For instance, current dialog systems cannot effectively handle multiple search results when querying a database, due to the lack of such scenarios in existing public datasets. In this paper, we propose Database Search Result (DSR) Disambiguation, a novel task that focuses on disambiguating database search results, which enhances user experience by allowing them to choose from multiple options instead of just one. To study this task, we augment the popular task-oriented dialog datasets (MultiWOZ and SGD) with turns that resolve ambiguities by (a) synthetically generating turns through a pre-defined grammar, and (b) collecting human paraphrases for a subset. We find that training on our augmented dialog data improves the model's ability to deal with ambiguous scenarios, without sacrificing performance on unmodified turns. Furthermore, pre-fine tuning and multi-task learning help our model to improve performance on DSR-disambiguation even in the absence of in-domain data, suggesting that it can be learned as a universal dialog skill. Our data and code will be made publicly available.
翻訳日:2021-12-16 14:43:22 公開日:2021-12-15
# Homotopy Warpingによる画像分割

Image Segmentation with Homotopy Warping ( http://arxiv.org/abs/2112.07812v1 )

ライセンス: Link先を確認
Xiaoling Hu, Chao Chen(参考訳) 画素ごとの精度の他に、トポロジカルな正確性は、衛星画像や生体画像などの微細な構造を持つ画像のセグメンテーションにも重要である。 本稿では,デジタルトポロジーの理論を活用し,トポロジーにとって重要な画像中の位置を同定する。 そこで我々は,これらの重要な位置に着目して,深い画像分割ネットワークを訓練し,位相的精度を向上させるための新しいホモトピーウォーピング損失を提案する。 位相的に重要な位置を効率的に同定するために,距離変換を利用した新しいアルゴリズムを提案する。 提案するアルゴリズムは損失関数と同様に、自然に2dおよび3d設定の異なる位相構造に一般化する。 提案された損失関数は、ディープネットがトポロジーを認識できるメトリクスにおいて、最先端のトポロジー保存セグメンテーション法よりも優れたパフォーマンスを達成するのに役立つ。

Besides per-pixel accuracy, topological correctness is also crucial for the segmentation of images with fine-scale structures, e.g., satellite images and biomedical images. In this paper, by leveraging the theory of digital topology, we identify locations in an image that are critical for topology. By focusing on these critical locations, we propose a new homotopy warping loss to train deep image segmentation networks for better topological accuracy. To efficiently identity these topologically critical locations, we propose a new algorithm exploiting the distance transform. The proposed algorithm, as well as the loss function, naturally generalize to different topological structures in both 2D and 3D settings. The proposed loss function helps deep nets achieve better performance in terms of topology-aware metrics, outperforming state-of-the-art topology-preserving segmentation methods.
翻訳日:2021-12-16 14:42:47 公開日:2021-12-15
# ゼロショット意味セグメンテーションの分離

Decoupling Zero-Shot Semantic Segmentation ( http://arxiv.org/abs/2112.07910v1 )

ライセンス: Link先を確認
Jian Ding, Nan Xue, Gui-Song Xia, Dengxin Dai(参考訳) ゼロショットセマンティックセグメンテーション(ZS3)は、トレーニングで見たことのない新しいカテゴリをセグメンテーションすることを目的としている。 既存の作業は、ピクセルレベルのゼロショット分類問題としてZS3を定式化し、テキストのみで事前訓練された言語モデルの助けを借りて、見たクラスから見えないクラスに意味的な知識を伝達する。 単純ではあるが、ピクセルレベルZS3の定式化は、画像とテキストのペアで事前訓練された視覚言語モデルを統合する能力に制限があることを示している。 人間がしばしばセグメントレベルのセマンティックラベリングを行うという観察に触発されて、我々はZS3を2つのサブタスクに分離することを提案する。 1) ピクセルをセグメントにグループ化するクラス非依存のグループ化タスク。 2)セグメント上のゼロショット分類タスク。 前者のサブタスクはカテゴリ情報を含んでおらず、見当たらないクラスのためにグループピクセルに直接転送することができる。 後者のサブタスクはセグメントレベルで動作し、ZS3のイメージテキストペア(例えばCLIP)で事前訓練された大規模な視覚言語モデルを活用する自然な方法を提供する。 このデカップリング式に基づいて,ZegFormerと呼ばれる単純なゼロショットセマンティックセマンティックセマンティクスモデルを提案する。これは従来のZS3標準ベンチマークではPASCAL VOCで35点,COCO-Stuffで3点,未確認クラスでmIoUで3点,といった大きなマージンで上回っている。 コードはhttps://github.com/d ingjiansw101/ZegForm erでリリースされる。

Zero-shot semantic segmentation (ZS3) aims to segment the novel categories that have not been seen in the training. Existing works formulate ZS3 as a pixel-level zero-shot classification problem, and transfer semantic knowledge from seen classes to unseen ones with the help of language models pre-trained only with texts. While simple, the pixel-level ZS3 formulation shows the limited capability to integrate vision-language models that are often pre-trained with image-text pairs and currently demonstrate great potential for vision tasks. Inspired by the observation that humans often perform segment-level semantic labeling, we propose to decouple the ZS3 into two sub-tasks: 1) a class-agnostic grouping task to group the pixels into segments. 2) a zero-shot classification task on segments. The former sub-task does not involve category information and can be directly transferred to group pixels for unseen classes. The latter subtask performs at segment-level and provides a natural way to leverage large-scale vision-language models pre-trained with image-text pairs (e.g. CLIP) for ZS3. Based on the decoupling formulation, we propose a simple and effective zero-shot semantic segmentation model, called ZegFormer, which outperforms the previous methods on ZS3 standard benchmarks by large margins, e.g., 35 points on the PASCAL VOC and 3 points on the COCO-Stuff in terms of mIoU for unseen classes. Code will be released at https://github.com/d ingjiansw101/ZegForm er.
翻訳日:2021-12-16 14:42:32 公開日:2021-12-15
# M-FasterSeg:ニューラルネットワークによる効率的なセマンティックセグメンテーションネットワーク

M-FasterSeg: An Efficient Semantic Segmentation Network Based on Neural Architecture Search ( http://arxiv.org/abs/2112.07918v1 )

ライセンス: Link先を確認
Huiyu Kuang(参考訳) 画像セマンティックセグメンテーション技術は、知的システムが自然のシーンを理解するための重要な技術の1つである。 ビジュアルインテリジェンスの分野で重要な研究方向の1つとして、この技術は、モバイルロボット、ドローン、スマート運転、スマートセキュリティといった分野における幅広い応用シナリオを持っている。 しかし, 移動ロボットの実際の応用においては, 不正確なセグメンテーション意味ラベル予測や, セグメンテーション対象と背景のエッジ情報の消失などの問題が発生する可能性がある。 本稿では,ニューラルネットワークとニューラルネットワークアーキテクチャの探索手法を組み合わせた深層学習ネットワークに基づく意味セグメンテーションネットワークの構造改善を提案する。 まず、ニューラルネットワーク探索法NAS(Neural Architecture Search)を用いて、複数の解像度分岐を持つセマンティックセグメンテーションネットワークを求める。 検索処理において、自己注意ネットワーク構造モジュールを結合して探索されたニューラルネットワーク構造を調整し、異なるブランチによって探索された意味セグメントネットワークを組み合わせて高速な意味セグメントネットワーク構造を形成し、最終的な予測結果を得る。 cityscapesデータセットの実験結果は、アルゴリズムの精度が69.8%、セグメンテーション速度が48/sであることを示している。 リアルタイムと精度のバランスが良く、エッジセグメンテーションを最適化でき、複雑なシーンでパフォーマンスが向上します。 優れた堅牢性は実用に適しています。

Image semantic segmentation technology is one of the key technologies for intelligent systems to understand natural scenes. As one of the important research directions in the field of visual intelligence, this technology has broad application scenarios in the fields of mobile robots, drones, smart driving, and smart security. However, in the actual application of mobile robots, problems such as inaccurate segmentation semantic label prediction and loss of edge information of segmented objects and background may occur. This paper proposes an improved structure of a semantic segmentation network based on a deep learning network that combines self-attention neural network and neural network architecture search methods. First, a neural network search method NAS (Neural Architecture Search) is used to find a semantic segmentation network with multiple resolution branches. In the search process, combine the self-attention network structure module to adjust the searched neural network structure, and then combine the semantic segmentation network searched by different branches to form a fast semantic segmentation network structure, and input the picture into the network structure to get the final forecast result. The experimental results on the Cityscapes dataset show that the accuracy of the algorithm is 69.8%, and the segmentation speed is 48/s. It achieves a good balance between real-time and accuracy, can optimize edge segmentation, and has a better performance in complex scenes. Good robustness is suitable for practical application.
翻訳日:2021-12-16 14:42:02 公開日:2021-12-15
# 敵攻撃に対する深部行動認識モデルを守るための時間シャッフル

Temporal Shuffling for Defending Deep Action Recognition Models against Adversarial Attacks ( http://arxiv.org/abs/2112.07921v1 )

ライセンス: Link先を確認
Jaehui Hwang, Huan Zhang, Jun-Ho Choi, Cho-Jui Hsieh, and Jong-Seok Lee(参考訳) 近年,畳み込みニューラルネットワーク(CNN)を用いた映像に基づく行動認識手法が,目覚ましい認識性能を実現している。 しかし,行動認識モデルの一般化機構についてはまだ理解されていない。 本稿では,行動認識モデルが期待よりも少ない動き情報に依存しており,フレーム順序のランダム化に頑健であることを示す。 本研究は,入力ビデオの時間的シャッフルを用いた,行動認識モデルに対する敵攻撃に対する防御手法の開発である。 我々の防衛方法を可能にするもう1つの観察は、ビデオ上の敵対的摂動は時間的破壊に敏感であるということである。 我々の知る限りでは、これはビデオベースのアクション認識モデルに特有の防御手法を設計する最初の試みである。

Recently, video-based action recognition methods using convolutional neural networks (CNNs) achieve remarkable recognition performance. However, there is still lack of understanding about the generalization mechanism of action recognition models. In this paper, we suggest that action recognition models rely on the motion information less than expected, and thus they are robust to randomization of frame orders. Based on this observation, we develop a novel defense method using temporal shuffling of input videos against adversarial attacks for action recognition models. Another observation enabling our defense method is that adversarial perturbations on videos are sensitive to temporal destruction. To the best of our knowledge, this is the first attempt to design a defense method specific to video-based action recognition models.
翻訳日:2021-12-16 14:41:36 公開日:2021-12-15
# Reasoningによる想像:Long-Tailed 分類のための推論に基づく暗黙的意味データ拡張

Imagine by Reasoning: A Reasoning-Based Implicit Semantic Data Augmentation for Long-Tailed Classification ( http://arxiv.org/abs/2112.07928v1 )

ライセンス: Link先を確認
Xiaohua Chen, Yucan Zhou, Dayan Wu, Wanqian Zhang, Yu Zhou, Bo Li, Weiping Wang(参考訳) 現実世界のデータはしばしばロングテール分布に従い、既存の分類アルゴリズムの性能が著しく低下する。 重要な問題は、テールカテゴリのサンプルがクラス内多様性を描写できないことである。 人間は、たとえこのカテゴリーを初めて見たとしても、以前の知識で新しいポーズ、シーン、角度のサンプルを想像することができる。 そこで本研究では,他のクラスから変換方向を借用する推論に基づく暗黙的意味データ拡張手法を提案する。 各カテゴリの共分散行列は特徴変換方向を表すので、類似のカテゴリから新しい方向をサンプリングして、確実に異なるインスタンスを生成することができる。 具体的には、ロングテールの分散データをまずバックボーンと分類器のトレーニングに採用する。 そして、各カテゴリの共分散行列を推定し、任意の2つのカテゴリの関係を格納する知識グラフを構築する。 最後に、テールサンプルは知識グラフ内の類似したカテゴリの情報を伝達することで適応的に拡張される。 CIFAR-100-LT, ImageNet-LT, iNaturalist 2018 による実験結果から, 提案手法の有効性が得られた。

Real-world data often follows a long-tailed distribution, which makes the performance of existing classification algorithms degrade heavily. A key issue is that samples in tail categories fail to depict their intra-class diversity. Humans can imagine a sample in new poses, scenes, and view angles with their prior knowledge even if it is the first time to see this category. Inspired by this, we propose a novel reasoning-based implicit semantic data augmentation method to borrow transformation directions from other classes. Since the covariance matrix of each category represents the feature transformation directions, we can sample new directions from similar categories to generate definitely different instances. Specifically, the long-tailed distributed data is first adopted to train a backbone and a classifier. Then, a covariance matrix for each category is estimated, and a knowledge graph is constructed to store the relations of any two categories. Finally, tail samples are adaptively enhanced via propagating information from all the similar categories in the knowledge graph. Experimental results on CIFAR-100-LT, ImageNet-LT, and iNaturalist 2018 have demonstrated the effectiveness of our proposed method compared with the state-of-the-art methods.
翻訳日:2021-12-16 14:40:37 公開日:2021-12-15
# 雑音から特徴へ:指静脈認識のための新しいソフトバイオメトリックトとしての強度分布の爆発

From Noise to Feature: Exploiting Intensity Distribution as a Novel Soft Biometric Trait for Finger Vein Recognition ( http://arxiv.org/abs/2112.07931v1 )

ライセンス: Link先を確認
Wenxiong Kang, Yuting Lu, Dejian Li, Wei Jia(参考訳) 多くの指静脈特徴抽出アルゴリズムは、指の組織によって形成される強度分布を同時に無視すると同時に、背景雑音として処理するにもかかわらず、テクスチャ表現能力により良好な性能を達成する。 本稿では,このようなノイズを新しいソフトバイオメトリック特性として活用し,指静脈認識性能の向上を図る。 まず、指静脈イメージングの原理と画像の特徴の詳細な分析を行い、背景の指組織によって形成される強度分布を、認識のためのソフトバイオメトリック特性として抽出できることを示す。 次に、強度分布特徴抽出のために2つの指静脈背景層抽出アルゴリズムと3つのソフトバイオメトリック特徴抽出アルゴリズムを提案する。 最後に, スコアレベルにおける一次的特徴と軟的生体特性の寸法差の問題を解くために, ハイブリッドマッチング戦略を提案する。 3つのオープンアクセスデータベースに対する厳密なコントラスト実験により,本手法が指静脈の認識に有効であることを実証した。

Most finger vein feature extraction algorithms achieve satisfactory performance due to their texture representation abilities, despite simultaneously ignoring the intensity distribution that is formed by the finger tissue, and in some cases, processing it as background noise. In this paper, we exploit this kind of noise as a novel soft biometric trait for achieving better finger vein recognition performance. First, a detailed analysis of the finger vein imaging principle and the characteristics of the image are presented to show that the intensity distribution that is formed by the finger tissue in the background can be extracted as a soft biometric trait for recognition. Then, two finger vein background layer extraction algorithms and three soft biometric trait extraction algorithms are proposed for intensity distribution feature extraction. Finally, a hybrid matching strategy is proposed to solve the issue of dimension difference between the primary and soft biometric traits on the score level. A series of rigorous contrast experiments on three open-access databases demonstrates that our proposed method is feasible and effective for finger vein recognition.
翻訳日:2021-12-16 14:40:19 公開日:2021-12-15
# FEAR: 高速、効率的、高精度、ロバストなビジュアルトラッカー

FEAR: Fast, Efficient, Accurate and Robust Visual Tracker ( http://arxiv.org/abs/2112.07957v1 )

ライセンス: Link先を確認
Vasyl Borsuk, Roman Vei, Orest Kupyn, Tetiana Martyniuk, Igor Krashenyi, Ji\v{r}i Matas(参考訳) 私たちは、新しい、速く、効率的で、正確で、堅牢なシャムのビジュアルトラッカー、fearを紹介します。 本稿では,デュアルテンプレート表現と呼ばれるオブジェクトモデル適応のためのアーキテクチャブロックと,モデルの柔軟性と効率性を実現する画素間融合ブロックを提案する。 デュアルテンプレートモジュールは、時間情報を単一の学習可能なパラメータでのみ含み、画素ワイド融合ブロックは、標準相関モジュールよりも少ないパラメータでより識別的な特徴を符号化する。 新たなモジュールで洗練されたバックボーンをプラグインすることで、FEAR-MとFEAR-Lトラッカーは、精度と効率の両面でいくつかの学術ベンチマークで多くのシームセトラッカーを上回った。 軽量のバックボーンを採用して最適化されたFEAR-XSでは、現在のシームズトラッカーの10倍以上のトラッキングが可能で、最先端の結果を維持している。 FEAR-XSトラッカーは2.4倍小さく、4.3倍高速で精度が良い。 さらに,エネルギー消費と実行速度のベンチマークを導入することにより,モデル効率の定義を拡大する。 ソースコード、事前訓練されたモデル、評価プロトコルが要求に応じて利用可能になる

We present FEAR, a novel, fast, efficient, accurate, and robust Siamese visual tracker. We introduce an architecture block for object model adaption, called dual-template representation, and a pixel-wise fusion block to achieve extra flexibility and efficiency of the model. The dual-template module incorporates temporal information with only a single learnable parameter, while the pixel-wise fusion block encodes more discriminative features with fewer parameters compared to standard correlation modules. By plugging-in sophisticated backbones with the novel modules, FEAR-M and FEAR-L trackers surpass most Siamesetrackers on several academic benchmarks in both accuracy and efficiencies. Employed with the lightweight backbone, the optimized version FEAR-XS offers more than 10 times faster tracking than current Siamese trackers while maintaining near state-of-the-art results. FEAR-XS tracker is 2.4x smaller and 4.3x faster than LightTrack [62] with superior accuracy. In addition, we expand the definition of the model efficiency by introducing a benchmark on energy consumption and execution speed. Source code, pre-trained models, and evaluation protocol will be made available upon request
翻訳日:2021-12-16 14:40:03 公開日:2021-12-15
# ゼロショットスケッチ画像検索のためのモダリティ対応トリプルトハードマイニング

Modality-Aware Triplet Hard Mining for Zero-shot Sketch-Based Image Retrieval ( http://arxiv.org/abs/2112.07966v1 )

ライセンス: Link先を確認
Zongheng Huang, YiFan Sun, Chuchu Han, Changxin Gao, Nong Sang(参考訳) 本稿では,ZES-SBIR(Zero-Shot Sketch-Based Image Retrieval)問題に,クロスモダリティメトリック学習の観点から取り組む。 %であった。 このタスクには2つの特徴があります 1)ゼロショット設定は、クラス内コンパクト性と、新規クラスを認識するためのクラス間の相違性を有する計量空間を必要とする。 2)スケッチクエリとフォトギャラリーは異なるモードである。 計量学習の観点は、2つの側面からZS-SBIRの恩恵を受ける。 第一に、ディープメトリックラーニング(DML)における最近の良い実践を通じて改善を促進する。 dmlにおける2つの基本的な学習アプローチ、例えば、分類訓練とペアワイズトレーニングを組み合わせることで、zs-sbirの強力なベースラインを確立しました。 ベルとホイッスルがなければ、このベースラインは競合する検索精度を達成する。 第二に、モダリティギャップを適切に抑制することが重要であるという洞察を与える。 そこで我々は, Modality-Aware Triplet Hard Mining (MATHM) という新しい手法を設計した。 MATHMは3種類のペアワイズ学習、emph{e.g.}、クロスモダリティサンプルペア、イントラモダリティサンプルペア、それらの組み合わせでベースラインを強化する。 また,これらの3成分を動的にバランスさせる適応重み付け法も設計した。 実験結果から,MATHMは強いベースラインに基づいて新たな大幅な改良を行い,新たな最先端性能が確立された。 例えば、TU-Berlinデータセットでは、47.88+2.94\% mAP@allと58.28+2.34\% Prec@100を達成する。 コードは公開されます。

This paper tackles the Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) problem from the viewpoint of cross-modality metric learning. % with recent good practices in deep metric learning. This task has two characteristics: 1) the zero-shot setting requires a metric space with good within-class compactness and the between-class discrepancy for recognizing the novel classes and 2) the sketch query and the photo gallery are in different modalities. The metric learning viewpoint benefits ZS-SBIR from two aspects. First, it facilitates improvement through recent good practices in deep metric learning (DML). By combining two fundamental learning approaches in DML, \emph{e.g.}, classification training and pairwise training, we set up a strong baseline for ZS-SBIR. Without bells and whistles, this baseline achieves competitive retrieval accuracy. Second, it provides an insight that properly suppressing the modality gap is critical. To this end, we design a novel method named Modality-Aware Triplet Hard Mining (MATHM). MATHM enhances the baseline with three types of pairwise learning, \emph{e.g.}, a cross-modality sample pair, a within-modality sample pair, and their combination.\We also design an adaptive weighting method to balance these three components during training dynamically. Experimental results confirm that MATHM brings another round of significant improvement based on the strong baseline and sets up new state-of-the-art performance. For example, on the TU-Berlin dataset, we achieve 47.88+2.94\% mAP@all and 58.28+2.34\% Prec@100. Code will be publicly available.
翻訳日:2021-12-16 14:39:44 公開日:2021-12-15
# クロスドメインセマンティクスセグメンテーションのための自己センシングgan

Self-Ensembling GAN for Cross-Domain Semantic Segmentation ( http://arxiv.org/abs/2112.07999v1 )

ライセンス: Link先を確認
Yonghao Xu, Fengxiang He, Bo Du, Liangpei Zhang, Dacheng Tao(参考訳) ディープニューラルネットワーク(DNN)はセマンティックセグメンテーションのパフォーマンス向上に大きく貢献している。 それでも、DNNのトレーニングには、一般的に大量のピクセルレベルのラベル付きデータが必要である。 アノテーションの負担を軽減するため,セマンティックセグメンテーションのためのドメイン間データを利用した自己認識型生成対向ネットワーク(SE-GAN)を提案する。 se-ganでは、教師ネットワークと生徒ネットワークは、判別器と共にganを形成する意味セグメンテーションマップを生成するための自己センシングモデルを構成する。 その単純さにもかかわらず、SE-GANは対戦訓練の性能を大幅に向上させ、モデルの安定性を高めることができる。 理論的には、se-gan を解析し、一般化性を高めるために判別器の仮説複雑性を制御することを示唆する "\mathcal o(1/\sqrt{n})$ generalization bound ($n$ is the training sample size") を提供する。 したがって、識別器として単純なネットワークを選択する。 2つの標準設定における大規模かつ体系的な実験は、提案手法が現在の最先端手法よりも大幅に優れていることを示す。 私たちのモデルのソースコードはもうすぐ入手可能になります。

Deep neural networks (DNNs) have greatly contributed to the performance gains in semantic segmentation. Nevertheless, training DNNs generally requires large amounts of pixel-level labeled data, which is expensive and time-consuming to collect in practice. To mitigate the annotation burden, this paper proposes a self-ensembling generative adversarial network (SE-GAN) exploiting cross-domain data for semantic segmentation. In SE-GAN, a teacher network and a student network constitute a self-ensembling model for generating semantic segmentation maps, which together with a discriminator, forms a GAN. Despite its simplicity, we find SE-GAN can significantly boost the performance of adversarial training and enhance the stability of the model, the latter of which is a common barrier shared by most adversarial training-based methods. We theoretically analyze SE-GAN and provide an $\mathcal O(1/\sqrt{N})$ generalization bound ($N$ is the training sample size), which suggests controlling the discriminator's hypothesis complexity to enhance the generalizability. Accordingly, we choose a simple network as the discriminator. Extensive and systematic experiments in two standard settings demonstrate that the proposed method significantly outperforms current state-of-the-art approaches. The source code of our model will be available soon.
翻訳日:2021-12-16 14:39:18 公開日:2021-12-15
# 背景雑音推定を用いたオートエンコーダに基づく背景復元と前景セグメンテーション

Autoencoder-based background reconstruction and foreground segmentation with background noise estimation ( http://arxiv.org/abs/2112.08001v1 )

ライセンス: Link先を確認
Bruno Sauvalle and Arnaud de La Fortelle(参考訳) 何十年もの研究を経ても、照明の変化、カメラの動き、空気の乱流や木々の移動による背景ノイズなど様々な課題により、ダイナミックシーンの背景復元と前景オブジェクトのセグメンテーションは依然としてオープンな問題と見なされている。 本稿では,ビデオシーケンスの背景をオートエンコーダを用いて低次元多様体としてモデル化し,このオートエンコーダが提供する再構成背景を原画像と比較し,フォアグラウンド/バックグラウンドセグメンテーションマスクを計算する。 提案モデルの主な特徴は、オートエンコーダが背景雑音を予測できるように訓練されており、各フレームに対して画素依存閾値を計算し、背景/地上セグメンテーションを実行することができることである。 提案モデルでは時間や動きの情報を一切使用していないが,CDnet 2014 や LASIESTA データセットの教師なしバックグラウンドサブトラクションの手法を超越しており,カメラが動いているビデオに大幅な改良が加えられている。

Even after decades of research, dynamic scene background reconstruction and foreground object segmentation are still considered as open problems due various challenges such as illumination changes, camera movements, or background noise caused by air turbulence or moving trees. We propose in this paper to model the background of a video sequence as a low dimensional manifold using an autoencoder and to compare the reconstructed background provided by this autoencoder with the original image to compute the foreground/backgroun d segmentation masks. The main novelty of the proposed model is that the autoencoder is also trained to predict the background noise, which allows to compute for each frame a pixel-dependent threshold to perform the background/foregroun d segmentation. Although the proposed model does not use any temporal or motion information, it exceeds the state of the art for unsupervised background subtraction on the CDnet 2014 and LASIESTA datasets, with a significant improvement on videos where the camera is moving.
翻訳日:2021-12-16 14:38:55 公開日:2021-12-15
# LookinGood^{\pi}: 高品質な人体パフォーマンスキャプチャのためのリアルタイム人非依存型ニューラルリレンダリング

LookinGood^{\pi}: Real-time Person-independent Neural Re-rendering for High-quality Human Performance Capture ( http://arxiv.org/abs/2112.08037v1 )

ライセンス: Link先を確認
Xiqi Yang, Kewei Yang, Kang Chen, Weidong Zhang, Weiwei Xu(参考訳) そこで我々は,LookinGood^{\piというニューラルリレンダリング手法を提案し,(1)人間のパフォーマンスキャプチャシステムから低品質な再構成結果のレンダリング品質をリアルタイムで向上すること,(2)見えない人に対するニューラルネットワークの一般化能力を向上させることを目的とした。 本研究の目的は,再構成幾何のレンダリング画像を,少数の参照画像からの人物特定詳細の予測を支援するガイダンスとして活用することである。 これを踏まえ、我々は2分岐ネットワークを設計する。 粗いブランチは、いくつかのアーティファクト(例えば、穴、ノイズ)を修正し、レンダリングされた入力の粗いバージョンを得るように設計され、細部ブランチは、歪んだ参照から「正しい」詳細を予測するように設計されている。 ディテールブランチのトレーニングにおいて、2つのブランチの特徴を効果的にブレンドすることにより、レンダリング画像のガイダンスを実現し、ワープ精度とディテールの忠実度の両方を改善する。 本手法は, 身近な人物に対して高忠実度画像を生成する技術よりも優れていることを示す。

We propose LookinGood^{\pi}, a novel neural re-rendering approach that is aimed to (1) improve the rendering quality of the low-quality reconstructed results from human performance capture system in real-time; (2) improve the generalization ability of the neural rendering network on unseen people. Our key idea is to utilize the rendered image of reconstructed geometry as the guidance to assist the prediction of person-specific details from few reference images, thus enhancing the re-rendered result. In light of this, we design a two-branch network. A coarse branch is designed to fix some artifacts (i.e. holes, noise) and obtain a coarse version of the rendered input, while a detail branch is designed to predict "correct" details from the warped references. The guidance of the rendered image is realized by blending features from two branches effectively in the training of the detail branch, which improves both the warping accuracy and the details' fidelity. We demonstrate that our method outperforms state-of-the-art methods at producing high-fidelity images on unseen people.
翻訳日:2021-12-16 14:38:35 公開日:2021-12-15
# 気象条件下での物体検出のための画像適応型ヨーロ

Image-Adaptive YOLO for Object Detection in Adverse Weather Conditions ( http://arxiv.org/abs/2112.08088v1 )

ライセンス: Link先を確認
Wenyu Liu, Gaofeng Ren, Runsheng Yu, Shi Guo, Jianke Zhu, Lei Zhang(参考訳) 深層学習に基づくオブジェクト検出手法は従来のデータセットで有望な結果を得たが、悪天候下で撮影された低品質の画像からオブジェクトを見つけることは依然として困難である。 既存の手法では、画像強調とオブジェクト検出のタスクのバランスをとるのが困難か、またはしばしば検出に有用な潜在情報を無視する。 この問題を軽減するため,新しい画像適応型YOLO(IA-YOLO)フレームワークを提案する。 具体的には、小さな畳み込みニューラルネットワーク(CNN-PP)によってパラメータが予測されるYOLO検出器の悪天候を考慮した微分可能画像処理(DIP)モジュールを提示する。 我々は、CNN-PPとYOLOv3をエンドツーエンドで共同で学習し、CNN-PPが適切なDIPを学習し、弱い教師付きで検出のための画像を強化することを保証する。 提案したIA-YOLOアプローチは,正常および悪天候条件の両方で適応的に画像を処理できる。 実験結果は,霧と低照度の両方のシナリオで提案したIA-YOLO法の有効性を示した。

Though deep learning-based object detection methods have achieved promising results on the conventional datasets, it is still challenging to locate objects from the low-quality images captured in adverse weather conditions. The existing methods either have difficulties in balancing the tasks of image enhancement and object detection, or often ignore the latent information beneficial for detection. To alleviate this problem, we propose a novel Image-Adaptive YOLO (IA-YOLO) framework, where each image can be adaptively enhanced for better detection performance. Specifically, a differentiable image processing (DIP) module is presented to take into account the adverse weather conditions for YOLO detector, whose parameters are predicted by a small convolutional neural net-work (CNN-PP). We learn CNN-PP and YOLOv3 jointly in an end-to-end fashion, which ensures that CNN-PP can learn an appropriate DIP to enhance the image for detection in a weakly supervised manner. Our proposed IA-YOLO approach can adaptively process images in both normal and adverse weather conditions. The experimental results are very encouraging, demonstrating the effectiveness of our proposed IA-YOLO method in both foggy and low-light scenarios.
翻訳日:2021-12-16 14:37:15 公開日:2021-12-15
# 視覚トランスフォーマーを用いた偽映像の音源追跡のためのビデオハッシュ検索

Vision Transformer Based Video Hashing Retrieval for Tracing the Source of Fake Videos ( http://arxiv.org/abs/2112.08117v1 )

ライセンス: Link先を確認
Pengfei Pei, Xianfeng Zhao, Jinchuan Li, Yun Cao, Xiaowei Yi(参考訳) 従来の偽ビデオ検出方法は、改ざん画像の可能性値または疑わしいマスクを出力する。 しかし、そのような説明不能な結果は証拠として利用できない。 だから、偽のビデオのソースを追跡する方がよい。 従来のハッシュ法は、画像のニュアンスを識別できないセマンティック類似の画像を取得するために使用される。 具体的には、ソースのトレースと従来のビデオ検索を比較します。 同じようなソースビデオから本物のものを見つけるのは困難です。 私たちは、Hash Triplet Lossという小説をデザインし、人のビデオが非常に似ているという問題を解決しました。 本稿では、VTL(Video Tracing and Tampering Localization)と呼ばれるビジョントランスフォーマーに基づくモデルを提案する。 第1段階では、VTHash (VTL-T) でハッシュセンターを訓練する。 そして、偽のビデオがViTHashに入力され、ハッシュコードが出力される。 ハッシュコードは、ハッシュセンターからソースビデオを取得するために使用される。 第2段階では、ソースビデオと偽ビデオとをジェネレータ(VTL−L)に入力する。 そして、被疑領域をマスクして補助情報を提供する。 さらに,DFTLとDAVIS2016-TLの2つのデータセットを構築した。 DFTLの実験は、類似動画のソーストレースにおいて、我々のフレームワークが優れていることを明らかに示している。 特に、VTLは、DAVIS2016-TLの最先端メソッドと同等のパフォーマンスを達成した。 ソースコードとデータセットはgithubでリリースされています。

Conventional fake video detection methods outputs a possibility value or a suspected mask of tampering images. However, such unexplainable results cannot be used as convincing evidence. So it is better to trace the sources of fake videos. The traditional hashing methods are used to retrieve semantic-similar images, which can't discriminate the nuances of the image. Specifically, the sources tracing compared with traditional video retrieval. It is a challenge to find the real one from similar source videos. We designed a novel loss Hash Triplet Loss to solve the problem that the videos of people are very similar: the same scene with different angles, similar scenes with the same person. We propose Vision Transformer based models named Video Tracing and Tampering Localization (VTL). In the first stage, we train the hash centers by ViTHash (VTL-T). Then, a fake video is inputted to ViTHash, which outputs a hash code. The hash code is used to retrieve the source video from hash centers. In the second stage, the source video and fake video are inputted to generator (VTL-L). Then, the suspect regions are masked to provide auxiliary information. Moreover, we constructed two datasets: DFTL and DAVIS2016-TL. Experiments on DFTL clearly show the superiority of our framework in sources tracing of similar videos. In particular, the VTL also achieved comparable performance with state-of-the-art methods on DAVIS2016-TL. Our source code and datasets have been released on GitHub: \url{https://github.com/l ajlksdf/vtl}.
翻訳日:2021-12-16 14:36:54 公開日:2021-12-15
# 内視鏡検査における自己監督単分子深度とエゴ運動推定:レスキューに現れる流れ

Self-Supervised Monocular Depth and Ego-Motion Estimation in Endoscopy: Appearance Flow to the Rescue ( http://arxiv.org/abs/2112.08122v1 )

ライセンス: Link先を確認
Shuwei Shao, Zhongcai Pei, Weihai Chen, Wentao Zhu, Xingming Wu, Dianmin Sun, Baochang Zhang(参考訳) 近年,単眼映像からの奥行きと自我運動の算出に自己教師付き学習技術が応用され,自動運転シナリオにおいて顕著な性能が得られた。 深度とエゴモーションによる自己教師学習の仮定として広く採用されているのは、画像の明るさが近くのフレーム内で一定であることである。 残念なことに,光度変動,非ランバート反射,反射による輝度変動が激しいため,内視鏡的シーンではこの仮定を満たさないため,これらの輝度変動は必然的に深さや自我運動推定精度を低下させる。 本研究では,輝度不整合問題に対処するために,外観フローと呼ばれる新しい概念を導入する。 出現フローは明るさパターンの変動を考慮に入れ、一般化されたダイナミックイメージ制約を開発することができる。 さらに、構造モジュール、運動モジュール、外観モジュール、対応モジュールからなる内視鏡シーンにおいて、単眼深度とエゴモーションを同時に推定するための統一された自己教師付きフレームワークを構築し、外観を正確に再構成し、画像輝度を校正する。 scaredデータセットとendoslamデータセットで広範な実験が行われ、提案された統一フレームワークは、他の自己監視アプローチを大きく超えている。 異なる患者やカメラでフレームワークの一般化能力を検証するために、我々は怖がりながらモデルをトレーニングするが、微調整なしでserv-ctとhamlynデータセットでテストし、優れた結果はその強力な一般化能力を明らかにする。 コードは次の通り。 \url{https://github.com/S huweiShao/AF-SfMLear ner}。

Recently, self-supervised learning technology has been applied to calculate depth and ego-motion from monocular videos, achieving remarkable performance in autonomous driving scenarios. One widely adopted assumption of depth and ego-motion self-supervised learning is that the image brightness remains constant within nearby frames. Unfortunately, the endoscopic scene does not meet this assumption because there are severe brightness fluctuations induced by illumination variations, non-Lambertian reflections and interreflections during data collection, and these brightness fluctuations inevitably deteriorate the depth and ego-motion estimation accuracy. In this work, we introduce a novel concept referred to as appearance flow to address the brightness inconsistency problem. The appearance flow takes into consideration any variations in the brightness pattern and enables us to develop a generalized dynamic image constraint. Furthermore, we build a unified self-supervised framework to estimate monocular depth and ego-motion simultaneously in endoscopic scenes, which comprises a structure module, a motion module, an appearance module and a correspondence module, to accurately reconstruct the appearance and calibrate the image brightness. Extensive experiments are conducted on the SCARED dataset and EndoSLAM dataset, and the proposed unified framework exceeds other self-supervised approaches by a large margin. To validate our framework's generalization ability on different patients and cameras, we train our model on SCARED but test it on the SERV-CT and Hamlyn datasets without any fine-tuning, and the superior results reveal its strong generalization ability. Code will be available at: \url{https://github.com/S huweiShao/AF-SfMLear ner}.
翻訳日:2021-12-16 14:36:39 公開日:2021-12-15
# 多視点形状を用いた単視点深度確率を用いた多視点深度推定

Multi-View Depth Estimation by Fusing Single-View Depth Probability with Multi-View Geometry ( http://arxiv.org/abs/2112.08177v1 )

ライセンス: Link先を確認
Gwangbin Bae, Ignas Budvytis, Roberto Cipolla(参考訳) マルチビュー深度推定法は、通常、多ビューのコストボリュームの計算を必要とするため、メモリ消費が大きくなり、推論が遅くなる。 さらに、マルチビューマッチングは、テクスチャのない表面、反射面、移動物体では失敗する可能性がある。 このような障害モードでは、シングルビュー深度推定手法がより信頼性が高いことが多い。 この目的のために,多視点深度推定の精度,堅牢性,効率を向上させるために,一視点深度確率を多視点幾何で融合する新しいフレームワークMaGNetを提案する。 各フレームについて、MaGNetはピクセルワイドガウスとしてパラメータ化された一視点深度確率分布を推定する。 次に、基準フレームから推定される分布を用いて、画素ごとの深度候補をサンプリングする。 このような確率的サンプリングにより、ネットワークはより精度が高く、より少ない深さ候補を評価できる。 また,マルチビューマッチングスコアに対する重み付けを提案し,マルチビュー深度が単一ビュー予測と一致していることを保証する。 提案手法は, ScanNet, 7-Scenes, KITTI上での最先端性能を実現する。 定性的評価は, テクスチャレス/反射面や移動物体などの難題に対して, より堅牢であることを示す。

Multi-view depth estimation methods typically require the computation of a multi-view cost-volume, which leads to huge memory consumption and slow inference. Furthermore, multi-view matching can fail for texture-less surfaces, reflective surfaces and moving objects. For such failure modes, single-view depth estimation methods are often more reliable. To this end, we propose MaGNet, a novel framework for fusing single-view depth probability with multi-view geometry, to improve the accuracy, robustness and efficiency of multi-view depth estimation. For each frame, MaGNet estimates a single-view depth probability distribution, parameterized as a pixel-wise Gaussian. The distribution estimated for the reference frame is then used to sample per-pixel depth candidates. Such probabilistic sampling enables the network to achieve higher accuracy while evaluating fewer depth candidates. We also propose depth consistency weighting for the multi-view matching score, to ensure that the multi-view depth is consistent with the single-view predictions. The proposed method achieves state-of-the-art performance on ScanNet, 7-Scenes and KITTI. Qualitative evaluation demonstrates that our method is more robust against challenging artifacts such as texture-less/reflect ive surfaces and moving objects.
翻訳日:2021-12-16 14:35:58 公開日:2021-12-15
# 人をその場所に置く:奥深くの3D人物の単眼的回帰

Putting People in their Place: Monocular Regression of 3D People in Depth ( http://arxiv.org/abs/2112.08274v1 )

ライセンス: Link先を確認
Yu Sun, Wu Liu, Qian Bao, Yili Fu, Tao Mei, Michael J. Black(参考訳) 複数の人のイメージが与えられた場合、私たちの目標は、すべての人々のポーズと形、そしてその相対的な深さを直接後退させることです。 しかし、画像中の人物の深さを推定することは、身長を知らずに基本的に曖昧である。 これは、幼児から大人まで、非常に異なるサイズの人々を含む場面において特に問題となる。 これを解決するには、いくつかのことが必要です。 まず,複数の人物のポーズと深さを1つの画像で推定する新しい手法を開発した。 複数の人物を推定する以前の作業は、画像平面を推論することでそうするが、bevと呼ばれるこの手法は、深度を明示的に推論するために、想像上の鳥の視点表現を追加する。 BEVは画像中の体の中心と深度を同時に考慮し、それらを組み合わせることで3Dの体の位置を推定する。 以前の作業とは異なり、bevはエンドツーエンドで微分可能なシングルショットメソッドである。 第二に、身長は年齢によって異なり、画像中の人物の年齢を推定することなく深度を解明することは不可能である。 そのために、BEVが幼児から大人まで形状を推測できる3Dボディモデル空間を利用する。 第3に,BEVのトレーニングには,新たなデータセットが必要です。 具体的には、年齢ラベルと画像内の人々間の相対的な深さ関係を含む「相対的人間」(Relative Human)データセットを作成する。 RHとAGORAに関する大規模な実験は、モデルとトレーニングスキームの有効性を示した。 BEVは、深度推論、子供の形状推定、閉塞に対する堅牢性において、既存の手法よりも優れている。 コードとデータセットは研究目的でリリースされる予定だ。

Given an image with multiple people, our goal is to directly regress the pose and shape of all the people as well as their relative depth. Inferring the depth of a person in an image, however, is fundamentally ambiguous without knowing their height. This is particularly problematic when the scene contains people of very different sizes, e.g. from infants to adults. To solve this, we need several things. First, we develop a novel method to infer the poses and depth of multiple people in a single image. While previous work that estimates multiple people does so by reasoning in the image plane, our method, called BEV, adds an additional imaginary Bird's-Eye-View representation to explicitly reason about depth. BEV reasons simultaneously about body centers in the image and in depth and, by combing these, estimates 3D body position. Unlike prior work, BEV is a single-shot method that is end-to-end differentiable. Second, height varies with age, making it impossible to resolve depth without also estimating the age of people in the image. To do so, we exploit a 3D body model space that lets BEV infer shapes from infants to adults. Third, to train BEV, we need a new dataset. Specifically, we create a "Relative Human" (RH) dataset that includes age labels and relative depth relationships between the people in the images. Extensive experiments on RH and AGORA demonstrate the effectiveness of the model and training scheme. BEV outperforms existing methods on depth reasoning, child shape estimation, and robustness to occlusion. The code and dataset will be released for research purposes.
翻訳日:2021-12-16 14:35:37 公開日:2021-12-15
# SeqFormer: ビデオインスタンスセグメンテーションのためのフラストレーションにシンプルなモデル

SeqFormer: a Frustratingly Simple Model for Video Instance Segmentation ( http://arxiv.org/abs/2112.08275v1 )

ライセンス: Link先を確認
Junfeng Wu, Yi Jiang, Wenqing Zhang, Xiang Bai, Song Bai(参考訳) 本稿では,ビデオインスタンスセグメンテーションのためのフラストレーションに富んだモデルであるSeqFormerを紹介する。 SeqFormerは、ビデオフレーム間のインスタンス関係をモデル化するビジョントランスフォーマーの原則に従う。 それでも、ビデオ内のインスタンスの時系列をキャプチャするのにスタンドアローンのインスタンスクエリが十分であるが、各フレームで注意機構を独立して行う必要がある。 これを実現するために、seqformerは各フレームにインスタンスを配置し、時間情報を集約して、各フレームのマスクシーケンスを動的に予測するために使用されるビデオレベルのインスタンスの強力な表現を学ぶ。 インスタンスのトラッキングは、ブランチや後処理をトラッキングせずに自然に行われる。 YouTube-VISデータセットでは、SeqFormerはResNet-50のバックボーンで47.4 AP、ResNet-101のバックボーンで49.0 APを達成した。 この成果は、前回の最先端性能をそれぞれ4.6と4.4で大幅に上回っている。 さらに、最近発表されたswinトランスフォーマーと組み合わさったseqformerは、はるかに高い ap 59.3 を達成する。 SeqFormerが、ビデオインスタンスのセグメンテーションにおける将来の研究を促進する強力なベースラインになることを願っている。 コードと事前訓練されたモデルはhttps://github.com/w jf5203/SeqFormer.com で公開されている。

In this work, we present SeqFormer, a frustratingly simple model for video instance segmentation. SeqFormer follows the principle of vision transformer that models instance relationships among video frames. Nevertheless, we observe that a stand-alone instance query suffices for capturing a time sequence of instances in a video, but attention mechanisms should be done with each frame independently. To achieve this, SeqFormer locates an instance in each frame and aggregates temporal information to learn a powerful representation of a video-level instance, which is used to predict the mask sequences on each frame dynamically. Instance tracking is achieved naturally without tracking branches or post-processing. On the YouTube-VIS dataset, SeqFormer achieves 47.4 AP with a ResNet-50 backbone and 49.0 AP with a ResNet-101 backbone without bells and whistles. Such achievement significantly exceeds the previous state-of-the-art performance by 4.6 and 4.4, respectively. In addition, integrated with the recently-proposed Swin transformer, SeqFormer achieves a much higher AP of 59.3. We hope SeqFormer could be a strong baseline that fosters future research in video instance segmentation, and in the meantime, advances this field with a more robust, accurate, neat model. The code and the pre-trained models are publicly available at https://github.com/w jf5203/SeqFormer.
翻訳日:2021-12-16 14:35:11 公開日:2021-12-15
# ForgeryNet -- Face Forgery Analysis Challenge 2021: メソッドと結果

ForgeryNet -- Face Forgery Analysis Challenge 2021: Methods and Results ( http://arxiv.org/abs/2112.08325v1 )

ライセンス: Link先を確認
Yinan He, Lu Sheng, Jing Shao, Ziwei Liu, Zhaofan Zou, Zhizhi Guo, Shan Jiang, Curitis Sun, Guosheng Zhang, Keyao Wang, Haixiao Yue, Zhibin Hong, Wanguo Wang, Zhenyu Li, Qi Wang, Zhenli Wang, Ronghao Xu, Mingwen Zhang, Zhiheng Wang, Zhenhang Huang, Tianming Zhang, Ningning Zhao(参考訳) フォトリアリスティック合成技術の急速な進歩は、実画像と操作画像の境界がぼやけ始める臨界点に達している。 最近,290万枚の画像と221,247本の動画からなる大規模深層顔偽造データセットForgeryNetがリリースされた。 データスケール、操作(7つの画像レベルのアプローチ、8つのビデオレベルのアプローチ)、摂動(36の独立性、より混合的な摂動)、アノテーション(630万の分類ラベル、290万の操作された地域アノテーション、221,247の時間的フォージェリーセグメントラベル)の点で、はるかに大きい。 本稿では,forgerynet ベンチマークを用いた forgerynet - face forgery analysis challenge 2021 の手法と結果について報告する。 モデル評価は、プライベートテストセット上でオフラインで行われる。 合計186人の参加者が参加し、11チームが有効な応募を行った。 トップランクのソリューションを分析し,今後の作業の方向性についていくつか議論する。

The rapid progress of photorealistic synthesis techniques has reached a critical point where the boundary between real and manipulated images starts to blur. Recently, a mega-scale deep face forgery dataset, ForgeryNet which comprised of 2.9 million images and 221,247 videos has been released. It is by far the largest publicly available in terms of data-scale, manipulations (7 image-level approaches, 8 video-level approaches), perturbations (36 independent and more mixed perturbations), and annotations (6.3 million classification labels, 2.9 million manipulated area annotations, and 221,247 temporal forgery segment labels). This paper reports methods and results in the ForgeryNet - Face Forgery Analysis Challenge 2021, which employs the ForgeryNet benchmark. The model evaluation is conducted offline on the private test set. A total of 186 participants registered for the competition, and 11 teams made valid submissions. We will analyze the top-ranked solutions and present some discussion on future work directions.
翻訳日:2021-12-16 14:34:47 公開日:2021-12-15
# (参考訳) NLPモデルにおけるロバスト性の測定と改善:サーベイ [全文訳有]

Measure and Improve Robustness in NLP Models: A Survey ( http://arxiv.org/abs/2112.08313v1 )

ライセンス: CC BY 4.0
Xuezhi Wang, Haohan Wang, Diyi Yang(参考訳) nlpモデルは、ベンチマークよりも最先端のパフォーマンスを達成し、幅広いアプリケーションを獲得しているため、これらのモデルの現実世界への安全なデプロイを保証することがますます重要になっている。 頑健性はますます研究されているトピックであるが、視覚やNLPなどの応用において、様々な定義、評価、緩和戦略を複数の研究分野に分けて研究されている。 本稿では,NLPにおけるロバスト性の定義,測定,改善に関する統一的な調査を行うことを目的とする。 まず、ロバスト性の定義を複数結合し、続いてロバスト性障害を特定し、モデルのロバスト性を評価する様々な作業ラインを統合する。 そこで本研究では,nlpモデルのロバスト性を改善するためのより体系的な視点から,データ駆動型,モデル駆動型,インダクティブ優先型の緩和戦略を提案する。 最後に,この分野におけるさらなる研究の動機づけとなるオープンチャレンジと今後の方向性について概説する。

As NLP models achieved state-of-the-art performances over benchmarks and gained wide applications, it has been increasingly important to ensure the safe deployment of these models in the real world, e.g., making sure the models are robust against unseen or challenging scenarios. Despite robustness being an increasingly studied topic, it has been separately explored in applications like vision and NLP, with various definitions, evaluation and mitigation strategies in multiple lines of research. In this paper, we aim to provide a unifying survey of how to define, measure and improve robustness in NLP. We first connect multiple definitions of robustness, then unify various lines of work on identifying robustness failures and evaluating models' robustness. Correspondingly, we present mitigation strategies that are data-driven, model-driven, and inductive-prior-base d, with a more systematic view of how to effectively improve robustness in NLP models. Finally, we conclude by outlining open challenges and future directions to motivate further research in this area.
翻訳日:2021-12-16 14:33:58 公開日:2021-12-15
# tlogic:時間知識グラフを用いた説明可能なリンク予測のための時間論理規則

TLogic: Temporal Logical Rules for Explainable Link Forecasting on Temporal Knowledge Graphs ( http://arxiv.org/abs/2112.08025v1 )

ライセンス: Link先を確認
Yushan Liu, Yunpu Ma, Marcel Hildebrandt, Mitchell Joblin, Volker Tresp(参考訳) 従来の静的知識グラフは、関係データのエンティティをノードとしてモデル化し、特定の関係型のエッジで接続する。 しかし、情報と知識は継続的に進化し、時間的ダイナミクスが現れ、それが将来の状況に影響を及ぼすことが期待される。 時間知識グラフでは、各エッジにタイムスタンプまたはタイムレンジを装備することにより、時間情報をグラフに統合する。 埋め込みに基づく手法は時間的知識グラフのリンク予測に導入されているが、説明可能性や理解可能な推論連鎖がほとんどない。 特に、リンク予測 -- 将来のタイムスタンプを含むイベント予測 -- を扱うように設計されていない。 本稿では、時間的知識グラフに基づくリンク予測の課題に対処し、時間的ランダムウォークによって抽出された時間的論理規則に基づく説明可能なフレームワークであるTLogicを紹介する。 3つのベンチマークデータセットでtlogicと最先端のベースラインを比較し,全体的なパフォーマンスを示すと同時に,時間的一貫性を保った説明も提供する。 さらに、ほとんどの最先端の埋め込み方式とは対照的に、TLogicは、学習済みのルールが共通の語彙を持つ関連するデータセットに転送される帰納的設定でうまく機能する。

Conventional static knowledge graphs model entities in relational data as nodes, connected by edges of specific relation types. However, information and knowledge evolve continuously, and temporal dynamics emerge, which are expected to influence future situations. In temporal knowledge graphs, time information is integrated into the graph by equipping each edge with a timestamp or a time range. Embedding-based methods have been introduced for link prediction on temporal knowledge graphs, but they mostly lack explainability and comprehensible reasoning chains. Particularly, they are usually not designed to deal with link forecasting -- event prediction involving future timestamps. We address the task of link forecasting on temporal knowledge graphs and introduce TLogic, an explainable framework that is based on temporal logical rules extracted via temporal random walks. We compare TLogic with state-of-the-art baselines on three benchmark datasets and show better overall performance while our method also provides explanations that preserve time consistency. Furthermore, in contrast to most state-of-the-art embedding-based methods, TLogic works well in the inductive setting where already learned rules are transferred to related datasets with a common vocabulary.
翻訳日:2021-12-16 14:03:56 公開日:2021-12-15
# denoising diffusion gansを用いた生成的学習トリレンマの解法

Tackling the Generative Learning Trilemma with Denoising Diffusion GANs ( http://arxiv.org/abs/2112.07804v1 )

ライセンス: Link先を確認
Zhisheng Xiao, Karsten Kreis, Arash Vahdat(参考訳) 過去10年間、多種多様な深層生成モデルが開発されてきた。 しかし、これらのモデルは、高いサンプル品質、モードカバレッジ、高速サンプリングの3つの重要な要件に同時に対処するのに苦労することが多い。 これらの要求によって課される課題は、既存のモデルがしばしば他のモデルと交換するため、生成的な学習トリレンマ(generative learning trilemma)と呼んでいる。 特に、散逸拡散モデルは顕著な品質と多様性を示してきたが、その高価なサンプリングは実世界の多くの応用に適用できない。 本稿では,これらのモデルにおける遅いサンプリングは,小さなステップサイズでのみ正当化されるデノナイジングステップにおけるガウス的仮定に起因すると論じる。 大きなステップでデノージングを可能にするため、デノージングステップの総数を減らすために、複雑なマルチモーダル分布を用いたデノージング分布のモデル化を提案する。 マルチモーダル条件付きGANを用いて各デノナイジングステップをモデル化するデノナイジング拡散生成対向ネットワーク(デノナイジング拡散GAN)を導入する。 広範にわたる評価を行い,cifar-10データセット上で2000$\times$高速でありながら,希釈拡散ガンが元の拡散モデルに匹敵するサンプル品質と多様性を得ることを示した。 従来のGANと比較すると,モードカバレッジとサンプルの多様性が向上している。 我々の知る限り、拡散GANは拡散モデルにおけるサンプリングコストを、現実のアプリケーションに安価に適用できる程度に削減する最初のモデルである。 プロジェクトページとコード: https://nvlabs.githu b.io/denoising-diffu sion-gan

A wide variety of deep generative models has been developed in the past decade. Yet, these models often struggle with simultaneously addressing three key requirements including: high sample quality, mode coverage, and fast sampling. We call the challenge imposed by these requirements the generative learning trilemma, as the existing models often trade some of them for others. Particularly, denoising diffusion models have shown impressive sample quality and diversity, but their expensive sampling does not yet allow them to be applied in many real-world applications. In this paper, we argue that slow sampling in these models is fundamentally attributed to the Gaussian assumption in the denoising step which is justified only for small step sizes. To enable denoising with large steps, and hence, to reduce the total number of denoising steps, we propose to model the denoising distribution using a complex multimodal distribution. We introduce denoising diffusion generative adversarial networks (denoising diffusion GANs) that model each denoising step using a multimodal conditional GAN. Through extensive evaluations, we show that denoising diffusion GANs obtain sample quality and diversity competitive with original diffusion models while being 2000$\times$ faster on the CIFAR-10 dataset. Compared to traditional GANs, our model exhibits better mode coverage and sample diversity. To the best of our knowledge, denoising diffusion GAN is the first model that reduces sampling cost in diffusion models to an extent that allows them to be applied to real-world applications inexpensively. Project page and code: https://nvlabs.githu b.io/denoising-diffu sion-gan
翻訳日:2021-12-16 14:03:02 公開日:2021-12-15
# ベイズグラフの対比学習

Bayesian Graph Contrastive Learning ( http://arxiv.org/abs/2112.07823v1 )

ライセンス: Link先を確認
Arman Hasanzadeh, Mohammadreza Armandpour, Ehsan Hajiramezanali, Mingyuan Zhou, Nick Duffield, Krishna Narayanan(参考訳) コントラスト学習は,グラフ構造化データの自己教師型学習手法の重要な構成要素となっている。 しかし、その成功にもかかわらず、既存のグラフコントラスト学習手法はノード表現や下流タスクの不確実な定量化ができず、高い領域での応用を制限している。 本稿では,確率的エンコーダに結びつくランダムな拡張を示すグラフコントラスト学習手法のベイズ的視点を提案する。 その結果,提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。 分布表現を学習することにより,下流グラフ分析タスクにおける不確実性推定を行い,予測モデルの表現力を高める。 さらに,コントラストモデルの各視点における摂動の確率を推定するベイズ的枠組みを提案し,計算コストのかかるハイパーパラメータチューニングの探索の必要性を排除した。 いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,パフォーマンスが著しく向上したことを実証的に示す。

Contrastive learning has become a key component of self-supervised learning approaches for graph-structured data. However, despite their success, existing graph contrastive learning methods are incapable of uncertainty quantification for node representations or their downstream tasks, limiting their application in high-stakes domains. In this paper, we propose a novel Bayesian perspective of graph contrastive learning methods showing random augmentations leads to stochastic encoders. As a result, our proposed method represents each node by a distribution in the latent space in contrast to existing techniques which embed each node to a deterministic vector. By learning distributional representations, we provide uncertainty estimates in downstream graph analytics tasks and increase the expressive power of the predictive model. In addition, we propose a Bayesian framework to infer the probability of perturbations in each view of the contrastive model, eliminating the need for a computationally expensive search for hyperparameter tuning. We empirically show a considerable improvement in performance compared to existing state-of-the-art methods on several benchmark datasets.
翻訳日:2021-12-16 14:02:36 公開日:2021-12-15
# funnels: 次元性低減による完全極大度

Funnels: Exact maximum likelihood with dimensionality reduction ( http://arxiv.org/abs/2112.08069v1 )

ライセンス: Link先を確認
Samuel Klein, John A. Raine, Sebastian Pina-Otey, Slava Voloshynovskiy, Tobias Golling(参考訳) 正規化フローは微分同相であり、典型的には次元保存モデルであり、モデルの確率を用いて訓練される。 我々は、SurVAEフレームワークを使用して、ファンネルと呼ばれる新しい層を介して、サージェクティブフローを減らす次元を構築する。 様々なデータセットでその効果を実証し、潜在空間サイズを小さくしながら既存のフローのパフォーマンスを改善したり、一致させたりすることを示します。 ファンネル層は、制限された畳み込みやフィードフォワード層を含む幅広い変換から構築することができる。

Normalizing flows are diffeomorphic, typically dimension-preserving , models trained using the likelihood of the model. We use the SurVAE framework to construct dimension reducing surjective flows via a new layer, known as the funnel. We demonstrate its efficacy on a variety of datasets, and show it improves upon or matches the performance of existing flows while having a reduced latent space size. The funnel layer can be constructed from a wide range of transformations including restricted convolution and feed forward layers.
翻訳日:2021-12-16 14:02:22 公開日:2021-12-15
# Scoring Rule Minimizationによる条件付き生成ネットワークによる確率予測

Probabilistic Forecasting with Conditional Generative Networks via Scoring Rule Minimization ( http://arxiv.org/abs/2112.08217v1 )

ライセンス: Link先を確認
Lorenzo Pacchiardi, Rilwan Adewoyin, Peter Dueben, Ritabrata Dutta(参考訳) 確率予測は、過去の観測に基づく将来の結果の確率分布を記述することで構成される。 気象学では、物理学に基づく数値モデルの集合がそのような分布を得るために実行される。 通常、成績はスコアリングルール、予測分布の機能、観測結果によって評価される。 いくつかのスコアリングルールでは、予測のキャリブレーションとシャープネスを同時に評価することができる。 ディープラーニングでは、生成ニューラルネットワークが高次元空間上の分布をパラメトリ化し、潜在変数からのドロー変換によるサンプリングが容易になる。 条件付き生成ネットワークはさらに、入力変数の分布を制限する。 本稿では,条件付き生成ネットワークを用いて確率的予測を行い,採点規則値を最小化する。 GAN(Generative Adversarial Networks)とは対照的に、識別器は不要であり、訓練は安定している。 我々は2つのカオスモデルと、気象観測のグローバルデータセットで実験を行い、gansが達成したものよりも満足度が高く、校正が良い。

Probabilistic forecasting consists of stating a probability distribution for a future outcome based on past observations. In meteorology, ensembles of physics-based numerical models are run to get such distribution. Usually, performance is evaluated with scoring rules, functions of the forecast distribution and the observed outcome. With some scoring rules, calibration and sharpness of the forecast can be assessed at the same time. In deep learning, generative neural networks parametrize distributions on high-dimensional spaces and easily allow sampling by transforming draws from a latent variable. Conditional generative networks additionally constrain the distribution on an input variable. In this manuscript, we perform probabilistic forecasting with conditional generative networks trained to minimize scoring rule values. In contrast to Generative Adversarial Networks (GANs), no discriminator is required and training is stable. We perform experiments on two chaotic models and a global dataset of weather observations; results are satisfactory and better calibrated than what achieved by GANs.
翻訳日:2021-12-16 14:02:14 公開日:2021-12-15
# 視領域分割と自己監督型マルチストリーム学習による視線推定

Gaze Estimation with Eye Region Segmentation and Self-Supervised Multistream Learning ( http://arxiv.org/abs/2112.07878v1 )

ライセンス: Link先を確認
Zunayed Mahmud, Paul Hungler, Ali Etemad(参考訳) 本稿では,視線推定のためのロバストな視線表現を学習するマルチストリームネットワークを提案する。 まず,シミュレータを用いて眼球と虹彩を詳述した眼領域マスクを含む合成データセットを作成する。 次に、U-Net型モデルを用いて視線領域分割を行い、実際の視線画像の視線領域マスクを生成する。 次に、自己教師付きコントラスト学習を用いて実領域の眼画像エンコーダを事前訓練し、一般化された眼表現を学習する。 最後に、この前訓練されたアイエンコーダと、可視眼球領域と虹彩の2つの追加エンコーダをマルチストリームフレームワークで並列に使用し、実世界画像から視線推定のためのサルエント特徴を抽出する。 我々は,EYEDIAPデータセット上での手法の性能を2つの異なる評価設定で実証し,既存のベンチマークよりも高い結果を得た。 また、トレーニングに使用するラベル付きデータの量に応じて、自己教師付きネットワークの堅牢性を検証するための追加実験も行います。

We present a novel multistream network that learns robust eye representations for gaze estimation. We first create a synthetic dataset containing eye region masks detailing the visible eyeball and iris using a simulator. We then perform eye region segmentation with a U-Net type model which we later use to generate eye region masks for real-world eye images. Next, we pretrain an eye image encoder in the real domain with self-supervised contrastive learning to learn generalized eye representations. Finally, this pretrained eye encoder, along with two additional encoders for visible eyeball region and iris, are used in parallel in our multistream framework to extract salient features for gaze estimation from real-world images. We demonstrate the performance of our method on the EYEDIAP dataset in two different evaluation settings and achieve state-of-the-art results, outperforming all the existing benchmarks on this dataset. We also conduct additional experiments to validate the robustness of our self-supervised network with respect to different amounts of labeled data used for training.
翻訳日:2021-12-16 14:01:14 公開日:2021-12-15
# 不確かさ駆動損失関数を用いたロバスト深さ補完

Robust Depth Completion with Uncertainty-Driven Loss Functions ( http://arxiv.org/abs/2112.07895v1 )

ライセンス: Link先を確認
Yufan Zhu, Weisheng Dong, Leida Li, Jinjian Wu, Xin Li and Guangming Shi(参考訳) スパースLiDARスキャンから密集した深度画像の復元は難しい作業である。 色誘導による奥行き完遂法が人気を博したにもかかわらず、最適化中に等しく画素を処理し、スパース深度マップにおける不均一分布特性や合成基底真理における累積外れ値を無視した。 本研究では,不確実性による損失関数を導入し,深度補修の堅牢性を改善し,深度補修の不確実性に対処する。 具体的には、ジェフリーの先行したような頑健な深度完備化のための明確な不確かさの定式化を提案する。 パラメトリック不確実性駆動損失を導入し、ノイズや欠落データに対して堅牢な新しい損失関数に変換する。 一方,深度と不確実性を同時に予測できる多スケール共同予測モデルを提案する。 推定不確かさマップは、不確実度の高い画素に対して適応予測を行うためにも用いられ、その結果を精錬するための残留マップとなる。 提案手法は,KITTI深度評価ベンチマークでテストされ,MAE, IMAE, IRMSE測定値を用いて最先端のロバスト性性能を達成した。

Recovering a dense depth image from sparse LiDAR scans is a challenging task. Despite the popularity of color-guided methods for sparse-to-dense depth completion, they treated pixels equally during optimization, ignoring the uneven distribution characteristics in the sparse depth map and the accumulated outliers in the synthesized ground truth. In this work, we introduce uncertainty-driven loss functions to improve the robustness of depth completion and handle the uncertainty in depth completion. Specifically, we propose an explicit uncertainty formulation for robust depth completion with Jeffrey's prior. A parametric uncertain-driven loss is introduced and translated to new loss functions that are robust to noisy or missing data. Meanwhile, we propose a multiscale joint prediction model that can simultaneously predict depth and uncertainty maps. The estimated uncertainty map is also used to perform adaptive prediction on the pixels with high uncertainty, leading to a residual map for refining the completion results. Our method has been tested on KITTI Depth Completion Benchmark and achieved the state-of-the-art robustness performance in terms of MAE, IMAE, and IRMSE metrics.
翻訳日:2021-12-16 14:00:57 公開日:2021-12-15
# COVID-19における顔マスクの自動検出のための機械学習手法の比較分析

A Comparative Analysis of Machine Learning Approaches for Automated Face Mask Detection During COVID-19 ( http://arxiv.org/abs/2112.07913v1 )

ライセンス: Link先を確認
Junaed Younus Khan and Md Abdullah Al Alamin(参考訳) 世界保健機関(WHO)は、新型コロナウイルス感染防止の最も効果的な対策の一つとして、マスク着用を推奨している。 多くの国では、特に公共の場所ではマスクを着用することが義務付けられている。 群衆の中央では手動によるマスクの監視が不可能な場合が多いため,自動検出が有用である。 そこで我々は,顔マスク検出のための深層学習モデル(vgg1,vgg19,resnet50 )を探索し,2つのベンチマークデータセットで評価した。 また、この文脈で転送学習(VGG19, ResNet50)を評価した。 すべてのモデルのパフォーマンスは非常に良好ですが、転送学習モデルは最高のパフォーマンスを実現しています。 転送学習は、トレーニング時間を30\%削減して、0.10\%--0.40\%向上する。 実験では、テストデータセットが異なる分布から来る実世界のケースでは、これらのハイパフォーマンスなモデルがあまり堅牢ではないことも示しています。 微調整がなければ、これらのモデルのパフォーマンスはクロスドメイン設定で47\%低下する。

The World Health Organization (WHO) has recommended wearing face masks as one of the most effective measures to prevent COVID-19 transmission. In many countries, it is now mandatory to wear face masks, specially in public places. Since manual monitoring of face masks is often infeasible in the middle of the crowd, automatic detection can be beneficial. To facilitate that, we explored a number of deep learning models (i.e., VGG1, VGG19, ResNet50) for face-mask detection and evaluated them on two benchmark datasets. We also evaluated transfer learning (i.e., VGG19, ResNet50 pre-trained on ImageNet) in this context. We find that while the performances of all the models are quite good, transfer learning models achieve the best performance. Transfer learning improves the performance by 0.10\%--0.40\% with 30\% less training time. Our experiment also shows these high-performing models are not quite robust for real-world cases where the test dataset comes from a different distribution. Without any fine-tuning, the performance of these models drops by 47\% in cross-domain settings.
翻訳日:2021-12-16 14:00:38 公開日:2021-12-15
# 工学的形状の特徴認識への学習に基づくアプローチ

A learning-based approach to feature recognition of Engineering shapes ( http://arxiv.org/abs/2112.07962v1 )

ライセンス: Link先を確認
Lakshmi Priya Muraleedharan and Ramanathan Muthuganapathy(参考訳) 本稿では,cadメッシュモデルにおいて,穴やスロットなどの工学的形状特徴を認識するための機械学習手法を提案する。 デジタルアーカイブや3dプリンティング、部品のスキャン、リバースエンジニアリングといった新しい製造技術が登場し、cadデータはメッシュモデル表現という形で広まりつつある。 メッシュモデルではノード数やエッジ数が増加し,ノイズの発生可能性も高くなるため,グラフベースのアプローチの直接的な適用は高価であるだけでなく,ノイズの多いデータに対して調整することが困難になる。 これにより、メッシュ形式で表現されたCADモデルの特徴認識のために考案される新しいアプローチが要求される。 ここでは,gauss mapの離散バージョンを特徴学習のシグネチャとして使用できることを示す。 このアプローチでは、メモリ要件の削減だけでなく、トレーニング時間の短縮も実現しています。 ネットワークアーキテクチャが関与しないため、ハイパーパラメータの数ははるかに少なくなり、より速い時間で調整できる。 認識精度は3D畳み込みニューラルネットワーク(CNN)で得られたものと非常に似ているが、実行時間やストレージの要件ははるかに少ない。 他の非ネットワークベースの機械学習手法と比較して、我々のアプローチが最も正確であることを示す。 また,複数の特徴を有するcadモデルの認識結果と,公開ベンチマークから得られた複雑/対話的特徴を示す。 ノイズデータを扱う能力も実証されている。

In this paper, we propose a machine learning approach to recognise engineering shape features such as holes, slots, etc. in a CAD mesh model. With the advent of digital archiving, newer manufacturing techniques such as 3D printing, scanning of components and reverse engineering, CAD data is proliferated in the form of mesh model representation. As the number of nodes and edges become larger in a mesh model as well as the possibility of presence of noise, direct application of graph-based approaches would not only be expensive but also difficult to be tuned for noisy data. Hence, this calls for newer approaches to be devised for feature recognition for CAD models represented in the form of mesh. Here, we show that a discrete version of Gauss map can be used as a signature for a feature learning. We show that this approach not only requires fewer memory requirements but also the training time is quite less. As no network architecture is involved, the number of hyperparameters are much lesser and can be tuned in a much faster time. The recognition accuracy is also very similar to that of the one obtained using 3D convolutional neural networks (CNN) but in much lesser running time and storage requirements. A comparison has been done with other non-network based machine learning approaches to show that our approach has the highest accuracy. We also show the recognition results for CAD models having multiple features as well as complex/interacting features obtained from public benchmarks. The ability to handle noisy data has also been demonstrated.
翻訳日:2021-12-16 14:00:22 公開日:2021-12-15
# 総合的かつ効率的なアクティブラーニングを目指して

Towards General and Efficient Active Learning ( http://arxiv.org/abs/2112.07963v1 )

ライセンス: Link先を確認
Yichen Xie, Masayoshi Tomizuka, Wei Zhan(参考訳) アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。 既存の作業のほとんどは、各データセット上で複数の時間を要するモデルトレーニングとバッチデータ選択を別々に繰り返すことで、面倒なパイプラインに従っている。 本稿では,新しい汎用かつ効率的な能動学習法(GEAL)を提案することで,この現状に挑戦する。 大規模データセット上で事前トレーニングされた公開モデルを利用することで,同一モデルの単一パス推論を用いて,異なるデータセット上でデータ選択プロセスを実行できる。 画像内の微妙な局所情報をキャプチャするために,事前学習したネットワークの中間的特徴から容易に抽出できる知識クラスタを提案する。 厄介なバッチ選択戦略の代わりに、すべてのデータサンプルは、きめ細かい知識クラスタレベルでK-Center-Greedyを実行することで、1回に選択される。 手順全体は、トレーニングや監督なしに、シングルパスモデル推論のみが必要であり、我々の手法は、時間複雑性の点で、先行技術よりも数百倍も優れている。 広範な実験により,物体検出,意味セグメンテーション,深さ推定,画像分類において有望な性能を示すことができた。

Active learning aims to select the most informative samples to exploit limited annotation budgets. Most existing work follows a cumbersome pipeline by repeating the time-consuming model training and batch data selection multiple times on each dataset separately. We challenge this status quo by proposing a novel general and efficient active learning (GEAL) method in this paper. Utilizing a publicly available model pre-trained on a large dataset, our method can conduct data selection processes on different datasets with a single-pass inference of the same model. To capture the subtle local information inside images, we propose knowledge clusters that are easily extracted from the intermediate features of the pre-trained network. Instead of the troublesome batch selection strategy, all data samples are selected in one go by performing K-Center-Greedy in the fine-grained knowledge cluster level. The entire procedure only requires single-pass model inference without training or supervision, making our method notably superior to prior arts in terms of time complexity by up to hundreds of times. Extensive experiments widely demonstrate the promising performance of our method on object detection, semantic segmentation, depth estimation, and image classification.
翻訳日:2021-12-16 14:00:00 公開日:2021-12-15
# 機械学習手法によるスタートアップの成功予測におけるデータスパーシティ問題の解法

Solving the Data Sparsity Problem in Predicting the Success of the Startups with Machine Learning Methods ( http://arxiv.org/abs/2112.07985v1 )

ライセンス: Link先を確認
Dafei Yin, Jing Li, Gaosheng Wu(参考訳) スタートアップ企業の成功を予測することは、スタートアップ企業と投資家の両方にとって非常に重要だ。 利用可能なデータや適切な一般的な方法がないため、難しい。 crunchbaseのようなデータプラットフォームがスタートアップ企業の情報を集約することで、機械学習アルゴリズムで予測することができる。 既存の研究は、多くのアーリーステージのスタートアップ企業が一般に利用可能なデータを持っていないため、データスパシティの問題に悩まされている。 我々はこの問題を解決するために最近のアルゴリズムを活用しようとしている。 Crunchbaseからの大きなデータセットを用いた機械学習アルゴリズムについて検討する。 その結果、LightGBMとXGBoostは53.03%、52.96%のスコアを獲得している。 特徴貢献の観点から予測を解釈する。 モデルに基づいてポートフォリオを構築し、高い成功率を達成する。 これらの発見は、機械学習手法がスタートアップ企業や投資家にどのように役立つかに大きく影響している。

Predicting the success of startup companies is of great importance for both startup companies and investors. It is difficult due to the lack of available data and appropriate general methods. With data platforms like Crunchbase aggregating the information of startup companies, it is possible to predict with machine learning algorithms. Existing research suffers from the data sparsity problem as most early-stage startup companies do not have much data available to the public. We try to leverage the recent algorithms to solve this problem. We investigate several machine learning algorithms with a large dataset from Crunchbase. The results suggest that LightGBM and XGBoost perform best and achieve 53.03% and 52.96% F1 scores. We interpret the predictions from the perspective of feature contribution. We construct portfolios based on the models and achieve high success rates. These findings have substantial implications on how machine learning methods can help startup companies and investors.
翻訳日:2021-12-16 13:59:40 公開日:2021-12-15
# 学生のパフォーマンス予測のためのグラフベースアンサンブル機械学習

Graph-based Ensemble Machine Learning for Student Performance Prediction ( http://arxiv.org/abs/2112.07893v1 )

ライセンス: Link先を確認
Yinkai Wang, Aowei Ding, Kaiyi Guan, Shixi Wu, Yuanqi Du(参考訳) 学生のパフォーマンス予測は,学生のニーズを理解し,適切な学習機会/資源を提示し,授業の質を高めるための重要な研究課題である。 しかし、従来の機械学習手法では、安定した正確な予測結果が得られない。 本論文では,複数手法のコンセンサスによる単一機械学習手法の安定性向上を目的とした,グラフベースのアンサンブル機械学習手法を提案する。 具体的には、教師付き予測法と教師なしクラスタリング法の両方を利用し、二部グラフに伝播する反復的アプローチを構築し、より安定で正確な予測結果に収束する。 より正確な学生成績を予測するため,提案手法の有効性を実証した。 具体的には、従来の機械学習アルゴリズムを最大14.8%の予測精度で上回っている。

Student performance prediction is a critical research problem to understand the students' needs, present proper learning opportunities/resour ces, and develop the teaching quality. However, traditional machine learning methods fail to produce stable and accurate prediction results. In this paper, we propose a graph-based ensemble machine learning method that aims to improve the stability of single machine learning methods via the consensus of multiple methods. To be specific, we leverage both supervised prediction methods and unsupervised clustering methods, build an iterative approach that propagates in a bipartite graph as well as converges to more stable and accurate prediction results. Extensive experiments demonstrate the effectiveness of our proposed method in predicting more accurate student performance. Specifically, our model outperforms the best traditional machine learning algorithms by up to 14.8% in prediction accuracy.
翻訳日:2021-12-16 13:59:04 公開日:2021-12-15
# ヤンデックスシフトデータセットを用いた車両運動予測の不確かさの推定

Estimating Uncertainty For Vehicle Motion Prediction on Yandex Shifts Dataset ( http://arxiv.org/abs/2112.08355v1 )

ライセンス: Link先を確認
Alexey Pustynnikov, Dmitry Eremeev(参考訳) 周囲のエージェントの運動予測は、運転者の安全と密接に関連しているため、自律運転における重要な課題である。 vehicle motion prediction (vmp) track of shifts challengeは、分散シフトに頑健で、予測の不確実性を測定することができるモデルの開発に焦点を当てている。 この作業では、ベンチマークを著しく改善し、リーダーボードで2位になったアプローチを提示します。

Motion prediction of surrounding agents is an important task in context of autonomous driving since it is closely related to driver's safety. Vehicle Motion Prediction (VMP) track of Shifts Challenge focuses on developing models which are robust to distributional shift and able to measure uncertainty of their predictions. In this work we present the approach that significantly improved provided benchmark and took 2nd place on the leaderboard.
翻訳日:2021-12-16 13:58:28 公開日:2021-12-15
# MissMarple : 画像スプライシング検出のための社会的な特徴伝達学習深層ネットワーク

MissMarple : A Novel Socio-inspired Feature-transfer Learning Deep Network for Image Splicing Detection ( http://arxiv.org/abs/2112.08018v1 )

ライセンス: Link先を確認
Angelina L. Gokhale, Dhanya Pramod, Sudeep D. Thepade, Ravi Kulkarni(参考訳) 本稿では,画像スプライシング検出のための,社会にインスパイアされた畳み込みニューラルネットワーク(CNN)深層学習モデルを提案する。 粗いスプライシング画像領域の検出から学習することで、視覚的に知覚できない細かなスプライシング画像のフォージェリーの検出を改善するという前提に基づいて、MissMarpleと呼ばれるモデルが特徴伝達学習を含む双子のCNNネットワークである。 columbia splicing、wildweb、dso1などのベンチマークデータセットと、現実的なスプライシングフォージからなるabhasというタイトルのデータセットを用いて、提案モデルをトレーニングおよびテストした結果、既存のディープラーニングモデルよりも検出精度が向上していることが判明した。

In this paper we propose a novel socio-inspired convolutional neural network (CNN) deep learning model for image splicing detection. Based on the premise that learning from the detection of coarsely spliced image regions can improve the detection of visually imperceptible finely spliced image forgeries, the proposed model referred to as, MissMarple, is a twin CNN network involving feature-transfer learning. Results obtained from training and testing the proposed model using the benchmark datasets like Columbia splicing, WildWeb, DSO1 and a proposed dataset titled AbhAS consisting of realistic splicing forgeries revealed improvement in detection accuracy over the existing deep learning models.
翻訳日:2021-12-16 13:58:21 公開日:2021-12-15
# RA V-Net: 肝自動セグメンテーションのためのディープラーニングネットワーク

RA V-Net: Deep learning network for automated liver segmentation ( http://arxiv.org/abs/2112.08232v1 )

ライセンス: Link先を確認
Zhiqi Lee, Sumin Qi, Chongchong Fan, Ziwei Xie(参考訳) 肝の正確な分画は疾患の診断の前提条件である。 自動セグメンテーションは、コンピュータ支援による肝疾患の検出と診断の重要な応用である。 近年,医療画像の自動処理は画期的な進歩を遂げている。 しかし,腹部CT画像の低コントラストと肝形態の複雑さは,正確な自動分割を困難にしている。 本稿では,U-Netに基づく医用画像の自動セグメンテーションモデルであるRA V-Netを提案する。 主なイノベーションは次の3つだ。 CofResモジュール(Composite Original Feature Residual Module)が提案されている。 より複雑な畳み込み層とスキップ接続により、より高いレベルの画像特徴抽出能力を獲得し、勾配の消失や爆発を防止する。 ARモジュール (Attention Recovery Module) はモデルの計算労力を削減するために提案されている。 また、符号化モジュールのデータ画素と復号モジュールとの間の空間的特徴は、チャネルとLSTM畳み込みを調整することで知覚される。 最後に、画像特徴を効果的に保持する。 caモジュール(channel attention module)が導入され、依存関係のある関連チャネルを抽出し、マトリックスドット製品によって強化すると同時に、依存関係のない無関係チャネルを弱める。 チャネルアテンションの目的は達成される。 LSTM畳み込みとCAモジュールによって提供される注意機構は、ニューラルネットワークの性能を強く保証する。 U-Netネットワークの精度: 0.9862、精度: 0.9118、DSC: 0.8547、SC: 0.82。 RA V-Netの評価基準は、精度: 0.9968、精度: 0.9597、DSC: 0.9654、JSC: 0.9414 である。 セグメンテーション効果の最も代表的な指標はDSCであり、これはU-Netよりも0.1107、JSCは0.1214である。

Accurate segmentation of the liver is a prerequisite for the diagnosis of disease. Automated segmentation is an important application of computer-aided detection and diagnosis of liver disease. In recent years, automated processing of medical images has gained breakthroughs. However, the low contrast of abdominal scan CT images and the complexity of liver morphology make accurate automatic segmentation challenging. In this paper, we propose RA V-Net, which is an improved medical image automatic segmentation model based on U-Net. It has the following three main innovations. CofRes Module (Composite Original Feature Residual Module) is proposed. With more complex convolution layers and skip connections to make it obtain a higher level of image feature extraction capability and prevent gradient disappearance or explosion. AR Module (Attention Recovery Module) is proposed to reduce the computational effort of the model. In addition, the spatial features between the data pixels of the encoding and decoding modules are sensed by adjusting the channels and LSTM convolution. Finally, the image features are effectively retained. CA Module (Channel Attention Module) is introduced, which used to extract relevant channels with dependencies and strengthen them by matrix dot product, while weakening irrelevant channels without dependencies. The purpose of channel attention is achieved. The attention mechanism provided by LSTM convolution and CA Module are strong guarantees for the performance of the neural network. The accuracy of U-Net network: 0.9862, precision: 0.9118, DSC: 0.8547, JSC: 0.82. The evaluation metrics of RA V-Net, accuracy: 0.9968, precision: 0.9597, DSC: 0.9654, JSC: 0.9414. The most representative metric for the segmentation effect is DSC, which improves 0.1107 over U-Net, and JSC improves 0.1214.
翻訳日:2021-12-16 13:58:08 公開日:2021-12-15
# 法定データに基づくトランスフォーマーのクロスドメイン一般化と知識伝達

Cross-Domain Generalization and Knowledge Transfer in Transformers Trained on Legal Data ( http://arxiv.org/abs/2112.07870v1 )

ライセンス: Link先を確認
Jaromir Savelka, Hannes Westermann, Karim Benyekhlef(参考訳) 我々は、異なる型システムでアノテートされたデータセット間で知識を伝達し、訓練されたドメインとデータセットを超えて一般化する、事前訓練された言語モデルの能力を分析する。 我々は、修辞的役割の予測に焦点を当てた複数のデータセットにメタタスクを作成する。 文がケース決定で果たす修辞的役割の予測は、AI & Lawにおいて重要かつしばしば研究される課題である。 通常、モデルのトレーニングには大量の文のアノテーションが必要です。 さらに、モデルの応用は、トレーニングされた同じデータセットに制限される。 言語モデルを微調整し、データセット間での性能を評価し、ドメイン間で一般化するモデルの能力を調べる。 このアプローチは、アクティブな学習や対話型学習におけるコールドスタート問題を克服する上で有用であり、モデルがデータセットとドメインをまたいで一般化する能力を示している。

We analyze the ability of pre-trained language models to transfer knowledge among datasets annotated with different type systems and to generalize beyond the domain and dataset they were trained on. We create a meta task, over multiple datasets focused on the prediction of rhetorical roles. Prediction of the rhetorical role a sentence plays in a case decision is an important and often studied task in AI & Law. Typically, it requires the annotation of a large number of sentences to train a model, which can be time-consuming and expensive. Further, the application of the models is restrained to the same dataset it was trained on. We fine-tune language models and evaluate their performance across datasets, to investigate the models' ability to generalize across domains. Our results suggest that the approach could be helpful in overcoming the cold-start problem in active or interactvie learning, and shows the ability of the models to generalize across datasets and domains.
翻訳日:2021-12-16 13:57:04 公開日:2021-12-15
# (参考訳) 言語モデル埋め込みにおける線形有毒部分空間の同定による簡易テキストデトックス化 [全文訳有]

Simple Text Detoxification by Identifying a Linear Toxic Subspace in Language Model Embeddings ( http://arxiv.org/abs/2112.08346v1 )

ライセンス: CC BY 4.0
Andrew Wang, Mohit Sudhakar, Yangfeng Ji(参考訳) 大きな事前学習された言語モデルは、しばしば大量のインターネットデータに基づいて訓練され、その一部は有毒または虐待的な言語を含んでいる。 その結果、言語モデルは有害な情報をエンコードするので、実際の言語モデルの使用は制限される。 現在の方法は、有害な特徴が生成されるのを防ぐことを目的としている。 我々は、事前訓練された言語モデルの潜在空間に低次元の有毒な部分空間が存在することを仮定し、その存在は、有毒な特徴がいくつかの基本パターンに従い、除去可能であることを示唆している。 この有毒な部分空間を構築するために,潜在空間における有毒な方向を一般化する手法を提案する。 また,コンテキストベースの単語マスキングシステムを用いて並列データセットを構築する手法を提案する。 実験の結果,有毒な部分空間が一組の文表現から取り除かれた場合,有毒な表現はほとんど残っていないことがわかった。 実験により, 本手法を用いたサブスペースが複数の毒性コーパスに一般化し, 低次元の毒性サブスペースの存在を示すことを実証した。

Large pre-trained language models are often trained on large volumes of internet data, some of which may contain toxic or abusive language. Consequently, language models encode toxic information, which makes the real-world usage of these language models limited. Current methods aim to prevent toxic features from appearing generated text. We hypothesize the existence of a low-dimensional toxic subspace in the latent space of pre-trained language models, the existence of which suggests that toxic features follow some underlying pattern and are thus removable. To construct this toxic subspace, we propose a method to generalize toxic directions in the latent space. We also provide a methodology for constructing parallel datasets using a context based word masking system. Through our experiments, we show that when the toxic subspace is removed from a set of sentence representations, almost no toxic representations remain in the result. We demonstrate empirically that the subspace found using our method generalizes to multiple toxicity corpora, indicating the existence of a low-dimensional toxic subspace.
翻訳日:2021-12-16 13:55:18 公開日:2021-12-15
# 不確かさ推定によるマイニングマイノリティクラスの例

Mining Minority-class Examples With Uncertainty Estimates ( http://arxiv.org/abs/2112.07835v1 )

ライセンス: Link先を確認
Gursimran Singh, Lingyang Chu, Lanjun Wang, Jian Pei, Qi Tian, Yong Zhang(参考訳) 実世界では、オブジェクトの発生頻度は自然に歪み、ロングテールクラス分布を形成し、統計学的に希少なクラスでは性能が低下する。 有望な解決策は、トレーニングデータセットのバランスをとるためにテールクラスのサンプルをマイニングすることだ。 しかし、尾クラスの採掘は非常に難しい作業である。 例えば、不確実性に基づくマイニング手法のほとんどが、データの歪みに起因するクラス確率の歪みのために苦労している。 本研究では,これらの課題を克服する効果的な,しかし簡単なアプローチを提案する。 このフレームワークはテイルクラスのアクティベーションを抑圧し、その後、テイルクラスのサンプルを効果的に識別するために1クラスデータ中心のアプローチを使用する。 2つのコンピュータビジョンタスクにまたがる3つのデータセットについて,フレームワークを徹底的に評価する。 マイニングのマイニングと微調整モデルの性能の大幅な改善は,提案するソリューションの価値を強く裏付けるものだ。

In the real world, the frequency of occurrence of objects is naturally skewed forming long-tail class distributions, which results in poor performance on the statistically rare classes. A promising solution is to mine tail-class examples to balance the training dataset. However, mining tail-class examples is a very challenging task. For instance, most of the otherwise successful uncertainty-based mining approaches struggle due to distortion of class probabilities resulting from skewness in data. In this work, we propose an effective, yet simple, approach to overcome these challenges. Our framework enhances the subdued tail-class activations and, thereafter, uses a one-class data-centric approach to effectively identify tail-class examples. We carry out an exhaustive evaluation of our framework on three datasets spanning over two computer vision tasks. Substantial improvements in the minority-class mining and fine-tuned model's performance strongly corroborate the value of our proposed solution.
翻訳日:2021-12-16 13:40:42 公開日:2021-12-15
# 分割再構成誘導顔画像デクルージョン

Segmentation-Reconst ruction-Guided Facial Image De-occlusion ( http://arxiv.org/abs/2112.08022v1 )

ライセンス: Link先を確認
Xiangnan Yin, Di Huang, Zehua Fu, Yunhong Wang, Liming Chen(参考訳) 隠蔽は野生の顔画像で非常に一般的であり、顔関連タスクの劣化パフォーマンスに繋がる。 顔画像からのオクルージョンの除去に多くの努力が注がれているが、オクルージョンの形状やテクスチャは今でも現在の手法の堅牢性に挑戦している。 その結果、現在の方法は手動の閉塞マスクに依存するか、特定の閉塞マスクにのみ適用される。 本稿では,顔のセグメンテーションと3次元顔再構成に基づく新しい顔分割モデルを提案する。 提案モデルは,3次元顔再構成モジュール,顔セグメンテーションモジュール,画像生成モジュールで構成される。 第1の2で予測される顔前と閉塞マスクにより、画像生成モジュールは、欠落した顔のテクスチャを忠実に回復することができる。 トレーニングを監督するために、手動でラベル付けと合成のオクルージョンを持つ大きなオクルージョンデータセットを構築する。 定性的かつ定量的な結果は,提案手法の有効性とロバスト性を示すものである。

Occlusions are very common in face images in the wild, leading to the degraded performance of face-related tasks. Although much effort has been devoted to removing occlusions from face images, the varying shapes and textures of occlusions still challenge the robustness of current methods. As a result, current methods either rely on manual occlusion masks or only apply to specific occlusions. This paper proposes a novel face de-occlusion model based on face segmentation and 3D face reconstruction, which automatically removes all kinds of face occlusions with even blurred boundaries,e.g., hairs. The proposed model consists of a 3D face reconstruction module, a face segmentation module, and an image generation module. With the face prior and the occlusion mask predicted by the first two, respectively, the image generation module can faithfully recover the missing facial textures. To supervise the training, we further build a large occlusion dataset, with both manually labeled and synthetic occlusions. Qualitative and quantitative results demonstrate the effectiveness and robustness of the proposed method.
翻訳日:2021-12-16 13:40:28 公開日:2021-12-15
# バイオメディカル自然言語処理のための大規模ニューラルネットワークモデル

Fine-Tuning Large Neural Language Models for Biomedical Natural Language Processing ( http://arxiv.org/abs/2112.07869v1 )

ライセンス: Link先を確認
Robert Tinn, Hao Cheng, Yu Gu, Naoto Usuyama, Xiaodong Liu, Tristan Naumann, Jianfeng Gao, Hoifung Poon(参考訳) モチベーション: バイオメディカル研究者や臨床実践者にとっての長年にわたる挑戦は、出版物や医療記録の急速な成長に引き続き対応することである。 自然言語処理(NLP)は情報過負荷に対処するための有望な方向として登場した。 特に、大きなニューラルネットワークモデルは、様々なnlpアプリケーションにおけるbertモデルの成功の例のように、ラベルのないテキストを事前学習することで、転送学習を容易にする。 しかし、特にバイオメディカルNLPで一般的な小さなラベル付きデータセットでは、終末タスクのための微調整は依然として困難である。 結果: バイオメディカルNLPの微調整安定性に関する系統的研究を行った。 我々は,特に低リソース領域において,微調整性能が事前学習設定に敏感であることを示す。 大きなモデルはより良い性能を得る可能性があるが、モデルサイズの増加は微調整の不安定さを悪化させる。 そこで我々は,微調整不安定性に対処する手法を包括的に探究する。 これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。 具体的には、下層の凍結は標準的なBERT-BASEモデルに有効であり、層状崩壊はBERT-LARGEモデルとELECTRAモデルにより効果的である。 BIOSSESのような低リソースのテキスト類似性タスクでは、トップレイヤの再起動が最適な戦略です。 全体として、ドメイン固有の語彙と事前学習は、微調整のためのより堅牢なモデルを促進する。 これらの知見に基づいて,幅広い生物医学的NLP応用に新たな技術が確立されている。 可用性と実装: バイオメディカルNLPの進歩を促進するため、私たちは最先端のトレーニング済みおよび微調整されたモデルをリリースします。

Motivation: A perennial challenge for biomedical researchers and clinical practitioners is to stay abreast with the rapid growth of publications and medical notes. Natural language processing (NLP) has emerged as a promising direction for taming information overload. In particular, large neural language models facilitate transfer learning by pretraining on unlabeled text, as exemplified by the successes of BERT models in various NLP applications. However, fine-tuning such models for an end task remains challenging, especially with small labeled datasets, which are common in biomedical NLP. Results: We conduct a systematic study on fine-tuning stability in biomedical NLP. We show that finetuning performance may be sensitive to pretraining settings, especially in low-resource domains. Large models have potential to attain better performance, but increasing model size also exacerbates finetuning instability. We thus conduct a comprehensive exploration of techniques for addressing fine-tuning instability. We show that these techniques can substantially improve fine-tuning performance for lowresource biomedical NLP applications. Specifically, freezing lower layers is helpful for standard BERT-BASE models, while layerwise decay is more effective for BERT-LARGE and ELECTRA models. For low-resource text similarity tasks such as BIOSSES, reinitializing the top layer is the optimal strategy. Overall, domainspecific vocabulary and pretraining facilitate more robust models for fine-tuning. Based on these findings, we establish new state of the art on a wide range of biomedical NLP applications. Availability and implementation: To facilitate progress in biomedical NLP, we release our state-of-the-art pretrained and fine-tuned models: https://aka.ms/BLURB .
翻訳日:2021-12-16 13:37:30 公開日:2021-12-15
# リアルタイム推論制約付き句読点予測のためのマスク結合復号と分類手法

Mask-combine Decoding and Classification Approach for Punctuation Prediction with real-time Inference Constraints ( http://arxiv.org/abs/2112.08098v1 )

ライセンス: Link先を確認
Christoph Minixhofer, Ond\v{r}ej Klejch, Peter Bell(参考訳) そこで本研究では,句読点予測のための既存のデコード戦略を1つのフレームワークで統一し,複数の単語を異なるウィンドウにまたがって複数の予測を行う新しい手法を提案する。 モデルトレーニング後にこれらの戦略を最適化することで、大きな改善が可能であり、再トレーニングの必要はなく、推論時間の潜在的な増加につながることを示しています。 我々はさらに、リアルタイム設定における句読点予測のためのタグ付けと分類アプローチの最初の比較にデコード戦略フレームワークを使用する。 その結果、句読点予測のための分類手法は、右辺の文脈がほとんど、あるいは全く存在しない場合に有益であることが示された。

In this work, we unify several existing decoding strategies for punctuation prediction in one framework and introduce a novel strategy which utilises multiple predictions at each word across different windows. We show that significant improvements can be achieved by optimising these strategies after training a model, only leading to a potential increase in inference time, with no requirement for retraining. We further use our decoding strategy framework for the first comparison of tagging and classification approaches for punctuation prediction in a real-time setting. Our results show that a classification approach for punctuation prediction can be beneficial when little or no right-side context is available.
翻訳日:2021-12-16 13:37:03 公開日:2021-12-15
# コンテキスト対応アイテムメタ情報による会話推薦システムの品質向上

Improving Conversational Recommendation Systems' Quality with Context-Aware Item Meta Information ( http://arxiv.org/abs/2112.08140v1 )

ライセンス: Link先を確認
Bowen Yang, Cong Han, Yu Li, Lei Zuo, Zhou Yu(参考訳) 対話レコメンデーションシステム(CRS)は、対話履歴からユーザの好みを推測し、正確なレコメンデーションを提供し、適切な応答を生成する。 従来のCRSでは、知識グラフ(KG)ベースのレコメンデーションモジュールを使用し、応答生成のための言語モデルとKGを統合する。 KGベースのアプローチは有効であるが、2つの問題が解決される。 第一に、KGベースのアプローチは、会話の文脈における情報を無視するが、アイテムを推薦するエンティティ関係と単語の袋にのみ依存する。 第二に、ドメイン固有の関係をモデル化するKGを維持するためには、かなりのエンジニアリングの努力が必要だ。 本稿では,事前学習型言語モデル(PLM)と項目メタデータエンコーダを組み合わせた,シンプルで効果的なアーキテクチャを提案する。 エンコーダは、項目メタデータをダイアログコンテキストのセマンティック情報を反映した埋め込みにマップすることを学ぶ。 次にplmは、セマンティックアライメントされたアイテム埋め込みとダイアログコンテキストを併用して、高品質のレコメンデーションとレスポンスを生成する。 KGとのエンティティ関係をモデル化する代わりに、各項目を直接埋め込みに変換することにより、エンジニアリングの複雑さを低減する。 ベンチマークデータセットにおける実験結果は,レコメンデーションタスクとレスポンス生成タスクの両方において,最新の結果が得られることを示した。

Conversational recommendation systems (CRS) engage with users by inferring user preferences from dialog history, providing accurate recommendations, and generating appropriate responses. Previous CRSs use knowledge graph (KG) based recommendation modules and integrate KG with language models for response generation. Although KG-based approaches prove effective, two issues remain to be solved. First, KG-based approaches ignore the information in the conversational context but only rely on entity relations and bag of words to recommend items. Second, it requires substantial engineering efforts to maintain KGs that model domain-specific relations, thus leading to less flexibility. In this paper, we propose a simple yet effective architecture comprising a pre-trained language model (PLM) and an item metadata encoder. The encoder learns to map item metadata to embeddings that can reflect the semantic information in the dialog context. The PLM then consumes the semantic-aligned item embeddings together with dialog context to generate high-quality recommendations and responses. Instead of modeling entity relations with KGs, our model reduces engineering complexity by directly converting each item to an embedding. Experimental results on the benchmark dataset ReDial show that our model obtains state-of-the-art results on both recommendation and response generation tasks.
翻訳日:2021-12-16 13:36:51 公開日:2021-12-15
# est-ce que vous compute? コードスイッチング、文化的アイデンティティ、AI

Est-ce que vous compute? Code-switching, cultural identity, and AI ( http://arxiv.org/abs/2112.08256v1 )

ライセンス: Link先を確認
Arianna Falbo and Travis LaCroix(参考訳) 文化的なコードスイッチングは、社会環境の変化に対する私たちの全体的な行動、話し方、出現の調整方法に関するものである。 我々は、人工知能システムの文化的コード交換能力を調査する必要性を擁護する。 我々は、人工知能に文化的なコードスイッチングをもたらす際に生じる倫理的および疫学的な問題を探求する。 ドットソン(2014年)の証言スモーキングの分析に基づいて、aiの新興技術がどのようにして認識論的抑圧を生じさせるのか、具体的には、私たちが「文化的スモーキング」と呼ぶ自己鎮静の形式について論じる。 文化的な規範変更の社会力学的特徴をそのまま残すことで、AIシステムは、機会ギャップを広げ、さらに社会的不平等を拡大することによって、既に結婚した社会グループに悪影響を及ぼすリスクを負う。

Cultural code-switching concerns how we adjust our overall behaviours, manners of speaking, and appearance in response to a perceived change in our social environment. We defend the need to investigate cultural code-switching capacities in artificial intelligence systems. We explore a series of ethical and epistemic issues that arise when bringing cultural code-switching to bear on artificial intelligence. Building upon Dotson's (2014) analysis of testimonial smothering, we discuss how emerging technologies in AI can give rise to epistemic oppression, and specifically, a form of self-silencing that we call 'cultural smothering'. By leaving the socio-dynamic features of cultural code-switching unaddressed, AI systems risk negatively impacting already-marginalised social groups by widening opportunity gaps and further entrenching social inequalities.
翻訳日:2021-12-16 13:36:30 公開日:2021-12-15
# (参考訳) trialgraph: 臨床試験のグラフモデリングから洞察を得るためのマシンインテリジェンス [全文訳有]

TrialGraph: Machine Intelligence Enabled Insight from Graph Modelling of Clinical Trials ( http://arxiv.org/abs/2112.08211v1 )

ライセンス: CC BY 4.0
Christopher Yacoumatos, Stefano Bragaglia, Anshul Kanakia, Nils Svang{\aa}rd, Jonathan Mangion, Claire Donoghue, Jim Weatherall, Faisal M. Khan, Khader Shameer(参考訳) 医薬品開発の成功の大きな障害は、臨床試験の複雑さ、コスト、規模である。 臨床試験データの詳細な内部構造は従来の最適化を困難にする可能性がある。 近年の機械学習、特にグラフ構造化データ解析の進歩は、臨床試験設計の改善に大きな進歩をもたらす可能性がある。 trialgraphはこれらの手法を応用して、薬物開発を助け患者に利益をもたらすモデルを開発するための概念実証フレームワークを作ろうとしている。 本研究では,CT.gov,AACT,TrialTr oveデータベース(n=1191の臨床試験,100万の患者を表す)から収集した治験データセットをまず紹介し,このデータをグラフ構造化フォーマットに変換する方法について述べる。 次に,低次元特徴空間に埋め込まれたグラフデータに標準機械分類器を用いるグラフ機械学習アルゴリズムの数学的基礎と実装について詳述する。 これらのモデルを用いて, 疾患, 既存の病状, 治療に関する情報をもとに, 臨床試験の副作用情報を予測する訓練を行った。 MetaPath2Vecアルゴリズムは、標準的なロジスティック回帰、決定木、ランダムフォレスト、サポートベクトル、ニューラルネットワーク分類器で、それぞれ0.85、0.68、0.86、0.80、0.77の典型的なROC-AUCスコアを示す。 注目すべきは、最高の性能の分類器は、等価な配列構造データに基づいて訓練すると、典型的なROC-AUCスコアの0.70しか生成できなかったことである。 本研究では,グラフモデリングが適切なデータセットの予測精度を大幅に向上できることを実証する。 モデリングの仮定を洗練し、より多くのデータ型を取り入れるプロジェクトの連続したバージョンは、薬物開発における現実世界の応用において優れた予測器を生み出す。

A major impediment to successful drug development is the complexity, cost, and scale of clinical trials. The detailed internal structure of clinical trial data can make conventional optimization difficult to achieve. Recent advances in machine learning, specifically graph-structured data analysis, have the potential to enable significant progress in improving the clinical trial design. TrialGraph seeks to apply these methodologies to produce a proof-of-concept framework for developing models which can aid drug development and benefit patients. In this work, we first introduce a curated clinical trial data set compiled from the CT.gov, AACT and TrialTrove databases (n=1191 trials; representing one million patients) and describe the conversion of this data to graph-structured formats. We then detail the mathematical basis and implementation of a selection of graph machine learning algorithms, which typically use standard machine classifiers on graph data embedded in a low-dimensional feature space. We trained these models to predict side effect information for a clinical trial given information on the disease, existing medical conditions, and treatment. The MetaPath2Vec algorithm performed exceptionally well, with standard Logistic Regression, Decision Tree, Random Forest, Support Vector, and Neural Network classifiers exhibiting typical ROC-AUC scores of 0.85, 0.68, 0.86, 0.80, and 0.77, respectively. Remarkably, the best performing classifiers could only produce typical ROC-AUC scores of 0.70 when trained on equivalent array-structured data. Our work demonstrates that graph modelling can significantly improve prediction accuracy on appropriate datasets. Successive versions of the project that refine modelling assumptions and incorporate more data types can produce excellent predictors with real-world applications in drug development.
翻訳日:2021-12-16 13:33:55 公開日:2021-12-15
# 実データを用いたテキストなし音声音声合成

Textless Speech-to-Speech Translation on Real Data ( http://arxiv.org/abs/2112.08352v1 )

ライセンス: Link先を確認
Ann Lee, Hongyu Gong, Paul-Ambroise Duquenne, Holger Schwenk, Peng-Jen Chen, Changhan Wang, Sravya Popuri, Juan Pino, Jiatao Gu, Wei-Ning Hsu(参考訳) 本稿では,ある言語から別の言語へ音声を翻訳し,テキストデータなしで構築できるs2st(textless speech-to-speech translation)システムを提案する。 文献における既存の研究と異なり、マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に取り組む。 提案手法の鍵となるのは,複数話者からのペア音声と1つの参照話者による事前学習音声エンコーダを微調整し,アクセントによる変動を低減し,語彙内容を保存する,自己教師付き単位ベース音声正規化手法である。 音声正規化のためのペアデータはわずか10分で、非正規化音声ターゲットで訓練されたベースラインと比較して、s2stモデルを \vp~s2stデータセットでトレーニングする際に平均3.2 bleuゲインを得る。 また、自動マイニングされたS2STデータを組み込んで2.0BLEUゲインを示す。 我々の知る限り、私たちは、実世界のデータでトレーニングでき、複数の言語ペアで動作する、テキストレスのS2STテクニックを最初に確立しました。

We present a textless speech-to-speech translation (S2ST) system that can translate speech from one language into another language and can be built without the need of any text data. Different from existing work in the literature, we tackle the challenge in modeling multi-speaker target speech and train the systems with real-world S2ST data. The key to our approach is a self-supervised unit-based speech normalization technique, which finetunes a pre-trained speech encoder with paired audios from multiple speakers and a single reference speaker to reduce the variations due to accents, while preserving the lexical content. With only 10 minutes of paired data for speech normalization, we obtain on average 3.2 BLEU gain when training the S2ST model on the \vp~S2ST dataset, compared to a baseline trained on un-normalized speech target. We also incorporate automatically mined S2ST data and show an additional 2.0 BLEU gain. To our knowledge, we are the first to establish a textless S2ST technique that can be trained with real-world data and works for multiple language pairs.
翻訳日:2021-12-16 13:10:50 公開日:2021-12-15
# GenIE: 生成情報抽出

GenIE: Generative Information Extraction ( http://arxiv.org/abs/2112.08340v1 )

ライセンス: Link先を確認
Martin Josifoski, Nicola De Cao, Maxime Peyrard, Robert West(参考訳) テキストの構造的および接地的表現は、一般に、知識ベーススキーマから予め定義されたエンティティの集合と関係の集合と整合した(対象、関係、対象)三重項の完全な集合を抽出する問題である閉情報抽出によって定式化される。 既存の作業の多くはパイプラインでエラーの蓄積が難しく、すべてのアプローチは非現実的に少数のエンティティや関係にのみ適用できる。 閉鎖情報抽出の最初のエンドツーエンド自動回帰式であるGenIE(生成情報抽出)を紹介する。 GenIEは、テキスト形式で関係やエンティティを自動回帰生成することで、事前訓練されたトランスフォーマーから言語知識を自然に活用する。 新しいbiレベルの制約付き生成戦略により、事前定義された知識ベーススキーマに準拠したトリプレットのみが生成される。 我々の実験は、GenIEがクローズド情報抽出の最先端であり、ベースラインよりも少ないトレーニングデータポイントから一般化し、これまで管理不能だったエンティティとリレーションシップにスケールすることを示した。 この作業により、クローズド情報抽出は現実的なシナリオにおいて実践的になり、下流タスクに新たな機会を提供する。 最後に、この研究は情報抽出のコアタスクへの統一的なエンドツーエンドアプローチへの道を開く。 コードとモデルはhttps://github.com/e pfl-dlab/genieで入手できる。

Structured and grounded representation of text is typically formalized by closed information extraction, the problem of extracting an exhaustive set of (subject, relation, object) triplets that are consistent with a predefined set of entities and relations from a knowledge base schema. Most existing works are pipelines prone to error accumulation, and all approaches are only applicable to unrealistically small numbers of entities and relations. We introduce GenIE (generative information extraction), the first end-to-end autoregressive formulation of closed information extraction. GenIE naturally exploits the language knowledge from the pre-trained transformer by autoregressively generating relations and entities in textual form. Thanks to a new bi-level constrained generation strategy, only triplets consistent with the predefined knowledge base schema are produced. Our experiments show that GenIE is state-of-the-art on closed information extraction, generalizes from fewer training data points than baselines, and scales to a previously unmanageable number of entities and relations. With this work, closed information extraction becomes practical in realistic scenarios, providing new opportunities for downstream tasks. Finally, this work paves the way towards a unified end-to-end approach to the core tasks of information extraction. Code and models available at https://github.com/e pfl-dlab/GenIE.
翻訳日:2021-12-16 13:10:30 公開日:2021-12-15
# 時間行列因子分解を用いた短時系列大集合に対する最適潜時空間予測

Optimal Latent Space Forecasting for Large Collections of Short Time Series Using Temporal Matrix Factorization ( http://arxiv.org/abs/2112.08052v1 )

ライセンス: Link先を確認
Himanshi Charotia, Abhishek Garg, Gaurav Dhama, Naman Maheshwari(参考訳) 時系列予測の文脈では、複数の方法を評価し、これらの方法の1つを選択する、あるいは最高の予測を生成するアンサンブルを組むのが一般的である。 しかし、複数の手法で異なるアンサンブルを選択することは、手法の数が増えるにつれて組合せ爆発を起こす難しい課題である。 需要予測や収益予測の文脈では、この課題は、ビジネスコンテキストの変化によって利用可能な歴史的なデータポイントの制限に加えて、多くの時系列によってさらに悪化する。 深層学習予測手法は時系列の膨大なコレクションを同時に予測することを目的としているが、利用可能な歴史が限られており、望ましい結果が得られないため、このようなシナリオに適用することは困難になる。 クロスバリデーションを用いた潜時時系列の低位時間行列分解と最適モデル選択を組み合わせることで,短い高次元時系列データを予測するための枠組みを提案する。 我々は, 潜在要因の予測は, 時系列に異なる単変量モデルを直接適用することに比べ, 大幅な性能向上をもたらすことを実証する。 提案手法の汎用性を示す複数のドメインの時系列データを含むM4月間データセットの切り離されたバージョンで,性能が検証された。 また, 予測手法を高次元データセットに直接適用する場合, 一般的には非現実的な潜伏要因の少ないため, 将来のアナリストの視点を取り入れることも可能である。

In the context of time series forecasting, it is a common practice to evaluate multiple methods and choose one of these methods or an ensemble for producing the best forecasts. However, choosing among different ensembles over multiple methods remains a challenging task that undergoes a combinatorial explosion as the number of methods increases. In the context of demand forecasting or revenue forecasting, this challenge is further exacerbated by a large number of time series as well as limited historical data points available due to changing business context. Although deep learning forecasting methods aim to simultaneously forecast large collections of time series, they become challenging to apply in such scenarios due to the limited history available and might not yield desirable results. We propose a framework for forecasting short high-dimensional time series data by combining low-rank temporal matrix factorization and optimal model selection on latent time series using cross-validation. We demonstrate that forecasting the latent factors leads to significant performance gains as compared to directly applying different uni-variate models on time series. Performance has been validated on a truncated version of the M4 monthly dataset which contains time series data from multiple domains showing the general applicability of the method. Moreover, it is amenable to incorporating the analyst view of the future owing to the low number of latent factors which is usually impractical when applying forecasting methods directly to high dimensional datasets.
翻訳日:2021-12-16 13:10:10 公開日:2021-12-15
# 過度パラメータ化レジームにおけるニューラルネットワークの影響関数の再考

Rethinking Influence Functions of Neural Networks in the Over-parameterized Regime ( http://arxiv.org/abs/2112.08297v1 )

ライセンス: Link先を確認
Rui Zhang, Shihua Zhang(参考訳) ニューラルネットワークのブラックボックス予測を理解することは難しい。 これを達成するために、初期の研究では、ニューラルネットワークに単一のトレーニングポイントを取り除く効果を測定するために影響関数(IF)を設計した。 しかし、IFを計算するための古典的暗黙的ヘッセンベクトル積 (IHVP) 法は脆弱であり、ニューラルネットワークの文脈におけるIFの理論解析はいまだに不足している。 この目的のために、ニューラルネットワークのNTK理論を用いて、正規化平均二乗損失で訓練されたニューラルネットワークのIFを計算し、二層ReLUネットワークの幅が十分に大きい場合、近似誤差が任意に小さいことを証明した。 過パラメータ化方式における古典的IHVP法の誤差を解析して、いつ、なぜ失敗したかを理解する。 具体的には,(1)ihvpの精度は正規化項に依存し,弱正規化下ではかなり低いこと,(2)ihvpの精度は対応するトレーニング点の確率密度と有意な相関があることを明らかにした。 さらに、NTK から IF の複雑さの定量化や、トレーニング力学における IF の変動の描写など、IF の理解を深めるために理論を取り入れた。 実世界データを用いた数値実験により, 理論結果を確認し, 実験結果を示す。

Understanding the black-box prediction for neural networks is challenging. To achieve this, early studies have designed influence function (IF) to measure the effect of removing a single training point on neural networks. However, the classic implicit Hessian-vector product (IHVP) method for calculating IF is fragile, and theoretical analysis of IF in the context of neural networks is still lacking. To this end, we utilize the neural tangent kernel (NTK) theory to calculate IF for the neural network trained with regularized mean-square loss, and prove that the approximation error can be arbitrarily small when the width is sufficiently large for two-layer ReLU networks. We analyze the error bound for the classic IHVP method in the over-parameterized regime to understand when and why it fails or not. In detail, our theoretical analysis reveals that (1) the accuracy of IHVP depends on the regularization term, and is pretty low under weak regularization; (2) the accuracy of IHVP has a significant correlation with the probability density of corresponding training points. We further borrow the theory from NTK to understand the IFs better, including quantifying the complexity for influential samples and depicting the variation of IFs during the training dynamics. Numerical experiments on real-world data confirm our theoretical results and demonstrate our findings.
翻訳日:2021-12-16 13:09:47 公開日:2021-12-15
# 効率的な幾何認識型3次元生成対向ネットワーク

Efficient Geometry-aware 3D Generative Adversarial Networks ( http://arxiv.org/abs/2112.07945v1 )

ライセンス: Link先を確認
Eric R. Chan, Connor Z. Lin, Matthew A. Chan, Koki Nagano, Boxiao Pan, Shalini De Mello, Orazio Gallo, Leonidas Guibas, Jonathan Tremblay, Sameh Khamis, Tero Karras and Gordon Wetzstein(参考訳) シングルビュー2D画像のみを用いた高品質なマルチビュー一貫性画像と3次元形状の教師なし生成は、長年にわたる課題である。 既存の3d ganは計算集約的または3d一貫性のない近似であり、前者は生成した画像の品質と解像度を制限し、後者はマルチビューの一貫性と形状品質に悪影響を及ぼす。 本研究では、3D GANの計算効率と画質をこれらの近似に頼らずに改善する。 そこで本研究では,高解像度なマルチビュー一貫性の画像だけでなく,高画質な3D画像もリアルタイムで合成する,表現型ハイブリッド型明示型ネットワークアーキテクチャを提案する。 特徴生成とニューラルレンダリングを分離することにより、我々のフレームワークはStyleGAN2のような最先端の2D CNNジェネレータを活用し、その効率と表現性を継承することができる。 FFHQとAFHQ Catsによる最先端の3D認識合成を実証する。

Unsupervised generation of high-quality multi-view-consisten t images and 3D shapes using only collections of single-view 2D photographs has been a long-standing challenge. Existing 3D GANs are either compute-intensive or make approximations that are not 3D-consistent; the former limits quality and resolution of the generated images and the latter adversely affects multi-view consistency and shape quality. In this work, we improve the computational efficiency and image quality of 3D GANs without overly relying on these approximations. For this purpose, we introduce an expressive hybrid explicit-implicit network architecture that, together with other design choices, synthesizes not only high-resolution multi-view-consisten t images in real time but also produces high-quality 3D geometry. By decoupling feature generation and neural rendering, our framework is able to leverage state-of-the-art 2D CNN generators, such as StyleGAN2, and inherit their efficiency and expressiveness. We demonstrate state-of-the-art 3D-aware synthesis with FFHQ and AFHQ Cats, among other experiments.
翻訳日:2021-12-16 13:09:25 公開日:2021-12-15
# unsupervised outlier arbitrationによる自己教師付き学習の改善

Improving Self-supervised Learning with Automated Unsupervised Outlier Arbitration ( http://arxiv.org/abs/2112.08132v1 )

ライセンス: Link先を確認
Yu Wang and Jingyang Lin and Jingjing Zou and Yingwei Pan and Ting Yao and Tao Mei(参考訳) 我々の研究は、既存の主流の自己教師型学習手法の構造化された欠点を明らかにする。 自己教師付き学習フレームワークは、通常、当然の完全なインスタンスレベルの不変性仮説を取るが、我々は背後にある落とし穴を慎重に調査する。 特に,複数の肯定的なビューを生成する既存の拡張パイプラインは,下流タスクの学習を損なうアウト・オブ・ディストリビューション(OOD)サンプルを自然に導入する,という議論がある。 入力に様々なポジティブな拡張を生成することは、下流タスクの利益に必ずしも利益をもたらすとは限らない。 この欠点を克服するために,自己教師型学習のためのビューサンプリング問題を対象に,軽量潜伏変数モデル UOTA を導入する。 UOTAは、ビューを生成するために最も重要なサンプリング領域を適応的に検索し、アウトリア・ロバストな自己教師付き学習アプローチに実行可能な選択肢を提供する。 本手法は, 損失の性質に拘わらず, 主流の自己教師付き学習アプローチに直接一般化する。 我々は、既存のアプローチに埋め込まれたOODサンプル問題の存在を正当化する、明らかなマージンを持つ最先端の自己監督パラダイムに対する、UoTAのアドバンテージを実証的に示す。 特に理論上は,提案のメリットが推定値の分散とバイアス低減の保証に落ち着くことを証明している。 コードはhttps://github.com/s sl-codelab/uotaで入手できる。

Our work reveals a structured shortcoming of the existing mainstream self-supervised learning methods. Whereas self-supervised learning frameworks usually take the prevailing perfect instance level invariance hypothesis for granted, we carefully investigate the pitfalls behind. Particularly, we argue that the existing augmentation pipeline for generating multiple positive views naturally introduces out-of-distribution (OOD) samples that undermine the learning of the downstream tasks. Generating diverse positive augmentations on the input does not always pay off in benefiting downstream tasks. To overcome this inherent deficiency, we introduce a lightweight latent variable model UOTA, targeting the view sampling issue for self-supervised learning. UOTA adaptively searches for the most important sampling region to produce views, and provides viable choice for outlier-robust self-supervised learning approaches. Our method directly generalizes to many mainstream self-supervised learning approaches, regardless of the loss's nature contrastive or not. We empirically show UOTA's advantage over the state-of-the-art self-supervised paradigms with evident margin, which well justifies the existence of the OOD sample issue embedded in the existing approaches. Especially, we theoretically prove that the merits of the proposal boil down to guaranteed estimator variance and bias reduction. Code is available: at https://github.com/s sl-codelab/uota.
翻訳日:2021-12-16 13:09:08 公開日:2021-12-15
# (参考訳) ランク付けフェアネスを考慮した自己更新深部回帰林 [全文訳有]

Self-Paced Deep Regression Forests with Consideration on Ranking Fairness ( http://arxiv.org/abs/2112.06455v2 )

ライセンス: CC BY 4.0
Lili Pan, Mingming Meng, Yazhou Ren, Yali Zheng, Zenglin Xu(参考訳) 深部回帰林、深部神経決定林などの深部識別モデル(DDM)は、顔年齢推定、頭部ポーズ推定、視線推定などの問題を解決するために近年広く研究されている。 このような問題は、ノイズやバイアスのない大量の効果的なトレーニングデータがしばしば利用できないため、課題となっている。 いくつかの進歩は、より差別的な特徴を学習したり、サンプルを再重み付けすることで達成されているが、より望ましいのは、徐々に人間のように差別を覚えることである。 次に,SPL(Self-paced Learning)を活用する。 DDMはより堅牢でバイアスの少ないソリューションを実現することができるのだろうか? この研究で最初に議論されたSPLの深刻な問題は、特に不均衡なデータに対して、解のバイアスを増大させる傾向があることである。 そこで本研究では,各事例に関連付けられた出力確率とエントロピーに応じて,ノイズと過小表現の例を区別し,新たな視点からsplの基本ランキング問題に取り組む,深層判別モデルのための新しい自己ペースパラダイムを提案する。 このパラダイムは基本的なものであり、様々なDDMと簡単に組み合わせることができる。 顔年齢推定,頭部ポーズ推定,視線推定などの3つのコンピュータビジョンタスクに関する広範囲な実験を行い,このパラダイムの有効性を実証した。 我々の知識を最大限に活用するために、我々の研究は自給体制構築の公正さを考慮に入れたSPL文学における最初の論文である。

Deep discriminative models (DDMs), such as deep regression forests, deep neural decision forests, have been extensively studied recently to solve problems like facial age estimation, head pose estimation, gaze estimation and so forth. Such problems are challenging in part because a large amount of effective training data without noise and bias is often not available. While some progress has been achieved through learning more discriminative features, or reweighting samples, we argue what is more desirable is to learn gradually to discriminate like human beings. Then, we resort to self-paced learning (SPL). But a natural question arises: can self-paced regime lead DDMs to achieve more robust and less biased solutions? A serious problem with SPL, which is firstly discussed by this work, is it tends to aggravate the bias of solutions, especially for obvious imbalanced data. To this end, this paper proposes a new self-paced paradigm for deep discriminative model, which distinguishes noisy and underrepresented examples according to the output likelihood and entropy associated with each example, and tackle the fundamental ranking problem in SPL from a new perspective: fairness. This paradigm is fundamental, and could be easily combined with a variety of DDMs. Extensive experiments on three computer vision tasks, such as facial age estimation, head pose estimation and gaze estimation, demonstrate the efficacy of our paradigm. To the best of our knowledge, our work is the first paper in the literature of SPL that considers ranking fairness for self-paced regime construction.
翻訳日:2021-12-16 13:07:31 公開日:2021-12-15
# (参考訳) hiclass: scikit-learnと互換性のあるローカル階層分類のためのpythonライブラリ [全文訳有]

HiClass: a Python library for local hierarchical classification compatible with scikit-learn ( http://arxiv.org/abs/2112.06560v3 )

ライセンス: CC BY 4.0
F\'abio M. Miranda, Niklas K\"oehnecke and Bernhard Y. Renard(参考訳) HiClassは、ローカル階層分類のためのオープンソースのPythonパッケージで、Scikit-learnと完全に互換性がある。 これは、ノード毎のローカル分類子、親ノード毎のローカル分類子、レベル毎のローカル分類子を含む、ローカル階層分類のための最も人気のある機械学習モデルの実装を提供する。 さらに、ライブラリには、階層データにおけるモデルパフォーマンスを評価するツールが含まれている。 ドキュメントにはインストール指示、インタラクティブノートブック、APIの完全な記述が含まれている。 HiClassはBSDライセンスで配布されており、学術および商業の両方での使用を奨励している。 ソースコードとドキュメントはhttps://gitlab.com/d acs-hpi/hiclassで入手できる。

HiClass is an open-source Python package for local hierarchical classification fully compatible with scikit-learn. It provides implementations of the most popular machine learning models for local hierarchical classification, including Local Classifier Per Node, Local Classifier Per Parent Node and Local Classifier Per Level. In addition, the library includes tools to evaluate model performance on hierarchical data. The documentation contains installation instructions, interactive notebooks, and a complete description of the API. HiClass is distributed under the simplified BSD license, encouraging its use in both academic and commercial settings. Source code and documentation are available at https://gitlab.com/d acs-hpi/hiclass.
翻訳日:2021-12-16 12:38:24 公開日:2021-12-15
# (参考訳) MMO: ソフトウェア構成調整のためのメタ多目的化 [全文訳有]

MMO: Meta Multi-Objectivizatio n for Software Configuration Tuning ( http://arxiv.org/abs/2112.07303v2 )

ライセンス: CC BY 4.0
Tao Chen and Miqing Li(参考訳) 所定のパフォーマンス目標(例えば、レイテンシを最小化する)を最適化するには、ソフトウェア構成チューニングが不可欠である。 しかし、ソフトウェアが本質的に複雑な構成のランドスケープと高価な測定のために、特に検索がローカルのオプティマに閉じ込められるのを防ぐために、やや成功した。 この問題に対処するため、本稿では異なる視点を取ります。 最適化モデルの改善に焦点をあてる代わりに、最適化モデルに取り組み、補助的なパフォーマンス目標(レイテンシに加えてスループットなど)を考慮したメタ多目的化(MMO)モデルを提案する。 このモデルをユニークなものにしているのは、補助的なパフォーマンスの目標を最適化するのではなく、異なる構成(Paretoが互いに支配的でない)で同等な性能を保ちながら、検索がローカルなオプティマに閉じ込められないようにするためである。 重要なことは、新しい正規化手法を通じて、重みを気にせずにMMOモデルを効果的に利用する方法を示します。 11の現実世界のソフトウェアシステム/環境による22のケースの実験では、新しい正規化を備えたMMOモデルは82%のケースで最先端の単一オブジェクトモデルよりも性能が良く、最大2.09倍のスピードアップを実現しています。 67%のケースでは、MMOモデルを使用することで、事前調整したベストウェイトの下でのFSE作業で使われる正規化により、MMOモデルがインスタンスを上回り、優れたウェイトを見つけるのに必要となる大量のリソースを節約することができる。 また、新しい正規化を伴うMMOモデルにより、最近のモデルベースのチューニングツールであるFlashを、一般的に1.22倍のスピードアップのケースの68%で統合できることを実証した。

Software configuration tuning is essential for optimizing a given performance objective (e.g., minimizing latency). Yet, due to the software's intrinsically complex configuration landscape and expensive measurement, there has been a rather mild success, particularly in preventing the search from being trapped in local optima. To address this issue, in this paper we take a different perspective. Instead of focusing on improving the optimizer, we work on the level of optimization model and propose a meta multi-objectivizatio n (MMO) model that considers an auxiliary performance objective (e.g., throughput in addition to latency). What makes this model unique is that we do not optimize the auxiliary performance objective, but rather use it to make similarly-performing while different configurations less comparable (i.e. Pareto nondominated to each other), thus preventing the search from being trapped in local optima. Importantly through a new normalization method we show how to effectively use the MMO model without worrying about its weight -- the only yet highly sensitive parameter that can affect its effectiveness. Experiments on 22 cases from 11 real-world software systems/environments confirm that our MMO model with the new normalization performs better than its state-of-the-art single-objective counterparts on 82% cases while achieving up to 2.09x speedup. For 67% of the cases, the new normalization also enables the MMO model to outperform the instance when using it with the normalization used in our prior FSE work under pre-tuned best weights, saving a great amount of resources which would be otherwise necessary to find a good weight. We also demonstrate that the MMO model with the new normalization can consolidate Flash, a recent model-based tuning tool, on 68% of the cases with 1.22x speedup in general.
翻訳日:2021-12-16 12:28:18 公開日:2021-12-15
# (参考訳) オンライン乗法確率勾配による非漸近境界の最適化

Non Asymptotic Bounds for Optimization via Online Multiplicative Stochastic Gradient Descent ( http://arxiv.org/abs/2112.07110v2 )

ライセンス: CC BY 4.0
Riddhiman Bhattacharya(参考訳) SGD(Stochastic Gradient Descent)の勾配ノイズは、その性質(低電位点と正則化の回避など)において重要な役割を果たすと考えられている。 過去の研究では、最小バッチによるSGD誤差の共分散が、その正規化を決定する上で重要な役割を果たすことが示されている。 しかしながら、誤差の分布がアルゴリズムの挙動にどの程度影響するかは明らかにされていない。 この領域における新たな研究によって、sgdの平均および共分散構造と同じノイズクラスが同様の性質を持つことを示すことにより、普遍性が証明される。 提案手法は主に,sgdアルゴリズムよりも一般的なノイズクラスを持つwuらによって導入された乗法確率勾配降下法(m-sgd)である。 我々は,M-SGD アルゴリズムに対して,SGD に対応する確率微分方程式のミニバッチによる非漸近境界を確立する。 また、M-SGDの誤差は、M-SGDアルゴリズムの任意の固定点において平均0$のガウス分布であることを示す。 また,M-SGDアルゴリズムの強い凸状態における収束の限界を確立する。

The gradient noise of Stochastic Gradient Descent (SGD) is considered to play a key role in its properties (e.g. escaping low potential points and regularization). Past research has indicated that the covariance of the SGD error done via minibatching plays a critical role in determining its regularization and escape from low potential points. It is however not much explored how much the distribution of the error influences the behavior of the algorithm. Motivated by some new research in this area, we prove universality results by showing that noise classes that have the same mean and covariance structure of SGD via minibatching have similar properties. We mainly consider the Multiplicative Stochastic Gradient Descent (M-SGD) algorithm as introduced by Wu et al., which has a much more general noise class than the SGD algorithm done via minibatching. We establish nonasymptotic bounds for the M-SGD algorithm mainly with respect to the Stochastic Differential Equation corresponding to SGD via minibatching. We also show that the M-SGD error is approximately a scaled Gaussian distribution with mean $0$ at any fixed point of the M-SGD algorithm. We also establish bounds for the convergence of the M-SGD algorithm in the strongly convex regime.
翻訳日:2021-12-16 11:32:45 公開日:2021-12-15
# n-CPS:半教師付きセマンティックセグメンテーションのためのNネットワークへのクロス擬似スーパービジョンの一般化

n-CPS: Generalising Cross Pseudo Supervision to n networks for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2112.07528v2 )

ライセンス: Link先を確認
Dominik Filipiak, Piotr Tempczyk, Marek Cygan(参考訳) 半教師付きセマンティックセマンティックセグメンテーションの課題に対して,最近の最先端の相互監視(CPS)アプローチを一般化したn-CPSを提案する。 n-CPSでは、同時に訓練されたサブネットが、摂動と整合性正規化を通じて互いに学習する。 また,サブネットワーク出力に適用したアンサンブル技術により性能が大幅に向上することを示す。 我々の知る限り、n-CPSはCutMixと組み合わせてCPSを上回り、1/16、1/8、1/4、1/2監督体制)とCityscapes(1/16監督体制)でPascal VOC 2012のための新しい最先端技術を設定します。

We present n-CPS - a generalisation of the recent state-of-the-art cross pseudo supervision (CPS) approach for the task of semi-supervised semantic segmentation. In n-CPS, there are n simultaneously trained subnetworks that learn from each other through one-hot encoding perturbation and consistency regularisation. We also show that ensembling techniques applied to subnetworks outputs can significantly improve the performance. To the best of our knowledge, n-CPS paired with CutMix outperforms CPS and sets the new state-of-the-art for Pascal VOC 2012 with (1/16, 1/8, 1/4, and 1/2 supervised regimes) and Cityscapes (1/16 supervised).
翻訳日:2021-12-16 11:31:03 公開日:2021-12-15
# 長期学習のためのエンド・ツー・エンドトレーニング

You Only Need End-to-End Training for Long-Tailed Recognition ( http://arxiv.org/abs/2112.05958v3 )

ライセンス: Link先を確認
Zhiwei Zhang(参考訳) 長い尾を持つデータセットの一般化のギャップは、ほとんどのカテゴリが少数のトレーニングサンプルを占有しているためである。 分離トレーニングは、バックボーンと分類器を別々にトレーニングすることで、よりよいパフォーマンスを達成する。 エンド・ツー・エンドモデルのトレーニング(例えばlogits margin-based method)のパフォーマンスが低くなる原因は何でしょう? 本研究は,分類器の学習に影響を与える重要な要因である,低エントロピーのチャネル関連特徴を,分類器に入力する前に同定する。 情報理論の観点からは, クロスエントロピー損失が不均衡データに対して高い相関性を持つ傾向がある理由を考察する。 さらに,分類器重みの勾配,ヘシアンの条件数,ロジッツマージンに基づくアプローチについて理論的に解析し,その影響を証明した。 そこで我々は,まずChannel Whiteningを用いて,重み付けをデカップリングし,スキュード決定境界を再構成するための分類器の入力をデコレーションし,ロジットマージン法と組み合わせて満足な結果を得る方法を提案する。 しかし、マイナークラス数が大きければ、バッチ不均衡とトレーニング参加の増加が、主要なクラスの過剰フィットの原因となる。 また,上記の問題を解決するために,ブロックベース相対バランスバッチサンプリング(b3rs)とバッチ組込みトレーニング(bet)という2つのモジュールを提案する。 CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。

The generalization gap on the long-tailed data sets is largely owing to most categories only occupying a few training samples. Decoupled training achieves better performance by training backbone and classifier separately. What causes the poorer performance of end-to-end model training (e.g., logits margin-based methods)? In this work, we identify a key factor that affects the learning of the classifier: the channel-correlated features with low entropy before inputting into the classifier. From the perspective of information theory, we analyze why cross-entropy loss tends to produce highly correlated features on the imbalanced data. In addition, we theoretically analyze and prove its impacts on the gradients of classifier weights, the condition number of Hessian, and logits margin-based approach. Therefore, we firstly propose to use Channel Whitening to decorrelate ("scatter") the classifier's inputs for decoupling the weight update and reshaping the skewed decision boundary, which achieves satisfactory results combined with logits margin-based method. However, when the number of minor classes are large, batch imbalance and more participation in training cause over-fitting of the major classes. We also propose two novel modules, Block-based Relatively Balanced Batch Sampler (B3RS) and Batch Embedded Training (BET) to solve the above problems, which makes the end-to-end training achieve even better performance than decoupled training. Experimental results on the long-tailed classification benchmarks, CIFAR-LT and ImageNet-LT, demonstrate the effectiveness of our method.
翻訳日:2021-12-16 11:30:47 公開日:2021-12-15
# カメラ画像とLiDAR点雲の時空間表現を用いた3次元物体検出と追跡

Joint 3D Object Detection and Tracking Using Spatio-Temporal Representation of Camera Image and LiDAR Point Clouds ( http://arxiv.org/abs/2112.07116v2 )

ライセンス: Link先を確認
Junho Koh, Jaekyum Kim, Jinhyuk Yoo, Yecheol Kim, Dongsuk Kum, Jun Won Choi(参考訳) 本稿では,カメラとLiDARセンサを用いた3次元物体検出・追跡のためのジョイントオブジェクト検出・追跡(JoDT)フレームワークを提案する。 提案手法は3d detectionrackと呼ばれ、検出器とトラッカーが協調してカメラとライダーデータの時空間表現を生成し、3dオブジェクトの検出と追跡を行うことができる。 検出器は、カメラとLiDAR融合によって得られる空間的特徴の重み付け時間的アグリゲーションを介して時空間的特徴を構築する。 そして、前回のタイムステップまで維持されたトラックレットの情報を用いて初期検出結果を再設定する。 検出器によって生成された時空間的特徴に基づいて、トラッカーは検出されたオブジェクトをグラフニューラルネットワーク(GNN)を用いて以前追跡されたオブジェクトと関連付ける。 我々は,規則に基づくエッジプルーニングと注意に基づくエッジゲーティングの組み合わせにより,完全に接続されたgnnを考案する。 KITTIとnuScenesのベンチマークで実施された実験により、提案した3D DetecTrackは、ベースライン法よりも検出および追跡性能に大きな改善を達成し、検出器とトラッカーの協調によって既存の手法間の最先端のパフォーマンスを達成することが示された。

In this paper, we propose a new joint object detection and tracking (JoDT) framework for 3D object detection and tracking based on camera and LiDAR sensors. The proposed method, referred to as 3D DetecTrack, enables the detector and tracker to cooperate to generate a spatio-temporal representation of the camera and LiDAR data, with which 3D object detection and tracking are then performed. The detector constructs the spatio-temporal features via the weighted temporal aggregation of the spatial features obtained by the camera and LiDAR fusion. Then, the detector reconfigures the initial detection results using information from the tracklets maintained up to the previous time step. Based on the spatio-temporal features generated by the detector, the tracker associates the detected objects with previously tracked objects using a graph neural network (GNN). We devise a fully-connected GNN facilitated by a combination of rule-based edge pruning and attention-based edge gating, which exploits both spatial and temporal object contexts to improve tracking performance. The experiments conducted on both KITTI and nuScenes benchmarks demonstrate that the proposed 3D DetecTrack achieves significant improvements in both detection and tracking performances over baseline methods and achieves state-of-the-art performance among existing methods through collaboration between the detector and tracker.
翻訳日:2021-12-16 11:30:21 公開日:2021-12-15
# Meta-CPR: 通信パターン認識モジュールを持つ多数のエージェントに一般化

Meta-CPR: Generalize to Unseen Large Number of Agents with Communication Pattern Recognition Module ( http://arxiv.org/abs/2112.07222v2 )

ライセンス: Link先を確認
Wei-Cheng Tseng, Wei Wei, Da-Chen Juan, Min Sun(参考訳) 強化学習におけるエージェント間の効果的なコミュニケーション機構の設計は、特に現実世界のアプリケーションにおいて難しい課題であった。 エージェントの数や環境は、現実世界のシナリオで変化するエージェントの数とやりとりする必要がある場合もあります。 この目的のために、マルチエージェントフレームワークは、実世界のアプリケーションで実用的なスケールとダイナミクスの両方の観点から、エージェントの様々なシナリオを扱う必要がある。 エージェント数が異なるマルチエージェント環境をマルチタスク問題として定式化し、この問題に対処するためのメタ強化学習(Meta-RL)フレームワークを提案する。 提案手法では,cpr(meta-learned communication pattern recognition)モジュールを用いてコミュニケーション行動を特定し,学習プロセスを容易にする情報を抽出する。 実験結果から,提案する枠組みが実証された。 a) 目に見えないほど多くのエージェントに一般化し、 (b)エピソード間でエージェントの数を変更することができる。 また, 提案したCPR設計が有効であることを示すために, アブレーション試験を行った。

Designing an effective communication mechanism among agents in reinforcement learning has been a challenging task, especially for real-world applications. The number of agents can grow or an environment sometimes needs to interact with a changing number of agents in real-world scenarios. To this end, a multi-agent framework needs to handle various scenarios of agents, in terms of both scales and dynamics, for being practical to real-world applications. We formulate the multi-agent environment with a different number of agents as a multi-tasking problem and propose a meta reinforcement learning (meta-RL) framework to tackle this problem. The proposed framework employs a meta-learned Communication Pattern Recognition (CPR) module to identify communication behavior and extract information that facilitates the training process. Experimental results are poised to demonstrate that the proposed framework (a) generalizes to an unseen larger number of agents and (b) allows the number of agents to change between episodes. The ablation study is also provided to reason the proposed CPR design and show such design is effective.
翻訳日:2021-12-16 11:29:54 公開日:2021-12-15
# EABlock: 知識グラフ作成パイプラインのための宣言的なエンティティアライメントブロック

EABlock: A Declarative Entity Alignment Block for Knowledge Graph Creation Pipelines ( http://arxiv.org/abs/2112.07493v2 )

ライセンス: Link先を確認
Samaneh Jozashoori, Ahmad Sakor, Enrique Iglesias, Maria-Esther Vidal(参考訳) 膨大な量のリッチで価値のあるデータをエンコードしているにも関わらず、既存のデータソースは独立して作成されている。 RMLやR2RMLといったマッピング言語は、メタデータを適用し、データを知識グラフに統合するプロセスの宣言的な仕様化を促進する。 マッピングルールには、データソース間の対応表現と統一スキーマに加えて、知識抽出機能も含まれる。 マッピングルールと関数の組み合わせは、データをナレッジグラフに透過的に統合するためのパイプラインを特定するための強力な形式です。 驚くべきことに、これらの形式は完全には適合せず、多くのナレッジグラフはデータの事前処理と統合のためにアドホックなプログラムを実行することによって作られる。 本稿では,エンティティアライメント(EA)をRMLマッピングルールの一部として統合するアプローチであるERBlockを提案する。 eablockには、テキスト属性からエンティティ認識を行い、認識されたエンティティをwikidata、dbpedia、ドメイン固有シソーラス(例えばumls)の対応するリソースにリンクする関数のブロックが含まれている。 EABlockは、関数を評価し、マッピングを転送し、どのRML準拠のエンジンにも適用できるようにするための、非依存かつ効率的な技術を提供する。 EABlockの性能を実証的に評価した結果,最先端のRML準拠エンジンにおけるエンティティ認識とリンクを必要とする知識グラフ生成パイプラインの高速化が示唆された。 EABlockはまた、GitHubリポジトリ(https://github.com/ SDM-TIB/EABlock)とDOI(https://doi.org/ 10.5281/zenodo.57797 73)を通じてツールとして公開されている。

Despite encoding enormous amount of rich and valuable data, existing data sources are mostly created independently, being a significant challenge to their integration. Mapping languages, e.g., RML and R2RML, facilitate declarative specification of the process of applying meta-data and integrating data into a knowledge graph. Mapping rules can also include knowledge extraction functions in addition to expressing correspondences among data sources and a unified schema. Combining mapping rules and functions represents a powerful formalism to specify pipelines for integrating data into a knowledge graph transparently. Surprisingly, these formalisms are not fully adapted, and many knowledge graphs are created by executing ad-hoc programs to pre-process and integrate data. In this paper, we present EABlock, an approach integrating Entity Alignment (EA) as part of RML mapping rules. EABlock includes a block of functions performing entity recognition from textual attributes and link the recognized entities to the corresponding resources in Wikidata, DBpedia, and domain specific thesaurus, e.g., UMLS. EABlock provides agnostic and efficient techniques to evaluate the functions and transfer the mappings to facilitate its application in any RML-compliant engine. We have empirically evaluated EABlock performance, and results indicate that EABlock speeds up knowledge graph creation pipelines that require entity recognition and linking in state-of-the-art RML-compliant engines. EABlock is also publicly available as a tool through a GitHub repository(https://g ithub.com/SDM-TIB/EA Block) and a DOI(https://doi.org/ 10.5281/zenodo.57797 73).
翻訳日:2021-12-16 11:29:38 公開日:2021-12-15
# imアバター:ビデオからの暗黙の変形可能な頭部アバター

I M Avatar: Implicit Morphable Head Avatars from Videos ( http://arxiv.org/abs/2112.07471v2 )

ライセンス: Link先を確認
Yufeng Zheng, Victoria Fern\'andez Abrevaya, Xu Chen, Marcel C. B\"uhler, Michael J. Black, Otmar Hilliges(参考訳) 従来の変形可能な顔モデルは、表現のきめ細かい制御を提供するが、幾何学的および外観的詳細を簡単に捉えられない。 ニューラルボリューム表現はフォトリアリズムに近づくが、アニメーション化が困難であり、目に見えない表現にうまく一般化しない。 そこで本研究では,単眼ビデオから暗黙的な頭部アバターを学習する新しい手法であるimavatar(implicit morphable avatar)を提案する。 従来の3dmmで得られる細粒度制御機構に着想を得て, ブレンド形状とスキンフィールドによる表現とポーズ関連変形を表現した。 これらの属性はポーズ非依存であり、新しい表現とポーズパラメータを与えられた標準幾何学とテクスチャ場を変形させるのに使用できる。 レイトレーシングと反復ルート探索を用いて,各画素の正準面交点を探索する。 ビデオからIMavatarのエンドツーエンドのトレーニングを可能にする新しい解析的勾配定式化が重要な貢献である。 本手法が幾何学を改良し,最先端手法と比較してより完全な表現空間をカバーすることを定量的・定性的に示す。

Traditional morphable face models provide fine-grained control over expression but cannot easily capture geometric and appearance details. Neural volumetric representations approach photo-realism but are hard to animate and do not generalize well to unseen expressions. To tackle this problem, we propose IMavatar (Implicit Morphable avatar), a novel method for learning implicit head avatars from monocular videos. Inspired by the fine-grained control mechanisms afforded by conventional 3DMMs, we represent the expression- and pose-related deformations via learned blendshapes and skinning fields. These attributes are pose-independent and can be used to morph the canonical geometry and texture fields given novel expression and pose parameters. We employ ray tracing and iterative root-finding to locate the canonical surface intersection for each pixel. A key contribution is our novel analytical gradient formulation that enables end-to-end training of IMavatars from videos. We show quantitatively and qualitatively that our method improves geometry and covers a more complete expression space compared to state-of-the-art methods.
翻訳日:2021-12-16 11:29:07 公開日:2021-12-15
# 低光度画像強調のためのアテンションに基づく広義自己誘導ネットワーク

Attention based Broadly Self-guided Network for Low light Image Enhancement ( http://arxiv.org/abs/2112.06226v2 )

ライセンス: Link先を確認
Zilong Chen, Yaling Liang, Minghui Du(参考訳) During the past years,deep convolutional neural networks have achieved impressive success in low-light Image Enhancement.Existing deep learning methods mostly enhance the ability of feature extraction by stacking network structures and deepening the depth of the network.which causes more runtime cost on single image.In order to reduce inference time while fully extracting local features and global features.Inspired by SGN,we propose a Attention based Broadly self-guided network (ABSGN) for real world low-light image Enhancement.such a broadly strategy is able to handle the noise at different exposures.The proposed network is validated by many mainstream benchmark.Additional experimental results show that the proposed network outperforms most of state-of-the-art low-light image Enhancement solutions.

During the past years,deep convolutional neural networks have achieved impressive success in low-light Image Enhancement.Existing deep learning methods mostly enhance the ability of feature extraction by stacking network structures and deepening the depth of the network.which causes more runtime cost on single image.In order to reduce inference time while fully extracting local features and global features.Inspired by SGN,we propose a Attention based Broadly self-guided network (ABSGN) for real world low-light image Enhancement.such a broadly strategy is able to handle the noise at different exposures.The proposed network is validated by many mainstream benchmark.Additional experimental results show that the proposed network outperforms most of state-of-the-art low-light image Enhancement solutions.
翻訳日:2021-12-16 11:28:47 公開日:2021-12-15
# HVH:ダイナミックヘアパフォーマンスキャプチャのためのハイブリッドニューラルネットワークボリューム表現学習

HVH: Learning a Hybrid Neural Volumetric Representation for Dynamic Hair Performance Capture ( http://arxiv.org/abs/2112.06904v2 )

ライセンス: Link先を確認
Ziyan Wang, Giljoo Nam, Tuur Stuyck, Stephen Lombardi, Michael Zollhoefer, Jessica Hodgins, Christoph Lassner(参考訳) 生命のような髪の捕獲やレンダリングは、幾何学的な構造、複雑な身体的相互作用、非自明な視覚的な外観などによって特に困難である。 本稿では,上記の問題について述べる。 1) 数千個のプリミティブを複合した, 新規な容積的な毛髪表現を用いる。 各プリミティブは、ニューラルレンダリングの最新技術に基づいて構築することで、効率的かつ現実的にレンダリングすることができる。 2) 信頼性の高い制御信号を得るためには, 毛髪をストランドレベルで追跡する新しい方法を提案する。 計算作業を管理できるように、ガイドヘアと古典的なテクニックを使って、それらを密集したヘアフードに拡張します。 3)モデルの時間的一貫性と一般化能力を向上するために,体積線マーチングを用いた多視点光流による表現の3次元シーンフローをさらに最適化する。 提案手法は,記録されたマルチビューシーケンスのリアルなレンダリングを生成するだけでなく,新しい制御信号を提供することで,新しいヘア構成のレンダリングを生成する。 本手法をビューポイント合成とdivableアニメーションに関する既存の研究と比較し,最新の結果を得た。 プロジェクトのwebサイトはhttps://ziyanw1.gith ub.io/hvh/。

Capturing and rendering life-like hair is particularly challenging due to its fine geometric structure, the complex physical interaction and its non-trivial visual appearance.Yet, hair is a critical component for believable avatars. In this paper, we address the aforementioned problems: 1) we use a novel, volumetric hair representation that is com-posed of thousands of primitives. Each primitive can be rendered efficiently, yet realistically, by building on the latest advances in neural rendering. 2) To have a reliable control signal, we present a novel way of tracking hair on the strand level. To keep the computational effort manageable, we use guide hairs and classic techniques to expand those into a dense hood of hair. 3) To better enforce temporal consistency and generalization ability of our model, we further optimize the 3D scene flow of our representation with multi-view optical flow, using volumetric ray marching. Our method can not only create realistic renders of recorded multi-view sequences, but also create renderings for new hair configurations by providing new control signals. We compare our method with existing work on viewpoint synthesis and drivable animation and achieve state-of-the-art results. Please check out our project website at https://ziyanw1.gith ub.io/hvh/.
翻訳日:2021-12-16 11:27:38 公開日:2021-12-15