このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201004となっている論文です。

PDF登録状況(公開日: 20201004)

TitleAuthorsAbstract論文公表日・翻訳日
# 画像の細粒化

Image Fine-grained Inpainting ( http://arxiv.org/abs/2002.02609v2 )

ライセンス: Link先を確認
Zheng Hui, Jie Li, Xiumei Wang, Xinbo Gao(参考訳) 近年,GAN(Generative Adversarial Network)の補助により,画像塗布技術は有望な改善を遂げている。 しかし、たいていの場合、不合理な構造やぼやけで完成した結果に苦しんだ。 この問題を軽減するために,拡張畳み込みの密結合を利用してより大きく,より効果的な受容場を得る一段階モデルを提案する。 このネットワークの特性から、不完全な画像において、大きな領域を容易に回収することができる。 この効率的なジェネレータをより効率的に訓練するために、頻繁に使用されるVGG特徴マッチング損失を除いて、不確実な領域に集中し、セマンティックディテールを高めるための新たな自己誘導回帰損失を設計する。 さらに,幾何学的アライメント制約項目を考案し,予測特徴と接地構造との画素ベース距離を補正する。 また,局所的およびグローバル的な分枝を持つ判別器を用いて,局所的グローバルコンテンツの一貫性を確保する。 生成画像の品質をさらに向上させるため、合成パッチと接地パッチの中間特徴の類似性を動的に最小化する局所ブランチでの識別器特徴マッチングを導入する。 いくつかのパブリックデータセットに関する広範な実験は、我々のアプローチが現在の最先端のメソッドよりも優れていることを示している。 コードはhttps://github.com/Zheng222/DMFNで入手できる。

Image inpainting techniques have shown promising improvement with the assistance of generative adversarial networks (GANs) recently. However, most of them often suffered from completed results with unreasonable structure or blurriness. To mitigate this problem, in this paper, we present a one-stage model that utilizes dense combinations of dilated convolutions to obtain larger and more effective receptive fields. Benefited from the property of this network, we can more easily recover large regions in an incomplete image. To better train this efficient generator, except for frequently-used VGG feature matching loss, we design a novel self-guided regression loss for concentrating on uncertain areas and enhancing the semantic details. Besides, we devise a geometrical alignment constraint item to compensate for the pixel-based distance between prediction features and ground-truth ones. We also employ a discriminator with local and global branches to ensure local-global contents consistency. To further improve the quality of generated images, discriminator feature matching on the local branch is introduced, which dynamically minimizes the similarity of intermediate features between synthetic and ground-truth patches. Extensive experiments on several public datasets demonstrate that our approach outperforms current state-of-the-art methods. Code is available at https://github.com/Zheng222/DMFN.
翻訳日:2023-01-03 05:01:51 公開日:2020-10-04
# 分布スライスwassersteinと生成モデリングへの応用

Distributional Sliced-Wasserstein and Applications to Generative Modeling ( http://arxiv.org/abs/2002.07367v2 )

ライセンス: Link先を確認
Khai Nguyen and Nhat Ho and Tung Pham and Hung Bui(参考訳) Sliced-Wasserstein distance (SW) とその変種Max Sliced-Wasserstein distance (Max-SW) は、確率測度が非常に高次元空間にある場合でも、高速な計算とスケーラビリティのために近年広く使われている。 しかし、SWはその値を近似するために多くの不要な投影サンプルを必要とするが、Max-SWは最も重要な投影のみを使用し、他の有用な方向の情報を無視している。 これらの弱点を説明するために, 分布スライデッド・ワッサースタイン距離 (DSW) という新しい距離を提案し, 投射方向の探索と投射自体の情報性の間にバランスをとることのできる射影上の最適分布を求める。 DSWはMax-SWの一般化であり、異なる方向を優先する一定の正規化制約を満たす単位球上の一連の確率測度に対して最適なプッシュフォワード測度を求めることにより、効率的に計算できることを示す。 最後に, 大規模データセットを用いた広範囲な実験を行い, 生成モデルにおける従来のスライスベース距離に対する提案した距離の良好な性能を示す。

Sliced-Wasserstein distance (SW) and its variant, Max Sliced-Wasserstein distance (Max-SW), have been used widely in the recent years due to their fast computation and scalability even when the probability measures lie in a very high dimensional space. However, SW requires many unnecessary projection samples to approximate its value while Max-SW only uses the most important projection, which ignores the information of other useful directions. In order to account for these weaknesses, we propose a novel distance, named Distributional Sliced-Wasserstein distance (DSW), that finds an optimal distribution over projections that can balance between exploring distinctive projecting directions and the informativeness of projections themselves. We show that the DSW is a generalization of Max-SW, and it can be computed efficiently by searching for the optimal push-forward measure over a set of probability measures over the unit sphere satisfying certain regularizing constraints that favor distinct directions. Finally, we conduct extensive experiments with large-scale datasets to demonstrate the favorable performances of the proposed distances over the previous sliced-based distances in generative modeling applications.
翻訳日:2022-12-30 19:42:48 公開日:2020-10-04
# 時空間学習のための畳み込みテンソルトレインLSTM

Convolutional Tensor-Train LSTM for Spatio-temporal Learning ( http://arxiv.org/abs/2002.09131v5 )

ライセンス: Link先を確認
Jiahao Su, Wonmin Byeon, Jean Kossaifi, Furong Huang, Jan Kautz, Animashree Anandkumar(参考訳) 時空間データからの学習には、人間行動分析、物体追跡、ビデオ圧縮、物理シミュレーションなどの多くの応用があるが、既存の手法は、長期的な予測のような困難なビデオタスクでは、依然として不十分である。 これは、このような困難なタスクは、ビデオシーケンス内の長期時空間相関を学習する必要があるためである。 本稿では,これらの相関関係を,歴史の簡潔な表現とともに効率的に学習できる高次畳み込みLSTMモデルを提案する。 これは、時間にまたがる畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。 これを計算とメモリ要件の観点から実現するために,高次モデルの新しい畳み込みテンソル-トレイン分解を提案する。 この分解は、畳み込みカーネルの列を低ランクテンソル-トレイン因子化として共同で近似することにより、モデルの複雑さを低減する。 その結果、我々のモデルは既存のアプローチよりも優れていますが、ベースラインモデルを含む少数のパラメータしか使用していません。我々の結果は、移動MNIST-2およびKTHアクションデータセットのマルチステップビデオ予測や、Something V2データセットの早期アクティビティ認識など、幅広いアプリケーションやデータセットで最先端のパフォーマンスを実現しています。

Learning from spatio-temporal data has numerous applications such as human-behavior analysis, object tracking, video compression, and physics simulation.However, existing methods still perform poorly on challenging video tasks such as long-term forecasting. This is because these kinds of challenging tasks require learning long-term spatio-temporal correlations in the video sequence. In this paper, we propose a higher-order convolutional LSTM model that can efficiently learn these correlations, along with a succinct representations of the history. This is accomplished through a novel tensor train module that performs prediction by combining convolutional features across time. To make this feasible in terms of computation and memory requirements, we propose a novel convolutional tensor-train decomposition of the higher-order model. This decomposition reduces the model complexity by jointly approximating a sequence of convolutional kernels asa low-rank tensor-train factorization. As a result, our model outperforms existing approaches, but uses only a fraction of parameters, including the baseline models.Our results achieve state-of-the-art performance in a wide range of applications and datasets, including the multi-steps video prediction on the Moving-MNIST-2and KTH action datasets as well as early activity recognition on the Something-Something V2 dataset.
翻訳日:2022-12-30 00:16:10 公開日:2020-10-04
# 機械学習はせきの認識と診断に使えるか?

Can Machine Learning Be Used to Recognize and Diagnose Coughs? ( http://arxiv.org/abs/2004.01495v3 )

ライセンス: Link先を確認
Charles Bales, Muhammad Nabeel, Charles N. John, Usama Masood, Haneya N. Qureshi, Hasan Farooq, Iryna Posokhova, Ali Imran(参考訳) 5Gなど新しいワイヤレス技術は、機械学習による医療の強化でもっとも顕著なユースケースの1つとして、新しいユースケースを最前線に導入している。 世界的な健康上の重荷を負う現代の医学的懸念の1つは呼吸器感染症である。 coughは多くの呼吸器感染症に必須の症状であるため、生のcoughデータに基づいて呼吸器疾患をスクリーニングする自動化システムには、多くの有益な研究と医学的応用がある。 文学では、機械学習はすでに制御された環境でのcoughイベントの検出に成功している。 本稿では,コンボリューションニューラルネット(cnns)を用いて,環境音声中のcoughの検出と3つの潜在的な疾患(気管支炎,気管支炎,重積症)の診断を,独自のcough音声特徴に基づいて行う,呼吸器感染症のスクリーニングのための低複雑性,自動認識,診断ツールを提案する。 提案する検出モデルと診断モデルはともに89%以上の精度を達成し,計算効率も向上した。 その結果,提案システムでは,背景雑音からコークスイベントを検出・分離できることがわかった。 さらに, 単一診断モデルでは, 個別のモデルを必要とすることなく, 異なる疾患を区別することができる。

Emerging wireless technologies, such as 5G and beyond, are bringing new use cases to the forefront, one of the most prominent being machine learning empowered health care. One of the notable modern medical concerns that impose an immense worldwide health burden are respiratory infections. Since cough is an essential symptom of many respiratory infections, an automated system to screen for respiratory diseases based on raw cough data would have a multitude of beneficial research and medical applications. In literature, machine learning has already been successfully used to detect cough events in controlled environments. In this paper, we present a low complexity, automated recognition and diagnostic tool for screening respiratory infections that utilizes Convolutional Neural Networks (CNNs) to detect cough within environment audio and diagnose three potential illnesses (i.e., bronchitis, bronchiolitis and pertussis) based on their unique cough audio features. Both proposed detection and diagnosis models achieve an accuracy of over 89%, while also remaining computationally efficient. Results show that the proposed system is successfully able to detect and separate cough events from background noise. Moreover, the proposed single diagnosis model is capable of distinguishing between different illnesses without the need of separate models.
翻訳日:2022-12-17 18:26:24 公開日:2020-10-04
# ディバース, 制御可能, キーフレーズ認識:ニュースマルチヘッドライン生成のためのコーパスと方法

Diverse, Controllable, and Keyphrase-Aware: A Corpus and Method for News Multi-Headline Generation ( http://arxiv.org/abs/2004.03875v2 )

ライセンス: Link先を確認
Dayiheng Liu, Yeyun Gong, Jie Fu, Wei Liu, Yu Yan, Bo Shao, Daxin Jiang, Jiancheng Lv, Nan Duan(参考訳) ニュースの見出し生成は、読者を惹きつけるために短い文章を作成することを目的としている。 あるニュース記事には、異なるユーザーにとって興味のある複数のキーワードが含まれていることが多い。 しかし、既存のほとんどの手法は単一の見出し生成に焦点を当てている。 本稿では,ユーザ興味のキーフレーズを用いた複数の見出しを生成することを提案する。その主目的は,まずニュースに対するユーザ関心のキーフレーズを複数生成し,次に複数のキーワード関連見出しを生成することである。 3つのソースを入力として利用するマルチソーストランスフォーマーデコーダを提案する。 (a)キーフレーズ b) キーフレーズフィルタリング記事及び (c) キーフレーズ関連、高品質、多彩な見出しを生成するオリジナル記事。 さらに,ニュース記事のキーフレーズをマイニングし,約180K以上の記事,見出し,キーフレーズ$>$を含む,最初の大規模キーフレーズ対応ニュース見出しコーパスを構築するための,簡便で効果的な手法を提案する。 実世界のデータセットにおける広範囲な実験比較により,提案手法は品質と多様性の観点から最先端の成果が得られることが示された。

News headline generation aims to produce a short sentence to attract readers to read the news. One news article often contains multiple keyphrases that are of interest to different users, which can naturally have multiple reasonable headlines. However, most existing methods focus on the single headline generation. In this paper, we propose generating multiple headlines with keyphrases of user interests, whose main idea is to generate multiple keyphrases of interest to users for the news first, and then generate multiple keyphrase-relevant headlines. We propose a multi-source Transformer decoder, which takes three sources as inputs: (a) keyphrase, (b) keyphrase-filtered article, and (c) original article to generate keyphrase-relevant, high-quality, and diverse headlines. Furthermore, we propose a simple and effective method to mine the keyphrases of interest in the news article and build a first large-scale keyphrase-aware news headline corpus, which contains over 180K aligned triples of $<$news article, headline, keyphrase$>$. Extensive experimental comparisons on the real-world dataset show that the proposed method achieves state-of-the-art results in terms of quality and diversity
翻訳日:2022-12-15 08:45:16 公開日:2020-10-04
# 連続学習による事前学習型言語横断モデルの微調整手法の検討

Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models via Continual Learning ( http://arxiv.org/abs/2004.14218v2 )

ライセンス: Link先を確認
Zihan Liu, Genta Indra Winata, Andrea Madotto, Pascale Fung(参考訳) 近年、下流言語間タスクへの微調整済み言語モデル(例えば、多言語BERT)は、有望な結果を示している。 しかし、微調整プロセスは、必然的に事前訓練されたモデルのパラメータを変更し、その言語間能力を弱め、準最適性能をもたらす。 この問題を軽減するために,我々は学習を継続的に活用し,学習したモデルの言語横断能力を下流タスクに微調整する場合に保持する。 実験の結果,本手法は文検索タスクにおいて,事前学習したモデルの言語横断能力をより良く保持できることがわかった。 提案手法は,ゼロショット言語間タグ付けおよび名前付きエンティティ認識タスクにおいて,他の微調整ベースラインよりも優れた性能を実現する。

Recently, fine-tuning pre-trained language models (e.g., multilingual BERT) to downstream cross-lingual tasks has shown promising results. However, the fine-tuning process inevitably changes the parameters of the pre-trained model and weakens its cross-lingual ability, which leads to sub-optimal performance. To alleviate this problem, we leverage continual learning to preserve the original cross-lingual ability of the pre-trained model when we fine-tune it to downstream tasks. The experimental result shows that our fine-tuning methods can better preserve the cross-lingual ability of the pre-trained model in a sentence retrieval task. Our methods also achieve better performance than other fine-tuning baselines on the zero-shot cross-lingual part-of-speech tagging and named entity recognition tasks.
翻訳日:2022-12-08 12:50:39 公開日:2020-10-04
# 知識蒸留による誘導バイアスの伝達

Transferring Inductive Biases through Knowledge Distillation ( http://arxiv.org/abs/2006.00555v3 )

ライセンス: Link先を確認
Samira Abnar and Mostafa Dehghani and Willem Zuidema(参考訳) 適切なインダクティブバイアスを持つことは、データやコンピューティングリソースが制限要因であるタスクやシナリオ、あるいはトレーニングデータがテスト時の条件を完全に表現していない場合において極めて重要です。 しかし、帰納バイアスの定義、設計、効率的な適応は必ずしも単純ではない。 本稿では, あるモデルから別のモデルへ誘導バイアスの効果を伝達する知識蒸留の力について検討する。 我々は、正しい帰納バイアスを持つことが重要であるタスクやシナリオの文脈において、異なる帰納バイアスを持つモデルのファミリー、LSTM対トランスフォーマーとCNN対MLPを考察する。 本研究では, モデルが収束する解に対する帰納バイアスの効果について検討し, 帰納バイアスの効果が, 知識蒸留を通じてどの程度の程度に伝達されるかを, 収束解の性能だけでなく, 異なる側面の観点から検討する。

Having the right inductive biases can be crucial in many tasks or scenarios where data or computing resources are a limiting factor, or where training data is not perfectly representative of the conditions at test time. However, defining, designing and efficiently adapting inductive biases is not necessarily straightforward. In this paper, we explore the power of knowledge distillation for transferring the effect of inductive biases from one model to another. We consider families of models with different inductive biases, LSTMs vs. Transformers and CNNs vs. MLPs, in the context of tasks and scenarios where having the right inductive biases is critical. We study the effect of inductive biases on the solutions the models converge to and investigate how and to what extent the effect of inductive biases is transferred through knowledge distillation, in terms of not only performance but also different aspects of converged solutions.
翻訳日:2022-11-26 12:15:38 公開日:2020-10-04
# 非可換リー群の既約表現の学習

Learning Irreducible Representations of Noncommutative Lie Groups ( http://arxiv.org/abs/2006.00724v2 )

ライセンス: Link先を確認
Noah Shutty and Casimir Wierzynski(参考訳) 最近の研究は、2Dや3D回転のような連続対称性群と等価なニューラルネットワークを構築している。 これは明示的な群表現を用いて、同変核と非線形性を引き出す。 回転や翻訳を超えた等分散のフロンティア応用によって動機付けられた2つの貢献を示す。 まず、明示的なリー群表現の要件を緩和し、関連するリー代数の構造定数のみを与える非可換リー群の既約表現を求める新しいアルゴリズムを示す。 第二に、ローレンツ同値性がオブジェクト追跡タスクに有用であることを示すとともに、poincar\'e 群に同値な最初のオブジェクト追跡モデルを構築する。

Recent work has constructed neural networks that are equivariant to continuous symmetry groups such as 2D and 3D rotations. This is accomplished using explicit group representations to derive the equivariant kernels and nonlinearities. We present two contributions motivated by frontier applications of equivariance beyond rotations and translations. First, we relax the requirement for explicit Lie group representations, presenting a novel algorithm that finds irreducible representations of noncommutative Lie groups given only the structure constants of the associated Lie algebra. Second, we demonstrate that Lorentz-equivariance is a useful prior for object-tracking tasks and construct the first object-tracking model equivariant to the Poincar\'e group.
翻訳日:2022-11-26 06:04:00 公開日:2020-10-04
# 分割学習ブルームフィルタ

Partitioned Learned Bloom Filter ( http://arxiv.org/abs/2006.03176v2 )

ライセンス: Link先を確認
Kapil Vaidya, Eric Knorr, Tim Kraska, Michael Mitzenmacher(参考訳) ブルームフィルタは空間効率の高い確率的データ構造であり、ある要素が集合のメンバーであるかどうかをテストし、偽陽性を返すために使用される。 近年, 表現集合の学習モデルを用いて, 偽陽性率の観点から性能を向上させることのできる学習ブルームフィルタが開発されている。 しかし、これまでの学習ブルームフィルタの手法は学習モデルを完全には活用していない。 ここでは、最適化問題として最適モデル利用の問題の枠組みを示し、多くの場合、最適に近い性能を達成できるアルゴリズムをフレームワークから導出する。 シミュレーションデータと実世界のデータの両方から得られた実験結果は、元の学習されたブルームフィルタの構成と以前に提案されたヒューリスティックな改善の両方に対して、我々の最適化アプローチから有意な性能改善を示しました。

Bloom filters are space-efficient probabilistic data structures that are used to test whether an element is a member of a set, and may return false positives. Recently, variations referred to as learned Bloom filters were developed that can provide improved performance in terms of the rate of false positives, by using a learned model for the represented set. However, previous methods for learned Bloom filters do not take full advantage of the learned model. Here we show how to frame the problem of optimal model utilization as an optimization problem, and using our framework derive algorithms that can achieve near-optimal performance in many cases. Experimental results from both simulated and real-world datasets show significant performance improvements from our optimization approach over both the original learned Bloom filter constructions and previously proposed heuristic improvements.
翻訳日:2022-11-25 04:37:59 公開日:2020-10-04
# アンサンブルカルマンフィルタを用いた状態とダイナミクスのオンライン学習

Online learning of both state and dynamics using ensemble Kalman filters ( http://arxiv.org/abs/2006.03859v2 )

ライセンス: Link先を確認
Marc Bocquet, Alban Farchi, Quentin Malartic(参考訳) 近年の機械学習の進歩により,観測された物理系のダイナミクスを代理モデルとして再構築した。 この取り組みにおける部分的および雑音的な観測に対処するため、ベイズデータ同化フレームワーク内で代理モデルの機械学習表現を使用することができる。 しかしながら、これらのアプローチは、互いに同化することを意図した、長期にわたる観測データを考える必要がある。 本稿では,オンライン上でのダイナミクスと状態を学習する可能性,特に新たな観測結果が得られた場合に,その推定値を更新する可能性について検討する。 この推定は、サロゲートモデルと状態拡張のための比較的単純な表現を用いたアンサンブルカルマンフィルタ(enkf)のアルゴリズムファミリーに基づいている。 我々は,(i)グローバルなEnKF,(i)ローカルなEnKF,(iii)反復的なEnKFを通じてオンラインのダイナミクスを学習することの意味を考察し,各事例問題とアルゴリズム的解法について論じる。 次に,1次元,1スケール,2スケールのカオスロレンツモデルを用いて,これらの手法の有効性を数値的に検証し,精度を評価する。

The reconstruction of the dynamics of an observed physical system as a surrogate model has been brought to the fore by recent advances in machine learning. To deal with partial and noisy observations in that endeavor, machine learning representations of the surrogate model can be used within a Bayesian data assimilation framework. However, these approaches require to consider long time series of observational data, meant to be assimilated all together. This paper investigates the possibility to learn both the dynamics and the state online, i.e. to update their estimates at any time, in particular when new observations are acquired. The estimation is based on the ensemble Kalman filter (EnKF) family of algorithms using a rather simple representation for the surrogate model and state augmentation. We consider the implication of learning dynamics online through (i) a global EnKF, (i) a local EnKF and (iii) an iterative EnKF and we discuss in each case issues and algorithmic solutions. We then demonstrate numerically the efficiency and assess the accuracy of these methods using one-dimensional, one-scale and two-scale chaotic Lorenz models.
翻訳日:2022-11-24 21:43:09 公開日:2020-10-04
# 競合ワクチンコミュニティにおける社会言語学的変異の特徴

Characterizing Sociolinguistic Variation in the Competing Vaccination Communities ( http://arxiv.org/abs/2006.04334v3 )

ライセンス: Link先を確認
Shahan Ali Memon, Aman Tyagi, David R. Mortensen, Kathleen M. Carley(参考訳) 公衆衛生の実践者や政策立案者は、サイバーコミュニティで公衆衛生の誤情報を拡散するための効果的なメッセージベースの介入を考案するという課題に苦慮している。 メッセージの“フレーミング”と“パーソナライゼーション”は、説得力のあるメッセージング戦略を開発する上で重要な機能のひとつです。 効果的な健康コミュニケーションには、対象のサブコミュニティの好みを考慮に入れる「参照ベースのフレーミング」に重点を置くことが不可欠である。 これを実現するためには,対象のサブコミュニティを社会的相互作用の観点から理解し,特徴付けることが重要である。 健康関連誤報の文脈では、予防接種が不協和の最も一般的な話題である。 そこで本研究では,Twitter上での2つの競合する予防接種コミュニティの社会言語学的分析を行い,予防接種の有効性を信じる者,ワクチン接種に反対する者,ワクチン接種に反対する者について考察する。 本研究は, 言語インテンシファイア, 代名詞, 不確定語の使用に関して, 2つのコミュニティ間で有意な言語的変化を示す。 ネットワークレベルの分析では, ネットワーク密度, エコーチャンバーネス, EI指数の2つのコミュニティ間で有意な差異が認められた。 これらの社会言語学的差異は、これらのコミュニティを特徴づけ、理解し、より良いメッセージ介入を考案するためのプロキシとして利用できると仮定する。

Public health practitioners and policy makers grapple with the challenge of devising effective message-based interventions for debunking public health misinformation in cyber communities. "Framing" and "personalization" of the message is one of the key features for devising a persuasive messaging strategy. For an effective health communication, it is imperative to focus on "preference-based framing" where the preferences of the target sub-community are taken into consideration. To achieve that, it is important to understand and hence characterize the target sub-communities in terms of their social interactions. In the context of health-related misinformation, vaccination remains to be the most prevalent topic of discord. Hence, in this paper, we conduct a sociolinguistic analysis of the two competing vaccination communities on Twitter: "pro-vaxxers" or individuals who believe in the effectiveness of vaccinations, and "anti-vaxxers" or individuals who are opposed to vaccinations. Our data analysis show significant linguistic variation between the two communities in terms of their usage of linguistic intensifiers, pronouns, and uncertainty words. Our network-level analysis show significant differences between the two communities in terms of their network density, echo-chamberness, and the EI index. We hypothesize that these sociolinguistic differences can be used as proxies to characterize and understand these communities to devise better message interventions.
翻訳日:2022-11-24 02:20:40 公開日:2020-10-04
# モンテカルロ木探索の効果的な並列化について

On Effective Parallelization of Monte Carlo Tree Search ( http://arxiv.org/abs/2006.08785v2 )

ライセンス: Link先を確認
Anji Liu and Yitao Liang and Ji Liu and Guy Van den Broeck and Jianshu Chen(参考訳) Goやコンピュータゲームで成功しているにもかかわらず、Monte Carlo Tree Search (MCTS)は、効率的な並列化を要求する検索ツリーを構築するためにかなりの数のロールアウトを必要とするため、計算コストがかかる。 しかし、効果的な並列MCTSアルゴリズムの設計方法は体系的に研究されておらず、まだ理解されていない。 本稿では,所望の高速化を達成する際に並列化によって生じる潜在的な性能損失を調べることにより,最初の理論的基礎を築こうとする。 特に、望ましい並列化性能を達成するために必要な条件を発見し、その実用上の利点の2つを強調する。 まず、既存の並列MCTSアルゴリズムがこれらの条件を満たすかどうかを調べることにより、将来のアルゴリズムによって継承されるべき重要な設計原則を同定する。 この本質的な設計を理論的に確立すると、最大木深さが 2 であるとき、$\mathcal{o} ( \ln n + m / \sqrt{\ln n} )$ cumulative regret となり、ここで $n$ はロールアウト数、$m$ はワーカー数である。 この形式の後悔は非常に望ましいものであり、$\mathcal{O} ( \ln n )$ regret がシーケンシャルな関係によって引き起こされるのに対して、その余剰部分は $n$ の増加とともに 0 に近づく。 第2に,より効率的な並列mctsアルゴリズムを設計するために,提案する条件をどのように適用できるかを示す。 これを説明するために,我々は理論ガイドラインに従うことにより,新しい並列mctsアルゴリズムであるbu-uctを提案する。 新たに提案されたアルゴリズムは、15のatariゲームのうち11ゲームで4つのベースラインを上回っている。 我々の理論結果が、より効果的な並列MCTSの将来的な研究を刺激することを期待している。

Despite its groundbreaking success in Go and computer games, Monte Carlo Tree Search (MCTS) is computationally expensive as it requires a substantial number of rollouts to construct the search tree, which calls for effective parallelization. However, how to design effective parallel MCTS algorithms has not been systematically studied and remains poorly understood. In this paper, we seek to lay its first theoretical foundation, by examining the potential performance loss caused by parallelization when achieving a desired speedup. In particular, we discover the necessary conditions of achieving a desirable parallelization performance, and highlight two of their practical benefits. First, by examining whether existing parallel MCTS algorithms satisfy these conditions, we identify key design principles that should be inherited by future algorithms, for example tracking the unobserved samples (used in WU-UCT (Liu et al., 2020)). We theoretically establish this essential design facilitates $\mathcal{O} ( \ln n + M / \sqrt{\ln n} )$ cumulative regret when the maximum tree depth is 2, where $n$ is the number of rollouts and $M$ is the number of workers. A regret of this form is highly desirable, as compared to $\mathcal{O} ( \ln n )$ regret incurred by a sequential counterpart, its excess part approaches zero as $n$ increases. Second, and more importantly, we demonstrate how the proposed necessary conditions can be adopted to design more effective parallel MCTS algorithms. To illustrate this, we propose a new parallel MCTS algorithm, called BU-UCT, by following our theoretical guidelines. The newly proposed algorithm, albeit preliminary, out-performs four competitive baselines on 11 out of 15 Atari games. We hope our theoretical results could inspire future work of more effective parallel MCTS.
翻訳日:2022-11-21 02:23:15 公開日:2020-10-04
# 視覚追跡におけるsiameseネットワークのexemplar loss

Exemplar Loss for Siamese Network in Visual Tracking ( http://arxiv.org/abs/2006.12987v2 )

ライセンス: Link先を確認
Shuo Chang, YiFan Zhang, Sai Huang, Yuanyuan Yao and Zhiyong Feng(参考訳) 視覚追跡は、知的輸送の重要な部分である知覚システムにおいて重要な役割を果たす。 近年、シアームネットワークは、精度が優れ、簡単なフレームワークであるため、移動目標の軌跡を視覚的に追跡することがホットな話題となっている。 一般に、シアーム追跡アルゴリズムはロジスティック損失と三重項損失によって管理され、背景サンプルで内積の価値を減少させながら、exemplarテンプレートと正サンプルの間の内積の価値を増加させる。 しかし, 特徴モデルの識別を制限した損失関数では, 異なる例からの注意散逸は考慮されない。 本稿では,ロジスティック損失と統合された新しい例題損失を提案し,例題間の内積の低減による特徴モデルの識別を強化する。 ベルとホイッスルがなければ、提案アルゴリズムはロジスティック損失や三重項損失によって監視される手法よりも優れている。 数値計算の結果, 新たに開発したアルゴリズムは, 公開ベンチマークで同等の性能が得られることが示唆された。

Visual tracking plays an important role in perception system, which is a crucial part of intelligent transportation. Recently, Siamese network is a hot topic for visual tracking to estimate moving targets' trajectory, due to its superior accuracy and simple framework. In general, Siamese tracking algorithms, supervised by logistic loss and triplet loss, increase the value of inner product between exemplar template and positive sample while reduce the value of inner product with background sample. However, the distractors from different exemplars are not considered by mentioned loss functions, which limit the feature models' discrimination. In this paper, a new exemplar loss integrated with logistic loss is proposed to enhance the feature model's discrimination by reducing inner products among exemplars. Without the bells and whistles, the proposed algorithm outperforms the methods supervised by logistic loss or triplet loss. Numerical results suggest that the newly developed algorithm achieves comparable performance in public benchmarks.
翻訳日:2022-11-18 22:55:17 公開日:2020-10-04
# Pynsett: プログラマブルな関係抽出器

Pynsett: A programmable relation extractor ( http://arxiv.org/abs/2007.02100v2 )

ライセンス: Link先を確認
Alberto Cetoli(参考訳) 本稿では,テキストをセマンティックグラフに解析することで,言語に対するプログラマブルな関係抽出手法を提案する。 人は、グラフ表現に一致するパターンとして振る舞う平易な英語の規則を定義することができる。 これらのルールはドキュメントの意味的内容をキャプチャするために設計されており、柔軟性とアドホックなエンティティを可能にする。 関係抽出は、通常、大きなトレーニングコーパスを必要とする複雑なタスクである。 本提案手法は,文書の限られたコレクションにおいて,特殊なオントロジーを抽出するのに最適である。

This paper proposes a programmable relation extraction method for the English language by parsing texts into semantic graphs. A person can define rules in plain English that act as matching patterns onto the graph representation. These rules are designed to capture the semantic content of the documents, allowing for flexibility and ad-hoc entities. Relation extraction is a complex task that typically requires sizable training corpora. The method proposed here is ideal for extracting specialized ontologies in a limited collection of documents.
翻訳日:2022-11-13 13:00:12 公開日:2020-10-04
# 物体間インタラクション検出のための視覚合成学習

Visual Compositional Learning for Human-Object Interaction Detection ( http://arxiv.org/abs/2007.12407v2 )

ライセンス: Link先を確認
Zhi Hou, Xiaojiang Peng, Yu Qiao, Dacheng Tao(参考訳) human-object interaction(hoi)検出は、画像内の人間とオブジェクトの関係を局所化し、推論することを目的としている。 オブジェクトと動詞型の膨大な組み合わせがロングテール分布を形成するため、これは困難である。 我々は,この問題を効果的に解決するための単純かつ効率的なフレームワークである深部視覚合成学習(vcl)フレームワークを考案する。 VCLはまず、HOI表現をオブジェクトと動詞特有の特徴に分解し、次に分解された特徴を縫い合わせることで特徴空間に新しい相互作用サンプルを構成する。 分解と合成の統合により、VCLは、異なるHOIサンプルと画像間でオブジェクトと動詞の特徴を共有でき、新しい相互作用サンプルと新しいタイプのHOIを生成することができる。 広汎な実験により,提案したVCLはHICO-DETおよびV-COCOにおけるHOI検出の一般化を効果的に向上し,最近のHICO-DETにおける最先端手法よりも優れていることが示された。 コードはhttps://github.com/zhihou7/vclで入手できる。

Human-Object interaction (HOI) detection aims to localize and infer relationships between human and objects in an image. It is challenging because an enormous number of possible combinations of objects and verbs types forms a long-tail distribution. We devise a deep Visual Compositional Learning (VCL) framework, which is a simple yet efficient framework to effectively address this problem. VCL first decomposes an HOI representation into object and verb specific features, and then composes new interaction samples in the feature space via stitching the decomposed features. The integration of decomposition and composition enables VCL to share object and verb features among different HOI samples and images, and to generate new interaction samples and new types of HOI, and thus largely alleviates the long-tail distribution problem and benefits low-shot or zero-shot HOI detection. Extensive experiments demonstrate that the proposed VCL can effectively improve the generalization of HOI detection on HICO-DET and V-COCO and outperforms the recent state-of-the-art methods on HICO-DET. Code is available at https://github.com/zhihou7/VCL.
翻訳日:2022-11-07 06:48:30 公開日:2020-10-04
# オフポリティ・マルチエージェント分解政策のグラディエント

Off-Policy Multi-Agent Decomposed Policy Gradients ( http://arxiv.org/abs/2007.12322v2 )

ライセンス: Link先を確認
Yihan Wang, Beining Han, Tonghan Wang, Heng Dong, Chongjie Zhang(参考訳) マルチエージェント・ポリシー・グラデーション(MAPG)手法は近年活発に進展している。 しかし、MAPG法と最先端のマルチエージェント値ベースアプローチの間には大きな性能差がある。 本稿では,MAPGアルゴリズムの性能を阻害する原因について検討し,マルチエージェント分解ポリシー勾配法(DOP)を提案する。 この手法は、値関数分解の考え方をマルチエージェントアクター批判フレームワークに導入する。 この考え方に基づいて、DOPは効率的な非政治学習をサポートし、離散的かつ連続的な行動空間における集中分散型ミスマッチとクレジット割り当ての問題に対処する。 我々は、DOP批判者が収束を保証するのに十分な表現能力があることを正式に示す。 さらに、StarCraft IIマイクロマネジメントベンチマークとマルチエージェント粒子環境に関する実証的な評価は、DOPが最先端の値ベースおよびポリシーベースのマルチエージェント強化学習アルゴリズムよりも大幅に優れていることを示している。 デモ動画はhttps://sites.google.com/view/dop-mapg/で閲覧できる。

Multi-agent policy gradient (MAPG) methods recently witness vigorous progress. However, there is a significant performance discrepancy between MAPG methods and state-of-the-art multi-agent value-based approaches. In this paper, we investigate causes that hinder the performance of MAPG algorithms and present a multi-agent decomposed policy gradient method (DOP). This method introduces the idea of value function decomposition into the multi-agent actor-critic framework. Based on this idea, DOP supports efficient off-policy learning and addresses the issue of centralized-decentralized mismatch and credit assignment in both discrete and continuous action spaces. We formally show that DOP critics have sufficient representational capability to guarantee convergence. In addition, empirical evaluations on the StarCraft II micromanagement benchmark and multi-agent particle environments demonstrate that DOP significantly outperforms both state-of-the-art value-based and policy-based multi-agent reinforcement learning algorithms. Demonstrative videos are available at https://sites.google.com/view/dop-mapg/.
翻訳日:2022-11-07 06:23:04 公開日:2020-10-04
# 映像ベース人物再同定のためのフロー誘導型相互注意ネットワーク

A Flow-Guided Mutual Attention Network for Video-Based Person Re-Identification ( http://arxiv.org/abs/2008.03788v2 )

ライセンス: Link先を確認
Madhu Kiran, Amran Bhuiyan, Louis-Antoine Blais-Morin, Mehrsan Javan, Ismail Ben Ayed, Eric Granger(参考訳) 人物再識別(reid:person re-identification)は多くのビデオ分析や監視アプリケーションにおいて困難な問題である。 ビデオベースのReIDは、画像ベースのReIDでは利用できないビデオクリップから、差別的な時空間情報をキャプチャできるので、最近注目されている。 近年の進歩にもかかわらず、ビデオReIDのためのディープラーニング(DL)モデルは、特徴表現の堅牢性を改善するためにこの情報を活用することができないことが多い。 本稿では、ReIDのための追加キューとして、人物の動きパターンを探索する。 特に2D-CNNバックボーンを用いて画像と光のフローシーケンスを融合させるためのフロー誘導型相互注意ネットワークを提案し,空間的外観情報とともに時間情報をエンコードする。 相互注意ネットワークは,画像と光フロー特徴マップの協調的な空間的注意に依存して,それらの共通したサルエント特徴を活性化する。 フローガイドによる注意に加えて,より長い入力ストリームから特徴を集約し,映像のシーケンスレベル表現を改善する手法を提案する。 3つの挑戦的ビデオReIDデータセットに関する広範な実験により,提案手法を用いることで,従来のゲートアテンションネットワークに対する認識精度が向上することを示す。

Person Re-Identification (ReID) is a challenging problem in many video analytics and surveillance applications, where a person's identity must be associated across a distributed non-overlapping network of cameras. Video-based person ReID has recently gained much interest because it allows capturing discriminant spatio-temporal information from video clips that is unavailable for image-based ReID. Despite recent advances, deep learning (DL) models for video ReID often fail to leverage this information to improve the robustness of feature representations. In this paper, the motion pattern of a person is explored as an additional cue for ReID. In particular, a flow-guided Mutual Attention network is proposed for fusion of image and optical flow sequences using any 2D-CNN backbone, allowing to encode temporal information along with spatial appearance information. Our Mutual Attention network relies on the joint spatial attention between image and optical flow features maps to activate a common set of salient features across them. In addition to flow-guided attention, we introduce a method to aggregate features from longer input streams for better video sequence-level representation. Our extensive experiments on three challenging video ReID datasets indicate that using the proposed Mutual Attention network allows to improve recognition accuracy considerably with respect to conventional gated-attention networks, and state-of-the-art methods for video-based person ReID.
翻訳日:2022-11-01 04:24:43 公開日:2020-10-04
# 言語条件付埋め込みによるgSCANの体系的一般化

Systematic Generalization on gSCAN with Language Conditioned Embedding ( http://arxiv.org/abs/2009.05552v2 )

ライセンス: Link先を確認
Tong Gao, Qi Huang, Raymond J. Mooney(参考訳) 体系的一般化とは、学習アルゴリズムが学習した振る舞いを、学習データと意味的に類似しているが区別されない状況に外挿する能力である。 最近の研究で示されているように、最先端のディープラーニングモデルは、トレーニングデータとテストセットが系統的に異なる場合に設計されたタスクでも劇的に失敗する。 我々は、対象間の関係を文脈内で明示的にモデル化し、その表現を学習することで体系的な一般化が達成できると仮定する。 そこで本研究では,入力自然言語上で動的メッセージパッシング条件付きでオブジェクトのコンテキスト化埋め込みを学習し,他の下流深層学習モジュールとエンドツーエンドで学習可能な新しい手法を提案する。 我々の知る限り、このモデルは提供されたベースラインを大幅に上回り、試験分割において体系的な一般化を必要とするように設計された接地された自然言語ナビゲーションデータセットであるグラウンドドSCAN(gSCAN)上で最先端のパフォーマンスに達する最初のモデルである。

Systematic Generalization refers to a learning algorithm's ability to extrapolate learned behavior to unseen situations that are distinct but semantically similar to its training data. As shown in recent work, state-of-the-art deep learning models fail dramatically even on tasks for which they are designed when the test set is systematically different from the training data. We hypothesize that explicitly modeling the relations between objects in their contexts while learning their representations will help achieve systematic generalization. Therefore, we propose a novel method that learns objects' contextualized embeddings with dynamic message passing conditioned on the input natural language and end-to-end trainable with other downstream deep learning modules. To our knowledge, this model is the first one that significantly outperforms the provided baseline and reaches state-of-the-art performance on grounded-SCAN (gSCAN), a grounded natural language navigation dataset designed to require systematic generalization in its test splits.
翻訳日:2022-10-19 20:50:38 公開日:2020-10-04
# モントリオールAI倫理研究所(MAIEI)による責任AIの出版禁止に関する報告

Report prepared by the Montreal AI Ethics Institute (MAIEI) on Publication Norms for Responsible AI ( http://arxiv.org/abs/2009.07262v2 )

ライセンス: Link先を確認
Abhishek Gupta (1 and 2), Camylle Lanteigne (1 and 3), Victoria Heath (1) ((1) Montreal AI Ethics Institute, (2) Microsoft, (3) Algora Lab)(参考訳) 科学と技術の歴史は、科学理論と研究における一見無害な発展が、人間にとって重大なネガティブな結果をもたらす現実世界の応用を可能にしたことを示している。 AIの科学と技術が人間的な方法で開発されることを保証するため、我々はAIの潜在的な脅威やユースケースに対する理解の高まりによって通知される研究出版の規範を開発する必要がある。 残念ながら、AIの分野が現在、この技術がどのように研究され、開発され、資金提供されたかという観点で断片化されているため、責任あるAIの出版規範を作るのは難しいです。 この課題を調べて解決策を見つけるために、モントリオールAI倫理研究所(MAIEI)は2020年5月にAIに関するパートナーシップと2つの公開協議会を開催した。 これらのミートアップは、パブリッシャのための明確なレコメンデーションと方法を作成することを目的として、責任あるAIの潜在的な出版規範を調査した。 MAIEIはその提出書で、以下の6つのイニシャルレコメンデーションを提供している。 1)出版判断をナビゲートするツールの作成 2)ページ番号拡張を提供する。 3)ピアのネットワークを開発する。 4) 幅広い影響文が必要である。 5) 期待結果の公表が必要であり,かつ 6) ピアレビュープロセスの見直し。 イノベーションの制約や、AI研究の“ブラックマーケット”の創出など、これらの推奨に関する潜在的な懸念を考慮して、MAIEIは3つの道のりを概説する。 1) 確立された規範の必要性を明確かつ一貫して表明する。 2 共同体としての信頼の調整及び構築、及び 3)アプローチを変更する。

The history of science and technology shows that seemingly innocuous developments in scientific theories and research have enabled real-world applications with significant negative consequences for humanity. In order to ensure that the science and technology of AI is developed in a humane manner, we must develop research publication norms that are informed by our growing understanding of AI's potential threats and use cases. Unfortunately, it's difficult to create a set of publication norms for responsible AI because the field of AI is currently fragmented in terms of how this technology is researched, developed, funded, etc. To examine this challenge and find solutions, the Montreal AI Ethics Institute (MAIEI) co-hosted two public consultations with the Partnership on AI in May 2020. These meetups examined potential publication norms for responsible AI, with the goal of creating a clear set of recommendations and ways forward for publishers. In its submission, MAIEI provides six initial recommendations, these include: 1) create tools to navigate publication decisions, 2) offer a page number extension, 3) develop a network of peers, 4) require broad impact statements, 5) require the publication of expected results, and 6) revamp the peer-review process. After considering potential concerns regarding these recommendations, including constraining innovation and creating a "black market" for AI research, MAIEI outlines three ways forward for publishers, these include: 1) state clearly and consistently the need for established norms, 2) coordinate and build trust as a community, and 3) change the approach.
翻訳日:2022-10-18 06:33:34 公開日:2020-10-04
# 強化学習とセルフプレイによる効果的なセキュリティ戦略の探索

Finding Effective Security Strategies through Reinforcement Learning and Self-Play ( http://arxiv.org/abs/2009.08120v2 )

ライセンス: Link先を確認
Kim Hammar and Rolf Stadler(参考訳) 侵入防止のユースケースに対して,セキュリティ戦略を自動的に発見する手法を提案する。 この方法に従い,攻撃者と防御者の相互作用をマルコフゲームとしてモデル化し,人間による介入なしに強化学習と自己遊びを通じて攻撃と防御戦略を進化させる。 簡単なインフラストラクチャ構成を使用することで,効果的なセキュリティ戦略が自己再生から生まれることを実証する。 これは、ネットワークセキュリティの文脈において、他のドメインで大きな成功を収めたセルフプレイが効果的であることを示している。 統合された政策の検査は、出現した政策が常識的な知識を反映し、人間の戦略と類似していることを示している。 さらに,この領域における強化学習の既知の課題に対処し,関数近似,対向プール,自己回帰的政策表現を用いたアプローチを提案する。 評価を通じて,本手法は2つの基本手法よりも優れているが,自己再生における政策収束は依然として課題であることを示す。

We present a method to automatically find security strategies for the use case of intrusion prevention. Following this method, we model the interaction between an attacker and a defender as a Markov game and let attack and defense strategies evolve through reinforcement learning and self-play without human intervention. Using a simple infrastructure configuration, we demonstrate that effective security strategies can emerge from self-play. This shows that self-play, which has been applied in other domains with great success, can be effective in the context of network security. Inspection of the converged policies show that the emerged policies reflect common-sense knowledge and are similar to strategies of humans. Moreover, we address known challenges of reinforcement learning in this domain and present an approach that uses function approximation, an opponent pool, and an autoregressive policy representation. Through evaluations we show that our method is superior to two baseline methods but that policy convergence in self-play remains a challenge.
翻訳日:2022-10-17 08:52:03 公開日:2020-10-04
# F^2-Softmax:周波数分解ソフトマックスによる多様化ニューラルテキスト生成

F^2-Softmax: Diversifying Neural Text Generation via Frequency Factorized Softmax ( http://arxiv.org/abs/2009.09417v2 )

ライセンス: Link先を確認
Byung-Ju Choi, Jimin Hong, David Keetae Park, Sang Wan Lee(参考訳) 最近のニューラルテキスト生成の進歩にもかかわらず、人間の言語における豊富な多様性のエンコーディングはいまだに解明されていない。 下位最適テキスト生成は主に不均衡トークン分布に起因しており、特に最大類似目的の学習では学習モデルを誤った方向に向ける。 簡易かつ効果的な治療として,歪周波数分布においてもバランストレーニングを行うために,f^2-softmaxとmefmaxという2つの新しい手法を提案する。 MefMaxはトークンを周波数クラスに一意に割り当て、類似の周波数でトークンをグループ化し、クラス間で周波数質量を等化しようとする。 f^2-softmax は対象トークンの確率分布を2つの条件付き確率の積に分解する。 (i)周波数クラス、及び (ii) 対象周波数クラスからのトークン。 モデルは語彙の部分集合に限られるため、より均一な確率分布を学ぶ。 7つの関連する指標に対する重要なパフォーマンス向上は、多様性だけでなく、生成されたテキストの品質も向上するアプローチの優位性を示唆している。

Despite recent advances in neural text generation, encoding the rich diversity in human language remains elusive. We argue that the sub-optimal text generation is mainly attributable to the imbalanced token distribution, which particularly misdirects the learning model when trained with the maximum-likelihood objective. As a simple yet effective remedy, we propose two novel methods, F^2-Softmax and MefMax, for a balanced training even with the skewed frequency distribution. MefMax assigns tokens uniquely to frequency classes, trying to group tokens with similar frequencies and equalize frequency mass between the classes. F^2-Softmax then decomposes a probability distribution of the target token into a product of two conditional probabilities of (i) frequency class, and (ii) token from the target frequency class. Models learn more uniform probability distributions because they are confined to subsets of vocabularies. Significant performance gains on seven relevant metrics suggest the supremacy of our approach in improving not only the diversity but also the quality of generated texts.
翻訳日:2022-10-16 12:35:31 公開日:2020-10-04
# トランスフォーマーを用いたペルシャのエザフ認識とその部分音声タギングにおける役割

Persian Ezafe Recognition Using Transformers and Its Role in Part-Of-Speech Tagging ( http://arxiv.org/abs/2009.09474v2 )

ライセンス: Link先を確認
Ehsan Doostmohammadi, Minoo Nassajian, Adel Rahimi(参考訳) エザフ (Ezafe) はイランのいくつかの言語において2つの単語を連結する文法的な粒子である。 それが伝える重要な情報にかかわらず、ほぼ常にペルシア文字で示されておらず、複雑な文を読むことの誤りと自然言語処理タスクの誤りをもたらす。 本稿では,ezafe認識タスクにおける最先端結果を達成するために,異なる機械学習手法を実験する。 変換器ベースの手法であるBERTとXLMRoBERTaは最高の結果を得ることができ、後者は以前の最先端よりも2.68%のF1スコアを達成した。 さらに,ezafe 情報を用いてペルシャ語の音声のタグ付け結果を改善するとともに,このような情報がトランスフォーマーベースの手法には役に立たないことを示す。

Ezafe is a grammatical particle in some Iranian languages that links two words together. Regardless of the important information it conveys, it is almost always not indicated in Persian script, resulting in mistakes in reading complex sentences and errors in natural language processing tasks. In this paper, we experiment with different machine learning methods to achieve state-of-the-art results in the task of ezafe recognition. Transformer-based methods, BERT and XLMRoBERTa, achieve the best results, the latter achieving 2.68% F1-score more than the previous state-of-the-art. We, moreover, use ezafe information to improve Persian part-of-speech tagging results and show that such information will not be useful to transformer-based methods and explain why that might be the case.
翻訳日:2022-10-16 12:35:16 公開日:2020-10-04
# SSMBA: 外部ロバスト性向上のための自己監督型マニフォールドベースデータ拡張

SSMBA: Self-Supervised Manifold Based Data Augmentation for Improving Out-of-Domain Robustness ( http://arxiv.org/abs/2009.10195v2 )

ライセンス: Link先を確認
Nathan Ng, Kyunghyun Cho, Marzyeh Ghassemi(参考訳) トレーニングドメインでうまく機能するモデルは、しばしばドメイン外(OOD)の例に一般化できない。 データ拡張は、OOD一般化の過度な適合や改善を防ぐための一般的な方法である。 しかし、自然言語では、基礎となるデータ多様体に留まる新しい例を生成することは困難である。 SSMBAは,データ多様体上でランダムに移動するために,一対の汚職と再構成関数を用いて合成学習例を生成するデータ拡張手法である。 本研究では,自然言語領域におけるssmbaの使用について検討し,その仮定を用いて,劣化したテキストをマスキング言語モデルで再構築する。 3つのタスクと9つのデータセットにわたる堅牢性ベンチマークの実験では、SSMBAは、ドメイン内データとOODデータの両方で既存のデータ拡張メソッドとベースラインモデルを上回っ、OOD Amazonのレビューでは0.8%の精度、OOD MNLIでは1.8%の精度、ドメイン内IWSLT14ドイツ語では1.4BLEUを達成した。

Models that perform well on a training domain often fail to generalize to out-of-domain (OOD) examples. Data augmentation is a common method used to prevent overfitting and improve OOD generalization. However, in natural language, it is difficult to generate new examples that stay on the underlying data manifold. We introduce SSMBA, a data augmentation method for generating synthetic training examples by using a pair of corruption and reconstruction functions to move randomly on a data manifold. We investigate the use of SSMBA in the natural language domain, leveraging the manifold assumption to reconstruct corrupted text with masked language models. In experiments on robustness benchmarks across 3 tasks and 9 datasets, SSMBA consistently outperforms existing data augmentation methods and baseline models on both in-domain and OOD data, achieving gains of 0.8% accuracy on OOD Amazon reviews, 1.8% accuracy on OOD MNLI, and 1.4 BLEU on in-domain IWSLT14 German-English.
翻訳日:2022-10-16 03:49:20 公開日:2020-10-04
# オープンエンド対話システムの設計と実現のための学習

Learning to Plan and Realize Separately for Open-Ended Dialogue Systems ( http://arxiv.org/abs/2009.12506v2 )

ライセンス: Link先を確認
Sashank Santhanam, Zhuo Cheng, Brodie Mather, Bonnie Dorr, Archna Bhatia, Bryanna Hebenstreit, Alan Zemel, Adam Dalton, Tomek Strzalkowski and Samira Shaikh(参考訳) 会話を行う真の人間的な能力を達成することは、オープンエンドの対話システムにとって、明白な目標である。 これは、現在、自然言語生成(NLG)へのアプローチが、人間の生成プロセスを適切にモデル化しないエンドツーエンドアーキテクチャとして解釈されているためである。 そこで我々は,生成を計画と実現の2つの段階に分けた。 計画段階では,2つのプランナーを訓練し,応答発話の計画を生成する。 実現フェーズでは、適切な応答を生成するためにレスポンスプランを使用する。 自動化と人間両方の厳密な評価を通じて、プロセスの計画と実現への分離がエンドツーエンドのアプローチよりも優れていることを示す。

Achieving true human-like ability to conduct a conversation remains an elusive goal for open-ended dialogue systems. We posit this is because extant approaches towards natural language generation (NLG) are typically construed as end-to-end architectures that do not adequately model human generation processes. To investigate, we decouple generation into two separate phases: planning and realization. In the planning phase, we train two planners to generate plans for response utterances. The realization phase uses response plans to produce an appropriate response. Through rigorous evaluations, both automated and human, we demonstrate that decoupling the process into planning and realization performs better than an end-to-end approach.
翻訳日:2022-10-14 08:44:21 公開日:2020-10-04
# モンテカルロ木探索によるカルカソンヌの演奏

Playing Carcassonne with Monte Carlo Tree Search ( http://arxiv.org/abs/2009.12974v2 )

ライセンス: Link先を確認
Fred Valdez Ameneyro, Edgar Galvan, Anger Fernando Kuri Morales(参考訳) モンテカルロ木探索 (monte carlo tree search, mcts) は、比較的新しいサンプリング法であり、文献には複数の変種がある。 ボードゲーム、ビデオゲーム、エネルギーベースの問題など、さまざまな課題領域に適用することができる。 本研究は,限定的な研究が行なわれている確率ゲームであるcarcassonneのゲームにおいて,バニラmctsとmctsを,迅速な動作値推定(mcts-rave)で使用することを検討するものである。 MCTSをベースとした手法とStar2.5アルゴリズムの長所を比較し,ドメイン固有のヒューリスティックを用いてゲーム状態を評価する場合,カーカッソンヌのゲームにおける競争結果が得られることを報告した。 我々は,アルゴリズムが共通報酬システムを共有する際に採用する戦略の特異性を分析する。 MCTSベースの手法は、MCTS-RAVEよりも堅牢なゲームプレイを示すバニラMCTSにより、長期戦略の発見と追跡能力から、Star2.5アルゴリズムを一貫して上回った。

Monte Carlo Tree Search (MCTS) is a relatively new sampling method with multiple variants in the literature. They can be applied to a wide variety of challenging domains including board games, video games, and energy-based problems to mention a few. In this work, we explore the use of the vanilla MCTS and the MCTS with Rapid Action Value Estimation (MCTS-RAVE) in the game of Carcassonne, a stochastic game with a deceptive scoring system where limited research has been conducted. We compare the strengths of the MCTS-based methods with the Star2.5 algorithm, previously reported to yield competitive results in the game of Carcassonne when a domain-specific heuristic is used to evaluate the game states. We analyse the particularities of the strategies adopted by the algorithms when they share a common reward system. The MCTS-based methods consistently outperformed the Star2.5 algorithm given their ability to find and follow long-term strategies, with the vanilla MCTS exhibiting a more robust game-play than the MCTS-RAVE.
翻訳日:2022-10-14 03:33:54 公開日:2020-10-04
# Vora値に基づくフィルタ設計法の数学的導出:勾配とヘシアン

Mathematical derivation for Vora-Value based filter design method: Gradient and Hessian ( http://arxiv.org/abs/2009.13696v2 )

ライセンス: Link先を確認
Yuteng Zhu and Graham D. Finlayson(参考訳) 本稿では,Vora値に基づくカラーフィルタ最適化のための勾配行列とヘッセン行列の詳細な数学的導出について述べる。 対象関数の微分に関わるステップの完全な再カプセル化を行い、正の正則化が適用されたときに正定値のヘッセン行列を明らかにする。 本稿では,カラーフィルタ設計理論における論文の補助材料として機能する。

In this paper, we present the detailed mathematical derivation of the gradient and Hessian matrix for the Vora-Value based colorimetric filter optimization. We make a full recapitulation of the steps involved in differentiating the objective function and reveal the positive-definite Hessian matrix when a positive regularizer is applied. This paper serves as a supplementary material for our paper in the colorimetric filter design theory.
翻訳日:2022-10-13 06:56:11 公開日:2020-10-04
# 集団カウントのための不確かさ推定とサンプル選択

Uncertainty Estimation and Sample Selection for Crowd Counting ( http://arxiv.org/abs/2009.14411v2 )

ライセンス: Link先を確認
Viresh Ranjan, Boyu Wang, Mubarak Shah, Minh Hoai(参考訳) 本稿では,群衆密度マップと予測された密度マップに関する不確実性値とを同時に予測できる画像に基づく群集カウント手法を提案する。 予測の不確実性を得るために,ガウス分布を用いた群集密度値をモデル化し,これらの分布を予測する畳み込みニューラルネットワークアーキテクチャを開発する。 既存のクラウドカウント手法に比べて,提案手法の重要な利点は,予測の不確かさを定量化できることである。 本稿では,新しいドメインにカウントネットワークを適応させるのに必要な人的アノテーションの労力を削減する手法を開発し,予測の不確実性を知る利点について述べる。 本研究では,あるドメインで訓練されたネットワークからの予測の密度と不確実性を利用して,対象ドメインから情報的画像を選択し,人間のアノテーションを取得するサンプル選択戦略を提案する。 サンプル選択戦略は、ソースドメイン上でトレーニングされたカウントネットワークをターゲットドメインに適応させるために必要なラベル付きデータ量を劇的に削減することを示す。 経験的に、UCF-QNRFデータセットでトレーニングされたネットワークは、ターゲットドメインからラベル付きトレーニングサンプルの17$\%しか使用せずに、NWPUデータセットと上海テックデータセットの最先端結果のパフォーマンスを上回るように適応することができる。

We present a method for image-based crowd counting, one that can predict a crowd density map together with the uncertainty values pertaining to the predicted density map. To obtain prediction uncertainty, we model the crowd density values using Gaussian distributions and develop a convolutional neural network architecture to predict these distributions. A key advantage of our method over existing crowd counting methods is its ability to quantify the uncertainty of its predictions. We illustrate the benefits of knowing the prediction uncertainty by developing a method to reduce the human annotation effort needed to adapt counting networks to a new domain. We present sample selection strategies which make use of the density and uncertainty of predictions from the networks trained on one domain to select the informative images from a target domain of interest to acquire human annotation. We show that our sample selection strategy drastically reduces the amount of labeled data from the target domain needed to adapt a counting network trained on a source domain to the target domain. Empirically, the networks trained on UCF-QNRF dataset can be adapted to surpass the performance of the previous state-of-the-art results on NWPU dataset and Shanghaitech dataset using only 17$\%$ of the labeled training samples from the target domain.
翻訳日:2022-10-12 23:54:18 公開日:2020-10-04
# ニューラルランゲージモデルの修辞的能力の検討

Examining the rhetorical capacities of neural language models ( http://arxiv.org/abs/2010.00153v2 )

ライセンス: Link先を確認
Zining Zhu, Chuer Pan, Mohamed Abdalla, Frank Rudzicz(参考訳) 近年、ニューラルネットワークモデル(LM)は、高品質な談話を生成する際、印象的な能力を示している。 近年の論文の多くは、LMに符号化された構文的側面を解析しているが、その間、修辞的知識の分析は行われていない。 本稿では,神経lmsの修辞的容量を定量的に評価する手法を提案する。 RST(Rhetorical Structure Theory)から派生した言語的特徴のセットを符号化する能力を評価することにより,談話の修辞的理解能力について検討した。 実験の結果,BERT をベースとした LM は他の Transformer LM よりも優れており,中間層表現におけるより豊かな談話知識が明らかとなった。 さらに, GPT-2 と XLNet は, 言語学的な知識の少ないことを示唆し, 言語哲学からの説明を提案する。 本手法は,ニューラルネットワークの修辞能力の定量化への道筋を示す。

Recently, neural language models (LMs) have demonstrated impressive abilities in generating high-quality discourse. While many recent papers have analyzed the syntactic aspects encoded in LMs, there has been no analysis to date of the inter-sentential, rhetorical knowledge. In this paper, we propose a method that quantitatively evaluates the rhetorical capacities of neural LMs. We examine the capacities of neural LMs understanding the rhetoric of discourse by evaluating their abilities to encode a set of linguistic features derived from Rhetorical Structure Theory (RST). Our experiments show that BERT-based LMs outperform other Transformer LMs, revealing the richer discourse knowledge in their intermediate layer representations. In addition, GPT-2 and XLNet apparently encode less rhetorical knowledge, and we suggest an explanation drawing from linguistic philosophy. Our method shows an avenue towards quantifying the rhetorical capacities of neural LMs.
翻訳日:2022-10-12 08:02:45 公開日:2020-10-04
# ニューラルネットワークを用いた電気インピーダンストモグラフィによる自己センシング材料の空間的損傷特性の検討

Spatial Damage Characterization in Self-Sensing Materials via Neural Network-Aided Electrical Impedance Tomography: A Computational Study ( http://arxiv.org/abs/2010.01674v1 )

ライセンス: Link先を確認
Lang Zhao, Tyler Tallman, Guang Lin(参考訳) 高リスク構造物の安全運転を確保するためには, 連続構造健康モニタリング(SHM)と非破壊評価(NDE)が重要である。 近年, 耐圧性ナノコンポジット材料はSHMとNDEに大きな注目を集めている。 これらの材料は、変形や損傷に応じて電気伝導度が変化するため、自己感知する。 電気インピーダンストモグラフィ(EIT)と組み合わせることで、有害な効果をマッピングすることができる。 しかし、eitは重要な制限に苦しむ -- 計算コストが高く、損傷形状に関する不明瞭な情報を提供し、近接すれば複数の損傷を見逃す可能性がある。 本稿では、EITデータからサイズ、数、位置などの損傷指標を定量化するために、新しいニューラルネットワークアプローチを適用する。 このネットワークは、ピエゾ抵抗性カーボンナノファイバー修飾エポキシの実験データに調整されたシミュレーションルーチンを用いて訓練される。 その結果, ネットワークは, 99.2%の精度で損傷数を予測し, 平均半径2.46%の誤差で損傷の大きさを定量化し, 平均0.89%の誤差でドメイン長に対する損傷位置を定量化できることがわかった。 これらの結果は、実世界のSHMとNDEに自己認識材料とEITの組み合わせを翻訳する上で重要な第一歩である。

Continuous structural health monitoring (SHM) and integrated nondestructive evaluation (NDE) are important for ensuring the safe operation of high-risk engineering structures. Recently, piezoresistive nanocomposite materials have received much attention for SHM and NDE. These materials are self-sensing because their electrical conductivity changes in response to deformation and damage. Combined with electrical impedance tomography (EIT), it is possible to map deleterious effects. However, EIT suffers from important limitations -- it is computationally expensive, provides indistinct information on damage shape, and can miss multiple damages if they are close together. In this article we apply a novel neural network approach to quantify damage metrics such as size, number, and location from EIT data. This network is trained using a simulation routine calibrated to experimental data for a piezoresistive carbon nanofiber-modified epoxy. Our results show that the network can predict the number of damages with 99.2% accuracy, quantify damage size with respect to the averaged radius at an average of 2.46% error, and quantify damage position with respect to the domain length at an average of 0.89% error. These results are an important first step in translating the combination of self-sensing materials and EIT to real-world SHM and NDE.
翻訳日:2022-10-11 04:18:19 公開日:2020-10-04
# 視覚的表現とディープラーニングを用いたiotマルウェアネットワークトラフィック分類

IoT Malware Network Traffic Classification using Visual Representation and Deep Learning ( http://arxiv.org/abs/2010.01712v1 )

ライセンス: Link先を確認
Gueltoum Bendiab, Stavros Shiaeles, Abdulrahman Alruban, Nicholas Kolokotronis(参考訳) IoTデバイスやテクノロジのサービス提供の増加に伴い、Malwareは、感染率の上昇と高度な技術レベルによる挑戦的な脅威として台頭している。 強力なセキュリティメカニズムがなければ、大量の機密データが脆弱性に晒され、サイバー犯罪者によって容易に悪用され、いくつかの違法な活動が行われる。 そのため、リアルタイムなトラフィック分析と悪意のあるトラフィックの軽減が可能な高度なネットワークセキュリティ機構が必要となる。 この課題に対処するため,我々は,新しいマルウェア(ゼロデイマルウェア)の検出と分類を高速化するために,ディープラーニングと視覚的表現を用いた新しいiotマルウェアトラフィック分析手法を提案する。 提案手法における悪意のあるネットワークトラフィックの検出はパッケージレベルで動作し、使用するディープラーニング技術による有望な結果による検出時間を大幅に削減する。 提案手法の性能を評価するため,異なるネットワークトラフィックソースから収集した正常およびマルウェアトラフィックの1000pcapファイルからなるデータセットを構築した。 残留ニューラルネットワーク(resnet50)の実験結果は非常に有望であり、マルウェアのトラフィックの検出に94.50%の精度を提供する。

With the increase of IoT devices and technologies coming into service, Malware has risen as a challenging threat with increased infection rates and levels of sophistication. Without strong security mechanisms, a huge amount of sensitive data is exposed to vulnerabilities, and therefore, easily abused by cybercriminals to perform several illegal activities. Thus, advanced network security mechanisms that are able of performing a real-time traffic analysis and mitigation of malicious traffic are required. To address this challenge, we are proposing a novel IoT malware traffic analysis approach using deep learning and visual representation for faster detection and classification of new malware (zero-day malware). The detection of malicious network traffic in the proposed approach works at the package level, significantly reducing the time of detection with promising results due to the deep learning technologies used. To evaluate our proposed method performance, a dataset is constructed which consists of 1000 pcap files of normal and malware traffic that are collected from different network traffic sources. The experimental results of Residual Neural Network (ResNet50) are very promising, providing a 94.50% accuracy rate for detection of malware traffic.
翻訳日:2022-10-11 04:17:55 公開日:2020-10-04
# ガス・石油探査のための機械学習

Machine Learning for Gas and Oil Exploration ( http://arxiv.org/abs/2010.04186v1 )

ライセンス: Link先を確認
Vito Alexander Nordloh, Anna Roub\'ickov\'a, Nick Brown(参考訳) ガス・石油抽出のための掘削孔は高価なプロセスであり、収益性は地下特性に強く依存する。 収益性は重要な成功要因であるため、業界内の企業は、地下の探査に十分なログを活用している。 これらの井戸の丸太はボーリングホール周辺の岩石の様々な特徴を含んでおり、石油物理学者が含有する炭化水素の量を決定することができる。 しかし、これらのログはしばしば不完全であり、その結果、その後の分析ではウェルログのポテンシャルをフル活用できない。 本稿では,機械学習がギャップ内でのemph{fillに適用可能であることを実証し,欠落した値を推定する。 学習データの量が予測精度にどのように影響するか,回帰モデル(段階的ブースティングとニューラルネットワーク)を最適に設計し,最適な結果を得る方法について検討する。 次に、モデルの予測を定量的に、予測誤差を追跡し、定性的に、与えられた特性に対する測定値と予測値の進化を深度で捉える。 この結果を組み合わせることで、ウェルログを完了し、その品質と潜在的な商業価値を高める予測モデルの開発が可能になった。

Drilling boreholes for gas and oil extraction is an expensive process and profitability strongly depends on characteristics of the subsurface. As profitability is a key success factor, companies in the industry utilise well logs to explore the subsurface beforehand. These well logs contain various characteristics of the rock around the borehole, which allow petrophysicists to determine the expected amount of contained hydrocarbon. However, these logs are often incomplete and, as a consequence, the subsequent analyses cannot exploit the full potential of the well logs. In this paper we demonstrate that Machine Learning can be applied to \emph{fill in the gaps} and estimate missing values. We investigate how the amount of training data influences the accuracy of prediction and how to best design regression models (Gradient Boosting and neural network) to obtain optimal results. We then explore the models' predictions both quantitatively, tracking the prediction error, and qualitatively, capturing the evolution of the measured and predicted values for a given property with depth. Combining the findings has enabled us to develop a predictive model that completes the well logs, increasing their quality and potential commercial value.
翻訳日:2022-10-11 04:17:25 公開日:2020-10-04
# uavを用いた空中物体の協調追跡と捕獲

Collaborative Tracking and Capture of Aerial Object using UAVs ( http://arxiv.org/abs/2010.01588v1 )

ライセンス: Link先を確認
Lima Agnel Tony, Shuvrangshu Jana, Varun V P, Vidyadhara B V, Mohitvishnu S Gadde, Abhishek Kashyap, Rahul Ravichandran, Debasish Ghose(参考訳) 本研究は、複数のUAVを用いた航空目標捕捉の問題について詳述する。 この問題は、Mohammed Bin Zayed International Robotic Challenge 2020のチャレンジ1から動機づけられている。 UAVは視覚フィードバックを利用して、目標を自律的に検出し、接近し、目標を運ぶ車両を邪魔することなく捕獲する。 マルチUAVコラボレーションはシステムの効率を向上し、ボールを短時間でしっかりと捕獲する可能性を高める。 本稿では,ROS-Gazebo環境におけるシミュレーションにより提案アーキテクチャを検証し,さらにハードウェア上で実装する。

This work details the problem of aerial target capture using multiple UAVs. This problem is motivated from the challenge 1 of Mohammed Bin Zayed International Robotic Challenge 2020. The UAVs utilise visual feedback to autonomously detect target, approach it and capture without disturbing the vehicle which carries the target. Multi-UAV collaboration improves the efficiency of the system and increases the chance of capturing the ball robustly in short span of time. In this paper, the proposed architecture is validated through simulation in ROS-Gazebo environment and is further implemented on hardware.
翻訳日:2022-10-11 04:16:44 公開日:2020-10-04
# 行動分析によるdnsカラットチャネル検出:機械学習によるアプローチ

DNS Covert Channel Detection via Behavioral Analysis: a Machine Learning Approach ( http://arxiv.org/abs/2010.01582v1 )

ライセンス: Link先を確認
Salvatore Saeli, Federica Bisio, Pierangelo Lombardo, Danilo Massa(参考訳) 正当なトラフィック間の隠れチャネルの検出は、ネットワークの多様性が高いため、深刻な課題である。 そこで本研究では,ネットワーク監視システムから受動的に抽出されたDNSネットワークデータの解析に基づいて,効果的な隠蔽チャネル検出手法を提案する。 このフレームワークは、機械学習モジュールと、その問題を記述することができる特定の異常指標の抽出に基づいている。 本論文の貢献は2つある。 i) 機械学習モデルには、ネットワークユーザに適したネットワークプロファイルが含まれており、単一のクエリイベントに特化していないため、行動プロファイルの作成と通常のベースラインからの逸脱の発見が可能になる。 (ii)モデルは教師なしモードで作成されるため、ゼロデイアタックを識別でき、新しい変種に対するシグネチャやヒューリスティックスの必要性を回避できる。 提案手法は,15日間にわたる実験セッションにおいて,最も関連する流出攻撃とトンネル攻撃をカバーするトラフィック注入について評価されている。

Detecting covert channels among legitimate traffic represents a severe challenge due to the high heterogeneity of networks. Therefore, we propose an effective covert channel detection method, based on the analysis of DNS network data passively extracted from a network monitoring system. The framework is based on a machine learning module and on the extraction of specific anomaly indicators able to describe the problem at hand. The contribution of this paper is two-fold: (i) the machine learning models encompass network profiles tailored to the network users, and not to the single query events, hence allowing for the creation of behavioral profiles and spotting possible deviations from the normal baseline; (ii) models are created in an unsupervised mode, thus allowing for the identification of zero-days attacks and avoiding the requirement of signatures or heuristics for new variants. The proposed solution has been evaluated over a 15-day-long experimental session with the injection of traffic that covers the most relevant exfiltration and tunneling attacks: all the malicious variants were detected, while producing a low false-positive rate during the same period.
翻訳日:2022-10-11 04:16:34 公開日:2020-10-04
# 運動データの複雑なリーダーシップ追従ダイナミクスのマイニングとモデリング

Mining and modeling complex leadership-followership dynamics of movement data ( http://arxiv.org/abs/2010.01587v1 )

ライセンス: Link先を確認
Chainarong Amornbunchornvej and Tanya Y. Berger-Wolf(参考訳) リーダーシップとフォローシップは、人間を含む社会動物の集団的意思決定と組織の重要な部分である。 本質的には、リーダーとフォロワーの関係は動的であり、文脈や時間的要因によって異なる。 リーダーやフォロワーがどのように変化し、出現し、あるいは収束するかといったリーダーシップとフォロワーシップのダイナミクスを理解することで、科学者は集団意思決定や集団行動全般についてより深い洞察を得ることができる。 しかし,個人の活動データのみを考慮すれば,リーダやフォロワのダイナミクスを推測することは困難である。 本稿では,先行・追従の頻繁なパターンのマイニングとモデリングに焦点をあてる。 我々は,新しい計算問題を定式化し,グループ運動に関するいくつかの問題に対処できる枠組みを提案する。 リーダーシップ推論フレームワークmFLICAを用いて、一連のリーダーとその派閥を運動データセットから推測し、リーダーシップと追従のダイナミクスの両方の頻繁なパターンをマイニングしモデル化するためのアプローチを提案する。 我々は,いくつかのシミュレーションデータセットとbaboon ムーブメントの実世界データセットを用いてフレームワークの性能評価を行い,フレームワークの応用を実証した。 これらは新しい計算問題であり、我々の知る限りでは、それに対処するのに同等の方法がない。 したがって、既存のリーダーシップ推論フレームワークを変更して、比較のための非自明なベースラインを提供する。 当社のフレームワークは、すべてのデータセットにおいて、このベースラインよりもパフォーマンスが優れています。 我々のフレームワークは、科学者が移動データにおけるリーダーシップのダイナミクスに関する検証可能な科学的仮説を生成する機会を開放する。

Leadership and followership are essential parts of collective decision and organization in social animals, including humans. In nature, relationships of leaders and followers are dynamic and vary with context or temporal factors. Understanding dynamics of leadership and followership, such as how leaders and followers change, emerge, or converge, allows scientists to gain more insight into group decision-making and collective behavior in general. However, given only data of individual activities, it is challenging to infer the dynamics of leaders and followers. In this paper, we focus on mining and modeling frequent patterns of leading and following. We formalize new computational problems and propose a framework that can be used to address several questions regarding group movement. We use the leadership inference framework, mFLICA, to infer the time series of leaders and their factions from movement datasets and then propose an approach to mine and model frequent patterns of both leadership and followership dynamics. We evaluate our framework performance by using several simulated datasets, as well as the real-world dataset of baboon movement to demonstrate the applications of our framework. These are novel computational problems and, to the best of our knowledge, there are no existing comparable methods to address them. Thus, we modify and extend an existing leadership inference framework to provide a non-trivial baseline for comparison. Our framework performs better than this baseline in all datasets. Our framework opens the opportunities for scientists to generate testable scientific hypotheses about the dynamics of leadership in movement data.
翻訳日:2022-10-11 04:16:18 公開日:2020-10-04
# 3次元配向場変換

3D Orientation Field Transform ( http://arxiv.org/abs/2010.01453v1 )

ライセンス: Link先を確認
Wai-Tsun Yeung, Xiaohao Cai, Zizhen Liang, Byung-Ho Kang(参考訳) 2次元(2次元)配向場変換は、トップダウン処理による画像の2次元輪郭と曲線の増大に有効であることが証明された。 しかし、3d画像の向きが2dに比べて非常に複雑なため、3d画像では対応するものはない。 実用的、理論的には、3Dへの需要と関心は増大している。 この研究では、概念をモジュール化し、3d曲線に一般化する。 異なるモジュラー結合は、3d曲線のパッキングに対して異なる感度と異なる範囲の曲線を強化することが見出される。 原則として、提案された3次元配向場変換は自然に任意の次元に取り組むことができる。 特殊な場合として、従来の2次元方向場変換よりも単純な方法論を持つ2次元画像にも理想的である。 提案手法は, 透過電子顕微鏡トモグラフィーを用いて, 2次元曲線の強調から, より重要かつ興味深い3次元のトモグラフィで実証した。

The two-dimensional (2D) orientation field transform has been proved to be effective at enhancing 2D contours and curves in images by means of top-down processing. It, however, has no counterpart in three-dimensional (3D) images due to the extremely complicated orientation in 3D compared to 2D. Practically and theoretically, the demand and interest in 3D can only be increasing. In this work, we modularise the concept and generalise it to 3D curves. Different modular combinations are found to enhance curves to different extents and with different sensitivity to the packing of the 3D curves. In principle, the proposed 3D orientation field transform can naturally tackle any dimensions. As a special case, it is also ideal for 2D images, owning simpler methodology compared to the previous 2D orientation field transform. The proposed method is demonstrated with several transmission electron microscopy tomograms ranging from 2D curve enhancement to, the more important and interesting, 3D ones.
翻訳日:2022-10-11 04:09:30 公開日:2020-10-04
# オンライン相互知識蒸留による相互モダリティ型医用画像セグメンテーション

Towards Cross-modality Medical Image Segmentation with Online Mutual Knowledge Distillation ( http://arxiv.org/abs/2010.01532v1 )

ライセンス: Link先を確認
Kang Li, Lequan Yu, Shujun Wang and Pheng-Ann Heng(参考訳) 深層畳み込みニューラルネットワークの成功は、部分的には大量の注釈付きトレーニングデータによるものである。 しかし、実際には医療データアノテーションは通常高価であり、入手には時間がかかる。 本稿では,同じ解剖構造を持つマルチモダリティデータを臨床現場で広く活用し,あるモダリティ(あるいはアシスタントモダリティ)から学習した事前知識(例えば形状優先)を活用して,別のモダリティ(ターゲットモダリティ)におけるセグメンテーション性能を改善し,アノテーション不足を補うことを目的とする。 モダリティ特異的な外観差による学習の難しさを軽減するため,まず,画像アライメントモジュール(IAM, Image Alignment Module, IAM, IAM)を提案し,モダリティ共有知識を徹底的に活用し,目標モダリティ分割を容易にするためのMKD(Mutual Knowledge Distillation)手法を提案する。 具体的には、我々のフレームワークを2つの個別セグメンタの統合として定式化する。 各セグメンタは、対応するアノテーションから1つのモダリティ知識を明示的に抽出するだけでなく、暗黙的に他のモダリティ知識を相互誘導的に抽出する。 2つのセグメンタのアンサンブルは、両方のモダリティからの知識をさらに統合し、ターゲットモダリティに関する信頼できるセグメンテーション結果を生成する。 MMWHS 2017, MMWHS 2017において, 追加のMRIデータを活用することでCTセグメンテーションを大幅に改善し, 他の最先端のマルチモーダリティ学習法より優れることを示す。

The success of deep convolutional neural networks is partially attributed to the massive amount of annotated training data. However, in practice, medical data annotations are usually expensive and time-consuming to be obtained. Considering multi-modality data with the same anatomic structures are widely available in clinic routine, in this paper, we aim to exploit the prior knowledge (e.g., shape priors) learned from one modality (aka., assistant modality) to improve the segmentation performance on another modality (aka., target modality) to make up annotation scarcity. To alleviate the learning difficulties caused by modality-specific appearance discrepancy, we first present an Image Alignment Module (IAM) to narrow the appearance gap between assistant and target modality data.We then propose a novel Mutual Knowledge Distillation (MKD) scheme to thoroughly exploit the modality-shared knowledge to facilitate the target-modality segmentation. To be specific, we formulate our framework as an integration of two individual segmentors. Each segmentor not only explicitly extracts one modality knowledge from corresponding annotations, but also implicitly explores another modality knowledge from its counterpart in mutual-guided manner. The ensemble of two segmentors would further integrate the knowledge from both modalities and generate reliable segmentation results on target modality. Experimental results on the public multi-class cardiac segmentation data, i.e., MMWHS 2017, show that our method achieves large improvements on CT segmentation by utilizing additional MRI data and outperforms other state-of-the-art multi-modality learning methods.
翻訳日:2022-10-11 04:09:15 公開日:2020-10-04
# 表情とコミュニケーションのための顔ジェスチャインタフェース

Facial gesture interfaces for expression and communication ( http://arxiv.org/abs/2010.01567v1 )

ライセンス: Link先を確認
Michael J. Lyons(参考訳) 顔の動作に関する情報を画像シーケンスから自動抽出する作業が検討されている。 人間とコンピュータの相互作用(hci)の文脈において、認識を目的とした表現を許容するシステムとを区別することができる。 顔のアクション処理の作業の多くは、顔のアクションからの影響を自動的に認識するように向けられている。 対照的に、故意の顔行動に反応する顔ジェスチャーインタフェースは、比較的ほとんど注目されていない。 本稿では,意図的hciのための顔動作に依存する視覚ベースのインタフェースに関するいくつかのプロジェクトについて概説する。 テキスト入力、芸術的および音楽的な表現、モーター障害のあるユーザのための補助技術など、いくつかのドメインへのアプリケーションが導入されている。

Considerable effort has been devoted to the automatic extraction of information about action of the face from image sequences. Within the context of human-computer interaction (HCI) we may distinguish systems that allow expression from those which aim at recognition. Most of the work in facial action processing has been directed at automatically recognizing affect from facial actions. By contrast, facial gesture interfaces, which respond to deliberate facial actions, have received comparatively little attention. This paper reviews several projects on vision-based interfaces that rely on facial action for intentional HCI. Applications to several domains are introduced, including text entry, artistic and musical expression and assistive technology for motor-impaired users.
翻訳日:2022-10-11 04:08:43 公開日:2020-10-04
# AIFNet:ディープラーニングを用いた灌流解析のための血管機能自動推定

AIFNet: Automatic Vascular Function Estimation for Perfusion Analysis Using Deep Learning ( http://arxiv.org/abs/2010.01617v1 )

ライセンス: Link先を確認
Ezequiel de la Rosa, Diana M. Sima, Bjoern Menze, Jan S. Kirschke, David Robben(参考訳) 灌流造影は急性虚血性脳梗塞において重要であり,難治性陰茎および不可逆的損傷コア病変の定量化に有用である。 そのため、臨床医が最適な再灌流療法を決定するのに役立つ。 灌流CTイメージングでは、脳組織の異常を識別できる臨床的に解釈可能な灌流パラメータを得るためにデコンボリューション法が用いられる。 デコンボリューション法では、動脈入力関数 (AIF) と静脈出力関数 (venous output function) の2つの参照血管機能をモデルへの入力として選択する必要がある。 手動で行う場合、血管機能の選択は時間を要するものであり、再現性に乏しく、専門家の経験を要する。 これは、ペナムブラとコア病変の潜在的に信頼性の低い定量化につながるため、治療決定プロセスに害を与える可能性がある。 本研究では,完全自動訓練型ディープラーニングアプローチであるaifnetを用いて血流解析を自動化し,血管機能を推定する。 クラスタリングやセグメンテーションを使って血管のボクセルを選択する従来の方法とは異なり、AIFNetは血管機能推定に直接最適化されており、時間曲線プロファイルをよりよく認識することができる。 The public ISLES18 stroke databaseの検証により、AIFNetは血管機能推定とその後にデコンボリューションによって得られたパラメータマップとコア病変定量化のために、レイター間性能に達することが示されている。 我々は,AIFNetは臨床転移の可能性があり,灌流脱畳ソフトウェアに組み込むことができると結論付けた。

Perfusion imaging is crucial in acute ischemic stroke for quantifying the salvageable penumbra and irreversibly damaged core lesions. As such, it helps clinicians to decide on the optimal reperfusion treatment. In perfusion CT imaging, deconvolution methods are used to obtain clinically interpretable perfusion parameters that allow identifying brain tissue abnormalities. Deconvolution methods require the selection of two reference vascular functions as inputs to the model: the arterial input function (AIF) and the venous output function, with the AIF as the most critical model input. When manually performed, the vascular function selection is time demanding, suffers from poor reproducibility and is subject to the professionals' experience. This leads to potentially unreliable quantification of the penumbra and core lesions and, hence, might harm the treatment decision process. In this work we automatize the perfusion analysis with AIFNet, a fully automatic and end-to-end trainable deep learning approach for estimating the vascular functions. Unlike previous methods using clustering or segmentation techniques to select vascular voxels, AIFNet is directly optimized at the vascular function estimation, which allows to better recognise the time-curve profiles. Validation on the public ISLES18 stroke database shows that AIFNet reaches inter-rater performance for the vascular function estimation and, subsequently, for the parameter maps and core lesion quantification obtained through deconvolution. We conclude that AIFNet has potential for clinical transfer and could be incorporated in perfusion deconvolution software.
翻訳日:2022-10-11 04:08:34 公開日:2020-10-04
# AFN: 注意フィードバックネットワークに基づく3次元領域超解法

AFN: Attentional Feedback Network based 3D Terrain Super-Resolution ( http://arxiv.org/abs/2010.01626v1 )

ライセンス: Link先を確認
Ashish Kubade, Diptiben Patel, Avinash Sharma, K. S. Rajan(参考訳) 地球表面の特徴を表すTerrainは、シミュレーション、ルート計画、表面力学の分析、コンピュータグラフィックスベースのゲーム、エンターテイメント、映画など、多くのアプリケーションにおいて重要な役割を果たしている。 近年のデジタル技術の発展に伴い、これらのアプリケーションは地形に高解像度の細部を必要とする。 本稿では,低解像度デジタル標高モデル(LRDEM)の高分解能化を目的とした,完全畳み込み型ニューラルネットワークを用いた超解像アーキテクチャを提案する。 我々は、LRDEMと空中画像の情報を選択的に融合させ、高周波の特徴を増強し、現実的に地形を創出する「注意フィードバックネットワーク(AFN)」と呼ばれる注意ベースのフィードバック機構を用いて、LRDEMの超解像を行う。 本稿では,提案アーキテクチャを既存のDEM超解像法と比較し,提案アーキテクチャが入力RDEMの分解能を精度良く現実的に向上することを示す。

Terrain, representing features of an earth surface, plays a crucial role in many applications such as simulations, route planning, analysis of surface dynamics, computer graphics-based games, entertainment, films, to name a few. With recent advancements in digital technology, these applications demand the presence of high-resolution details in the terrain. In this paper, we propose a novel fully convolutional neural network-based super-resolution architecture to increase the resolution of low-resolution Digital Elevation Model (LRDEM) with the help of information extracted from the corresponding aerial image as a complementary modality. We perform the super-resolution of LRDEM using an attention-based feedback mechanism named 'Attentional Feedback Network' (AFN), which selectively fuses the information from LRDEM and aerial image to enhance and infuse the high-frequency features and to produce the terrain realistically. We compare the proposed architecture with existing state-of-the-art DEM super-resolution methods and show that the proposed architecture outperforms enhancing the resolution of input LRDEM accurately and in a realistic manner.
翻訳日:2022-10-11 04:08:08 公開日:2020-10-04
# 宇宙空間統合ネットワークにおける遅延指向型IoTタスクスケジューリングのための深層強化学習

Deep Reinforcement Learning for Delay-Oriented IoT Task Scheduling in Space-Air-Ground Integrated Network ( http://arxiv.org/abs/2010.01471v1 )

ライセンス: Link先を確認
Conghao Zhou, Wen Wu, Hongli He, Peng Yang, Feng Lyu, Nan Cheng, and Xuemin (Sherman) Shen(参考訳) 本稿では,宇宙空間統合ネットワーク(SAGIN)における遅延指向モノのインターネット(IoT)サービスにおけるタスクスケジューリング問題について検討する。 想定されたシナリオでは、無人航空機(uav)がiotデバイスからコンピューティングタスクを収集し、そのタスクをuavで処理したり、近くの基地局やリモート衛星にオフロードしたりできるオンラインオフロード決定を行う。 我々の目的は、UAVエネルギー容量の制約により、タスクのオフロードと計算遅延を最小限に抑えるタスクスケジューリングポリシーを設計することである。 この目的のために,まずオンラインスケジューリング問題をエネルギー制約マルコフ決定プロセス(mdp)として定式化する。 そして,タスク到達ダイナミクスを考慮した新しい深部リスク感応強化学習アルゴリズムを開発した。 具体的には、各状態に対する制約を超えるエネルギー消費量を測定するリスクを評価し、最適なポリシーを学習しながら遅延とリスクの最小化を重んじる最適パラメータを探索する。 シミュレーションの結果,UAVの容量制約を満たしつつ,確率的構成法と比較してタスク処理遅延を最大30%低減できることがわかった。

In this paper, we investigate a computing task scheduling problem in space-air-ground integrated network (SAGIN) for delay-oriented Internet of Things (IoT) services. In the considered scenario, an unmanned aerial vehicle (UAV) collects computing tasks from IoT devices and then makes online offloading decisions, in which the tasks can be processed at the UAV or offloaded to the nearby base station or the remote satellite. Our objective is to design a task scheduling policy that minimizes offloading and computing delay of all tasks given the UAV energy capacity constraint. To this end, we first formulate the online scheduling problem as an energy-constrained Markov decision process (MDP). Then, considering the task arrival dynamics, we develop a novel deep risk-sensitive reinforcement learning algorithm. Specifically, the algorithm evaluates the risk, which measures the energy consumption that exceeds the constraint, for each state and searches the optimal parameter weighing the minimization of delay and risk while learning the optimal policy. Extensive simulation results demonstrate that the proposed algorithm can reduce the task processing delay by up to 30% compared to probabilistic configuration methods while satisfying the UAV energy capacity constraint.
翻訳日:2022-10-11 04:07:03 公開日:2020-10-04
# グラフニューラルネットワークを用いたマルチモーダル検索

Multi-Modal Retrieval using Graph Neural Networks ( http://arxiv.org/abs/2010.01666v1 )

ライセンス: Link先を確認
Aashish Kumar Misraa, Ajinkya Kale, Pranav Aggarwal, Ali Aminian(参考訳) ストック写真やイラストのマーケットプレースであるAdobe Stockのような画像検索の現実世界のほとんどのアプリケーションは、ユーザがクエリイメージとして視覚的に(審美的に)も概念的に(同じ有能なオブジェクトを含む)も探す方法を必要としている。 画像からの視覚的表現の学習は、画像検索においてよく研究されている問題である。 画像の概念や属性に基づくフィルタリングは、伝統的にインデックスベースのフィルタリング(テキストタグなど)や、初期視覚埋め込みに基づく検索の後の再ランク付けによって達成される。 本稿では,同一の高次元空間における共同視覚と概念埋め込みについて学ぶ。 このジョイントモデルにより、ユーザは結果セットのセマンティクスを詳細に制御でき、画像のカタログをより迅速に探索することができる。 視覚的および概念的関係をグラフ構造としてモデル化し、ノード近傍でリッチな情報をキャプチャする。 このグラフ構造は,グラフニューラルネットワークを用いたマルチモーダルノード埋め込みの学習を支援する。 また,ユーザが検索アルゴリズムを制御できるように,選択した近傍接続に基づく新しい推定時間制御を導入する。 これらのマルチモーダル埋め込みを,ms-cocoデータセット上の画像検索と,ms-cocoおよびadobeストックデータセット上で定量的に定量的に評価する。

Most real world applications of image retrieval such as Adobe Stock, which is a marketplace for stock photography and illustrations, need a way for users to find images which are both visually (i.e. aesthetically) and conceptually (i.e. containing the same salient objects) as a query image. Learning visual-semantic representations from images is a well studied problem for image retrieval. Filtering based on image concepts or attributes is traditionally achieved with index-based filtering (e.g. on textual tags) or by re-ranking after an initial visual embedding based retrieval. In this paper, we learn a joint vision and concept embedding in the same high-dimensional space. This joint model gives the user fine-grained control over the semantics of the result set, allowing them to explore the catalog of images more rapidly. We model the visual and concept relationships as a graph structure, which captures the rich information through node neighborhood. This graph structure helps us learn multi-modal node embeddings using Graph Neural Networks. We also introduce a novel inference time control, based on selective neighborhood connectivity allowing the user control over the retrieval algorithm. We evaluate these multi-modal embeddings quantitatively on the downstream relevance task of image retrieval on MS-COCO dataset and qualitatively on MS-COCO and an Adobe Stock dataset.
翻訳日:2022-10-11 04:06:45 公開日:2020-10-04
# mossad: ソフトウェア盗作の検出を破る

Mossad: Defeating Software Plagiarism Detection ( http://arxiv.org/abs/2010.01700v1 )

ライセンス: Link先を確認
Breanna Devore-McDonald and Emery D. Berger(参考訳) 自動ソフトウェア盗作検出ツールは、提出された作業がコピーされていないことを保証するために教育環境で広く使われている。 これらのツールは、コンピュータサイエンスプログラムの登録数の増加や、オンラインコードの普及とともに使われてきた。 教育者は盗作検出ツールの堅牢性に頼っている; 作業上の前提は、検出を避けるのに必要な労力は、実際に割り当てられた作業を行うのに必要なものと同じくらい高いことである。 この論文はそうではないことを示している。 これは完全に自動的なプログラム変換アプローチであるMossadを示し、人気のあるソフトウェア盗作検出ツールを打ち破る。 Mossadは、遺伝子プログラミングにインスパイアされた技術とドメイン固有の知識を結びつけて、盗作検知を効果的に弱めるフレームワークである。 mossadはmossとjplagを含む4つのプラジャリズム検出器を倒すのに有効である。 mossadは高速かつ効果的であり、数分で検出から逃れる可能性のあるプログラムの修正版を生成することができる。 非決定論的アプローチのため、mossadは1つのプログラムから、正当な割り当てよりも疑わしいと分類される数十の変種を生成することができる。 実際の学生課題のコーパスにまたがるモサドの詳細な研究は、検出を回避する効果を示している。 ユーザ調査によると、大学院生のアシスタントたちは、Mossadの生成したコードを、本物の学生のコードと同じくらい読みやすく評価している。 この研究は、より堅牢な盗作検出ツールの研究と、コードレビューのような自然な盗作に抵抗する方法論のコンピュータサイエンス教育への統合の両方の必要性を動機付けている。

Automatic software plagiarism detection tools are widely used in educational settings to ensure that submitted work was not copied. These tools have grown in use together with the rise in enrollments in computer science programs and the widespread availability of code on-line. Educators rely on the robustness of plagiarism detection tools; the working assumption is that the effort required to evade detection is as high as that required to actually do the assigned work. This paper shows this is not the case. It presents an entirely automatic program transformation approach, Mossad, that defeats popular software plagiarism detection tools. Mossad comprises a framework that couples techniques inspired by genetic programming with domain-specific knowledge to effectively undermine plagiarism detectors. Mossad is effective at defeating four plagiarism detectors, including Moss and JPlag. Mossad is both fast and effective: it can, in minutes, generate modified versions of programs that are likely to escape detection. More insidiously, because of its non-deterministic approach, Mossad can, from a single program, generate dozens of variants, which are classified as no more suspicious than legitimate assignments. A detailed study of Mossad across a corpus of real student assignments demonstrates its efficacy at evading detection. A user study shows that graduate student assistants consistently rate Mossad-generated code as just as readable as authentic student code. This work motivates the need for both research on more robust plagiarism detection tools and greater integration of naturally plagiarism-resistant methodologies like code review into computer science education.
翻訳日:2022-10-11 04:01:15 公開日:2020-10-04
# mdreg-net: 全畳み込みネットワークと深い自己スーパービジョンを用いたマルチレゾリューション2相画像登録

MDReg-Net: Multi-resolution diffeomorphic image registration using fully convolutional networks with deep self-supervision ( http://arxiv.org/abs/2010.01465v1 )

ライセンス: Link先を確認
Hongming Li, Yong Fan(参考訳) 自己教師型学習環境下で,完全畳み込みネットワーク(FCN)を用いて,登録する画像のペア間の空間変換を学習するための微分型画像登録アルゴリズムを提案する。 ネットワークは、従来の画像登録アルゴリズムと同様に、固定画像と反動画像の間の画像回りの類似度メトリックを最大化することにより、画像対間の双相的空間変換を推定するように訓練されている。 多解像度画像登録フレームワークに実装され、画像間の大きな変形に対処するために、画像解像度の異なる空間変換を、深い自己監督と共同で、漸進的に最適化し、学習する。 空間ガウス平滑化カーネルをFCNと一体化して十分に滑らかな変形場を生成し、微分像登録を実現する。 特に、粗い解像度で学習される空間変換は、運動像をゆがめるために利用され、その後、より細かい解像度で漸進変換を学ぶのに使用される。 この手順は、全解像度に再帰的に進行し、累積変換は、移動画像を最も細かい解像度で反動させる最終変換として機能する。 高分解能3次元構造脳磁気共鳴(MR)画像の登録実験の結果,本手法で訓練した画像登録ネットワークは,最先端の画像登録アルゴリズムと比較して精度良く,数秒で頑健な画像登録結果が得られることが示された。

We present a diffeomorphic image registration algorithm to learn spatial transformations between pairs of images to be registered using fully convolutional networks (FCNs) under a self-supervised learning setting. The network is trained to estimate diffeomorphic spatial transformations between pairs of images by maximizing an image-wise similarity metric between fixed and warped moving images, similar to conventional image registration algorithms. It is implemented in a multi-resolution image registration framework to optimize and learn spatial transformations at different image resolutions jointly and incrementally with deep self-supervision in order to better handle large deformation between images. A spatial Gaussian smoothing kernel is integrated with the FCNs to yield sufficiently smooth deformation fields to achieve diffeomorphic image registration. Particularly, spatial transformations learned at coarser resolutions are utilized to warp the moving image, which is subsequently used for learning incremental transformations at finer resolutions. This procedure proceeds recursively to the full image resolution and the accumulated transformations serve as the final transformation to warp the moving image at the finest resolution. Experimental results for registering high resolution 3D structural brain magnetic resonance (MR) images have demonstrated that image registration networks trained by our method obtain robust, diffeomorphic image registration results within seconds with improved accuracy compared with state-of-the-art image registration algorithms.
翻訳日:2022-10-11 04:00:27 公開日:2020-10-04
# カラー画像認識のための重み付き一般化2次元4次主成分分析

Generalized Two-Dimensional Quaternion Principal Component Analysis with Weighting for Color Image Recognition ( http://arxiv.org/abs/2010.01477v1 )

ライセンス: Link先を確認
Zhi-Gang Jia, Zi-Jin Qiu, Mei-Xiang Zhao(参考訳) カラー画像解析のために,重み付けによる一般化2次元四元数主成分分析(G2DQPCA)手法を提案する。 2DQPCA の一般的なフレームワークとして、G2DQPCA は制約関数と目的関数の両方に$L_{p}$ノルムを課すことにより、異なる制約や要求に適応するように柔軟である。 四元ベクトル関数の勾配作用素は、実ベクトル関数の構造保存勾配作用素によって再定義される。 最小化最大化(MM)の枠組みの下で、G2DQPCAの最適閉形式解を得るために反復アルゴリズムを開発した。 減圧スキームによって生成される投影ベクトルは互いに直交する必要がある。 重み付け行列は主特徴の効果を拡大するために定義される。 重み付き投影ベースは、特徴数が増えるにつれて顔認識の精度が変化せず、狭い範囲で移動する。 実顔データベースに基づく数値結果は,提案手法が最先端アルゴリズムよりも優れていることを確認した。

A generalized two-dimensional quaternion principal component analysis (G2DQPCA) approach with weighting is presented for color image analysis. As a general framework of 2DQPCA, G2DQPCA is flexible to adapt different constraints or requirements by imposing $L_{p}$ norms both on the constraint function and the objective function. The gradient operator of quaternion vector functions is redefined by the structure-preserving gradient operator of real vector function. Under the framework of minorization-maximization (MM), an iterative algorithm is developed to obtain the optimal closed-form solution of G2DQPCA. The projection vectors generated by the deflating scheme are required to be orthogonal to each other. A weighting matrix is defined to magnify the effect of main features. The weighted projection bases remain the accuracy of face recognition unchanged or moving in a tight range as the number of features increases. The numerical results based on the real face databases validate that the newly proposed method performs better than the state-of-the-art algorithms.
翻訳日:2022-10-11 03:59:58 公開日:2020-10-04
# テクスチャ認識における普遍的敵意攻撃に関する研究

A Study for Universal Adversarial Attacks on Texture Recognition ( http://arxiv.org/abs/2010.01506v1 )

ライセンス: Link先を確認
Yingpeng Deng and Lina J. Karam(参考訳) 畳み込みニューラルネットワーク(CNN)が自然画像分類や物体認識問題に多大な進歩をもたらしたことを踏まえ、深層学習法は多くのテクスチャデータセット上で非常に優れた認識性能を達成できることが示されている。 しかし, 自然画像分類・物体認識タスクのCNNは, 様々な種類の敵攻撃手法に非常に脆弱であることが判明しているが, テクスチャ認識のためのディープラーニング手法の堅牢性はまだ検討されていない。 本稿では,全てのテクスチャデータセットに対して,80%以上の検査率でディープラーニングモデルを騙すことのできる,画像に依存しない対一の摂動が存在することを示す。 テストデータセット上の様々な攻撃手法を用いた計算摂動は、概して準知覚可能であり、低、中、高周波数成分の構造化パターンを含む。

Given the outstanding progress that convolutional neural networks (CNNs) have made on natural image classification and object recognition problems, it is shown that deep learning methods can achieve very good recognition performance on many texture datasets. However, while CNNs for natural image classification/object recognition tasks have been revealed to be highly vulnerable to various types of adversarial attack methods, the robustness of deep learning methods for texture recognition is yet to be examined. In our paper, we show that there exist small image-agnostic/univesal perturbations that can fool the deep learning models with more than 80\% of testing fooling rates on all tested texture datasets. The computed perturbations using various attack methods on the tested datasets are generally quasi-imperceptible, containing structured patterns with low, middle and high frequency components.
翻訳日:2022-10-11 03:59:40 公開日:2020-10-04
# storium: ループ内マシン生成のためのデータセットと評価プラットフォーム

STORIUM: A Dataset and Evaluation Platform for Machine-in-the-Loop Story Generation ( http://arxiv.org/abs/2010.01717v1 )

ライセンス: Link先を確認
Nader Akoury, Shufan Wang, Josh Whiting, Stephen Hood, Nanyun Peng, Mohit Iyyer(参考訳) ストーリー生成システムには、入力コンテキストが与えられた可塑性で楽しいストーリーを生成するよう求められる。 このタスクは、多数の多様なストーリーが単一のインプットから生まれうるため、不特定である。 大規模なアウトプット空間はストーリー生成モデルの構築と評価を困難にしており、(1)既存のデータセットには有意義なモデルを導くのに十分なコンテキストが欠けており、(2)既存の評価(クラウドソースと自動)は長期の創造的なテキストの評価には信頼できない。 これらの課題に対処するために、オンラインのコラボレーティブなストーリーテリングコミュニティであるSTORiumから構築されたデータセットと評価プラットフォームを導入する。 著者が作成したデータセットは6Kの長大なストーリー(125Mトークン)を含み、各物語全体にわたって微粒な自然言語アノテーション(例えば、キャラクタのゴールと属性)が散在し、モデルを導くための堅牢な情報源を形成しています。 我々は、STORiumにそれらを統合することで、データセット上で微調整された言語モデルを評価し、実際の著者は提案されたストーリーの継続をモデルに問い合わせ、編集することができる。 これらの編集で計算された自動メトリクスは、生成したストーリーのユーザ評価と、半構造化されたユーザーインタビューからの質的フィードバックの両方とよく相関する。 我々はSTORiumデータセットと評価プラットフォームを共にリリースし、ストーリー生成に関するより原則的な研究を促します。

Systems for story generation are asked to produce plausible and enjoyable stories given an input context. This task is underspecified, as a vast number of diverse stories can originate from a single input. The large output space makes it difficult to build and evaluate story generation models, as (1) existing datasets lack rich enough contexts to meaningfully guide models, and (2) existing evaluations (both crowdsourced and automatic) are unreliable for assessing long-form creative text. To address these issues, we introduce a dataset and evaluation platform built from STORIUM, an online collaborative storytelling community. Our author-generated dataset contains 6K lengthy stories (125M tokens) with fine-grained natural language annotations (e.g., character goals and attributes) interspersed throughout each narrative, forming a robust source for guiding models. We evaluate language models fine-tuned on our dataset by integrating them onto STORIUM, where real authors can query a model for suggested story continuations and then edit them. Automatic metrics computed over these edits correlate well with both user ratings of generated stories and qualitative feedback from semi-structured user interviews. We release both the STORIUM dataset and evaluation platform to spur more principled research into story generation.
翻訳日:2022-10-11 03:58:59 公開日:2020-10-04
# ダンクマン」は命を救う - 偏りのあるランダムウォークモードによる経路計画

"Drunk Man" Saves Our Lives: Route Planning by a Biased Random Walk Mode ( http://arxiv.org/abs/2010.03365v1 )

ライセンス: Link先を確認
Xinyi Hu, Quchen Miao, Zexuan Zhao(参考訳) 2017年にプエルトリコを襲ったハリケーンに基づいて、医療用パッケージとビデオ道路を配達できるドローン艦隊を特徴とする輸送可能な災害対応システム「dronego」を開発した。 遺伝的アルゴリズムとバイアス付きランダムウォークモデルでカバーし、酔っ払った男を模倣して、高度と道路情報のあるフィールドで実現可能なルートを探索する。 確率性を保証する提案機構と、目的関数偏りランダム性とを組み合わせる。 その結果, 時間を要するものの高い性能を示した。

Based on the hurricane striking Puerto Rico in 2017, we developed a transportable disaster response system "DroneGo" featuring a drone fleet capable of delivering the medical package and videoing roads. Covering with a genetic algorithm and a biased random walk model mimicking a drunk man to explore feasible routes on a field with altitude and road information. A proposal mechanism guaranteeing stochasticity and an objective function biasing randomness are combined. The results showed high performance though time-consuming.
翻訳日:2022-10-11 03:58:05 公開日:2020-10-04
# 少数・ゼロショットラベルを含む大規模多ラベルテキスト分類に関する実証的研究

An Empirical Study on Large-Scale Multi-Label Text Classification Including Few and Zero-Shot Labels ( http://arxiv.org/abs/2010.01653v1 )

ライセンス: Link先を確認
Ilias Chalkidis, Manos Fergadiotis, Sotiris Kotitsas, Prodromos Malakasiotis, Nikolaos Aletras and Ion Androutsopoulos(参考訳) 大規模多ラベルテキスト分類(LMTC)は、幅広い自然言語処理(NLP)アプリケーションを持ち、興味深い課題を提示している。 まず、非常に大きなラベルセットとLMTCデータセットの歪んだラベル分布のため、すべてのラベルがトレーニングセットでよく表現されているわけではない。 また、ラベル階層と人間のラベル付けガイドラインの違いは、グラフ認識アノテーションの近接に影響を及ぼす可能性がある。 最後にラベル階層は定期的に更新され、ゼロショット一般化が可能なlmtcモデルが必要となる。 現在のLMTCモデルはラベル・ワイズ・アテンション・ネットワーク(LWAN)を採用しており、(1)LMTCを平らなマルチラベル分類として扱う; (2) ゼロショット学習を改善するためにラベル階層を使用することができるが、このプラクティスは極めて過小評価されている; (3) 事前訓練された変換器(BERTなど)と組み合わせられていない。 ここでは,バニラLWANから階層分類アプローチ,移動学習までのLMTC手法のバッテリを,各ドメインの3つのデータセットに対して,頻繁,少ない,ゼロショット学習で実証的に評価した。 確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。 さらに,Transformerベースのアプローチは,2つのデータセットにおいて最先端の手法よりも優れており,BERTとLWANを組み合わせた新しい最先端手法を提案する。 最後に,ラベル階層を活用し,各データセットに導入したグラフ対応アノテーション近接尺度を考慮し,数点およびゼロショット学習を改善する新しいモデルを提案する。

Large-scale Multi-label Text Classification (LMTC) has a wide range of Natural Language Processing (NLP) applications and presents interesting challenges. First, not all labels are well represented in the training set, due to the very large label set and the skewed label distributions of LMTC datasets. Also, label hierarchies and differences in human labelling guidelines may affect graph-aware annotation proximity. Finally, the label hierarchies are periodically updated, requiring LMTC models capable of zero-shot generalization. Current state-of-the-art LMTC models employ Label-Wise Attention Networks (LWANs), which (1) typically treat LMTC as flat multi-label classification; (2) may use the label hierarchy to improve zero-shot learning, although this practice is vastly understudied; and (3) have not been combined with pre-trained Transformers (e.g. BERT), which have led to state-of-the-art results in several NLP benchmarks. Here, for the first time, we empirically evaluate a battery of LMTC methods from vanilla LWANs to hierarchical classification approaches and transfer learning, on frequent, few, and zero-shot learning on three datasets from different domains. We show that hierarchical methods based on Probabilistic Label Trees (PLTs) outperform LWANs. Furthermore, we show that Transformer-based approaches outperform the state-of-the-art in two of the datasets, and we propose a new state-of-the-art method which combines BERT with LWANs. Finally, we propose new models that leverage the label hierarchy to improve few and zero-shot learning, considering on each dataset a graph-aware annotation proximity measure that we introduce.
翻訳日:2022-10-11 03:51:20 公開日:2020-10-04
# 高レベルテキスト理解のための質問生成

Inquisitive Question Generation for High Level Text Comprehension ( http://arxiv.org/abs/2010.01657v1 )

ライセンス: Link先を確認
Wei-Jen Ko and Te-Yuan Chen and Yiyan Huang and Greg Durrett and Junyi Jessy Li(参考訳) 質問は、さまざまな設定で人間に自然に行われるが、自動システムにとって難しい課題である。 質問する自然なタイプの質問は、ニュース記事を読むなど、テキスト理解中に知識のギャップを埋めようとするものだ。 データ駆動アプローチの最近の進歩にもかかわらず、このような疑問の生成は、既存のデータセットでトレーニングされたモデルの範囲を超えている。 InQUISITIVEは、ある人が文書を読んでいる間に引き出される約19Kの質問のデータセットである。 既存のデータセットと比較すると、INQUISITIVEの質問はテキストの高レベルな(セマンティックな)理解をターゲットとしている。 我々は,読者が情報を求めるための実践的な戦略に携わることを示す。 最後に,gpt-2に基づく質問生成モデルを評価し,課題が困難ではあるが合理的な質問を生成できることを示すとともに,質問文作成における文脈の重要性を強調する。

Inquisitive probing questions come naturally to humans in a variety of settings, but is a challenging task for automatic systems. One natural type of question to ask tries to fill a gap in knowledge during text comprehension, like reading a news article: we might ask about background information, deeper reasons behind things occurring, or more. Despite recent progress with data-driven approaches, generating such questions is beyond the range of models trained on existing datasets. We introduce INQUISITIVE, a dataset of ~19K questions that are elicited while a person is reading through a document. Compared to existing datasets, INQUISITIVE questions target more towards high-level (semantic and discourse) comprehension of text. We show that readers engage in a series of pragmatic strategies to seek information. Finally, we evaluate question generation models based on GPT-2 and show that our model is able to generate reasonable questions although the task is challenging, and highlight the importance of context to generate INQUISITIVE questions.
翻訳日:2022-10-11 03:50:49 公開日:2020-10-04
# 意味的潜在空間からの対話応答の生成

Generating Dialogue Responses from a Semantic Latent Space ( http://arxiv.org/abs/2010.01658v1 )

ライセンス: Link先を確認
Wei-Jen Ko and Avik Ray and Yilin Shen and Hongxia Jin(参考訳) 既存のオープンドメイン対話生成モデルは、通常、語彙のクロスエントロピー損失を用いてトレーニングセットのゴールド応答を模倣するように訓練される。 しかし、あるプロンプトに対する複数の応答があるため、よい応答はゴールド応答に似ている必要はない。 本研究では,現在のモデルでは,プロンプトの複数の意味論的に類似した有効な応答から情報を統合できないという仮説を立てる。 この問題に対処するため,語彙のエンドツーエンド分類に代わる手法を提案する。 代わりに、潜在空間における回帰タスクとして、プロンプトと応答のペア関係を学習する。 新たなダイアログ生成モデルでは,意味的関連文の表現は潜在空間上で互いに近接している。 人間の評価は、連続した空間でタスクを学習すると、関連性と情報性の両方を持つ応答が生成されることを示した。

Existing open-domain dialogue generation models are usually trained to mimic the gold response in the training set using cross-entropy loss on the vocabulary. However, a good response does not need to resemble the gold response, since there are multiple possible responses to a given prompt. In this work, we hypothesize that the current models are unable to integrate information from multiple semantically similar valid responses of a prompt, resulting in the generation of generic and uninformative responses. To address this issue, we propose an alternative to the end-to-end classification on vocabulary. We learn the pair relationship between the prompts and responses as a regression task on a latent space instead. In our novel dialog generation model, the representations of semantically related sentences are close to each other on the latent space. Human evaluation showed that learning the task on a continuous space can generate responses that are both relevant and informative.
翻訳日:2022-10-11 03:50:32 公開日:2020-10-04
# 多言語ニューラルマシン翻訳における目標側語彙伝達の改善

Improving Target-side Lexical Transfer in Multilingual Neural Machine Translation ( http://arxiv.org/abs/2010.01667v1 )

ライセンス: Link先を確認
Luyu Gao, Xinyi Wang, Graham Neubig(参考訳) 低リソース言語~(LRL)に対するニューラルマシン翻訳〜(NMT)の性能を改善するために、関連する高リソース言語~(HRL)からの並列データを活用することが効果的な戦略である。 しかし、多言語データは、LRLからターゲット言語に翻訳するNMTモデルにとって、LRLに翻訳するモデルよりも有益であることが判明した。 本稿では,より優れたデコーダ単語の埋め込みを設計することにより,LRLを翻訳するNMTモデルの多言語変換の有効性を向上させることを目的とする。 汎用多言語符号化手法であるSoft Decoupled Encoding~\citep{SDE}を拡張し,NMTデコーダ用に特別に設計された効率の良い文字n-gramベースの埋め込みであるDecSDEを提案する。 実験の結果,DecSDEは最大1.8BLEUの英語から4つの言語への翻訳において一貫した向上をもたらすことがわかった。

To improve the performance of Neural Machine Translation~(NMT) for low-resource languages~(LRL), one effective strategy is to leverage parallel data from a related high-resource language~(HRL). However, multilingual data has been found more beneficial for NMT models that translate from the LRL to a target language than the ones that translate into the LRLs. In this paper, we aim to improve the effectiveness of multilingual transfer for NMT models that translate \emph{into} the LRL, by designing a better decoder word embedding. Extending upon a general-purpose multilingual encoding method Soft Decoupled Encoding~\citep{SDE}, we propose DecSDE, an efficient character n-gram based embedding specifically designed for the NMT decoder. Our experiments show that DecSDE leads to consistent gains of up to 1.8 BLEU on translation from English to four different languages.
翻訳日:2022-10-11 03:50:17 公開日:2020-10-04
# 対話要約のための対話構造を有する多視点シーケンス対シーケンスモデル

Multi-View Sequence-to-Sequence Models with Conversational Structure for Abstractive Dialogue Summarization ( http://arxiv.org/abs/2010.01672v1 )

ライセンス: Link先を確認
Jiaao Chen, Diyi Yang(参考訳) テキスト要約はnlpで最も挑戦的で興味深い問題の1つです。 ニュースや百科事典などの構造化テキストの要約には多くの注意が払われているが、会話の要約は人間と機械の相互作用の重要な部分であり、最も重要な情報が様々な話者の発話に散らばっている。 本研究は,まず異なる視点から非構造化日々チャットの会話構造を抽出し,対話を表現し,その後にマルチビューデコーダを用いて異なる視点を取り込んで対話要約を生成するマルチビューシーケンス・ツー・シーケンスモデルを提案する。 大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両方により,従来の最先端モデルよりも有意に優れていた。 我々はまた、このタスクで現在のアプローチが直面した特定の課題についても論じた。 私たちはコードをhttps://github.com/gt-salt/multi-view-seq2seqで公開しました。

Text summarization is one of the most challenging and interesting problems in NLP. Although much attention has been paid to summarizing structured text like news reports or encyclopedia articles, summarizing conversations---an essential part of human-human/machine interaction where most important pieces of information are scattered across various utterances of different speakers---remains relatively under-investigated. This work proposes a multi-view sequence-to-sequence model by first extracting conversational structures of unstructured daily chats from different views to represent conversations and then utilizing a multi-view decoder to incorporate different views to generate dialogue summaries. Experiments on a large-scale dialogue summarization corpus demonstrated that our methods significantly outperformed previous state-of-the-art models via both automatic evaluations and human judgment. We also discussed specific challenges that current approaches faced with this task. We have publicly released our code at https://github.com/GT-SALT/Multi-View-Seq2Seq.
翻訳日:2022-10-11 03:50:00 公開日:2020-10-04
# 半教師付きNERのための局所付加性に基づくデータ拡張

Local Additivity Based Data Augmentation for Semi-supervised NER ( http://arxiv.org/abs/2010.01677v1 )

ライセンス: Link先を確認
Jiaao Chen, Zhenghui Wang, Ran Tian, Zichao Yang, Diyi Yang(参考訳) 名前付きエンティティ認識(NER)は、深層言語理解の第1段階の1つだが、現在のNERモデルは人間の注釈付きデータに大きく依存している。 本研究では,ラベル付きデータへの依存を軽減するために,半教師付きNERのための局所付加性に基づくデータ拡張(LADA)手法を提案する。 提案手法には,1文以内のトークン間の補間を行うLADA内とLADA間という2つのバリエーションがあり,LADA間は相互補間のために異なる文をサンプリングする。 サンプルトレーニングデータ間の線形付加により、LADAは無限量のラベル付きデータを生成し、エンティティとコンテキストの学習を改善する。 ラベルのないデータに対する新しい一貫性損失を設計することにより、LADAをさらに半教師付き設定に拡張する。 2つのNERベンチマークで行った実験は、いくつかの強いベースライン上での手法の有効性を示した。 私たちはコードをhttps://github.com/gt-salt/ladaで公開しています。

Named Entity Recognition (NER) is one of the first stages in deep language understanding yet current NER models heavily rely on human-annotated data. In this work, to alleviate the dependence on labeled data, we propose a Local Additivity based Data Augmentation (LADA) method for semi-supervised NER, in which we create virtual samples by interpolating sequences close to each other. Our approach has two variations: Intra-LADA and Inter-LADA, where Intra-LADA performs interpolations among tokens within one sentence, and Inter-LADA samples different sentences to interpolate. Through linear additions between sampled training data, LADA creates an infinite amount of labeled data and improves both entity and context learning. We further extend LADA to the semi-supervised setting by designing a novel consistency loss for unlabeled data. Experiments conducted on two NER benchmarks demonstrate the effectiveness of our methods over several strong baselines. We have publicly released our code at https://github.com/GT-SALT/LADA.
翻訳日:2022-10-11 03:49:45 公開日:2020-10-04
# 災害管理のためのソーシャルメディアテキストによる微粒化イベント認識

Weakly-supervised Fine-grained Event Recognition on Social Media Texts for Disaster Management ( http://arxiv.org/abs/2010.01683v1 )

ライセンス: Link先を確認
Wenlin Yao, Cheng Zhang, Shiva Saravanan, Ruihong Huang, Ali Mostafavi(参考訳) 人々はソーシャルメディアを使って緊急事態を報告したり、災害時に助けを求めたり、情報を共有したりしている。 このような時間クリティカルなニーズを満たすために、個々のTwitterメッセージをきめ細かいイベントカテゴリにラベル付けする高品質な分類器を迅速に構築するための、弱教師付きアプローチを提案する。 最も重要なのは、イベントキーワードを含むツイートを自動的にクラスタリングし、ドメインの専門家にイベントワードセンスやラベルクラスタを素早く曖昧にするための、高品質なラベル付きデータを作成する方法を提案することである。 さらに、非常に騒々しく、より短いユーザ生成メッセージを処理するために、先行するコンテキストのつぶやきを使ってツイート表現を豊かにし、イベント認識分類器を構築する。 Harvey と Florence という2つのハリケーンの評価は、ヒトの監督に1~2時間しかかからず、急速に訓練された弱い教師付き分類器は、50時間以上で生成された1万件以上の注釈付きツイートを使用して訓練された教師付き分類器よりも優れていることを示している。

People increasingly use social media to report emergencies, seek help or share information during disasters, which makes social networks an important tool for disaster management. To meet these time-critical needs, we present a weakly supervised approach for rapidly building high-quality classifiers that label each individual Twitter message with fine-grained event categories. Most importantly, we propose a novel method to create high-quality labeled data in a timely manner that automatically clusters tweets containing an event keyword and asks a domain expert to disambiguate event word senses and label clusters quickly. In addition, to process extremely noisy and often rather short user-generated messages, we enrich tweet representations using preceding context tweets and reply tweets in building event recognition classifiers. The evaluation on two hurricanes, Harvey and Florence, shows that using only 1-2 person-hours of human supervision, the rapidly trained weakly supervised classifiers outperform supervised classifiers trained using more than ten thousand annotated tweets created in over 50 person-hours.
翻訳日:2022-10-11 03:49:28 公開日:2020-10-04
# ホップフィールドネットワークの学習ルールに関する新たな視点:記憶と目的関数の最小化

New Insights on Learning Rules for Hopfield Networks: Memory and Objective Function Minimisation ( http://arxiv.org/abs/2010.01472v1 )

ライセンス: Link先を確認
Pavel Tolmachev and Jonathan H. Manton(参考訳) ホップフィールドニューラルネットワークは、生物における連想記憶のモデル化の基盤となる。 この分野での過去の研究を要約した後、我々は学習規則を様々なコスト関数の降下型アルゴリズムとして示した。 また,学習に適した新たなコスト関数を提案する。 ホップフィールドネットワークにおける学習過程におけるバイアス(外部入力)の役割について論じる。 さらに,記憶学習にニュートン法を適用し,様々な学習規則の性能を実験的に比較した。 最後に,ニューロンの接続がメモリ容量を増大させるか否かを議論するために,自己結合の効果を数値的に検討する。 キーワード:ホップフィールドネットワーク、連想メモリ、コンテンツアドレスメモリ、学習ルール、勾配降下、アトラクタネットワーク

Hopfield neural networks are a possible basis for modelling associative memory in living organisms. After summarising previous studies in the field, we take a new look at learning rules, exhibiting them as descent-type algorithms for various cost functions. We also propose several new cost functions suitable for learning. We discuss the role of biases (the external inputs) in the learning process in Hopfield networks. Furthermore, we apply Newtons method for learning memories, and experimentally compare the performances of various learning rules. Finally, to add to the debate whether allowing connections of a neuron to itself enhances memory capacity, we numerically investigate the effects of self coupling. Keywords: Hopfield Networks, associative memory, content addressable memory, learning rules, gradient descent, attractor networks
翻訳日:2022-10-11 03:49:07 公開日:2020-10-04
# 責任による説明可能性

Explainability via Responsibility ( http://arxiv.org/abs/2010.01676v1 )

ライセンス: Link先を確認
Faraz Khadivpour and Matthew Guzdial(参考訳) 機械学習による手続き的コンテンツ生成(PCGML)は、機械学習モデルを用いてゲームコンテンツ(例えば、プラットフォームレベル、ゲームマップなど)を作成するための一連の方法である。 PCGMLアプローチはブラックボックスモデルに依存しており、機械学習に関する専門知識を持たない人間設計者による理解とデバッグが難しい。 これは、人間のデザイナーがAIエージェントと対話してゲームコンテンツを生成する、共同創造システムにおいてさらに難しい。 本稿では,共創過程におけるAIエージェントの動作の説明として,特定のトレーニングインスタンスをユーザに提供する,説明可能な人工知能へのアプローチを提案する。 このアプローチは、aiエージェントのアクションの説明を人間ユーザーに提供し、aiエージェントとより効率的に協力できるようにする能力を近似して評価する。

Procedural Content Generation via Machine Learning (PCGML) refers to a group of methods for creating game content (e.g. platformer levels, game maps, etc.) using machine learning models. PCGML approaches rely on black box models, which can be difficult to understand and debug by human designers who do not have expert knowledge about machine learning. This can be even more tricky in co-creative systems where human designers must interact with AI agents to generate game content. In this paper we present an approach to explainable artificial intelligence in which certain training instances are offered to human users as an explanation for the AI agent's actions during a co-creation process. We evaluate this approach by approximating its ability to provide human users with the explanations of AI agent's actions and helping them to more efficiently cooperate with the AI agent.
翻訳日:2022-10-11 03:48:56 公開日:2020-10-04
# ゲーム表現としてのエンティティ埋め込み

Entity Embedding as Game Representation ( http://arxiv.org/abs/2010.01685v1 )

ライセンス: Link先を確認
Nazanin Yousefzadeh Khameneh and Matthew Guzdial(参考訳) 機械学習(PCGML)による手続き的コンテンツ生成は、機械学習による新しいビデオゲームコンテンツの生成に成功している。 しかし、作品の大半は、ゲームレベルや視覚要素を含む静的なゲームコンテンツの生産に焦点を当てている。 ゲームメカニズムなど、動的なゲームコンテンツに関する作業はずっと少なくなっている。 この理由の1つは、動的ゲームコンテンツの一貫した表現が欠如していることであり、これは多くの統計的機械学習アプローチの鍵である。 我々は、複数のゲームにまたがる異なる動的エンティティを同じ表現で表現するための一貫した方法である「エンティティ埋め込み」を導出するためのオートエンコーダを提案する。 本稿では,学習した表現と,その品質と将来性に関するいくつかの証拠を紹介する。

Procedural content generation via machine learning (PCGML) has shown success at producing new video game content with machine learning. However, the majority of the work has focused on the production of static game content, including game levels and visual elements. There has been much less work on dynamic game content, such as game mechanics. One reason for this is the lack of a consistent representation for dynamic game content, which is key for a number of statistical machine learning approaches. We present an autoencoder for deriving what we call "entity embeddings", a consistent way to represent different dynamic entities across multiple games in the same representation. In this paper we introduce the learned representation, along with some evidence towards its quality and future utility.
翻訳日:2022-10-11 03:48:44 公開日:2020-10-04
# MIME:共感反応生成のためのMIMicking Emotions

MIME: MIMicking Emotions for Empathetic Response Generation ( http://arxiv.org/abs/2010.01454v1 )

ライセンス: Link先を確認
Navonil Majumder, Pengfei Hong, Shanshan Peng, Jiankun Lu, Deepanway Ghosal, Alexander Gelbukh, Rada Mihalcea, Soujanya Poria(参考訳) 共感的応答生成への現在のアプローチは、入力テキストで表現された感情の集合を平らな構造とみなし、すべての感情が一様に扱われる。 共感的反応は、その肯定性や否定性や内容に応じて、ユーザの感情を様々な程度まで模倣することが多い。 この極性に基づく感情クラスターと感情的模倣を考慮すれば、その反応の共感と文脈的関連性は、最先端技術と比較して向上する。 また、感情の混合に確率性を導入し、前作よりも感情的に多様な共感反応をもたらす。 自動評価と人的評価の両方を用いた共感的反応生成におけるこれらの因子の重要性を示す。 MIMEの実装はhttps://github.com/declare-lab/MIMEで公開されている。

Current approaches to empathetic response generation view the set of emotions expressed in the input text as a flat structure, where all the emotions are treated uniformly. We argue that empathetic responses often mimic the emotion of the user to a varying degree, depending on its positivity or negativity and content. We show that the consideration of this polarity-based emotion clusters and emotional mimicry results in improved empathy and contextual relevance of the response as compared to the state-of-the-art. Also, we introduce stochasticity into the emotion mixture that yields emotionally more varied empathetic responses than the previous work. We demonstrate the importance of these factors to empathetic response generation using both automatic- and human-based evaluations. The implementation of MIME is publicly available at https://github.com/declare-lab/MIME.
翻訳日:2022-10-11 03:42:20 公開日:2020-10-04
# グラフアテンションネットワークを用いた文構成型アスペクトカテゴリー知覚分析

Sentence Constituent-Aware Aspect-Category Sentiment Analysis with Graph Attention Networks ( http://arxiv.org/abs/2010.01461v1 )

ライセンス: Link先を確認
Yuncong Li, Cunxiang Yin and Sheng-hua Zhong(参考訳) アスペクトカテゴリー感情分析(ACSA)は、文章で議論されたアスペクトカテゴリーの感情極性を予測することを目的としている。 文は通常、1つ以上のアスペクトカテゴリを議論し、それらに対する異なる感情を表現するため、与えられたアスペクトカテゴリに対して適切な感情語を割り当て、有望な結果を得るために様々な注意ベースの手法が開発されている。 しかし、これらの手法の多くは、与えられたアスペクトのカテゴリを直接使用してアスペクトのカテゴリ関連感情語を見つけ、これは、特定のアスペクトのカテゴリに対して意味論的に無関係な感情語が意味のある場合に、感情の単語とアスペクトのカテゴリのミスマッチを引き起こす可能性がある。 この問題を軽減するために,アスペクト・カテゴリ・感情分析のためのSentence Constituent-Aware Network (SCAN)を提案する。 SCANには2つのグラフアテンションモジュールとインタラクティブな損失関数が含まれている。 グラフアテンションモジュールは、アスペクトカテゴリ検出(ACD)タスクとACSAタスクとに対して、文選択構文木中のノードの表現を生成する。 ACDは、文章で議論されているアスペクトカテゴリを検出し、補助的なタスクである。 任意のアスペクトカテゴリに対して、対話的損失関数は、acdタスクがアスペクトカテゴリを予測できるが他のアスペクトカテゴリを予測できないノードを見つけるのに役立つ。 ノード内の感情語は、ACSAタスクによってアスペクトカテゴリの感情極性を予測するために使用される。 5つの公開データセットの実験結果はSCANの有効性を示している。

Aspect category sentiment analysis (ACSA) aims to predict the sentiment polarities of the aspect categories discussed in sentences. Since a sentence usually discusses one or more aspect categories and expresses different sentiments toward them, various attention-based methods have been developed to allocate the appropriate sentiment words for the given aspect category and obtain promising results. However, most of these methods directly use the given aspect category to find the aspect category-related sentiment words, which may cause mismatching between the sentiment words and the aspect categories when an unrelated sentiment word is semantically meaningful for the given aspect category. To mitigate this problem, we propose a Sentence Constituent-Aware Network (SCAN) for aspect-category sentiment analysis. SCAN contains two graph attention modules and an interactive loss function. The graph attention modules generate representations of the nodes in sentence constituency parse trees for the aspect category detection (ACD) task and the ACSA task, respectively. ACD aims to detect aspect categories discussed in sentences and is a auxiliary task. For a given aspect category, the interactive loss function helps the ACD task to find the nodes which can predict the aspect category but can't predict other aspect categories. The sentiment words in the nodes then are used to predict the sentiment polarity of the aspect category by the ACSA task. The experimental results on five public datasets demonstrate the effectiveness of SCAN.
翻訳日:2022-10-11 03:42:09 公開日:2020-10-04
# もう一度聞く方法: 連続空間における制御可能な書き直しによる質問データ拡張

Tell Me How to Ask Again: Question Data Augmentation with Controllable Rewriting in Continuous Space ( http://arxiv.org/abs/2010.01475v1 )

ライセンス: Link先を確認
Dayiheng Liu, Yeyun Gong, Jie Fu, Yu Yan, Jiusheng Chen, Jiancheng Lv, Nan Duan and Ming Zhou(参考訳) 本稿では、機械読取理解(MRC)、質問生成、質問応答型自然言語推論タスクのための、制御可能な書き換えに基づく質問データ拡張(CRQDA)と呼ばれる新しいデータ拡張手法を提案する。 質問データ拡張タスクを制約付き質問書き換え問題として扱い,文脈関連,高品質,多様な質問データサンプルを生成する。 CRQDAはトランスフォーマーオートエンコーダを使用して、元の離散的な質問を連続的な埋め込み空間にマッピングする。 その後、事前学習されたmrcモデルを使用して、グラデーションベースの最適化によって質問表現を反復的に修正する。 最後に、修正された質問表現は離散空間にマッピングされ、追加の質問データとして機能する。 CRQDAの有効性を示すSQuAD 2.0、SQuAD 1.1質問生成、QNLIタスクに関する総合実験

In this paper, we propose a novel data augmentation method, referred to as Controllable Rewriting based Question Data Augmentation (CRQDA), for machine reading comprehension (MRC), question generation, and question-answering natural language inference tasks. We treat the question data augmentation task as a constrained question rewriting problem to generate context-relevant, high-quality, and diverse question data samples. CRQDA utilizes a Transformer autoencoder to map the original discrete question into a continuous embedding space. It then uses a pre-trained MRC model to revise the question representation iteratively with gradient-based optimization. Finally, the revised question representations are mapped back into the discrete space, which serve as additional question data. Comprehensive experiments on SQuAD 2.0, SQuAD 1.1 question generation, and QNLI tasks demonstrate the effectiveness of CRQDA
翻訳日:2022-10-11 03:41:45 公開日:2020-10-04
# 対話依存関係を用いたマルチターン応答選択

Multi-turn Response Selection using Dialogue Dependency Relations ( http://arxiv.org/abs/2010.01502v1 )

ライセンス: Link先を確認
Qi Jia, Yizhu Liu, Siyu Ren, Kenny Q. Zhu, Haifeng Tang(参考訳) マルチターン応答選択は対話エージェントを開発するために設計されたタスクである。 このタスクのパフォーマンスは、事前訓練された言語モデルで著しく改善されている。 しかし、これらのモデルは単に対話履歴のターンを入力として結合し、ターン間の依存関係をほとんど無視する。 本稿では,対話履歴を依存関係に基づいてスレッドに変換する対話抽出アルゴリズムを提案する。 各スレッドは自己完結したサブダイアログと見なすことができる。 また,事前学習したトランスフォーマによってスレッドや候補をコンパクト表現にエンコードし,最後にアテンション層を通してマッチングスコアを得るスレッドエンコーダモデルを提案する。 実験により,依存関係関係は対話コンテキストの理解に有効であることが示され,私たちのモデルはDSTC7とDSTC8*の双方で最先端のベースラインよりも優れており,UbuntuV2では競合する結果が得られている。

Multi-turn response selection is a task designed for developing dialogue agents. The performance on this task has a remarkable improvement with pre-trained language models. However, these models simply concatenate the turns in dialogue history as the input and largely ignore the dependencies between the turns. In this paper, we propose a dialogue extraction algorithm to transform a dialogue history into threads based on their dependency relations. Each thread can be regarded as a self-contained sub-dialogue. We also propose Thread-Encoder model to encode threads and candidates into compact representations by pre-trained Transformers and finally get the matching score through an attention layer. The experiments show that dependency relations are helpful for dialogue context understanding, and our model outperforms the state-of-the-art baselines on both DSTC7 and DSTC8*, with competitive results on UbuntuV2.
翻訳日:2022-10-11 03:41:29 公開日:2020-10-04
# 教師なし依存構文解析に関する調査

A Survey of Unsupervised Dependency Parsing ( http://arxiv.org/abs/2010.01535v1 )

ライセンス: Link先を確認
Wenjuan Han, Yong Jiang, Hwee Tou Ng, Kewei Tu(参考訳) 構文依存解析は自然言語処理において重要なタスクである。 教師なしの依存関係解析は、正しいパースツリーのアノテーションを持たない文から依存パーサを学ぶことを目的としている。 その難しさにもかかわらず、教師なし構文解析は、ほとんど無制限の注釈なしテキストデータを利用する能力があるため、興味深い研究方向である。 また、低リソース解析における他の研究の基礎でもある。 本稿では,教師なし依存関係解析の既存手法を調査し,2つの主要なアプローチクラスを特定し,最近のトレンドについて考察する。 われわれの調査が研究者に洞察を与え、今後の研究を促進することを願っている。

Syntactic dependency parsing is an important task in natural language processing. Unsupervised dependency parsing aims to learn a dependency parser from sentences that have no annotation of their correct parse trees. Despite its difficulty, unsupervised parsing is an interesting research direction because of its capability of utilizing almost unlimited unannotated text data. It also serves as the basis for other research in low-resource parsing. In this paper, we survey existing approaches to unsupervised dependency parsing, identify two major classes of approaches, and discuss recent trends. We hope that our survey can provide insights for researchers and facilitate future research on this topic.
翻訳日:2022-10-11 03:40:56 公開日:2020-10-04
# クルド語並列コーパス構築のための多言語ニュースサイト活用

Leveraging Multilingual News Websites for Building a Kurdish Parallel Corpus ( http://arxiv.org/abs/2010.01554v1 )

ライセンス: Link先を確認
Sina Ahmadi, Hossein Hassani, Daban Q. Jaff(参考訳) 機械翻訳は自然言語処理の発展の大きな動機となっている。 深層学習の手法により、より効率的な機械翻訳システムを構築するという先進的な成果にもかかわらず、並列コーパスはこの分野の進歩には不可欠である。 本稿では、クルド語の並列コーパスを作成するために、多言語Webサイトから潜在的に認識可能なニュース記事を取得し、語彙的類似性やスクリプトの文字化に基づく方言や言語間で手動で調整するアプローチについて述べる。 クルド語、ソラニ語、クルマンジ語の2方言に12,327の翻訳ペアを含むコーパスを提示する。 また、英語のクルマンジ語と英語のソルニ語で1,797と650の翻訳ペアを提供している。 コーパスはCC BY-NC-SA 4.0ライセンスで公開されている。

Machine translation has been a major motivation of development in natural language processing. Despite the burgeoning achievements in creating more efficient machine translation systems thanks to deep learning methods, parallel corpora have remained indispensable for progress in the field. In an attempt to create parallel corpora for the Kurdish language, in this paper, we describe our approach in retrieving potentially-alignable news articles from multi-language websites and manually align them across dialects and languages based on lexical similarity and transliteration of scripts. We present a corpus containing 12,327 translation pairs in the two major dialects of Kurdish, Sorani and Kurmanji. We also provide 1,797 and 650 translation pairs in English-Kurmanji and English-Sorani. The corpus is publicly available under the CC BY-NC-SA 4.0 license.
翻訳日:2022-10-11 03:40:48 公開日:2020-10-04
# 更新プロセスによる断続的需要予測

Intermittent Demand Forecasting with Renewal Processes ( http://arxiv.org/abs/2010.01550v1 )

ライセンス: Link先を確認
Ali Caner Turkmen, Tim Januschowski, Yuyang Wang and Ali Taylan Cemgil(参考訳) 間欠性は需要予測において一般的かつ困難な問題である。 本稿では,既存手法を多方面に統合・一般化可能な,断続的な需要予測モデルを構築するための新しい統一フレームワークを提案する。 当社のフレームワークは,モデルベース手法が確立した離散時間更新プロセスの拡張をベースとしており,需要到着時の高齢化やクラスタリング,準周期性といったパターンを同義に説明することができる。 離散時間更新プロセスへの接続は、クロストン型モデルの原理的な拡張だけでなく、指数関数的平滑化をリカレントニューラルネットワークに置き換えることで、ニューラルネットワークベースのモデルも自然に含むことができる。 また,連続時間需要の到達,すなわち時間的ポイントプロセスが,フレームワークの自明な拡張によって実現可能であることを実証する。 これにより、個々の購入注文のデータが粒度のタイムスタンプで直接利用できるシナリオにおいて、より柔軟なモデリングが可能になる。 この理論の進歩を補完し、標準間欠的需要データセットに関する広範な実証的研究を通じて、我々の枠組みによる実践予測の有効性を実証し、その手法の状況と好意的に比較した様々なシナリオにおいて予測精度を報告する。

Intermittency is a common and challenging problem in demand forecasting. We introduce a new, unified framework for building intermittent demand forecasting models, which incorporates and allows to generalize existing methods in several directions. Our framework is based on extensions of well-established model-based methods to discrete-time renewal processes, which can parsimoniously account for patterns such as aging, clustering and quasi-periodicity in demand arrivals. The connection to discrete-time renewal processes allows not only for a principled extension of Croston-type models, but also for an natural inclusion of neural network based models---by replacing exponential smoothing with a recurrent neural network. We also demonstrate that modeling continuous-time demand arrivals, i.e., with a temporal point process, is possible via a trivial extension of our framework. This leads to more flexible modeling in scenarios where data of individual purchase orders are directly available with granular timestamps. Complementing this theoretical advancement, we demonstrate the efficacy of our framework for forecasting practice via an extensive empirical study on standard intermittent demand data sets, in which we report predictive accuracy in a variety of scenarios that compares favorably to the state of the art.
翻訳日:2022-10-11 03:34:32 公開日:2020-10-04
# 固有ベクトルによる逐次近似による直交多視点解析

Orthogonal Multi-view Analysis by Successive Approximations via Eigenvectors ( http://arxiv.org/abs/2010.01632v1 )

ライセンス: Link先を確認
Li Wang, Leihong Zhang, Chungen Shen and Ren-cang Li(参考訳) 本研究では,多視点サブスペース学習のための統一的なフレームワークを提案し,各視点の直交射影を学習する。 このフレームワークは、複数のビュー、教師付き識別能力、および簡潔でコンパクトな方法で距離保存の相関関係を統合する。 特殊ケースとして既存のモデルがいくつか含まれているだけでなく、新しいモデルにもインスピレーションを与えている。 異なる学習シナリオを扱うための汎用性を示すために,我々は,3つの新しいマルチビュー判別分析モデルと2つの新しいマルチビューマルチラベル分類モデルを紹介する。 固有ベクトルによる逐次近似に基づく効率的な数値計算法を提案し、関連する最適化問題を解く。 この方法は高次元データセットを簡単にスケールアップできる反復的クリロフ部分空間法に基づいている。 多視点判別分析と多視点マルチラベル分類のための様々な実世界のデータセットについて広範な実験を行った。 実験結果から,提案モデルが直交射影を学習しない比較手法よりも一貫して競合し,しばしば優れていることが示された。

We propose a unified framework for multi-view subspace learning to learn individual orthogonal projections for all views. The framework integrates the correlations within multiple views, supervised discriminant capacity, and distance preservation in a concise and compact way. It not only includes several existing models as special cases, but also inspires new novel models. To demonstrate its versatility to handle different learning scenarios, we showcase three new multi-view discriminant analysis models and two new multi-view multi-label classification ones under this framework. An efficient numerical method based on successive approximations via eigenvectors is presented to solve the associated optimization problem. The method is built upon an iterative Krylov subspace method which can easily scale up for high-dimensional datasets. Extensive experiments are conducted on various real-world datasets for multi-view discriminant analysis and multi-view multi-label classification. The experimental results demonstrate that the proposed models are consistently competitive to and often better than the compared methods that do not learn orthogonal projections.
翻訳日:2022-10-11 03:33:32 公開日:2020-10-04
# 皮膚病変データセットのバイアス探索による病変検出の改善

Improving Lesion Detection by exploring bias on Skin Lesion dataset ( http://arxiv.org/abs/2010.01485v1 )

ライセンス: Link先を確認
Anusua Trivedi, Sreya Muppalla, Shreyaan Pathak, Azadeh Mobasher, Pawel Janowski, Rahul Dodhia, Juan M. Lavista Ferres(参考訳) すべてのデータセットにはいくつかのバイアスが含まれており、しばしば意図しない。 これらのバイアスは機械学習モデルのパフォーマンスを歪ませ、モデルが不公平に悪用できるような刺激的な相関や、モデルが学習できる明確な相関を逆に破壊する。 深層学習モデルの普及に伴い、皮膚病変の自動解析はメラノーマの早期発見において重要な役割を担っている。 ISIC Archiveは、ディープラーニングベースのツールをベンチマークするのに最も使用される皮膚病変ソースの1つである。 Bissotoらは、異なるバウンディングボックスベースのマスクを用いて実験を行い、深層学習モデルが入力データに臨床的に有意な情報を持たずに皮膚病変画像を分類できることを示した。 鈍化した領域(ランダムな長方形の箱)は有意ではないため,これらの所見は否定的であった。 病変の形状は皮膚病変の臨床的特徴付けにおいて重要な因子である。 そこで我々は,形状保存マスクを長方形バウンディングボックス型マスクの代わりに生成する実験を行った。 これらの形状保存マスク画像に基づいて訓練された深層学習モデルは、臨床的に意味のある情報のない画像上で訓練されたモデルよりも優れていない。 これはモデルを導く散発的な相関を強く示唆する。 本稿では,このバイアスを軽減するためにGAN(General Adversarial Network)を提案する。

All datasets contain some biases, often unintentional, due to how they were acquired and annotated. These biases distort machine-learning models' performance, creating spurious correlations that the models can unfairly exploit, or, contrarily destroying clear correlations that the models could learn. With the popularity of deep learning models, automated skin lesion analysis is starting to play an essential role in the early detection of Melanoma. The ISIC Archive is one of the most used skin lesion sources to benchmark deep learning-based tools. Bissoto et al. experimented with different bounding-box based masks and showed that deep learning models could classify skin lesion images without clinically meaningful information in the input data. Their findings seem confounding since the ablated regions (random rectangular boxes) are not significant. The shape of the lesion is a crucial factor in the clinical characterization of a skin lesion. In that context, we performed a set of experiments that generate shape-preserving masks instead of rectangular bounding-box based masks. A deep learning model trained on these shape-preserving masked images does not outperform models trained on images without clinically meaningful information. That strongly suggests spurious correlations guiding the models. We propose use of general adversarial network (GAN) to mitigate the underlying bias.
翻訳日:2022-10-11 03:32:26 公開日:2020-10-04
# 皮質ボリュームセグメンテーションと回帰のための表面積測定値

Surface Agnostic Metrics for Cortical Volume Segmentation and Regression ( http://arxiv.org/abs/2010.01669v1 )

ライセンス: Link先を確認
Samuel Budd, Prachi Patkee, Ana Baburamani, Mary Rutherford, Emma C. Robinson, Bernhard Kainz(参考訳) 大脳皮質は高次脳機能を実行するため、様々な認知障害に関与している。 皮質変動の現在の分析は、内部および外側の皮質境界に表面メッシュモデルを適用し、表面積や皮質曲率、厚さなどの指標を調べることで行うのが一般的である。 しかし、これらは実行には長い時間がかかるため、動きや画像、表面の解像度に敏感であり、臨床環境での使用を禁止できる。 本稿では,t2 mri画像から皮質の厚さと曲率を予測し,さらに予測の不確かさの指標を返すための新しいアーキテクチャをトレーニングする機械学習ソリューションを提案する。 提案するモデルは臨床コホート(ダウン症候群)でテストされ,表面モデルはしばしば失敗する。 その結果、深層畳み込みニューラルネットワークは、脳の発達段階や病理全体にわたって皮質メトリックを予測するための有効な選択肢であることが示唆された。

The cerebral cortex performs higher-order brain functions and is thus implicated in a range of cognitive disorders. Current analysis of cortical variation is typically performed by fitting surface mesh models to inner and outer cortical boundaries and investigating metrics such as surface area and cortical curvature or thickness. These, however, take a long time to run, and are sensitive to motion and image and surface resolution, which can prohibit their use in clinical settings. In this paper, we instead propose a machine learning solution, training a novel architecture to predict cortical thickness and curvature metrics from T2 MRI images, while additionally returning metrics of prediction uncertainty. Our proposed model is tested on a clinical cohort (Down Syndrome) for which surface-based modelling often fails. Results suggest that deep convolutional neural networks are a viable option to predict cortical metrics across a range of brain development stages and pathologies.
翻訳日:2022-10-11 03:31:46 公開日:2020-10-04
# 機械学習のための外部コードを書き換える代わりに、高速勾配を自動的に合成する

Instead of Rewriting Foreign Code for Machine Learning, Automatically Synthesize Fast Gradients ( http://arxiv.org/abs/2010.01709v1 )

ライセンス: Link先を確認
William S. Moses and Valentin Churavy(参考訳) 異種プログラミング技術と機械学習アルゴリズムを外国のプログラムに適用するには、開発者は機械学習フレームワークでコードを書き換えるか、あるいは外国のコードにデリバティブを提供する必要がある。 本稿では、LLVM中間表現(IR)で表される静的解析可能なプログラムの勾配を合成できる、LLVMコンパイラフレームワーク用の高性能自動微分(AD)コンパイラプラグインであるEnzymeを提案する。 Enzymeは、コンパイラがC、C++、Fortran、Julia、Rust、Swift、MLIRなどを含むLLVM IRをターゲットにしている任意の言語で書かれたプログラムの勾配を合成する。 従来のソース・ツー・ソースやオペレータ・オーバーロードツールとは異なり、Enzymeは最適化されたIR上でADを実行する。 MicrosoftのADBenchを含む機械学習のベンチマークスイートでは、最適化されたIR上のADの平均速度は、最適化前のIR上のADの4.5倍になる。 pytorchとtensorflow用のパッケージング enzymeは、最先端のパフォーマンスで外国コードの勾配への便利なアクセスを提供し、外国コードを既存の機械学習ワークフローに直接組み込むことができる。

Applying differentiable programming techniques and machine learning algorithms to foreign programs requires developers to either rewrite their code in a machine learning framework, or otherwise provide derivatives of the foreign code. This paper presents Enzyme, a high-performance automatic differentiation (AD) compiler plugin for the LLVM compiler framework capable of synthesizing gradients of statically analyzable programs expressed in the LLVM intermediate representation (IR). Enzyme synthesizes gradients for programs written in any language whose compiler targets LLVM IR including C, C++, Fortran, Julia, Rust, Swift, MLIR, etc., thereby providing native AD capabilities in these languages. Unlike traditional source-to-source and operator-overloading tools, Enzyme performs AD on optimized IR. On a machine-learning focused benchmark suite including Microsoft's ADBench, AD on optimized IR achieves a geometric mean speedup of 4.5x over AD on IR before optimization allowing Enzyme to achieve state-of-the-art performance. Packaging Enzyme for PyTorch and TensorFlow provides convenient access to gradients of foreign code with state-of-the art performance, enabling foreign code to be directly incorporated into existing machine learning workflows.
翻訳日:2022-10-11 03:31:31 公開日:2020-10-04
# チバコフ雑音による半空間学習のための多項式時間アルゴリズム

A Polynomial Time Algorithm for Learning Halfspaces with Tsybakov Noise ( http://arxiv.org/abs/2010.01705v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Vasilis Kontonis, Christos Tzamos, Nikos Zarifis(参考訳) 本研究では,Tsybakovノイズの存在下でのPAC学習の相同性半空間の問題について検討する。 ツィバコフ雑音モデルでは、各サンプルのラベルは独立に逆制御された確率で反転し、サンプルのごく一部に対して任意に1/2$に近い値となる。 この基本学習問題に対して,最初の多項式時間アルゴリズムを与える。 当社のアルゴリズムは,任意の精度で真半空間を学習し,ログ凹凸分布を含む多種多様な分布の下で成功する。 我々の研究の前には、この問題に対する唯一の以前のアルゴリズムは、$/\epsilon$の準多項ランタイムでした。 提案アルゴリズムは,最近開発されたリミット{DKTZ20b} を用いて,候補ハーフスペースの非最適性を証明する。 この先行研究は多項式回帰に基づく準多項時間証明アルゴリズムを開発した。 現在の論文の主な技術的貢献は、最初の多項式時間証明アルゴリズムである。 } 非自明なウォームスタートから始めると、アルゴリズムは新たな"ウィン-ウィン"反復プロセスを実行し、各ステップで有効な証明書を見つけるか、現在のハーフスペースと真の証明書の角度を改善する。 等方性対数凸分布に対するウォームスタートアルゴリズムには、幅広い興味を持つ可能性のある解析ツールが多数含まれている。 これらには、より最新のものにするために分布を再重み付けする新しい効率的な方法と、2$Chowパラメータのスペクトルの新たな特徴が含まれる。

We study the problem of PAC learning homogeneous halfspaces in the presence of Tsybakov noise. In the Tsybakov noise model, the label of every sample is independently flipped with an adversarially controlled probability that can be arbitrarily close to $1/2$ for a fraction of the samples. {\em We give the first polynomial-time algorithm for this fundamental learning problem.} Our algorithm learns the true halfspace within any desired accuracy $\epsilon$ and succeeds under a broad family of well-behaved distributions including log-concave distributions. Prior to our work, the only previous algorithm for this problem required quasi-polynomial runtime in $1/\epsilon$. Our algorithm employs a recently developed reduction \cite{DKTZ20b} from learning to certifying the non-optimality of a candidate halfspace. This prior work developed a quasi-polynomial time certificate algorithm based on polynomial regression. {\em The main technical contribution of the current paper is the first polynomial-time certificate algorithm.} Starting from a non-trivial warm-start, our algorithm performs a novel "win-win" iterative process which, at each step, either finds a valid certificate or improves the angle between the current halfspace and the true one. Our warm-start algorithm for isotropic log-concave distributions involves a number of analytic tools that may be of broader interest. These include a new efficient method for reweighting the distribution in order to recenter it and a novel characterization of the spectrum of the degree-$2$ Chow parameters.
翻訳日:2022-10-11 03:31:10 公開日:2020-10-04
# 新しいマスクR-CNNによる地すべり検出法

A New Mask R-CNN Based Method for Improved Landslide Detection ( http://arxiv.org/abs/2010.01499v1 )

ライセンス: Link先を確認
Silvia Liberata Ullo, Amrita Mohan, Alessandro Sebastianelli, Shaik Ejaz Ahamed, Basant Kumar, Ramji Dwivedi, G. R. Sinha(参考訳) 本稿では,画素単位のセグメンテーションを用いて物体配置を識別するマスクr-cnn能力と,提案モデルの学習に用いるトランスファー学習を活用し,地すべり検出手法を提案する。 地すべり及び非地すべり画像を含む160個の要素からなるデータセットを作成する。 提案手法は以下の3ステップからなる。 (i)トレーニングデータの量を増やすためにトレーニング画像のサンプルを増強すること。 (ii)限られた画像サンプルによる微調整、 3)ResNet-50,101をバックボーンモデルとして,地すべり画像に基づく精度,リコール,F1測定のアルゴリズムの性能評価を行った。 実験結果は,ResNet-101をバックボーンモデルとして用いる場合の精度が1.00,Recall 0.93,F1の測定値0.97,トレーニングサンプルとして使用する地すべり写真が少ないため,高い精度が得られた。 提案アルゴリズムは,間欠的な斜面変形が地すべり検出を計画に必要とする丘陵地域の土地利用計画立案者や政策立案者にとって潜在的に有用である。

This paper presents a novel method of landslide detection by exploiting the Mask R-CNN capability of identifying an object layout by using a pixel-based segmentation, along with transfer learning used to train the proposed model. A data set of 160 elements is created containing landslide and non-landslide images. The proposed method consists of three steps: (i) augmenting training image samples to increase the volume of the training data, (ii) fine tuning with limited image samples, and (iii) performance evaluation of the algorithm in terms of precision, recall and F1 measure, on the considered landslide images, by adopting ResNet-50 and 101 as backbone models. The experimental results are quite encouraging as the proposed method achieves Precision equals to 1.00, Recall 0.93 and F1 measure 0.97, when ResNet-101 is used as backbone model, and with a low number of landslide photographs used as training samples. The proposed algorithm can be potentially useful for land use planners and policy makers of hilly areas where intermittent slope deformations necessitate landslide detection as prerequisite before planning.
翻訳日:2022-10-11 03:25:26 公開日:2020-10-04
# 領域外サンプルを用いた大規模画像認識支援

Supporting large-scale image recognition with out-of-domain samples ( http://arxiv.org/abs/2010.01650v1 )

ライセンス: Link先を確認
Christof Henkel and Philipp Singer(参考訳) 本稿では,ランドマーク画像のラベル付けとランキング付けに使用される,効率的なエンドツーエンド認識手法を提案する。 第1段階では、加算角マージン損失で訓練された畳み込みニューラルネットワークを用いて高次元特徴空間に画像を埋め込み、視覚的類似性を用いて画像を分類する。 次に、領域外画像との類似性を利用した予測とフィルタノイズを効率よく再現する。 このアプローチを使用することで、2020年のGoogle Landmark Recognition Challengeで1位を獲得しました。

This article presents an efficient end-to-end method to perform instance-level recognition employed to the task of labeling and ranking landmark images. In a first step, we embed images in a high dimensional feature space using convolutional neural networks trained with an additive angular margin loss and classify images using visual similarity. We then efficiently re-rank predictions and filter noise utilizing similarity to out-of-domain images. Using this approach we achieved the 1st place in the 2020 edition of the Google Landmark Recognition challenge.
翻訳日:2022-10-11 03:25:06 公開日:2020-10-04
# マルチリゾリューションフュージョンとマルチスケール入力プライオリティに基づく集団カウント

Multi-Resolution Fusion and Multi-scale Input Priors Based Crowd Counting ( http://arxiv.org/abs/2010.01664v1 )

ライセンス: Link先を確認
Usman Sajid, Wenchi Ma, Guanghui Wang(参考訳) 群衆密度の変化、大きな視点の変化、厳密な閉塞、変光条件が原因で、静止画像中の群衆のカウントは現実的に難しい問題である。 最新のパッチ再スケーリングモジュール(PRM)ベースのアプローチは、群衆カウントのパフォーマンスを改善するのに非常に効果的である。 しかし、PRMモジュールは、追加で複雑な群衆密度分類プロセスを必要とする。 これらの課題と課題に対処するため,本論文では,マルチレゾリューションに基づくエンドツーエンドのクラウドカウントネットワークを提案する。 3つのディープレイヤーベースのコラム/ブランチを使用しており、それぞれが群衆密度スケールに対応している。 これらの列は定期的に情報を融合(共有)する。 ネットワークは、それぞれ1つ以上の列を含む3つのフェーズに分けられる。 3つの入力先は、追加の分類操作を必要とせずに、PRMモジュールの効率的かつ効果的な代替品として機能するために導入された。 最終観衆数回帰ヘッドとともに、ネットワークは3つの補助観衆推定回帰ヘッドを含み、各相端に戦略的に配置され、全体的な性能が向上する。 3つのベンチマークデータセットに関する総合的な実験により、提案手法はRMSE評価基準の下での最先端モデルよりも優れていることが示された。 提案手法は, クロスデータセット実験において, 最適な結果を得るために, より優れた一般化能力を有する。

Crowd counting in still images is a challenging problem in practice due to huge crowd-density variations, large perspective changes, severe occlusion, and variable lighting conditions. The state-of-the-art patch rescaling module (PRM) based approaches prove to be very effective in improving the crowd counting performance. However, the PRM module requires an additional and compromising crowd-density classification process. To address these issues and challenges, the paper proposes a new multi-resolution fusion based end-to-end crowd counting network. It employs three deep-layers based columns/branches, each catering the respective crowd-density scale. These columns regularly fuse (share) the information with each other. The network is divided into three phases with each phase containing one or more columns. Three input priors are introduced to serve as an efficient and effective alternative to the PRM module, without requiring any additional classification operations. Along with the final crowd count regression head, the network also contains three auxiliary crowd estimation regression heads, which are strategically placed at each phase end to boost the overall performance. Comprehensive experiments on three benchmark datasets demonstrate that the proposed approach outperforms all the state-of-the-art models under the RMSE evaluation metric. The proposed approach also has better generalization capability with the best results during the cross-dataset experiments.
翻訳日:2022-10-11 03:24:57 公開日:2020-10-04
# 高分解能ブラックボックス制御のためのマルチレベル進化戦略

Multi-Level Evolution Strategies for High-Resolution Black-Box Control ( http://arxiv.org/abs/2010.01524v1 )

ライセンス: Link先を確認
Ofer M. Shir and Xi Xing and Herschel Rabitz(参考訳) 本稿では,マルチレベル(m-lev)機構を進化戦略(ess)に導入し,決定変数の細分化の利点を生かした大域的最適化問題に対処する。 このような問題は、マルチレゾリューション制御の性質を持ち、低レゾリューション変種(一般的な問題に対しておそらくより低い精度で粗い近似を与える)または高レゾリューション制御によって定式化できる工学的および科学的応用において生じる。 特定の科学的応用は実用的量子制御(QC)問題に関係しており、対象とする最適制御はより高解像度に識別され、結果としてより良い制御収が得られる可能性がある。 しかし、高分解能な定式化のための最先端の微分自由最適化ヒューリスティックスは、無数に多くの目的関数呼び出しを名指しで呼び出す。 そのため,このような問題に対する効果的なアルゴリズム処理が必要である。 本稿では,最適化問題に対して,より詳細な制御解決を行う上でのガイド付き検索を容易にするためのフレームワークを提案する。 提案する m-lev 自己適応型 ES フレームワークを,古典的エリート主義的シングルチャイルド (1+1)-ES と非エリート型マルチチャイルドデランドマイズ $(\mu_W,\lambda)$-sep-CMA-ES の2つの戦略によりインスタンス化する。 提案手法は,従来は複雑すぎると考えられていたQCシステムのシミュレーションに基づく最適化に適していることを示す。 また,提案手法に対する基礎実験QCシステム目標に対する概念実証について述べる。

This paper introduces a multi-level (m-lev) mechanism into Evolution Strategies (ESs) in order to address a class of global optimization problems that could benefit from fine discretization of their decision variables. Such problems arise in engineering and scientific applications, which possess a multi-resolution control nature, and thus may be formulated either by means of low-resolution variants (providing coarser approximations with presumably lower accuracy for the general problem) or by high-resolution controls. A particular scientific application concerns practical Quantum Control (QC) problems, whose targeted optimal controls may be discretized to increasingly higher resolution, which in turn carries the potential to obtain better control yields. However, state-of-the-art derivative-free optimization heuristics for high-resolution formulations nominally call for an impractically large number of objective function calls. Therefore, an effective algorithmic treatment for such problems is needed. We introduce a framework with an automated scheme to facilitate guided-search over increasingly finer levels of control resolution for the optimization problem, whose on-the-fly learned parameters require careful adaptation. We instantiate the proposed m-lev self-adaptive ES framework by two specific strategies, namely the classical elitist single-child (1+1)-ES and the non-elitist multi-child derandomized $(\mu_W,\lambda)$-sep-CMA-ES. We first show that the approach is suitable by simulation-based optimization of QC systems which were heretofore viewed as too complex to address. We also present a laboratory proof-of-concept for the proposed approach on a basic experimental QC system objective.
翻訳日:2022-10-11 03:23:16 公開日:2020-10-04
# 行動における説明オントロジー:臨床応用事例

Explanation Ontology in Action: A Clinical Use-Case ( http://arxiv.org/abs/2010.01478v1 )

ライセンス: Link先を確認
Shruthi Chari, Oshani Seneviratne, Daniel M. Gruen, Morgan A. Foreman, Amar K. Das, Deborah L. McGuinness(参考訳) 説明オントロジー(https://purl.org/heals/eo)において、ユーザ中心の説明と異なる説明型に対する意味表現の欠如の問題に対処した。 このような表現は、複雑なメソッドの出現と高精度でユーザ対応的な設定の獲得によって、人工知能において重要な問題となっているため、ますます必要となる。 本論文では,システム設計者のオントロジーを利用するためのステップバイステップのガイダンスと,人工知能システムの設計における説明の計画とモデル化について述べる。 また,本ガイドラインを臨床現場で活用するための具体例も紹介する。

We addressed the problem of a lack of semantic representation for user-centric explanations and different explanation types in our Explanation Ontology (https://purl.org/heals/eo). Such a representation is increasingly necessary as explainability has become an important problem in Artificial Intelligence with the emergence of complex methods and an uptake in high-precision and user-facing settings. In this submission, we provide step-by-step guidance for system designers to utilize our ontology, introduced in our resource track paper, to plan and model for explanations during the design of their Artificial Intelligence systems. We also provide a detailed example with our utilization of this guidance in a clinical setting.
翻訳日:2022-10-11 03:22:47 公開日:2020-10-04
# 説明オントロジー:ユーザ中心型AIのための説明モデル

Explanation Ontology: A Model of Explanations for User-Centered AI ( http://arxiv.org/abs/2010.01479v1 )

ライセンス: Link先を確認
Shruthi Chari, Oshani Seneviratne, Daniel M. Gruen, Morgan A. Foreman, Amar K. Das, Deborah L. McGuinness(参考訳) 説明可能性(Explainability)は、AI(Artificial Intelligence)システムのコンセプト以来の目標であり、より複雑なAIモデルが医療などの重要かつ高度な設定でますます使用されるようになるにつれて、説明可能性の増大の必要性がある。 説明はしばしば、原則的でないポストホックな方法でAIシステムに追加されている。 これらのシステムの採用が拡大し、ユーザ中心の説明可能性に重点を置いているため、説明容易性を主要な考慮事項として扱う構造化表現、エンドユーザが特定の説明型とシステムのAI機能にマッピングする必要がある。 我々は,説明の役割,システムとユーザ属性の双方をモデル化するための説明オントロジーを設計し,異なる文献に基づく説明型の範囲を設計する。 オントロジーが医療領域における説明のユーザ要求をどのようにサポートするかを示す。 我々は,システム設計とリアルタイム操作の両方において,ユーザのニーズとシステムの能力の組み合わせを考慮して,どの説明タイプを含めるかを決定するシステム設計者を対象とした,一連の能力的質問によってオントロジを評価する。 このオントロジーを使うことで、システムデザイナーは、aiシステムが提供すべきとすべき説明について、インフォームドな選択をすることができる。

Explainability has been a goal for Artificial Intelligence (AI) systems since their conception, with the need for explainability growing as more complex AI models are increasingly used in critical, high-stakes settings such as healthcare. Explanations have often added to an AI system in a non-principled, post-hoc manner. With greater adoption of these systems and emphasis on user-centric explainability, there is a need for a structured representation that treats explainability as a primary consideration, mapping end user needs to specific explanation types and the system's AI capabilities. We design an explanation ontology to model both the role of explanations, accounting for the system and user attributes in the process, and the range of different literature-derived explanation types. We indicate how the ontology can support user requirements for explanations in the domain of healthcare. We evaluate our ontology with a set of competency questions geared towards a system designer who might use our ontology to decide which explanation types to include, given a combination of users' needs and a system's capabilities, both in system design settings and in real-time operations. Through the use of this ontology, system designers will be able to make informed choices on which explanations AI systems can and should provide.
翻訳日:2022-10-11 03:22:37 公開日:2020-10-04
# RODE: マルチエージェントタスクを分解する役割を学ぶ

RODE: Learning Roles to Decompose Multi-Agent Tasks ( http://arxiv.org/abs/2010.01523v1 )

ライセンス: Link先を確認
Tonghan Wang, Tarun Gupta, Anuj Mahajan, Bei Peng, Shimon Whiteson, Chongjie Zhang(参考訳) ロールベースの学習は、ロールを使って複雑なタスクを分解することで、スケーラブルなマルチエージェント学習を実現することを約束する。 しかし、そのような役割を効率的に発見する方法はほとんど分かっていない。 そこで本研究では,まず,環境および他のエージェントに対する影響に応じて協調行動空間をクラスタリングすることで,制約された役割行動空間に分解することを提案する。 アクションエフェクトに基づいたロールセレクタの学習は、ロールセレクタがより小さいロール空間と低い時間解像度で検索すると同時に、ロールポリシーが大幅に縮小された原始的なアクションオブザーバ空間で学習するため、ロール発見をより容易にする。 さらに,行動効果に関する情報を役割ポリシーに統合し,学習効率の向上と政策の一般化を図る。 これらの進歩により,本手法は,starcraft iiのマイクロマネジメントベンチマークを構成する14シナリオのうち10シナリオにおいて,現状のmarlアルゴリズムを上回り,(2)エージェント数の3倍の新しい環境への迅速な移行を実現する。 デモ動画はhttps://sites.google.com/view/rode-marlで閲覧できる。

Role-based learning holds the promise of achieving scalable multi-agent learning by decomposing complex tasks using roles. However, it is largely unclear how to efficiently discover such a set of roles. To solve this problem, we propose to first decompose joint action spaces into restricted role action spaces by clustering actions according to their effects on the environment and other agents. Learning a role selector based on action effects makes role discovery much easier because it forms a bi-level learning hierarchy -- the role selector searches in a smaller role space and at a lower temporal resolution, while role policies learn in significantly reduced primitive action-observation spaces. We further integrate information about action effects into the role policies to boost learning efficiency and policy generalization. By virtue of these advances, our method (1) outperforms the current state-of-the-art MARL algorithms on 10 of the 14 scenarios that comprise the challenging StarCraft II micromanagement benchmark and (2) achieves rapid transfer to new environments with three times the number of agents. Demonstrative videos are available at https://sites.google.com/view/rode-marl .
翻訳日:2022-10-11 03:15:27 公開日:2020-10-04
# シームズネットワークによるデータ効率の高いオンライン分類とアクティブラーニング

Data-efficient Online Classification with Siamese Networks and Active Learning ( http://arxiv.org/abs/2010.01659v1 )

ライセンス: Link先を確認
Kleanthis Malialis and Christos G. Panayiotou and Marios M. Polycarpou(参考訳) 最近では、重要なインフラストラクチャシステム、金融と銀行、セキュリティと犯罪とwebアナリティクスなど、多くのアプリケーション分野において、ますます多くのデータがストリーミング形式で利用可能になっています。 この新たな需要を満たすためには、オンライン上で学習が行われる予測モデルを構築する必要がある。 オンライン学習は、実生活問題へのオンライン分類システムの展開に影響を与える重要な課題をもたらす。 本稿では,オンライン分類におけるラベル付き・非定常・不均衡データからの学習について検討する。 本研究では,シアムニューラルネットワークとアクティブラーニングを相乗的に組み合わせた学習手法を提案する。 提案手法はデータの保存にマルチスライディングウィンドウアプローチを使用し,各クラスに対して分離およびバランスのとれたキューを保持する。 提案手法はデータの非定常性と不均衡に対して頑健であり,学習速度と性能の両面で,ベースラインと最先端アルゴリズムを著しく上回っている。 重要なのは、到着したインスタンスのラベルの1%しか利用できない場合でも有効である。

An ever increasing volume of data is nowadays becoming available in a streaming manner in many application areas, such as, in critical infrastructure systems, finance and banking, security and crime and web analytics. To meet this new demand, predictive models need to be built online where learning occurs on-the-fly. Online learning poses important challenges that affect the deployment of online classification systems to real-life problems. In this paper we investigate learning from limited labelled, nonstationary and imbalanced data in online classification. We propose a learning method that synergistically combines siamese neural networks and active learning. The proposed method uses a multi-sliding window approach to store data, and maintains separate and balanced queues for each class. Our study shows that the proposed method is robust to data nonstationarity and imbalance, and significantly outperforms baselines and state-of-the-art algorithms in terms of both learning speed and performance. Importantly, it is effective even when only 1% of the labels of the arriving instances are available.
翻訳日:2022-10-11 03:13:57 公開日:2020-10-04
# 新型コロナウイルスの死者をモデル化する機械学習手法

Ensemble Machine Learning Methods for Modeling COVID19 Deaths ( http://arxiv.org/abs/2010.04052v1 )

ライセンス: Link先を確認
R. Bathwal, P. Chitta, K. Tirumala, V. Varadarajan(参考訳) 機械学習と疫学的アプローチのハイブリッドを用いて、米国における新型コロナウイルスの死亡率を郡レベルで予測する新しいデータ駆動アプローチを提案する。 このモデルは、ニューヨーク・タイムズ・コロナ・カウンティ・データセットで報告された死亡率のピンボール損失を最小化することを目的として、平均死亡数ではなく質的評価を出力し、日々の死亡分布をより詳細に記述している。 得られた定量推定値は、可変長予測期間の個々の郡レベルでの死亡を正確に予測し、アプローチは異なる予測期間の長さにわたってうまく一般化する。 私たちは50以上のチームからカリフォルニア工科大学が運営するモデリングコンテストで優勝しました。

Using a hybrid of machine learning and epidemiological approaches, we propose a novel data-driven approach in predicting US COVID-19 deaths at a county level. The model gives a more complete description of the daily death distribution, outputting quantile-estimates instead of mean deaths, where the model's objective is to minimize the pinball loss on deaths reported by the New York Times coronavirus county dataset. The resulting quantile estimates accurately forecast deaths at an individual-county level for a variable-length forecast period, and the approach generalizes well across different forecast period lengths. We won the Caltech-run modeling competition out of 50+ teams, and our aggregate is competitive with the best COVID-19 modeling systems (on root mean squared error).
翻訳日:2022-10-11 03:13:21 公開日:2020-10-04
# 機械学習の公平性:調査

Fairness in Machine Learning: A Survey ( http://arxiv.org/abs/2010.04053v1 )

ライセンス: Link先を確認
Simon Caton and Christian Haas(参考訳) 市民に影響を与える文脈で機械学習技術がますます使われるようになるにつれ、企業や研究者は、これらの手法の適用が性別や民族、障害を持つ人々に対する偏見など、予期しない社会的影響をもたらさないと確信する必要がある。 バイアスを緩和し公平性を促進するアプローチに関する重要な文献があるが、この領域は複雑で、新参者にとってドメインへの侵入が困難である。 本稿では、(社会的)バイアスを緩和し、機械学習文学における公平性を高めるための、さまざまな考え方とアプローチの概要について述べる。 プリプロセッシング、インプロセッシング、ポストプロセッシングといった広く受け入れられているフレームワークへのアプローチを組織化し、さらに11のメソッド領域に分類する。 文献の多くはバイナリ分類を強調しているが、回帰、推薦システム、教師なし学習、自然言語処理の公平性に関する議論や、現在利用可能なオープンソースライブラリの選択も提供されている。 論文は、フェアネス研究のための4つのジレンマとして表現されたオープンチャレンジを要約することで締めくくっている。

As Machine Learning technologies become increasingly used in contexts that affect citizens, companies as well as researchers need to be confident that their application of these methods will not have unexpected social implications, such as bias towards gender, ethnicity, and/or people with disabilities. There is significant literature on approaches to mitigate bias and promote fairness, yet the area is complex and hard to penetrate for newcomers to the domain. This article seeks to provide an overview of the different schools of thought and approaches to mitigating (social) biases and increase fairness in the Machine Learning literature. It organises approaches into the widely accepted framework of pre-processing, in-processing, and post-processing methods, subcategorizing into a further 11 method areas. Although much of the literature emphasizes binary classification, a discussion of fairness in regression, recommender systems, unsupervised learning, and natural language processing is also provided along with a selection of currently available open source libraries. The article concludes by summarising open challenges articulated as four dilemmas for fairness research.
翻訳日:2022-10-11 03:13:06 公開日:2020-10-04
# カプセルグラフニューラルネットワークを用いた知識強化型パーソナライズドレビュー生成

Knowledge-Enhanced Personalized Review Generation with Capsule Graph Neural Network ( http://arxiv.org/abs/2010.01480v1 )

ライセンス: Link先を確認
Junyi Li, Siqing Li, Wayne Xin Zhao, Gaole He, Zhicheng Wei, Nicholas Jing Yuan and Ji-Rong Wen(参考訳) パーソナライズされたレビュー生成(PRG)は,ユーザの好みを反映したレビューテキストを自動的に生成することを目的としている。 以前の研究のほとんどは、非形式的コンテンツを生成する傾向にある製品の事実記述を明示的にモデル化していない。 さらに、主に単語レベルの生成に焦点を当てているが、複数の面でより抽象的なユーザの好みを正確に反映することはできない。 以上の課題に対処するため,カプセルグラフニューラルネットワーク~(Caps-GNN)に基づく知識強調型PRGモデルを提案する。 まず,リッチアイテム属性を活用したヘテロジニアス知識グラフ(hkg)を構築する。 caps-gnnを用いて,hkgから基本特性を符号化するグラフカプセルを学習する。 我々の生成プロセスは、アスペクトシーケンス生成と文生成という2つの大きなステップを含む。 まず,グラフカプセルに基づいてアスペクトカプセルを適応的に学習し,アスペクトシーケンスを推定する。 そして,推定アスペクトラベルに基づいて,HKGから関連エンティティや単語を組み込んで文を生成するグラフベースの複写機構を設計する。 私たちの知識では、prgタスクに知識グラフを利用するのは初めてです。 組み込まれたKG情報は、アスペクトとワードレベルの両方でユーザの好みを高めることができる。 3つの実世界のデータセットに関する広範囲な実験により、prgタスクにおけるモデルの有効性が実証された。

Personalized review generation (PRG) aims to automatically produce review text reflecting user preference, which is a challenging natural language generation task. Most of previous studies do not explicitly model factual description of products, tending to generate uninformative content. Moreover, they mainly focus on word-level generation, but cannot accurately reflect more abstractive user preference in multiple aspects. To address the above issues, we propose a novel knowledge-enhanced PRG model based on capsule graph neural network~(Caps-GNN). We first construct a heterogeneous knowledge graph (HKG) for utilizing rich item attributes. We adopt Caps-GNN to learn graph capsules for encoding underlying characteristics from the HKG. Our generation process contains two major steps, namely aspect sequence generation and sentence generation. First, based on graph capsules, we adaptively learn aspect capsules for inferring the aspect sequence. Then, conditioned on the inferred aspect label, we design a graph-based copy mechanism to generate sentences by incorporating related entities or words from HKG. To our knowledge, we are the first to utilize knowledge graph for the PRG task. The incorporated KG information is able to enhance user preference at both aspect and word levels. Extensive experiments on three real-world datasets have demonstrated the effectiveness of our model on the PRG task.
翻訳日:2022-10-11 03:06:56 公開日:2020-10-04
# 新しいクライアントの効率的な登録のためのNLPサービスAPIとモデル

NLP Service APIs and Models for Efficient Registration of New Clients ( http://arxiv.org/abs/2010.01526v1 )

ライセンス: Link先を確認
Sahil Shah, Vihari Piratla, Soumen Chakrabarti, Sunita Sarawagi(参考訳) 最先端のNLP推論では、GPUでトレーニングされた巨大なニューラルネットワークとモデルが使用されている。 これにより、大規模なAI企業による、すべてのパブリックAPIベースのNLPサービスモデルが、多数のクライアントに提供されるようになりました。 クライアント(ハードウエアの欠陥)もサーバ(多種多様なサブスクライブ)も、従来の微調整はできない。 多くのクライアントはラベル付きデータをほとんど持っていない。 我々は,集中型NLPサービスのクライアントへの適応に関する研究を開始し,実用的で軽量なアプローチを提案する。 各クライアントは教師なしのコーパスベースのスケッチを使用してサービスに登録する。 サーバは補助ネットワークを使用してスケッチを抽象ベクトル表現にマップし、それをメインのラベリングネットワークに通知する。 新しいクライアントがスケッチで登録すると、すぐに精度が向上する。 我々は、感情ラベル付け、NER、予測言語モデリングを用いた提案アーキテクチャの成功例を示す。

State-of-the-art NLP inference uses enormous neural architectures and models trained for GPU-months, well beyond the reach of most consumers of NLP. This has led to one-size-fits-all public API-based NLP service models by major AI companies, serving large numbers of clients. Neither (hardware deficient) clients nor (heavily subscribed) servers can afford traditional fine tuning. Many clients own little or no labeled data. We initiate a study of adaptation of centralized NLP services to clients, and present one practical and lightweight approach. Each client uses an unsupervised, corpus-based sketch to register to the service. The server uses an auxiliary network to map the sketch to an abstract vector representation, which then informs the main labeling network. When a new client registers with its sketch, it gets immediate accuracy benefits. We demonstrate the success of the proposed architecture using sentiment labeling, NER, and predictive language modeling
翻訳日:2022-10-11 03:05:28 公開日:2020-10-04
# 現代言語モデルの損失について

On Losses for Modern Language Models ( http://arxiv.org/abs/2010.01694v1 )

ライセンス: Link先を確認
Stephane Aroca-Ouellette, Frank Rudzicz(参考訳) BERTは、様々なNLUベンチマークに対して、マスク言語モデリング(MLM)と次の文予測(NSP)という2つのタスクを事前訓練することで、最先端の結果を多数設定した。 本稿では, 1) BERTプレトレーニングにおけるNSPの効果を明らかにする。 2)14の補助事前学習課題を探索し,そのうち7つが現代言語モデルに斬新である。 3) 複数のタスクを事前学習に含めるさまざまな方法を検討する。 NSPは文脈分割と浅瀬意味信号による訓練に有害であることを示す。 また,文順序,隣接文予測,TF-IDF予測,TF-IDF予測,FastSent変種,Quick Thoughts変種という,純粋なMLMベースラインを上回る6つの補助的事前学習タスクも同定した。 最後に,複数タスクをマルチタスク事前学習フレームワークで使用することで,一つの補助タスクよりも優れた結果が得られることを示す。 これらの手法を用いて、トレーニングトークンの4分の1以下を用いて、GLUEベンチマークでBERT Baseを上回りました。

BERT set many state-of-the-art results over varied NLU benchmarks by pre-training over two tasks: masked language modelling (MLM) and next sentence prediction (NSP), the latter of which has been highly criticized. In this paper, we 1) clarify NSP's effect on BERT pre-training, 2) explore fourteen possible auxiliary pre-training tasks, of which seven are novel to modern language models, and 3) investigate different ways to include multiple tasks into pre-training. We show that NSP is detrimental to training due to its context splitting and shallow semantic signal. We also identify six auxiliary pre-training tasks -- sentence ordering, adjacent sentence prediction, TF prediction, TF-IDF prediction, a FastSent variant, and a Quick Thoughts variant -- that outperform a pure MLM baseline. Finally, we demonstrate that using multiple tasks in a multi-task pre-training framework provides better results than using any single auxiliary task. Using these methods, we outperform BERT Base on the GLUE benchmark using fewer than a quarter of the training tokens.
翻訳日:2022-10-11 03:05:14 公開日:2020-10-04
# FaceChannelS: AffWild 2チャレンジのシーケンスの試行

The FaceChannelS: Strike of the Sequences for the AffWild 2 Challenge ( http://arxiv.org/abs/2010.01557v1 )

ライセンス: Link先を確認
Pablo Barros, Alessandra Sciutti(参考訳) 人間の顔から感情的な情報を予測することは、過去数年間で機械学習コミュニティの大半で一般的なタスクとなった。 巨大で密度の高いディープニューラルネットワークの開発は、多数のラベル付きデータセットの可用性によって支えられた。 これらのモデルは、ほとんどの場合、現在の最先端のベンチマーク結果をもたらすが、他のシナリオに適応するのは極めて困難である。 本稿では,facechannelニューラルネットワークの異なるバージョンをベンチマークするもう1つの章を提案する。我々はこの小さなモデルが,新しいafwild2データセットの表情から感情情報を予測する方法を示す。

Predicting affective information from human faces became a popular task for most of the machine learning community in the past years. The development of immense and dense deep neural networks was backed by the availability of numerous labeled datasets. These models, most of the time, present state-of-the-art results in such benchmarks, but are very difficult to adapt to other scenarios. In this paper, we present one more chapter of benchmarking different versions of the FaceChannel neural network: we demonstrate how our little model can predict affective information from the facial expression on the novel AffWild2 dataset.
翻訳日:2022-10-11 03:04:55 公開日:2020-10-04
# 転送学習によるゲームプレイ関連アートアセットの生成

Generating Gameplay-Relevant Art Assets with Transfer Learning ( http://arxiv.org/abs/2010.01681v1 )

ライセンス: Link先を確認
Adrian Gonzalez, Matthew Guzdial and Felix Ramos(参考訳) ゲーム開発では、ゲームプレイに関連のある機能を伝達する魅力的なビジュアル資産を設計するには、時間と経験が必要です。 高品質なコンテンツを作成する最近の画像生成手法は開発コストを削減できるが、これらの手法はゲーム力学を考慮しない。 本稿では,ゲームプレイ関連性に基づいて,新たなゲームビジュアルを修正・生成するCVAEシステムを提案する。 我々は,Pok\'emon Sprites と Pok\'emon 型情報を用いて,このアプローチを検証した。 実験結果から,トランスファーラーニングアプローチを採用することで,見えないデータに対する視覚的品質と安定性が向上する可能性が示唆された。

In game development, designing compelling visual assets that convey gameplay-relevant features requires time and experience. Recent image generation methods that create high-quality content could reduce development costs, but these approaches do not consider game mechanics. We propose a Convolutional Variational Autoencoder (CVAE) system to modify and generate new game visuals based on their gameplay relevance. We test this approach with Pok\'emon sprites and Pok\'emon type information, since types are one of the game's core mechanics and they directly impact the game's visuals. Our experimental results indicate that adopting a transfer learning approach can help to improve visual quality and stability over unseen data.
翻訳日:2022-10-11 03:04:44 公開日:2020-10-04
# 近接点同定のためのテストコスト感度法

Test-Cost Sensitive Methods for Identifying Nearby Points ( http://arxiv.org/abs/2010.03962v1 )

ライセンス: Link先を確認
Seung Gyu Hyun and Christopher Leung(参考訳) 値の欠如を伴う現実世界のアプリケーションは、しばしばデータを取得するコストによって制約される。 テストコストに敏感な、あるいはコストのかかる機能については、機能を取得するコストも考慮する。 このような手法は分類問題において広く研究されている。 本稿では,いくつかの特徴値が未知の新たな点を考慮し,その近傍の点を大規模集合から同定する,テストコストに敏感な手法の関連問題について検討する。 我々は,木に基づくモデルと深層強化学習に基づくモデルという2つのモデルを提案する。 シミュレーションでは,モデルが5つの実世界のデータセットのランダムエージェントよりも優れていることを示す。

Real-world applications that involve missing values are often constrained by the cost to obtain data. Test-cost sensitive, or costly feature, methods additionally consider the cost of acquiring features. Such methods have been extensively studied in the problem of classification. In this paper, we study a related problem of test-cost sensitive methods to identify nearby points from a large set, given a new point with some unknown feature values. We present two models, one based on a tree and another based on Deep Reinforcement Learning. In our simulations, we show that the models outperform random agents on a set of five real-world data sets.
翻訳日:2022-10-11 03:04:30 公開日:2020-10-04
# 構造化メタラーニングによる低頻度文の対話生成

Dialogue Generation on Infrequent Sentence Functions via Structured Meta-Learning ( http://arxiv.org/abs/2010.01495v1 )

ライセンス: Link先を確認
Yifan Gao, Piji Li, Wei Bi, Xiaojiang Liu, Michael R. Lyu, Irwin King(参考訳) 文機能は、文を発話する際のコミュニケーション目的を示す重要な言語特徴である。 文関数を会話に組み込むと、生成した応答の品質が改善される。 しかし, 異なる種類の細粒度文関数に対する発話数は極めて不均衡である。 少数の高資源文機能に加えて、文機能の大部分は不十分である。 したがって、これらの不適切な文機能に基づく対話生成は、データ不足に苦しむ。 本稿では,少ない文関数を用いた対話生成のための構造化メタラーニング(SML)手法について検討する。 異なる文関数に条件付けられた対話生成を分離したタスクとして扱い、高資源文関数データにモデル非依存なメタラーニングを適用する。 さらに、SMLは、異なる文関数間の知識カスタマイズを促進することでメタラーニングの有効性を高めるとともに、類似した文関数に対する知識一般化を同時に保存する。 実験結果から、SMLは、生成した応答の情報性や関連性を向上するだけでなく、目的の文関数に整合した応答も生成できることが示された。

Sentence function is an important linguistic feature indicating the communicative purpose in uttering a sentence. Incorporating sentence functions into conversations has shown improvements in the quality of generated responses. However, the number of utterances for different types of fine-grained sentence functions is extremely imbalanced. Besides a small number of high-resource sentence functions, a large portion of sentence functions is infrequent. Consequently, dialogue generation conditioned on these infrequent sentence functions suffers from data deficiency. In this paper, we investigate a structured meta-learning (SML) approach for dialogue generation on infrequent sentence functions. We treat dialogue generation conditioned on different sentence functions as separate tasks, and apply model-agnostic meta-learning to high-resource sentence functions data. Furthermore, SML enhances meta-learning effectiveness by promoting knowledge customization among different sentence functions but simultaneously preserving knowledge generalization for similar sentence functions. Experimental results demonstrate that SML not only improves the informativeness and relevance of generated responses, but also can generate responses consistent with the target sentence functions.
翻訳日:2022-10-11 02:58:14 公開日:2020-10-04
# 自然言語推論としての理解を読む:意味分析

Reading Comprehension as Natural Language Inference: A Semantic Analysis ( http://arxiv.org/abs/2010.01713v1 )

ライセンス: Link先を確認
Anshuman Mishra, Dhruvesh Patel, Aparna Vijayakumar, Xiang Li, Pavan Kapanipathi, Kartik Talamadupula(参考訳) 最近の自然言語推論(NLI)は、特に下流のNLPタスクを約束していることから、大きな注目を集めている。 しかし、その真の影響は限定的であり、十分に研究されていない。 そこで本稿では,最も顕著な下流タスクの一つであるvizに対するNLIの有用性について検討する。 質問応答 (QA)。 我々は、利用可能な最大のRCデータセット(RACE)の1つをNLI形式に変換し、両形態の最先端モデル(RoBERTa)の性能を比較する。 本稿では,これらのカテゴリにおけるQAモデルとNLIモデルの性能評価を行う。 我々は,データのコヒーレントな包含形式と構造化された問合せ形式をそれぞれ提示した場合に,モデルがより優れた性能を発揮するための明確なカテゴリを強調した。

In the recent past, Natural language Inference (NLI) has gained significant attention, particularly given its promise for downstream NLP tasks. However, its true impact is limited and has not been well studied. Therefore, in this paper, we explore the utility of NLI for one of the most prominent downstream tasks, viz. Question Answering (QA). We transform the one of the largest available MRC dataset (RACE) to an NLI form, and compare the performances of a state-of-the-art model (RoBERTa) on both these forms. We propose new characterizations of questions, and evaluate the performance of QA and NLI models on these categories. We highlight clear categories for which the model is able to perform better when the data is presented in a coherent entailment form, and a structured question-answer concatenation form, respectively.
翻訳日:2022-10-11 02:57:44 公開日:2020-10-04
# 主題特定質問銀行の最適トピッククラスタリングのためのHDPとLDAモデルの統一

Unification of HDP and LDA Models for Optimal Topic Clustering of Subject Specific Question Banks ( http://arxiv.org/abs/2011.01035v1 )

ライセンス: Link先を確認
Nikhil Fernandes, Alexandra Gkolia, Nicolas Pizzo, James Davenport, Akshar Nair(参考訳) 大学は、オンラインコースにもっとインタラクティブで適した教育を行うためのカリキュラム変換のトレンドが増えている。 オンラインコースの人気が高まると、学者向けのコース関連クエリの数が増加することになる。 このことは、もし講義がオンデマンドのビデオ形式で配信されたら、大多数の学生が質問できる時間がないという事実と相まっている。 講義で質問された場合、同様の質問を繰り返し行う可能性は無視できるが、非同期にすると、これはより起こりやすい。 個々の質問への回答に費やす時間を減らすためには、それらをクラスタリングするのが理想的な選択です。 テキストクラスタリングには異なる教師なしモデルがあり、その中ではLatent Dirichlet Allocationモデルが最も一般的に使われている。 階層ディリクレプロセスを用いて、LDAモデルの実行に対して最適なトピック番号を入力します。 これらのトピックモデルの確率的性質のため、それらの出力は異なる実行で異なる。 私たちが見つけた一般的な傾向は、すべてのトピックがLDAモデルの最初の実行でクラスタリングに使用されているわけではないということです。 確率的出力に対処するため,LDAモデルを有効トピックに再帰的に使用し,効率比1。 実験の結果から、ゼノのパラドックスはどのように回避されるのかという推論も確立した。

There has been an increasingly popular trend in Universities for curriculum transformation to make teaching more interactive and suitable for online courses. An increase in the popularity of online courses would result in an increase in the number of course-related queries for academics. This, coupled with the fact that if lectures were delivered in a video on demand format, there would be no fixed time where the majority of students could ask questions. When questions are asked in a lecture there is a negligible chance of having similar questions repeatedly, but asynchronously this is more likely. In order to reduce the time spent on answering each individual question, clustering them is an ideal choice. There are different unsupervised models fit for text clustering, of which the Latent Dirichlet Allocation model is the most commonly used. We use the Hierarchical Dirichlet Process to determine an optimal topic number input for our LDA model runs. Due to the probabilistic nature of these topic models, the outputs of them vary for different runs. The general trend we found is that not all the topics were being used for clustering on the first run of the LDA model, which results in a less effective clustering. To tackle probabilistic output, we recursively use the LDA model on the effective topics being used until we obtain an efficiency ratio of 1. Through our experimental results we also establish a reasoning on how Zeno's paradox is avoided.
翻訳日:2022-10-11 02:57:30 公開日:2020-10-04
# TimeAutoML:多変量不規則サンプリング時系列の自動表現学習

TimeAutoML: Autonomous Representation Learning for Multivariate Irregularly Sampled Time Series ( http://arxiv.org/abs/2010.01596v1 )

ライセンス: Link先を確認
Yang Jiao, Kai Yang, Shaoyu Dou, Pan Luo, Sijia Liu, Dongjin Song(参考訳) 多変量時系列(mts)データは,iotシステムやヘルスインフォマティクス,5gネットワークなど,さまざまな領域で広く普及している。 MTSデータの効率的な表現を得るためには、予測不可能な力学と高い可変長を考えるだけでなく、MTSのサンプリングレートの不規則に対処することが重要である。 既存のパラメトリックアプローチは手動のハイパーパラメータチューニングに依存しており、膨大な労力を要する可能性がある。 したがって、表現を自動かつ効率的に学習することが望ましい。 そこで本研究では,不規則なサンプリング率と可変長を持つ多変量時系列(timeautoml)に対する自律表現学習手法を提案する。 従来の研究とは対照的に,我々はまず,設定とハイパーパラメータ最適化を完全に自動化し,異常検出やクラスタリングなど,さまざまなタスクに合わせて調整可能な表現学習パイプラインを提示する。 次に、その表現能力を高めるために、TimeAutoML内に負サンプル生成手法と補助分類タスクを開発し、統合する。 実世界のデータセットに関する大規模な実証研究は、提案されたTimeAutoMLが、様々なタスクにおける競合するアプローチを大きなマージンで上回ることを示した。 実際、85のUCRデータセットのうち78のアルゴリズムで、すべての比較アルゴリズムの中で最高の異常検出性能を達成し、AUCスコアで最大20%のパフォーマンス改善を得る。

Multivariate time series (MTS) data are becoming increasingly ubiquitous in diverse domains, e.g., IoT systems, health informatics, and 5G networks. To obtain an effective representation of MTS data, it is not only essential to consider unpredictable dynamics and highly variable lengths of these data but also important to address the irregularities in the sampling rates of MTS. Existing parametric approaches rely on manual hyperparameter tuning and may cost a huge amount of labor effort. Therefore, it is desirable to learn the representation automatically and efficiently. To this end, we propose an autonomous representation learning approach for multivariate time series (TimeAutoML) with irregular sampling rates and variable lengths. As opposed to previous works, we first present a representation learning pipeline in which the configuration and hyperparameter optimization are fully automatic and can be tailored for various tasks, e.g., anomaly detection, clustering, etc. Next, a negative sample generation approach and an auxiliary classification task are developed and integrated within TimeAutoML to enhance its representation capability. Extensive empirical studies on real-world datasets demonstrate that the proposed TimeAutoML outperforms competing approaches on various tasks by a large margin. In fact, it achieves the best anomaly detection performance among all comparison algorithms on 78 out of all 85 UCR datasets, acquiring up to 20% performance improvement in terms of AUC score.
翻訳日:2022-10-11 02:57:09 公開日:2020-10-04
# 画像とビデオから完全な3d morphable face modelを学習する

Learning Complete 3D Morphable Face Models from Images and Videos ( http://arxiv.org/abs/2010.01679v1 )

ライセンス: Link先を確認
Mallikarjun B R and Ayush Tewari and Hans-Peter Seidel and Mohamed Elgharib and Christian Theobalt(参考訳) ほとんどの3d顔再構成法は3d morphable modelに依存しており、顔の変形の空間をアイデンティティの幾何学、表情、皮膚の反射に分解する。 これらのモデルは通常、限られた数の3dスキャンから学べるので、異なるアイデンティティや表現をまたいでうまく一般化できない。 本稿では,画像やビデオから顔形状,アルベド,表現の完全な3次元モデルを学ぶための最初のアプローチを提案する。 このようなデータの事実上無限の収集と、自己教師付き学習ベースのアプローチを組み合わせることで、既存のアプローチを越えて一般化された顔モデルを学ぶことができます。 我々のネットワーク設計と損失関数は、アイデンティティとアルベドだけでなく、初めて表現ベースを乱したパラメータ化を保証する。 また, 本手法では, 試験時に単眼内再構成も可能とした。 既存の手法よりも,学習モデルの方がより一般化し,高品質な画像ベース再構築につながることを示す。

Most 3D face reconstruction methods rely on 3D morphable models, which disentangle the space of facial deformations into identity geometry, expressions and skin reflectance. These models are typically learned from a limited number of 3D scans and thus do not generalize well across different identities and expressions. We present the first approach to learn complete 3D models of face identity geometry, albedo and expression just from images and videos. The virtually endless collection of such data, in combination with our self-supervised learning-based approach allows for learning face models that generalize beyond the span of existing approaches. Our network design and loss functions ensure a disentangled parameterization of not only identity and albedo, but also, for the first time, an expression basis. Our method also allows for in-the-wild monocular reconstruction at test time. We show that our learned models better generalize and lead to higher quality image-based reconstructions than existing approaches.
翻訳日:2022-10-11 02:55:36 公開日:2020-10-04
# GraphDialog: エンドツーエンドタスク指向対話システムへのグラフ知識の統合

GraphDialog: Integrating Graph Knowledge into End-to-End Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2010.01447v1 )

ライセンス: Link先を確認
Shiquan Yang, Rui Zhang, Sarah Erfani(参考訳) エンドツーエンドのタスク指向対話システムは,平文入力から直接システム応答を生成することを目的としている。 そのようなシステムには、外部知識ベース(kbs)を学習フレームワークに効果的に組み込む方法と、対話履歴の意味を正確に捉える方法という2つの課題がある。 本稿では,これらの2つの課題を,知識ベースと対話の係り受け解析木においてグラフ構造情報を活用して解決する。 対話履歴の構造情報を効果的に活用するために,グラフ上で表現学習を可能にする新しいリカレントセルアーキテクチャを提案する。 KB内のエンティティ間の関係を利用するために、このモデルはグラフ構造に基づくマルチホップ推論能力を組み合わせる。 実験結果から,2つのタスク指向対話データセット上での最先端モデルに対する一貫した改善が得られた。

End-to-end task-oriented dialogue systems aim to generate system responses directly from plain text inputs. There are two challenges for such systems: one is how to effectively incorporate external knowledge bases (KBs) into the learning framework; the other is how to accurately capture the semantics of dialogue history. In this paper, we address these two challenges by exploiting the graph structural information in the knowledge base and in the dependency parsing tree of the dialogue. To effectively leverage the structural information in dialogue history, we propose a new recurrent cell architecture which allows representation learning on graphs. To exploit the relations between entities in KBs, the model combines multi-hop reasoning ability based on the graph structure. Experimental results show that the proposed model achieves consistent improvement over state-of-the-art models on two different task-oriented dialogue datasets.
翻訳日:2022-10-11 02:55:20 公開日:2020-10-04