このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210916となっている論文です。

PDF登録状況(公開日: 20210916)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 時空間推論における長期パターンと短期パターンの分離 [全文訳有]

Decoupling Long- and Short-Term Patterns in Spatiotemporal Inference ( http://arxiv.org/abs/2109.09506v1 )

ライセンス: CC BY 4.0
Junfeng Hu, Yuxuan Liang, Zhencheng Fan, Yifang Yin, Ying Zhang, Roger Zimmermann(参考訳) センサは、環境を感知し、都市全体にリアルタイムの空気質情報を提供するなど、スマートシティに多くの面でメリットを与えるための鍵です。 しかし、環境に関するきめ細かい知識を得るのが前提である。 不可解な費用のため、物理的にどれだけのセンサーをインストールできるかには限界がある。 本稿では,利用可能なセンサ(時空間推定)からの歴史的および現在の観測に基づいて,都市内の任意の位置情報をリアルタイムに推定することを提案する。 我々のアプローチは、2つの主要なコンポーネントに依存する短期パターンと長期パターンのモデリングを分離する。 まず,空間的および時間的関係学習を分離した先行研究とは異なり,空間的および時間的次元の短期的依存関係を学習する統合時空間グラフ注意ネットワークを導入する。 次に,長期パターンを捕捉するための時間スキップ付き適応グラフ再帰ネットワークを提案する。 適応的隣接行列は、動的依存を学習するための繰り返しネットワークの入力として、まず誘導的に学習される。 4つのパブリック・リードワールド・データセットによる実験結果から,本手法は平均絶対誤差を5%~12%削減することがわかった。

Sensors are the key to sensing the environment and imparting benefits to smart cities in many aspects, such as providing real-time air quality information throughout an urban area. However, a prerequisite is to obtain fine-grained knowledge of the environment. There is a limit to how many sensors can be installed in the physical world due to non-negligible expenses. In this paper, we propose to infer real-time information of any given location in a city based on historical and current observations from the available sensors (termed spatiotemporal inference). Our approach decouples the modeling of short-term and long-term patterns, relying on two major components. Firstly, unlike previous studies that separated the spatial and temporal relation learning, we introduce a joint spatiotemporal graph attention network that learns the short-term dependencies across both the spatial and temporal dimensions. Secondly, we propose an adaptive graph recurrent network with a time skip for capturing long-term patterns. The adaptive adjacency matrices are learned inductively first as the inputs of a recurrent network to learn dynamic dependencies. Experimental results on four public read-world datasets show that our method reduces state-of-the-art baseline mean absolute errors by 5%~12%.
翻訳日:2021-09-24 03:19:21 公開日:2021-09-16
# (参考訳) ジオインフォマティクスにおける時系列信号のモデリングと解析のための機械学習手法

Machine learning methods for modelling and analysis of time series signals in geoinformatics ( http://arxiv.org/abs/2109.09499v1 )

ライセンス: CC BY 4.0
Maria Kaselimi(参考訳) この論文では、異なる性質の多数の時系列データセットと異なるアプリケーションに対して、いくつかのディープラーニング(DL)アーキテクチャの性能を評価する比較分析を提供する。 地理学コミュニティの関心を惹きつける現在の学際研究課題に取り組むために戦略的に選択された2つの主要な実りある研究分野について論じる。 最初の問題は、多くのリアルタイムグローバルナビゲーションシステム衛星(GNSS)アプリケーションにおいて重要な問題である電離圏全電子コンテンツ(TEC)モデリングに関連している。 電離圏変動に関する信頼性と迅速な知識がますます重要になる。 単一周波数受信機と衛星ナビゲーションシステムのGNSSユーザは、電離層による信号劣化の影響を取り除くために正確な修正が必要である。 信号処理技術を用いた電離圏モデリングは,本研究における議論の対象となっている。 次に議論されている問題はエネルギー分散であり、エネルギー効率とエネルギー消費意識にとって重要な問題である。 アプライアンスレベルでの住宅エネルギー消費に関する信頼性と迅速な知識がますます重要になってきており、省エネルギー対策として重要なものとなっている。 エネルギー分散(英: energy disaggregation, nonintrusive load monitoring、nilm)は、電力消費の合計から各家電の消費を推定する単一チャネルブラインドソース分離問題である。 両問題に対して,研究対象の諸側面をカバーする各種ディープラーニングモデル (DL) を提案し, 実験結果から, 提案手法が現状よりも優れていることが示された。

In this dissertation is provided a comparative analysis that evaluates the performance of several deep learning (DL) architectures on a large number of time series datasets of different nature and for different applications. Two main fruitful research fields are discussed here which were strategically chosen in order to address current cross disciplinary research priorities attracting the interest of geodetic community. The first problem is related to ionospheric Total Electron Content (TEC) modeling which is an important issue in many real time Global Navigation System Satellites (GNSS) applications. Reliable and fast knowledge about ionospheric variations becomes increasingly important. GNSS users of single frequency receivers and satellite navigation systems need accurate corrections to remove signal degradation effects caused by the ionosphere. Ionospheric modeling using signal processing techniques is the subject of discussion in the present contribution. The next problem under discussion is energy disaggregation which is an important issue for energy efficiency and energy consumption awareness. Reliable and fast knowledge about residential energy consumption at appliance level becomes increasingly important nowadays and it is an important mitigation measure to prevent energy wastage. Energy disaggregation or Nonintrusive load monitoring (NILM) is a single channel blind source separation problem where the task is to estimate the consumption of each electrical appliance given the total energy consumption. For both problems various deep learning models (DL) are proposed that cover various aspects of the problem under study, whereas experimental results indicate the proposed methods superiority compared to the current state of the art.
翻訳日:2021-09-24 03:04:53 公開日:2021-09-16
# 知識ベース補完のためのニューロシンボリックAIによるルールと埋め込みの組み合わせ

Combining Rules and Embeddings via Neuro-Symbolic AI for Knowledge Base Completion ( http://arxiv.org/abs/2109.09566v1 )

ライセンス: Link先を確認
Prithviraj Sen, Breno W. S. R. Carvalho, Ibrahim Abdelaziz, Pavan Kapanipathi, Francois Luus, Salim Roukos, Alexander Gray(参考訳) 近年のKBC(Knowledge Base Completion)への関心は、強化学習、帰納的論理プログラミング、グラフ埋め込みに基づく多くのアプローチにつながっている。 特に、ルールベースのKBCは、グラフ埋め込みと同等のパフォーマンスで、解釈可能なルールを生み出している。 ルールベースのKBCでさえ、異なる品質のルールにつながる様々なアプローチが存在しており、以前の作業はこれらの違いを強調する上で必ずしも正確ではない。 多くの規則に基づくKBCを悩ませているもう1つの問題は、関係経路の不均一性である。 本稿では、ルールベースのKBCモデルがすべて同じではないことを示し、一つのケースで学習する2つの異なるアプローチを提案する。 1)関係と関係の混在 2) 経路の混合。 ブール論理を実数値論理に拡張することでルールを学習するニューロシンボリックAI上に実装すると、後者のモデルは平均的相互ランクで2-10%の最先端のKBC精度が得られる。 さらに、関係経路の不均一性に対処するため、ルールベースのKBCとグラフ埋め込みを組み合わせることにより、結果をさらに改善し、両世界のベストを達成できる。

Recent interest in Knowledge Base Completion (KBC) has led to a plethora of approaches based on reinforcement learning, inductive logic programming and graph embeddings. In particular, rule-based KBC has led to interpretable rules while being comparable in performance with graph embeddings. Even within rule-based KBC, there exist different approaches that lead to rules of varying quality and previous work has not always been precise in highlighting these differences. Another issue that plagues most rule-based KBC is the non-uniformity of relation paths: some relation sequences occur in very few paths while others appear very frequently. In this paper, we show that not all rule-based KBC models are the same and propose two distinct approaches that learn in one case: 1) a mixture of relations and the other 2) a mixture of paths. When implemented on top of neuro-symbolic AI, which learns rules by extending Boolean logic to real-valued logic, the latter model leads to superior KBC accuracy outperforming state-of-the-art rule-based KBC by 2-10% in terms of mean reciprocal rank. Furthermore, to address the non-uniformity of relation paths, we combine rule-based KBC with graph embeddings thus improving our results even further and achieving the best of both worlds.
翻訳日:2021-09-21 16:44:12 公開日:2021-09-16
# 非確率的欠落データを用いた教師なし領域適応

Unsupervised domain adaptation with non-stochastic missing data ( http://arxiv.org/abs/2109.09505v1 )

ライセンス: Link先を確認
Matthieu Kirchmeyer (MLIA), Patrick Gallinari (MLIA), Alain Rakotomamonjy (LITIS), Amin Mantrach(参考訳) 対象領域に欠落するデータが存在する場合の分類問題に対する教師なし領域適応(UDA)を検討する。 より正確には、実用的な応用によって動機づけられた、ドメイン間の分散シフトが存在し、ターゲットドメインにいくつかのコンポーネントが体系的に欠落している状況を分析する。 我々はインプテーションに対する生成的アプローチを提案する。 インプテーションはドメイン不変な潜在空間で行われ、完全なソースドメインからの間接的な監督を利用する。 本稿では, 目的の一般化誤差の上限を最小化し, 種々の分岐族(H-divergence, Optimal Transport, H-divergence, H-divergence, Optimal Transport)の下でよく機能する単一モデルを提案する。 さらに, 適応推定フレームワークの目標誤差と, UDA分類器の「理想的」目標誤差を, 目標成分を欠くことなく比較した。 本モデルは,学習源と目標クラスの後方分布をより近づけるため,自己学習によりさらに改善されている。 古典的な数字分類ベンチマーク、Amazonの製品レビューデータセットは、UDAと現実世界のデジタル広告データセットの両方でよく使われている。 これらのデータセットに適応・分類・インプテーションを共同で行う利点を示す。

We consider unsupervised domain adaptation (UDA) for classification problems in the presence of missing data in the unlabelled target domain. More precisely, motivated by practical applications, we analyze situations where distribution shift exists between domains and where some components are systematically absent on the target domain without available supervision for imputing the missing target components. We propose a generative approach for imputation. Imputation is performed in a domain-invariant latent space and leverages indirect supervision from a complete source domain. We introduce a single model performing joint adaptation, imputation and classification which, under our assumptions, minimizes an upper bound of its target generalization error and performs well under various representative divergence families (H-divergence, Optimal Transport). Moreover, we compare the target error of our Adaptation-imputatio n framework and the "ideal" target error of a UDA classifier without missing target components. Our model is further improved with self-training, to bring the learned source and target class posterior distributions closer. We perform experiments on three families of datasets of different modalities: a classical digit classification benchmark, the Amazon product reviews dataset both commonly used in UDA and real-world digital advertising datasets. We show the benefits of jointly performing adaptation, classification and imputation on these datasets.
翻訳日:2021-09-21 16:17:24 公開日:2021-09-16
# 交通モード検出のための効率的な畳み込みニューラルネットワーク

The Devil Is in the Details: An Efficient Convolutional Neural Network for Transport Mode Detection ( http://arxiv.org/abs/2109.09504v1 )

ライセンス: Link先を確認
Hugues Moreau and Andr\'ea Vassilev and Liming Chen(参考訳) トランスポートモード検出は、マルチモーダル信号(GPSや慣性センサー)をユーザのトランスポートモードに推論できるアルゴリズムを設計することを目的とした分類問題である。 カーボンフットプリントトラッキング、モビリティ行動分析、リアルタイムのドアツードアスマートプランニングなど、多くのアプリケーションがある。 現在のほとんどのアプローチは、機械学習技術を使った分類ステップに依存しており、他の多くの分類問題と同様に、ディープラーニングアプローチは、手作りの機能を使った従来の機械学習手法よりも優れた結果が得られる。 しかし、深層モデルには注目すべき欠点がある。それらは通常、メモリ空間と処理コストの両方の観点から重い。 小型で最適化されたモデルが現在の深層モデルと同様に機能することを示す。 geolifeとshl 2018データセットの実験では、最先端のネットワークに比べて数万のパラメータ、すなわち10~1000分の1のパラメータと操作を持つモデルが得られました。 また、前述のデータセットを用いて、異なる長さの信号を扱う現在の前処理が最適ではないことを示し、より良い代替を提供する。 最後に、より重いリカレントニューラルネットワークを用いることなく、より軽い畳み込みニューラルネットワークで異なる長さの信号を使用する方法を提案する。

Transport mode detection is a classification problem aiming to design an algorithm that can infer the transport mode of a user given multimodal signals (GPS and/or inertial sensors). It has many applications, such as carbon footprint tracking, mobility behaviour analysis, or real-time door-to-door smart planning. Most current approaches rely on a classification step using Machine Learning techniques, and, like in many other classification problems, deep learning approaches usually achieve better results than traditional machine learning ones using handcrafted features. Deep models, however, have a notable downside: they are usually heavy, both in terms of memory space and processing cost. We show that a small, optimized model can perform as well as a current deep model. During our experiments on the GeoLife and SHL 2018 datasets, we obtain models with tens of thousands of parameters, that is, 10 to 1,000 times less parameters and operations than networks from the state of the art, which still reach a comparable performance. We also show, using the aforementioned datasets, that the current preprocessing used to deal with signals of different lengths is suboptimal, and we provide better replacements. Finally, we introduce a way to use signals with different lengths with the lighter Convolutional neural networks, without using the heavier Recurrent Neural Networks.
翻訳日:2021-09-21 16:03:29 公開日:2021-09-16
# (参考訳) 矛盾した理論の不確かさの注意物語 [全文訳有]

A Cautionary Tale of Decorrelating Theory Uncertainties ( http://arxiv.org/abs/2109.08159v1 )

ライセンス: CC BY 4.0
Aishik Ghosh and Benjamin Nachman(参考訳) 与えられた特徴に依存しない機械学習分類器を訓練するための様々な技術が提案されている。 これは背景推定を可能にするために不可欠な技術であるが、不確実性を減らすのにも役立つかもしれない。 統計的起源を持たない理論の不確実性について慎重に検討する。 2点(フラグメンテーション・モデリング)と連続的(高階修正)の不確かさの明示的な例を提供し、この不確実性は実際の不確実性がはるかに大きい間に明らかな不確実性を大幅に減少させる。 これらの結果は,統計的に有意な成分への完全分解がなければ,これらの不確実性に対してデコレーションを用いることには注意が必要であることを示唆している。

A variety of techniques have been proposed to train machine learning classifiers that are independent of a given feature. While this can be an essential technique for enabling background estimation, it may also be useful for reducing uncertainties. We carefully examine theory uncertainties, which typically do not have a statistical origin. We will provide explicit examples of two-point (fragmentation modeling) and continuous (higher-order corrections) uncertainties where decorrelating significantly reduces the apparent uncertainty while the actual uncertainty is much larger. These results suggest that caution should be taken when using decorrelation for these types of uncertainties as long as we do not have a complete decomposition into statistically meaningful components.
翻訳日:2021-09-21 08:57:11 公開日:2021-09-16
# (参考訳) TANet: Transformer-CNNアグリゲーションネットワークによるグローバル顔超解像のための新しいパラダイム [全文訳有]

TANet: A new Paradigm for Global Face Super-resolution via Transformer-CNN Aggregation Network ( http://arxiv.org/abs/2109.08174v1 )

ライセンス: CC BY 4.0
Yuanzhi Wang, Tao Lu, Yanduo Zhang, Junjun Jiang, Jiaming Wang, Zhongyuan Wang, Jiayi Ma(参考訳) 最近、顔の全体像を畳み込みニューラルネットワーク(CNN)にフィードするか、顔の構造に焦点を合わせるために追加の顔前兆(例えば、顔解析マップ、顔のランドマーク)を利用するか、顔の詳細を復元しながら顔の構造の整合性を維持する。 しかし、cnnの限られた受容野と不正確な顔前野は、再構成された顔の自然性と忠実さを減少させる。 本稿では,顔構造の表現能力を完全に探究するために,自己着脱機構(すなわちトランスフォーマのコア)に基づく新しいパラダイムを提案する。 具体的には、2つのパスからなるTransformer-CNNアグリゲーションネットワーク(TANet)を設計し、一方のパスは細かな顔の詳細を復元するCNNを使用し、他方のパスはリソースフレンドリーなTransformerを使用して、長距離視覚関係モデリングを利用してグローバル情報をキャプチャする。 上記の2つの経路から特徴を集約することにより、グローバルな顔の構造の整合性と局所的な顔のディテール復元の忠実度を同時に強化する。 顔再建と認識実験の結果,提案手法が最先端手法を著しく上回ることを確認した。

Recently, face super-resolution (FSR) methods either feed whole face image into convolutional neural networks (CNNs) or utilize extra facial priors (e.g., facial parsing maps, facial landmarks) to focus on facial structure, thereby maintaining the consistency of the facial structure while restoring facial details. However, the limited receptive fields of CNNs and inaccurate facial priors will reduce the naturalness and fidelity of the reconstructed face. In this paper, we propose a novel paradigm based on the self-attention mechanism (i.e., the core of Transformer) to fully explore the representation capacity of the facial structure feature. Specifically, we design a Transformer-CNN aggregation network (TANet) consisting of two paths, in which one path uses CNNs responsible for restoring fine-grained facial details while the other utilizes a resource-friendly Transformer to capture global information by exploiting the long-distance visual relation modeling. By aggregating the features from the above two paths, the consistency of global facial structure and fidelity of local facial detail restoration are strengthened simultaneously. Experimental results of face reconstruction and recognition verify that the proposed method can significantly outperform the state-of-the-art methods.
翻訳日:2021-09-21 08:43:14 公開日:2021-09-16
# (参考訳) 解釈可能なローカルツリーサロゲートポリシー [全文訳有]

Interpretable Local Tree Surrogate Policies ( http://arxiv.org/abs/2109.08180v1 )

ライセンス: CC BY 4.0
John Mern, Sidhart Krishnan, Anil Yildiz, Kyle Hatch, Mykel J. Kochenderfer(参考訳) ニューラルネットワークで表されるような高次元のポリシーは、人間によって合理的に解釈できない。 この解釈可能性の欠如は、ユーザーが政策行動において持つ信頼を減らし、ビデオゲームのような低インパクトなタスクに制限する。 残念ながら、多くの手法は効果的な学習のためにニューラルネットワーク表現に依存している。 本研究では,ニューラルネットワークなどのポリシの代理として,予測可能なポリシツリーを構築する手法を提案する。 ポリシーツリーは容易に解釈可能であり、将来の行動の定量的予測を提供する。 本手法の性能を複数のシミュレーションタスクで実証する。

High-dimensional policies, such as those represented by neural networks, cannot be reasonably interpreted by humans. This lack of interpretability reduces the trust users have in policy behavior, limiting their use to low-impact tasks such as video games. Unfortunately, many methods rely on neural network representations for effective learning. In this work, we propose a method to build predictable policy trees as surrogates for policies such as neural networks. The policy trees are easily human interpretable and provide quantitative predictions of future behavior. We demonstrate the performance of this approach on several simulated tasks.
翻訳日:2021-09-21 08:30:33 公開日:2021-09-16
# (参考訳) torch.manual_seed(34 07) : コンピュータビジョンのためのディープラーニングアーキテクチャにおけるランダム種の影響について [全文訳有]

Torch.manual_seed(34 07) is all you need: On the influence of random seeds in deep learning architectures for computer vision ( http://arxiv.org/abs/2109.08203v1 )

ライセンス: CC BY-SA 4.0
David Picard(参考訳) 本稿では,一般的なディープラーニングアーキテクチャを用いたコンピュータビジョンにおけるランダムシード選択が精度に及ぼす影響について検討する。 私はCIFAR 10上で大量の種子(最大10ドル^4ドル)をスキャンし、また、トレーニング済みのモデルを使用してImagenet上の種子をスキャンして、大規模なデータセットを調査します。 結論は、分散がそれほど大きくなくても、平均よりもずっと良い、あるいははるかに悪い結果をもたらす外れ値を見つけるのは驚くほど容易であるということである。

In this paper I investigate the effect of random seed selection on the accuracy when using popular deep learning architectures for computer vision. I scan a large amount of seeds (up to $10^4$) on CIFAR 10 and I also scan fewer seeds on Imagenet using pre-trained models to investigate large scale datasets. The conclusions are that even if the variance is not very large, it is surprisingly easy to find an outlier that performs much better or much worse than the average.
翻訳日:2021-09-21 08:19:10 公開日:2021-09-16
# (参考訳) 対話要約のためのトリックの袋 [全文訳有]

A Bag of Tricks for Dialogue Summarization ( http://arxiv.org/abs/2109.08232v1 )

ライセンス: CC BY 4.0
Muhammad Khalifa, Miguel Ballesteros, Kathleen McKeown(参考訳) 対話要約は、ニュースや科学記事の要約とは対照的に、独自の挑戦を伴う。 本研究では,複数の話者に属する対話の部分の処理と識別,否定的理解,状況の推論,非公式言語理解の4つの課題について検討する。 事前学習されたシーケンスからシーケンスへの言語モデルを用いて、話者名置換、否定スコープハイライト、関連するタスクによるマルチタスク学習、ドメイン内データの事前トレーニングについて検討する。 実験の結果,提案手法は,強いベースラインを上回って要約性能が向上した。

Dialogue summarization comes with its own peculiar challenges as opposed to news or scientific articles summarization. In this work, we explore four different challenges of the task: handling and differentiating parts of the dialogue belonging to multiple speakers, negation understanding, reasoning about the situation, and informal language understanding. Using a pretrained sequence-to-sequence language model, we explore speaker name substitution, negation scope highlighting, multi-task learning with relevant tasks, and pretraining on in-domain data. Our experiments show that our proposed techniques indeed improve summarization performance, outperforming strong baselines.
翻訳日:2021-09-21 08:12:13 公開日:2021-09-16
# (参考訳) 共鳴・発火ニューロンを用いたディープスパイキングニューラルネットワーク [全文訳有]

Deep Spiking Neural Networks with Resonate-and-Fire Neurons ( http://arxiv.org/abs/2109.08234v1 )

ライセンス: CC BY 4.0
Badr AlKhamissi, Muhammad ElNokrashy, David Bernal-Casas(参考訳) 本研究では,Resonate-and-Fire(R AF)ニューロンを用いた新しいスパイキングニューラルネットワーク(SNN)の定式化(Izhikevich,2001)について検討する。 RAF-SNNは、より生物学的に妥当であるが、類似または少ないパラメータを使用して、異なるネットワーク構成にわたる機械学習文学における従来のモデルと同等かそれ以上のパフォーマンスを達成する。 興味深いことに、RAF-SNNは静的条件と動的条件の両方で、試験・訓練時に誘導される騒音に対して頑健である。 MNISTのCNNに対して,N(0, 0.2)誘導雑音では25%高い絶対精度を示した。 N-MNISTのLSTMに対して,訓練時に20%誘導雑音で70%高い絶対精度を示した。

In this work, we explore a new Spiking Neural Network (SNN) formulation with Resonate-and-Fire (RAF) neurons (Izhikevich, 2001) trained with gradient descent via back-propagation. The RAF-SNN, while more biologically plausible, achieves performance comparable to or higher than conventional models in the Machine Learning literature across different network configurations, using similar or fewer parameters. Strikingly, the RAF-SNN proves robust against noise induced at testing/training time, under both static and dynamic conditions. Against CNN on MNIST, we show 25% higher absolute accuracy with N(0, 0.2) induced noise at testing time. Against LSTM on N-MNIST, we show 70% higher absolute accuracy with 20% induced noise at training time.
翻訳日:2021-09-21 08:02:05 公開日:2021-09-16
# (参考訳) Subtle Inverse Crimes:Na\は機械学習アルゴリズムを訓練することで過度に最適化された結果をもたらす [全文訳有]

Subtle Inverse Crimes: Na\"ively training machine learning algorithms could lead to overly-optimistic results ( http://arxiv.org/abs/2109.08237v1 )

ライセンス: CC BY 4.0
Efrat Shimron, Jonathan I. Tamir, Ke Wang, Michael Lustig(参考訳) オープンデータベースは、ディープラーニング(DL)時代において重要なリソースであるが、あるタスクのために公開されたデータは、別のタスクのためのアルゴリズムのトレーニングに使用される。 この研究は、あるケースでは、この一般的なプラクティスが偏り、過剰に最適化された結果につながる可能性があることを強調することを目的としている。 逆問題解法におけるこの現象を実証し、そのバイアスのある性能が隠れデータ前処理パイプラインに起因することを示す。 オープンアクセスデータベースに典型的な2つの前処理パイプラインを記述し、磁気共鳴イメージング(MRI)再構成のために開発された3つの確立されたアルゴリズム(圧縮センシング(CS)、辞書学習(DictL)、DL)への影響について検討する。 この大規模研究で我々は広範囲な計算を行った。 この結果から, CS, DictL, DLアルゴリズムは, 一見不適切なデータに対して, na\ 的に訓練された場合, 系統的に偏りが生じることが明らかとなった: 正規化ルート平均角誤差(NRMSE)は前処理範囲で一貫して改善され, 人工的に25%-48%の増加を示す。 この現象は一般に不明であるため、偏見のある結果はしばしば最先端技術として公表される。 この作業は、ビッグデータの「ラベル外使用」に関する赤旗を掲げ、現代の逆問題解決器の脆弱性が結果として生じるバイアスを明らかにする。

While open databases are an important resource in the Deep Learning (DL) era, they are sometimes used "off-label": data published for one task are used for training algorithms for a different one. This work aims to highlight that in some cases, this common practice may lead to biased, overly-optimistic results. We demonstrate this phenomenon for inverse problem solvers and show how their biased performance stems from hidden data preprocessing pipelines. We describe two preprocessing pipelines typical of open-access databases and study their effects on three well-established algorithms developed for Magnetic Resonance Imaging (MRI) reconstruction: Compressed Sensing (CS), Dictionary Learning (DictL), and DL. In this large-scale study we performed extensive computations. Our results demonstrate that the CS, DictL and DL algorithms yield systematically biased results when na\"ively trained on seemingly-appropriat e data: the Normalized Root Mean Square Error (NRMSE) improves consistently with the preprocessing extent, showing an artificial increase of 25%-48% in some cases. Since this phenomenon is generally unknown, biased results are sometimes published as state-of-the-art; we refer to that as subtle inverse crimes. This work hence raises a red flag regarding na\"ive off-label usage of Big Data and reveals the vulnerability of modern inverse problem solvers to the resulting bias.
翻訳日:2021-09-21 07:53:58 公開日:2021-09-16
# (参考訳) パーシステンス図のベクトル表現のための計算効率のよいフレームワーク [全文訳有]

A computationally efficient framework for vector representation of persistence diagrams ( http://arxiv.org/abs/2109.08239v1 )

ライセンス: CC BY 4.0
Kit C. Chan, Umar Islambekov, Alexey Luchinsky, Rebecca Sanders(参考訳) トポロジカルデータ分析では、データの形状を定量化する一般的な方法は永続図(PD)を使用することである。 PDは代数トポロジーのツールを用いて計算された$\mathbb{R}^2$の点の多重集合である。 しかし、このマルチセット構造はアプリケーションにおけるPDの有用性を制限する。 そのため,近年,PDから情報的かつ効率的な要約を抽出し,機械学習タスクの利用範囲を拡大する取り組みが進められている。 本稿では,ベクトル化永続化ブロック(VPB)と呼ばれる$\mathbb{R}^n$のPDをベクトルに変換する計算効率の良いフレームワークを提案する。 提案手法は,入力雑音に対する安定性,計算コストの低さ,柔軟性など,ベクトルベースサマリーの所望の特性を多数有することを示す。 シミュレーション研究を通じて,様々な学習タスク,すなわちクラスタリング,分類,変化点検出におけるパフォーマンスと計算コストの観点からvpbの有効性を実証する。

In Topological Data Analysis, a common way of quantifying the shape of data is to use a persistence diagram (PD). PDs are multisets of points in $\mathbb{R}^2$ computed using tools of algebraic topology. However, this multi-set structure limits the utility of PDs in applications. Therefore, in recent years efforts have been directed towards extracting informative and efficient summaries from PDs to broaden the scope of their use for machine learning tasks. We propose a computationally efficient framework to convert a PD into a vector in $\mathbb{R}^n$, called a vectorized persistence block (VPB). We show that our representation possesses many of the desired properties of vector-based summaries such as stability with respect to input noise, low computational cost and flexibility. Through simulation studies, we demonstrate the effectiveness of VPBs in terms of performance and computational cost within various learning tasks, namely clustering, classification and change point detection.
翻訳日:2021-09-21 07:33:09 公開日:2021-09-16
# (参考訳) gaussian stochastic weight averagingを用いた流動-流れ回帰のためのモデル型不確かさの評価 [全文訳有]

Assessments of model-form uncertainty using Gaussian stochastic weight averaging for fluid-flow regression ( http://arxiv.org/abs/2109.08248v1 )

ライセンス: CC BY 4.0
Masaki Morimoto, Kai Fukami, Romit Maulik, Ricardo Vinuesa, Koji Fukagata(参考訳) 我々は,gaussian stochastic weight averaging (swag) を用いて,ニューラルネットワークに基づく関数近似に関連するモデル形式不確実性を評価する。 SWAGは、各重量の後方ガウス分布、与えられたトレーニングデータ、一定の学習率を近似する。 この分布にアクセスすることで、サンプル重量の様々な組み合わせで複数のモデルを作成することができ、アンサンブル予測を得るために使用できる。 このようなアンサンブルの平均値は「平均推定」とみなすことができるが、その標準偏差は「信頼区間」の構築に利用することができ、ニューラルネットワークのトレーニングプロセスに関して不確実な定量化(UQ)を行うことができる。 代表的ニューラルネットワークに基づく関数近似タスクを以下に示す。 (i)二次元円形シリンダーウェイク (ii)DayMETデータセット(北米の日中最高気温) (iii)3次元正方形シリンダーウェイク、 (iv)広い範囲の複雑なデータセットに対する現在のアイデアの一般化可能性を評価するための都市フロー。 SWAGに基づくUQは,ネットワークアーキテクチャによらず適用可能であるため,2種類のニューラルネットワークに適用可能であることを示す。 (i)畳み込みニューラルネットワーク(cnn)と多層パーセプトロン(mlp)の組み合わせによるスパースセンサからのグローバルフィールド再構成と (ii)二次元cnnを用いた断面データからの遠方界状態推定 SWAGは、モデル形式の不確実性の観点から、物理的に解釈可能な信頼区間の推定値を得ることができる。 この能力は、科学と工学の幅広い問題に対してその使用をサポートする。

We use Gaussian stochastic weight averaging (SWAG) to assess the model-form uncertainty associated with neural-network-based function approximation relevant to fluid flows. SWAG approximates a posterior Gaussian distribution of each weight, given training data, and a constant learning rate. Having access to this distribution, it is able to create multiple models with various combinations of sampled weights, which can be used to obtain ensemble predictions. The average of such an ensemble can be regarded as the `mean estimation', whereas its standard deviation can be used to construct `confidence intervals', which enable us to perform uncertainty quantification (UQ) with regard to the training process of neural networks. We utilize representative neural-network-based function approximation tasks for the following cases: (i) a two-dimensional circular-cylinder wake; (ii) the DayMET dataset (maximum daily temperature in North America); (iii) a three-dimensional square-cylinder wake; and (iv) urban flow, to assess the generalizability of the present idea for a wide range of complex datasets. SWAG-based UQ can be applied regardless of the network architecture, and therefore, we demonstrate the applicability of the method for two types of neural networks: (i) global field reconstruction from sparse sensors by combining convolutional neural network (CNN) and multi-layer perceptron (MLP); and (ii) far-field state estimation from sectional data with two-dimensional CNN. We find that SWAG can obtain physically-interpret able confidence-interval estimates from the perspective of model-form uncertainty. This capability supports its use for a wide range of problems in science and engineering.
翻訳日:2021-09-21 06:43:09 公開日:2021-09-16
# (参考訳) 近距離隣接言語モデルの規則化学習 [全文訳有]

Regularized Training of Nearest Neighbor Language Models ( http://arxiv.org/abs/2109.08249v1 )

ライセンス: CC BY 4.0
Jean-Francois Ton, Walter Talbott, Shuangfei Zhai, Josh Susskind(参考訳) 自然言語処理アーキテクチャにメモリバンクを含めると、推論時に追加のデータを装備することでモデルキャパシティが向上する。 本稿では,事前学習した言語モデルと,トレーニングデータ(メモリバンク)を網羅した$k$NN検索を併用して,最先端の結果を得られる,$k$NN-LM \citep{khandelwal20 Generalization}を構築した。 我々は、$k$NN-LMのパフォーマンスを、代わりに$k$NNポストホックを使って、LMをトレーニングすることで改善できるかどうか検討する。 本手法は, 言語モデリングタスクにおいて, <texttt{WIKI-2} と \texttt{WIKI-103} で大幅に改善された。 私たちが遭遇する主な現象は、モデルのアクティベーション(重みではなく)に単純なl2正規化を加えることで、ポストホックな$k$nnの分類性能が向上することです。 この改善のいくつかの可能性を探る。 特に,低頻度単語の性能を損なうことなく,高頻度単語の性能を向上させるl2正則化法が提案されている。

Including memory banks in a natural language processing architecture increases model capacity by equipping it with additional data at inference time. In this paper, we build upon $k$NN-LM \citep{khandelwal20generali zation}, which uses a pre-trained language model together with an exhaustive $k$NN search through the training data (memory bank) to achieve state-of-the-art results. We investigate whether we can improve the $k$NN-LM performance by instead training a LM with the knowledge that we will be using a $k$NN post-hoc. We achieved significant improvement using our method on language modeling tasks on \texttt{WIKI-2} and \texttt{WIKI-103}. The main phenomenon that we encounter is that adding a simple L2 regularization on the activations (not weights) of the model, a transformer, improves the post-hoc $k$NN classification performance. We explore some possible reasons for this improvement. In particular, we find that the added L2 regularization seems to improve the performance for high-frequency words without deteriorating the performance for low frequency ones.
翻訳日:2021-09-21 06:18:56 公開日:2021-09-16
# (参考訳) アプリケーション外高ボリュームデータの準備はできているか? reedsロボット知覚ベンチマークデータセット [全文訳有]

Are we ready for beyond-application high-volume data? The Reeds robot perception benchmark dataset ( http://arxiv.org/abs/2109.08250v1 )

ライセンス: CC BY 4.0
Ola Benderius and Christian Berger and Krister Blanch(参考訳) 本稿では,ロボット知覚アルゴリズム研究のためのreedsと呼ばれるデータセットを提案する。 このデータセットは、アプリケーション固有のソリューションをテストする環境を提供するのではなく、アルゴリズムに要求されるベンチマーク機会を提供することを目的としている。 ボートは、非常にダイナミックなキネマティクスを提供するために、伐採プラットフォームとして選ばれた。 センサーパッケージには6つの高性能視覚センサー、2つの長距離ライダー、レーダー、GNSSとIMUが含まれている。 センサの時空間分解能は、データの大きなバリエーションと柔軟性を提供するために最大化され、他のデータセットに見られる解像度に基づいて、多くの異なる解像度のプリセットで評価された。 reedsはまた、共通のサーババックエンド上ですべての評価を実行することで、公平かつ再現可能なアルゴリズムの比較手段を提供する。 データセットには大規模データが含まれているため、評価原則は不必要なデータ移動を避ける方法としても機能する。 また,各フレームのフェッチ・デコード処理がうまくスケールしないため,各評価が逐次的に計算されるアルゴリズムの単純性評価は実用的ではなかった。 代わりに、各フレームは一度だけデコードされ、GPUベースのアルゴリズムを含むすべてのアルゴリズムに並列に供給される。

This paper presents a dataset, called Reeds, for research on robot perception algorithms. The dataset aims to provide demanding benchmark opportunities for algorithms, rather than providing an environment for testing application-specific solutions. A boat was selected as a logging platform in order to provide highly dynamic kinematics. The sensor package includes six high-performance vision sensors, two long-range lidars, radar, as well as GNSS and an IMU. The spatiotemporal resolution of sensors were maximized in order to provide large variations and flexibility in the data, offering evaluation at a large number of different resolution presets based on the resolution found in other datasets. Reeds also provides means of a fair and reproducible comparison of algorithms, by running all evaluations on a common server backend. As the dataset contains massive-scale data, the evaluation principle also serves as a way to avoid moving data unnecessarily. It was also found that naive evaluation of algorithms, where each evaluation is computed sequentially, was not practical as the fetch and decode task of each frame would not scale well. Instead, each frame is only decoded once and then fed to all algorithms in parallel, including for GPU-based algorithms.
翻訳日:2021-09-21 06:13:06 公開日:2021-09-16
# 機械読解作業における数値推論--まだ存在するか?

Numerical reasoning in machine reading comprehension tasks: are we there yet? ( http://arxiv.org/abs/2109.08207v1 )

ライセンス: Link先を確認
Hadeel Al-Negheimish, Pranava Madhyastha, Alessandra Russo(参考訳) 数値推論に基づく機械読解は、加算、減算、ソート、数え上げなどの算術演算を併用して、理解を読み取るタスクである。 drop benchmark (dua et al., 2019)は、この問題を解決するためのnlpモデルの設計に影響を与えた最近のデータセットである。 drop leaderboardにおけるこれらのモデルの現在の状況は、標準メトリクスよりも、モデルが人間に近いパフォーマンスを達成したことを示唆している。 しかし、これはこれらのモデルが理由を学習したことを意味するのだろうか? 本稿では,数値推論の課題に対するトップパフォーマンスモデルアーキテクチャのいくつかに関する制御された研究について述べる。 我々の観察では、標準メトリクスはそのようなタスクの進捗を測ることができないことが示唆されている。

Numerical reasoning based machine reading comprehension is a task that involves reading comprehension along with using arithmetic operations such as addition, subtraction, sorting, and counting. The DROP benchmark (Dua et al., 2019) is a recent dataset that has inspired the design of NLP models aimed at solving this task. The current standings of these models in the DROP leaderboard, over standard metrics, suggest that the models have achieved near-human performance. However, does this mean that these models have learned to reason? In this paper, we present a controlled study on some of the top-performing model architectures for the task of numerical reasoning. Our observations suggest that the standard metrics are incapable of measuring progress towards such tasks.
翻訳日:2021-09-20 14:52:57 公開日:2021-09-16
# 自然言語による定位エージェントの階層制御

Hierarchical Control of Situated Agents through Natural Language ( http://arxiv.org/abs/2109.08214v1 )

ライセンス: Link先を確認
Shuyan Zhou, Pengcheng Yin, Graham Neubig(参考訳) 人間が特定のタスクの実行方法を理解するとき、階層的に、上位レベルのタスクをより小さなサブタスクに分割する。 しかしながら、あるエージェントの自然言語(NL)コマンドに関する文献では、ほとんどの研究は、単純なアクションの平らなシーケンスとして実行される手順を扱い、あるいは手続きの階層は極端に浅かった。 本稿では,エージェント命令と制御のための階層的手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。 さらに,nlインテントを実行可能なプログラムの予測に変換するプランナとリアクターで構成された階層型モジュールネットワークのモデリングパラダイムを提案し,プログラム実行に必要な情報を得るための環境を探索する。 NL命令のIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。 私たちのモデルは、両方のデータセットに対して大きなマージンで、リアクティブベースラインよりも優れています。 また、当社のフレームワークはよりデータ効率が高く、迅速な反復開発を可能にすることも示しています。

When humans conceive how to perform a particular task, they do so hierarchically: splitting higher-level tasks into smaller sub-tasks. However, in the literature on natural language (NL) command of situated agents, most works have treated the procedures to be executed as flat sequences of simple actions, or any hierarchies of procedures have been shallow at best. In this paper, we propose a formalism of procedures as programs, a powerful yet intuitive method of representing hierarchical procedural knowledge for agent command and control. We further propose a modeling paradigm of hierarchical modular networks, which consist of a planner and reactors that convert NL intents to predictions of executable programs and probe the environment for information necessary to complete the program execution. We instantiate this framework on the IQA and ALFRED datasets for NL instruction following. Our model outperforms reactive baselines by a large margin on both datasets. We also demonstrate that our framework is more data-efficient, and that it allows for fast iterative development.
翻訳日:2021-09-20 14:52:46 公開日:2021-09-16
# Habitat-Matterport 3D Dataset (HM3D):1000の大規模3D環境

Habitat-Matterport 3D Dataset (HM3D): 1000 Large-scale 3D Environments for Embodied AI ( http://arxiv.org/abs/2109.08238v1 )

ライセンス: Link先を確認
Santhosh K. Ramakrishnan, Aaron Gokaslan, Erik Wijmans, Oleksandr Maksymets, Alex Clegg, John Turner, Eric Undersander, Wojciech Galuba, Andrew Westbury, Angel X. Chang, Manolis Savva, Yili Zhao, Dhruv Batra(参考訳) habitat-matterport 3d (hm3d)データセットを提案する。 HM3Dは、多種多様な現実世界の場所から1000の大規模3D再構築データセットである。 データセットの各シーンは、マルチフロアの住居、店舗、その他のプライベートな屋内空間などの内部をテクスチャ化された3dメッシュで再構築する。 HM3Dは、物理スケール、再構築の完全性、視覚的忠実性の観点から、学術研究で利用可能な既存のデータセットを超越している。 HM3Dは、航行可能な空間の112.5k m^2を含み、MP3DやGibsonのような他のビルスケールデータセットよりも1.4-3.7倍大きい。 replica、mp3d、gibson、scannetといった既存のフォトリアリスティックな3dデータセットと比較すると、hm3dで描画された画像は、実際のカメラで撮影された画像の忠実度が20から85%高くなり、hm3dメッシュは不完全な表面再構成のために人工物が34から91%少ない。 HM3Dの規模、忠実度、多様性の増大は、それをトレーニングしたエンボディAIエージェントのパフォーマンスに直接影響する。 実際、HM3Dは以下の意味で「最適」であり、HM3D上でPointGoalナビゲーションを実行するように訓練されたエージェントは、HM3D、Gibson、MP3Dで評価されたかどうかに関わらず、最高性能を達成する。 他のデータセットでのトレーニングについても、同様の主張はできない。 HM3DでトレーニングされたPointNavエージェントは、Gibson-testデータセット上で100%のパフォーマンスを達成した。

We present the Habitat-Matterport 3D (HM3D) dataset. HM3D is a large-scale dataset of 1,000 building-scale 3D reconstructions from a diverse set of real-world locations. Each scene in the dataset consists of a textured 3D mesh reconstruction of interiors such as multi-floor residences, stores, and other private indoor spaces. HM3D surpasses existing datasets available for academic research in terms of physical scale, completeness of the reconstruction, and visual fidelity. HM3D contains 112.5k m^2 of navigable space, which is 1.4 - 3.7x larger than other building-scale datasets such as MP3D and Gibson. When compared to existing photorealistic 3D datasets such as Replica, MP3D, Gibson, and ScanNet, images rendered from HM3D have 20 - 85% higher visual fidelity w.r.t. counterpart images captured with real cameras, and HM3D meshes have 34 - 91% fewer artifacts due to incomplete surface reconstruction. The increased scale, fidelity, and diversity of HM3D directly impacts the performance of embodied AI agents trained using it. In fact, we find that HM3D is `pareto optimal' in the following sense -- agents trained to perform PointGoal navigation on HM3D achieve the highest performance regardless of whether they are evaluated on HM3D, Gibson, or MP3D. No similar claim can be made about training on other datasets. HM3D-trained PointNav agents achieve 100% performance on Gibson-test dataset, suggesting that it might be time to retire that episode dataset.
翻訳日:2021-09-20 14:51:27 公開日:2021-09-16
# 暗号化データの強化学習

Reinforcement Learning on Encrypted Data ( http://arxiv.org/abs/2109.08236v1 )

ライセンス: Link先を確認
Alberto Jesu, Victor-Alexandru Darvariu, Alessandro Staffolani, Rebecca Montanari, Mirco Musolesi(参考訳) 実世界のドメインにおける強化学習(RL)のアプリケーションの増加は、データの本質的にセンシティブな性質からプライバシー保護技術の開発につながっている。 既存の作品の多くは、情報漏洩に対して堅牢であるべき学習モデルを持つエージェントに対して、情報を明確に開示する差分プライバシーに焦点を当てている。 センシティブなサイトからの情報など、暗号化されたデータのみを共有できるユースケースに動機づけられた本研究では、入力自体がセンシティブであり、明らかにできないシナリオを検討する。 我々は、状態の暗号化を提供するMDPフレームワークの簡単な拡張を開発する。 本稿では,離散状態空間と連続状態空間を有する環境でのdqnエージェントの動作に関する予備的,実験的研究を行う。 その結果,非決定論的暗号が存在する場合でも,エージェントは依然として小さな状態空間で学習することができるが,より複雑な環境では性能が低下することがわかった。

The growing number of applications of Reinforcement Learning (RL) in real-world domains has led to the development of privacy-preserving techniques due to the inherently sensitive nature of data. Most existing works focus on differential privacy, in which information is revealed in the clear to an agent whose learned model should be robust against information leakage to malicious third parties. Motivated by use cases in which only encrypted data might be shared, such as information from sensitive sites, in this work we consider scenarios in which the inputs themselves are sensitive and cannot be revealed. We develop a simple extension to the MDP framework which provides for the encryption of states. We present a preliminary, experimental study of how a DQN agent trained on encrypted states performs in environments with discrete and continuous state spaces. Our results highlight that the agent is still capable of learning in small state spaces even in presence of non-deterministic encryption, but performance collapses in more complex environments.
翻訳日:2021-09-20 14:50:28 公開日:2021-09-16
# 統計的変化による回帰不確かさ推定の改善

Improving Regression Uncertainty Estimation Under Statistical Change ( http://arxiv.org/abs/2109.08213v1 )

ライセンス: Link先を確認
Tony Tohme, Kevin Vanslette, Kamal Youcef-Toumi(参考訳) ディープニューラルネットワークは、幅広い現実世界の問題において高いパフォーマンスと成功をおさめているが、予測の不確実性の推定は依然として難しい課題である。 この課題に対処するために, アンサンブル学習を用いてベイズ検証メトリクス(BVM)フレームワークに基づく回帰不確かさ推定のための損失関数を提案し, 実装する。 In-distriionデータに関する一連の実験により,提案手法は既存の最先端手法と競合することを示した。 さらに, 分布外データを用いた実験により, 提案手法は統計的変化に対して頑健であり, 予測能力に優れていた。

While deep neural networks are highly performant and successful in a wide range of real-world problems, estimating their predictive uncertainty remains a challenging task. To address this challenge, we propose and implement a loss function for regression uncertainty estimation based on the Bayesian Validation Metric (BVM) framework while using ensemble learning. A series of experiments on in-distribution data show that the proposed method is competitive with existing state-of-the-art methods. In addition, experiments on out-of-distribution data show that the proposed method is robust to statistical change and exhibits superior predictive capability.
翻訳日:2021-09-20 14:49:24 公開日:2021-09-16
# メタベイズ最適化のための自動事前選択 : ディープニューラルネットワークオプティマイザのチューニングを事例として

Automatic prior selection for meta Bayesian optimization with a case study on tuning deep neural network optimizers ( http://arxiv.org/abs/2109.08215v1 )

ライセンス: Link先を確認
Zi Wang and George E. Dahl and Kevin Swersky and Chansoo Lee and Zelda Mariet and Zack Nado and Justin Gilmer and Jasper Snoek and Zoubin Ghahramani(参考訳) ディープニューラルネットワークの性能は、オプティマイザパラメータやモデルハイパーパラメータなど、さまざまなメタパラメータの選択に非常に敏感である。 しかし、これらをうまくチューニングするには、しばしば広範囲で費用のかかる実験が必要となる。 ベイズ最適化(BO)はそのような高価なハイパーパラメータチューニング問題を効率的に解くための原理的手法である。 BOの性能の鍵となるのは関数上の分布を指定および精製することであり、これは基礎となる関数の最適化を推論するために使われる。 本研究では,より厳密な分布を優先的に指定できる類似関数のデータを持つシナリオについて考察する。 具体的には、ニューラルネットワークのトレーニングのための最適化パラメータを最適化する一般的な作業に焦点を当てる。 Wang et al. (2018) のメタBO法に基づいて構築し, 実用的改善を図った。 (a)全てのタスクで同じメタパラメータポイントの観察を必要とせず、複数のタスクのチューニング結果を活用することでパフォーマンスを向上させる。 b) 当社の方法の特別の場合について,その後悔は保たれる。 その結果、連続オプティマイザパラメータの反復最適化のためのコヒーレントBOソリューションが提供される。 現実的なモデルトレーニング設定における我々のアプローチを検証するために、人気画像やテキストデータセット、およびタンパク質配列データセットに基づいて、数万の最先端モデルの構成をトレーニングすることで、大規模なマルチタスクハイパーパラメータチューニングデータセットを収集しました。 以上の結果から,提案手法は競合する手法の少なくとも3倍の効率で優れたハイパーパラメータを見つけることができることがわかった。

The performance of deep neural networks can be highly sensitive to the choice of a variety of meta-parameters, such as optimizer parameters and model hyperparameters. Tuning these well, however, often requires extensive and costly experimentation. Bayesian optimization (BO) is a principled approach to solve such expensive hyperparameter tuning problems efficiently. Key to the performance of BO is specifying and refining a distribution over functions, which is used to reason about the optima of the underlying function being optimized. In this work, we consider the scenario where we have data from similar functions that allows us to specify a tighter distribution a priori. Specifically, we focus on the common but potentially costly task of tuning optimizer parameters for training neural networks. Building on the meta BO method from Wang et al. (2018), we develop practical improvements that (a) boost its performance by leveraging tuning results on multiple tasks without requiring observations for the same meta-parameter points across all tasks, and (b) retain its regret bound for a special case of our method. As a result, we provide a coherent BO solution for iterative optimization of continuous optimizer parameters. To verify our approach in realistic model training setups, we collected a large multi-task hyperparameter tuning dataset by training tens of thousands of configurations of near-state-of-the-ar t models on popular image and text datasets, as well as a protein sequence dataset. Our results show that on average, our method is able to locate good hyperparameters at least 3 times more efficiently than the best competing methods.
翻訳日:2021-09-20 14:49:11 公開日:2021-09-16
# 平均パフォーマンスを超えて -- ブラックボックス分類モデルのパフォーマンスを逸脱する領域を探る

Beyond Average Performance -- exploring regions of deviating performance for black box classification models ( http://arxiv.org/abs/2109.08216v1 )

ライセンス: Link先を確認
Luis Torgo and Paulo Azevedo and Ines Areosa(参考訳) 機械学習モデルは、さまざまなタイプの設定で人気が高まっている。 これは主に、この新しいビッグデータの時代において、人間の専門家がマッチし難いレベルの予測パフォーマンスを達成する能力に起因している。 この使用量の増加により、モデルの予測に対する説明責任と理解の要件が増大する。 しかし、最も成功したモデル(例えばアンサンブル、ディープラーニング)の洗練度は、これらのモデルが本質的にブラックボックスであるため、この試みの大きな障害となっている。 本稿では,ブラックボックス分類モデルの予測性能を解釈可能な記述に利用できる2つの一般的なアプローチについて述べる。 これらのアプローチは、モデルが平均的な振る舞いから著しく逸脱するパフォーマンスを期待する、解釈可能な方法で発見し記述する手段を提供するので、非常に実践的な関連性がある。 これは、特定のケースでモデルの使用に対してエンドユーザに警告することができるため、モデルの予測によってコストのかかる決定が導かれるアプリケーションにとって重要な関連性である。

Machine learning models are becoming increasingly popular in different types of settings. This is mainly caused by their ability to achieve a level of predictive performance that is hard to match by human experts in this new era of big data. With this usage growth comes an increase of the requirements for accountability and understanding of the models' predictions. However, the degree of sophistication of the most successful models (e.g. ensembles, deep learning) is becoming a large obstacle to this endeavour as these models are essentially black boxes. In this paper we describe two general approaches that can be used to provide interpretable descriptions of the expected performance of any black box classification model. These approaches are of high practical relevance as they provide means to uncover and describe in an interpretable way situations where the models are expected to have a performance that deviates significantly from their average behaviour. This may be of critical relevance for applications where costly decisions are driven by the predictions of the models, as it can be used to warn end users against the usage of the models in some specific cases.
翻訳日:2021-09-20 14:48:47 公開日:2021-09-16
# カタナ:テスト時間拡張を用いた簡易なトレーニング後のロバストネス

KATANA: Simple Post-Training Robustness Using Test Time Augmentations ( http://arxiv.org/abs/2109.08191v1 )

ライセンス: Link先を確認
Gilad Cohen, Raja Giryes(参考訳) ディープニューラルネットワーク(DNN)は多くの現実世界のタスクにおいて優れた性能を発揮するが、敵の攻撃に対して非常に脆弱である。 このような攻撃に対する先導的な防御は、敵の訓練であり、DNNはその入力に敵の雑音を導入することによって敵の攻撃に対して堅牢に訓練される。 この手順は効果的であるが、訓練段階で行う必要がある。 そこで本研究では,既存のトレーニング済みDNNを重みを変更せずに堅牢化する,シンプルで使いやすいKATANA手法を提案する。 各画像に対して、多彩な色、ぼやけ、雑音、幾何変換を適用して、ランダム化テスト時間拡張(TTA)を生成する。 次に、DNNのロジット出力を利用して、単純なランダムな森林分類器を訓練し、実クラスラベルを予測する。 我々の戦略は、自然画像の分類に最小限の妥協を伴い、様々な攻撃に対する最先端の敵対的堅牢性を達成する。 また,2つの適応的ホワイトボックス攻撃に対してカタナを試験し,対人訓練と組み合わせて優れた結果を示した。 コードはhttps://github.com/g iladcohen/KATANAで入手できる。

Although Deep Neural Networks (DNNs) achieve excellent performance on many real-world tasks, they are highly vulnerable to adversarial attacks. A leading defense against such attacks is adversarial training, a technique in which a DNN is trained to be robust to adversarial attacks by introducing adversarial noise to its input. This procedure is effective but must be done during the training phase. In this work, we propose a new simple and easy-to-use technique, KATANA, for robustifying an existing pretrained DNN without modifying its weights. For every image, we generate N randomized Test Time Augmentations (TTAs) by applying diverse color, blur, noise, and geometric transforms. Next, we utilize the DNN's logits output to train a simple random forest classifier to predict the real class label. Our strategy achieves state-of-the-art adversarial robustness on diverse attacks with minimal compromise on the natural images' classification. We test KATANA also against two adaptive white-box attacks and it shows excellent results when combined with adversarial training. Code is available in https://github.com/g iladcohen/KATANA.
翻訳日:2021-09-20 14:47:31 公開日:2021-09-16
# スキルレパートリーの効率的な学習のためのダイナミクスを考慮した品質多様性

Dynamics-Aware Quality-Diversity for Efficient Learning of Skill Repertoires ( http://arxiv.org/abs/2109.08522v1 )

ライセンス: Link先を確認
Bryan Lim, Luca Grillotti, Lorenzo Bernasconi and Antoine Cully(参考訳) quality-diversity(qd )アルゴリズムは、ロボットが多様で高性能なスキルの大きなレパートリーを見つけるための強力な探索アルゴリズムである。 しかし、QDアルゴリズムはサンプル非効率であり、何百万もの評価を必要とする。 本稿では,動的モデルを用いてQDアルゴリズムのサンプリング効率を向上させるためのフレームワークであるDQD(Dynamics-Aware Quality-Diversity)を提案する。 また,DA-QDが新たなスキルレパートリーの継続的な獲得にどのように役立つかを示す。 そこで我々は,QDを用いてスキル発見を行う際の経験から,深層力学モデルを漸進的に訓練する。 そして、想像力のあるスキルレパートリーでQD探究を行うことができます。 我々は3つのロボット実験に対するアプローチを評価する。 まず、da-qdは既存のスキル発見のqdアプローチの20倍のサンプル効率を示す実験を行った。 第2に、ゼロショット学習を行うための、全く新しいスキルレパートリーを想像で示す。 最後に,da-qdが現実世界における長方形ナビゲーション課題の解決や損傷適応に有用かつ効果的であることを示す。 ビデオとソースコードは、https://sites.google .com/view/da-qd.comで入手できる。

Quality-Diversity (QD) algorithms are powerful exploration algorithms that allow robots to discover large repertoires of diverse and high-performing skills. However, QD algorithms are sample inefficient and require millions of evaluations. In this paper, we propose Dynamics-Aware Quality-Diversity (DA-QD), a framework to improve the sample efficiency of QD algorithms through the use of dynamics models. We also show how DA-QD can then be used for continual acquisition of new skill repertoires. To do so, we incrementally train a deep dynamics model from experience obtained when performing skill discovery using QD. We can then perform QD exploration in imagination with an imagined skill repertoire. We evaluate our approach on three robotic experiments. First, our experiments show DA-QD is 20 times more sample efficient than existing QD approaches for skill discovery. Second, we demonstrate learning an entirely new skill repertoire in imagination to perform zero-shot learning. Finally, we show how DA-QD is useful and effective for solving a long horizon navigation task and for damage adaptation in the real world. Videos and source code are available at: https://sites.google .com/view/da-qd.
翻訳日:2021-09-20 14:46:26 公開日:2021-09-16
# 内視鏡下手術用深度マップを併用したステレオ映像再構成

Stereo Video Reconstruction Without Explicit Depth Maps for Endoscopic Surgery ( http://arxiv.org/abs/2109.08227v1 )

ライセンス: Link先を確認
Annika Brundyn, Jesse Swanson, Kyunghyun Cho, Doug Kondziolka, Eric Oermann(参考訳) 本研究は,低侵襲手術用2D-to-3Dビデオ変換におけるステレオビデオ再構成の課題について紹介する。 我々は、入力(シングルフレーム対複数連続フレーム)、損失関数(mse、mae、知覚損失)、ネットワークアーキテクチャを変化させて、このタスクのエンドツーエンドのu-netベースのソリューションを設計し実装する。 内視鏡手術を日常的に行う10名の外科医を対象とした。 1つは個々のフレームを評価し、もう1つはVRヘッドセットで再生された完全に再構成された3Dビデオを評価する。 第1の読者調査では、複数の連続したビデオフレームを入力し、欠落したビューを出力するu-netの変種が最もパフォーマンスが良い。 我々はこの結果から2つの結論を導き出す。 まず、複数の過去のフレームから得られる動き情報は、ステレオビジョンの再現に不可欠である。 第二に、提案したU-Net変種は、実際にそのような動き情報を利用してこの課題を解決することができる。 第2報の結果は,提案するu-net変異体の有効性をさらに確認した。 外科医たちは、再構築された3dビデオクリップから奥行きを認識できると報告した。 彼らはまた、オリジナルの2dビデオよりも再構成された3dビデオに明確な好みを示した。 この2つの読者研究は, 最小限の侵襲的手術ビデオに対するステレオ・リコンストラクションの有用性を強く支持し, 深層学習がこの課題に対して有望なアプローチであることを示す。 最後に、専門家の判断と強く相関し、将来の研究において後者のプロキシとして機能する2つの自動メトリクス、LPIPSとdisTSを同定する。

We introduce the task of stereo video reconstruction or, equivalently, 2D-to-3D video conversion for minimally invasive surgical video. We design and implement a series of end-to-end U-Net-based solutions for this task by varying the input (single frame vs. multiple consecutive frames), loss function (MSE, MAE, or perceptual losses), and network architecture. We evaluate these solutions by surveying ten experts - surgeons who routinely perform endoscopic surgery. We run two separate reader studies: one evaluating individual frames and the other evaluating fully reconstructed 3D video played on a VR headset. In the first reader study, a variant of the U-Net that takes as input multiple consecutive video frames and outputs the missing view performs best. We draw two conclusions from this outcome. First, motion information coming from multiple past frames is crucial in recreating stereo vision. Second, the proposed U-Net variant can indeed exploit such motion information for solving this task. The result from the second study further confirms the effectiveness of the proposed U-Net variant. The surgeons reported that they could successfully perceive depth from the reconstructed 3D video clips. They also expressed a clear preference for the reconstructed 3D video over the original 2D video. These two reader studies strongly support the usefulness of the proposed task of stereo reconstruction for minimally invasive surgical video and indicate that deep learning is a promising approach to this task. Finally, we identify two automatic metrics, LPIPS and DISTS, that are strongly correlated with expert judgement and that could serve as proxies for the latter in future studies.
翻訳日:2021-09-20 14:45:14 公開日:2021-09-16
# 農業自立に向けて:深層学習による異なる畑条件下での作物列の検出

Towards agricultural autonomy: crop row detection under varying field conditions using deep learning ( http://arxiv.org/abs/2109.08247v1 )

ライセンス: Link先を確認
Rajitha de Silva, Grzegorz Cielniak, Junfeng Gao(参考訳) 本稿では,フィールドロボットが遭遇する異なるフィールド条件下での作物列検出のための,深層学習に基づく意味セグメンテーション手法のロバスト性を評価するための新しい指標を提案する。 様々なフィールド条件下で遭遇する10のカテゴリのデータセットをテストに使用した。 これらの条件が作物列検出の角精度に及ぼす影響を比較した。 深部畳み込みエンコーダデコーダネットワークを実装し,RGB入力画像を用いた作出行マスクの予測を行う。 予測されたマスクは後処理アルゴリズムに送られ、作物の列を抽出する。 深層学習モデルは, 直射日光下での性能が低下する一方, 作物の影や生育段階に対して頑健であり, 新たな指標で評価すると, 雑草密度, トランポリンおよび不連続性が増大することがわかった。

This paper presents a novel metric to evaluate the robustness of deep learning based semantic segmentation approaches for crop row detection under different field conditions encountered by a field robot. A dataset with ten main categories encountered under various field conditions was used for testing. The effect on these conditions on the angular accuracy of crop row detection was compared. A deep convolutional encoder decoder network is implemented to predict crop row masks using RGB input images. The predicted mask is then sent to a post processing algorithm to extract the crop rows. The deep learning model was found to be robust against shadows and growth stages of the crop while the performance was reduced under direct sunlight, increasing weed density, tramlines and discontinuities in crop rows when evaluated with the novel metric.
翻訳日:2021-09-20 14:44:46 公開日:2021-09-16
# バイアスのバランスを取る - トレーニングリウェイトによる公平性の実現

Balancing out Bias: Achieving Fairness Through Training Reweighting ( http://arxiv.org/abs/2109.08253v1 )

ライセンス: Link先を確認
Xudong Han, Timothy Baldwin, Trevor Cohn(参考訳) 自然言語処理におけるバイアスは主に、感情や構文解析などのタスクをモデル化する際に、性別や人種などの著者の特徴を学習するモデルから生じる。 この問題は、著者層間での誤り率の差として現れ、典型的には少数派グループを軽視する。 既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。 さらに,過去の研究では,データセットのバランスや評価手法に関してバイアス評価が矛盾していた。 本稿では,タスクラベルと著者層の両方の頻度に基づいて,インスタンス再重み付けによるバイアス対策をシンプルかつ効果的に行う手法を提案する。 本手法は,著者の人口動態を入力として組み込んだゲートモデルを用いて拡張し,入力データのバイアスに非常に脆弱な一方で,階層的入力摂動による偏りの予測を提供し,事例再重み付けと組み合わせることで,他のバイアス緩和手法よりも優れていることを示す。

Bias in natural language processing arises primarily from models learning characteristics of the author such as gender and race when modelling tasks such as sentiment and syntactic parsing. This problem manifests as disparities in error rates across author demographics, typically disadvantaging minority groups. Existing methods for mitigating and measuring bias do not directly account for correlations between author demographics and linguistic variables. Moreover, evaluation of bias has been inconsistent in previous work, in terms of dataset balance and evaluation methods. This paper introduces a very simple but highly effective method for countering bias using instance reweighting, based on the frequency of both task labels and author demographics. We extend the method in the form of a gated model which incorporates the author demographic as an input, and show that while it is highly vulnerable to input data bias, it provides debiased predictions through demographic input perturbation, and outperforms all other bias mitigation techniques when combined with instance reweighting.
翻訳日:2021-09-20 14:42:32 公開日:2021-09-16
# 大きな正方行列のスパース因子分解

Sparse Factorization of Large Square Matrices ( http://arxiv.org/abs/2109.08184v1 )

ライセンス: Link先を確認
Ruslan Khalitov, Tong Yu, Lei Cheng, Zhirong Yang(参考訳) 正方行列は多くの機械学習問題やモデルに現れる。 大きな正方行列に対する最適化は、メモリと時間において高価である。 そのため経済的な近似が必要となる。 従来の近似法は、平方行列をより低い階数の数行列に分解する。 しかし、近似行列が本質的にハイランクあるいはフルランクに近い場合、低ランク制約は性能ボトルネックとなる。 本稿では,全ランク行列のスパース積を持つ大きな正方行列を近似する。 近似では、我々の手法は$N(\log N)^2$非零数しか必要とせず、$N\times N$ full matrix である。 非パラメトリックとパラメトリックの両方の方法で因子分解を見つける。 前者では行列の分解を直接学習し、後者では、入力データをゼロでない行列エントリにマッピングするようにニューラルネットワークを訓練する。 スパース分解法は, 種々の合成および実世界の正方行列に対して試験される。 実験の結果,近似行列がスパースでハイランクである場合,本手法により近似性が向上することが示された。 この発見に基づいて、我々のパラメトリック手法をスケーラブルなアテンションアーキテクチャとして使用し、長いシーケンシャルなデータに対する学習タスクを強力に実行し、Transformerとそのいくつかの変種を破る。

Square matrices appear in many machine learning problems and models. Optimization over a large square matrix is expensive in memory and in time. Therefore an economic approximation is needed. Conventional approximation approaches factorize the square matrix into a number matrices of much lower ranks. However, the low-rank constraint is a performance bottleneck if the approximated matrix is intrinsically high-rank or close to full rank. In this paper, we propose to approximate a large square matrix with a product of sparse full-rank matrices. In the approximation, our method needs only $N(\log N)^2$ non-zero numbers for an $N\times N$ full matrix. We present both non-parametric and parametric ways to find the factorization. In the former, we learn the factorizing matrices directly, and in the latter, we train neural networks to map input data to the non-zero matrix entries. The sparse factorization method is tested for a variety of synthetic and real-world square matrices. The experimental results demonstrate that our method gives a better approximation when the approximated matrix is sparse and high-rank. Based on this finding, we use our parametric method as a scalable attention architecture that performs strongly in learning tasks for long sequential data and defeats Transformer and its several variants.
翻訳日:2021-09-20 14:37:27 公開日:2021-09-16
# SLAW:効率的なマルチタスク学習のためのスケールドロス近似重み付け

SLAW: Scaled Loss Approximate Weighting for Efficient Multi-Task Learning ( http://arxiv.org/abs/2109.08218v1 )

ライセンス: Link先を確認
Michael Crawshaw, Jana Ko\v{s}eck\'a(参考訳) マルチタスク学習(MTL)は、重要な応用を持つ機械学習のサブフィールドであるが、MTLにおける最適化の多目的性は、タスク間のトレーニングのバランスをとるのに困難をもたらす。 最高のMTL最適化手法では、各タスクの損失関数の勾配を個別に計算する必要がある。 本稿では,既存の最良メソッドの性能に合致するマルチタスク最適化手法であるslaw(scaled loss approximation weighting)を提案する。 SLAWはタスク間の学習のバランスを保ち、各タスクの勾配の大きさを、余分な後方通過を行わずに推定する。 SLAWの勾配等級推定のための理論的および経験的正当性を提供する。 薬物発見のための非線形回帰、マルチタスクコンピュータビジョン、仮想スクリーニング実験の結果、SLAWは性能を犠牲にすることなく強力なベースラインよりもはるかに効率的であり、多様な領域に適用可能であることが示された。

Multi-task learning (MTL) is a subfield of machine learning with important applications, but the multi-objective nature of optimization in MTL leads to difficulties in balancing training between tasks. The best MTL optimization methods require individually computing the gradient of each task's loss function, which impedes scalability to a large number of tasks. In this paper, we propose Scaled Loss Approximate Weighting (SLAW), a method for multi-task optimization that matches the performance of the best existing methods while being much more efficient. SLAW balances learning between tasks by estimating the magnitudes of each task's gradient without performing any extra backward passes. We provide theoretical and empirical justification for SLAW's estimation of gradient magnitudes. Experimental results on non-linear regression, multi-task computer vision, and virtual screening for drug discovery demonstrate that SLAW is significantly more efficient than strong baselines without sacrificing performance and applicable to a diverse range of domains.
翻訳日:2021-09-20 14:37:08 公開日:2021-09-16
# RAPID-RL:効率的な深層強化学習のためのプリエンプティブエグゼクトを持つ再構成可能なアーキテクチャ

RAPID-RL: A Reconfigurable Architecture with Preemptive-Exits for Efficient Deep-Reinforcement Learning ( http://arxiv.org/abs/2109.08231v1 )

ライセンス: Link先を確認
Adarsh Kumar Kosta, Malik Aqeel Anwar, Priyadarshini Panda, Arijit Raychowdhury, and Kaushik Roy(参考訳) 現在の深層強化学習(Deep Reinforcement Learning, RL)システムでは,人間レベルのパフォーマンスを超えたインテリジェントエージェントの構築が期待できる。 しかし、基礎となるディープニューラルネットワーク(DNN)に関連する計算複雑性は、パワーハングリーの実装につながる。 これにより、deep rlシステムはリソース制約のあるエッジデバイスへのデプロイに適さない。 この課題に対処するために,RAPID-RL (RAPID-RL) のためのプリエンプティブ出口を持つ再構成可能なアーキテクチャを提案する。 RAPID-RLは入力の難易度に基づいてDNN層の条件付き活性化を可能にする。 これにより、競合性能を維持しながら、推論中の計算労力を動的に調整できる。 これを実現するために、サイドブランチによる深層Qネットワーク(DQN)を、関連する信頼スコアとともに中間予測を生成する。 また,動的RL環境下での動作と分岐信頼度を学習するための新しい学習手法を提案する。 実験では,オープンソースのドローンシミュレータ(PEDRA)上でのAtari 2600ゲームタスクと現実的なドローンナビゲーションタスクのフレームワークについて検討した。 RAPID-RLは, サイドブランチのないベースラインDQNと比較して, Atariタスクの0.88x (0.91x) 以上の性能を維持しつつ, 0.34x (0.25x) 演算数(OPS)を発生させることを示した。 OPSの削減は高速かつ効率的な推論をもたらし、最小限の計算で迅速な決定を行うリソース制約エッジにとって非常に有益であることが証明された。

Present-day Deep Reinforcement Learning (RL) systems show great promise towards building intelligent agents surpassing human-level performance. However, the computational complexity associated with the underlying deep neural networks (DNNs) leads to power-hungry implementations. This makes deep RL systems unsuitable for deployment on resource-constrained edge devices. To address this challenge, we propose a reconfigurable architecture with preemptive exits for efficient deep RL (RAPID-RL). RAPID-RL enables conditional activation of DNN layers based on the difficulty level of inputs. This allows to dynamically adjust the compute effort during inference while maintaining competitive performance. We achieve this by augmenting a deep Q-network (DQN) with side-branches capable of generating intermediate predictions along with an associated confidence score. We also propose a novel training methodology for learning the actions and branch confidence scores in a dynamic RL setting. Our experiments evaluate the proposed framework for Atari 2600 gaming tasks and a realistic Drone navigation task on an open-source drone simulator (PEDRA). We show that RAPID-RL incurs 0.34x (0.25x) number of operations (OPS) while maintaining performance above 0.88x (0.91x) on Atari (Drone navigation) tasks, compared to a baseline-DQN without any side-branches. The reduction in OPS leads to fast and efficient inference, proving to be highly beneficial for the resource-constrained edge where making quick decisions with minimal compute is essential.
翻訳日:2021-09-20 14:36:50 公開日:2021-09-16
# 視覚接地用高速変圧器

Fast-Slow Transformer for Visually Grounding Speech ( http://arxiv.org/abs/2109.08186v1 )

ライセンス: Link先を確認
Puyuan Peng and David Harwath(参考訳) 本稿では,Fast-Slow Transformer for Visually Grounding Speech(FST-VGS)を提案する。 FaST-VGSは、生音声波形と視覚画像の関係を学習するためのトランスフォーマーベースのモデルである。 このモデルはデュアルエンコーダとクロスアテンションアーキテクチャを1つのモデルに統合し、後者の精度とともに前者の検索速度を向上する。 FaST-VGSは、ベンチマークデータセット上で最先端の音声画像検索精度を実現し、その学習された表現は、ZeroSpeech 2021音声およびセマンティックタスクに強いパフォーマンスを示す。

We present Fast-Slow Transformer for Visually Grounding Speech, or FaST-VGS. FaST-VGS is a Transformer-based model for learning the associations between raw speech waveforms and visual images. The model unifies dual-encoder and cross-attention architectures into a single model, reaping the superior retrieval speed of the former along with the accuracy of the latter. FaST-VGS achieves state-of-the-art speech-image retrieval accuracy on benchmark datasets, and its learned representations exhibit strong performance on the ZeroSpeech 2021 phonetic and semantic tasks.
翻訳日:2021-09-20 14:33:41 公開日:2021-09-16
# LiDARパノプティブセグメンテーションのためのディバイド・アンド・マージポイントクラウドクラスタリングアルゴリズム

A Divide-and-Merge Point Cloud Clustering Algorithm for LiDAR Panoptic Segmentation ( http://arxiv.org/abs/2109.08224v1 )

ライセンス: Link先を確認
Yiming Zhao, Xiao Zhang, and Xinming Huang(参考訳) LiDARポイントクラウドからのオブジェクトのクラスタリングは、自律運転など多くのアプリケーションにおいて重要な研究課題である。 実時間要求を満たすため,2つの隣接点が接続されているかどうかをヒューリスティック条件付きLiDAR球面領域画像に接続成分ラベル(CCL)技術を適用することを提案する。 しかし、lidar範囲画像は、2つのピクセルが同じコンポーネントに属するかどうかを決定論的に判断する2値画像とは異なる。 LiDAR領域の画像で使用されるヒューリスティックな条件は経験的にのみ有効であり、これはLiDARクラスタリングアルゴリズムが経験的ヒューリスティックな条件の潜在的な失敗に対して堅牢であることを示唆している。 この課題を克服するために,本研究では分割結合型LiDARクラスタリングアルゴリズムを提案する。 このアルゴリズムはまず各均等に分割された局所領域のクラスタリングを行い、その後、エッジポイント対に投票して局所的なクラスタ化された小さなコンポーネントをマージする。 オブジェクトの合計$N$ LiDARポイントと$m$分割ローカルリージョンが存在すると仮定すると、提案アルゴリズムの時間複雑性は$O(N)+O(m^2)$である。 より小さな$m$は、投票がより多くの隣接点を含むことを意味するが、時間的複雑さは大きくなる。 したがって$m$は、時間複雑性とクラスタリングの精度の間のトレードオフを制御する。 適切な$m$は、提案アルゴリズムがリアルタイムに動作し、優れた性能を維持するのに役立つ。 本研究では,セマンティックKITTIパン光学セグメンテーションモデルを用いて,分割・マージクラスタリングアルゴリズムの評価を行った。 リーダボードを通じて評価された最終的なパフォーマンスは、公開されたすべてのメソッドの中で最高のパフォーマンスを達成します。 提案アルゴリズムはC++で実装され,python関数としてラップされる。 ピソンの近代的なディープラーニングフレームワークで簡単に使用することができる。

Clustering objects from the LiDAR point cloud is an important research problem with many applications such as autonomous driving. To meet the real-time requirement, existing research proposed to apply the connected-component- labeling (CCL) technique on LiDAR spherical range image with a heuristic condition to check if two neighbor points are connected. However, LiDAR range image is different from a binary image which has a deterministic condition to tell if two pixels belong to the same component. The heuristic condition used on the LiDAR range image only works empirically, which suggests the LiDAR clustering algorithm should be robust to potential failures of the empirical heuristic condition. To overcome this challenge, this paper proposes a divide-and-merge LiDAR clustering algorithm. This algorithm firstly conducts clustering in each evenly divided local region, then merges the local clustered small components by voting on edge point pairs. Assuming there are $N$ LiDAR points of objects in total with $m$ divided local regions, the time complexity of the proposed algorithm is $O(N)+O(m^2)$. A smaller $m$ means the voting will involve more neighbor points, but the time complexity will become larger. So the $m$ controls the trade-off between the time complexity and the clustering accuracy. A proper $m$ helps the proposed algorithm work in real-time as well as maintain good performance. We evaluate the divide-and-merge clustering algorithm on the SemanticKITTI panoptic segmentation benchmark by cascading it with a state-of-the-art semantic segmentation model. The final performance evaluated through the leaderboard achieves the best among all published methods. The proposed algorithm is implemented with C++ and wrapped as a python function. It can be easily used with the modern deep learning framework in python.
翻訳日:2021-09-20 14:33:29 公開日:2021-09-16
# 戦略ランク付け

Strategic Ranking ( http://arxiv.org/abs/2109.08240v1 )

ライセンス: Link先を確認
Lydia T. Liu, Nikhil Garg, Christian Borgs(参考訳) 戦略分類は、戦略的個人による入力の操作に頑健な分類器の設計を研究する。 しかし、既存の文献ではアルゴリズム設計による個人間の競争の影響は考慮されていない。 大学進学などの制限された割当設定に動機づけられ、(デザインされた)個人報酬が利子の測定において応募者のポスト・エフォートのランクに依存する戦略的ランキングを導入する。 本研究は, 応募者間の競争が, 結果の平衡とモデル洞察にどのように影響するかを示す。 我々は、様々なランキング報酬デザインが応募者、学校、社会ユーティリティとどう引き離すか、特にランキングデザインがリソースの異質なアクセスから生ずる不平等に対抗して評価スコアを改善するかを分析し、ランキング報酬デザインのランダム化は2つの異なる影響、福祉ギャップ、アクセスの尺度を緩和できるのに対し、非ランダム化は、系統的に不利なグループを除外する高いレベルの競争を引き起こす可能性があることを見出した。

Strategic classification studies the design of a classifier robust to the manipulation of input by strategic individuals. However, the existing literature does not consider the effect of competition among individuals as induced by the algorithm design. Motivated by constrained allocation settings such as college admissions, we introduce strategic ranking, in which the (designed) individual reward depends on an applicant's post-effort rank in a measurement of interest. Our results illustrate how competition among applicants affects the resulting equilibria and model insights. We analyze how various ranking reward designs trade off applicant, school, and societal utility and in particular how ranking design can counter inequities arising from disparate access to resources to improve one's measured score: We find that randomization in the ranking reward design can mitigate two measures of disparate impact, welfare gap and access, whereas non-randomization may induce a high level of competition that systematically excludes a disadvantaged group.
翻訳日:2021-09-20 14:30:14 公開日:2021-09-16
# 政策選択とベストアーム識別:「政策選択実験における適応的治療指示」に対するコメント

Policy Choice and Best Arm Identification: Comments on "Adaptive Treatment Assignment in Experiments for Policy Choice" ( http://arxiv.org/abs/2109.08229v1 )

ライセンス: Link先を確認
Kaito Ariu and Masahiro Kato and Junpei Komiyama and Kenichiro McAlinn(参考訳) 本研究の目的は,kasy and sautmann (2021) で提唱された「政治選択」問題と,機械学習におけるバンディット文学のフロンティアを結びつけることである。 本稿では,「最良の腕識別(bai)問題」と呼ばれる問題と同一であるように,政策選択問題をどのようにフレーム化できるかについて議論する。 論文の連結により、カシーとソートマン(2021年)が取り組んだ政策選択アルゴリズムの漸近最適性は、文学における長年のオープンな問題である。 残念ながら、この関係は主定理のいくつかの主要な問題を浮き彫りにしている。 特に、Kasy and Sautmann (2021) における Theorem 1 は偽であることを示す。 定理 1 のステートメント (1) と (2) の証明は誤りであるが、ステートメント自体が真である可能性はあるが、修正するのは非自明である。 一方, 論文(3)とその証明は誤りであり, バンディット文学における既存の理論的結果を活用して示す。 この問題は重要であり、バンディットコミュニティにおける過去10年間に多大な関心を集めているため、BAI文献の最近の発展についてレビューする。 このことが経済問題との関連を強調し、計量社会における方法論的・理論的発展を刺激することを願っている。

The purpose of this paper is to connect the "policy choice" problem, proposed in Kasy and Sautmann (2021), to the frontiers of the bandit literature in machine learning. We discuss how the policy choice problem can be framed in a way such that it is identical to what is called the "best arm identification" (BAI) problem. By connecting the literature, we identify that the asymptotic optimality of policy choice algorithms tackled in Kasy and Sautmann (2021) is a long-standing open question in the literature. Unfortunately, this connection highlights several major issues with the main theorem. In particular, we show that Theorem 1 in Kasy and Sautmann (2021) is false. We find that the proofs of statements (1) and (2) of Theorem 1 are incorrect, though the statements themselves may be true, though non-trivial to fix. Statement (3), and its proof, on the other hand, is false, which we show by utilizing existing theoretical results in the bandit literature. As this question is critically important, garnering much interest in the last decade within the bandit community, we provide a review of recent developments in the BAI literature. We hope this serves to highlight the relevance to economic problems and stimulate methodological and theoretical developments in the econometric community.
翻訳日:2021-09-20 14:28:22 公開日:2021-09-16
# (参考訳) モジュラーニューラル常微分方程式 [全文訳有]

Modular Neural Ordinary Differential Equations ( http://arxiv.org/abs/2109.07359v2 )

ライセンス: CC0 1.0
Max Zhu, Pietro Lio, Jacob Moss(参考訳) 物理学の法則は、何世紀にもわたって dif-ferential equation で書かれてきた。 neural ordinary differenten-tial equation(ノード)は、これらの微分方程式をデータセットから学習できる新しい機械学習アーキテクチャである。 これらは、Lagrangian Neural Net-works(LNN)とSecond Order Neural Differential Equations(SONODE)という形式での古典力学シミュレーションに適用されている。 しかし、それらは運動の最も一般的な方程式を表現できないか、解釈不可能である。 本稿では,各力成分を別々のモジュールで学習するモジュール型ニューラルネットワークodeを提案する。 これらのモデルに物理的な事前情報を組み込む方法を示す。 多くの実験を通じて、これらの結果がより優れたパフォーマンスをもたらし、より解釈しやすく、モジュール性によって柔軟性が増すことを実証した。

The laws of physics have been written in the language of dif-ferential equations for centuries. Neural Ordinary Differen-tial Equations (NODEs) are a new machine learning architecture which allows these differential equations to be learned from a dataset. These have been applied to classical dynamics simulations in the form of Lagrangian Neural Net-works (LNNs) and Second Order Neural Differential Equations (SONODEs). However, they either cannot represent the most general equations of motion or lack interpretability. In this paper, we propose Modular Neural ODEs, where each force component is learned with separate modules. We show how physical priors can be easily incorporated into these models. Through a number of experiments, we demonstrate these result in better performance, are more interpretable, and add flexibility due to their modularity.
翻訳日:2021-09-20 12:44:24 公開日:2021-09-16
# (参考訳) 線形確率微分方程式における二次コストの適応制御

Adaptive Control of Quadratic Costs in Linear Stochastic Differential Equations ( http://arxiv.org/abs/2109.07630v1 )

ライセンス: CC BY 4.0
Mohamad Kazem Shirani Faradonbeh, Mohamad Sadegh Shirani Faradonbeh(参考訳) 適応制御における標準問題, 未知連続時間線形力学系における二次コスト最小化のためのポリシーの設計と解析について検討した。 基礎となる確率微分方程式の未知のパラメータを学習する精度や、下位最適作用(すなわち後悔)による性能低下の完全な解析など、重要な課題に対処する。 次に、探索と搾取のバランスをとるための簡単な実装アルゴリズムを提案し、続いて2乗の時間的後悔の根源を示す理論的保証を示す。 さらに,システムの安定性を保証し,後悔の基本的な限界を特定するための厳密な結果を示す。 提示された結果を確立するために、独立した関心を持つことができる複数の新しい技術フレームワークが開発されている。

We study a canonical problem in adaptive control; design and analysis of policies for minimizing quadratic costs in unknown continuous-time linear dynamical systems. We address important challenges including accuracy of learning the unknown parameters of the underlying stochastic differential equation, as well as full analyses of performance degradation due to sub-optimal actions (i.e., regret). Then, an easy-to-implement algorithm for balancing exploration versus exploitation is proposed, followed by theoretical guarantees showing a square-root of time regret bound. Further, we present tight results for assuring system stability and for specifying fundamental limits for regret. To establish the presented results, multiple novel technical frameworks are developed, which can be of independent interests.
翻訳日:2021-09-18 04:28:23 公開日:2021-09-16
# (参考訳) opv2v:車間通信を用いた認知のためのオープンベンチマークデータセットと融合パイプライン [全文訳有]

OPV2V: An Open Benchmark Dataset and Fusion Pipeline for Perception with Vehicle-to-Vehicle Communication ( http://arxiv.org/abs/2109.07644v1 )

ライセンス: CC BY 4.0
Runsheng Xu, Hao Xiang, Xin Xia, Xu Han, Jinlong Liu, Jiaqi Ma(参考訳) 近年,自動運転車における車両間通信による認識性能の向上が注目されているが,ベンチマークアルゴリズムに適したオープンデータセットが存在しないため,協調的知覚技術の開発・評価が困難になっている。 そこで本研究では,車両間知覚のための最初の大規模オープンシミュレーションデータセットを提案する。 70以上の興味深いシーン、111,464フレーム、232,913個の注釈付き3d車両バウンディングボックスがあり、カルラの8つの町とロサンゼルスのカルバーシティのデジタルタウンから収集されている。 次に,16種類の実装モデルを用いた総合ベンチマークを構築し,最先端lidar検出アルゴリズムを用いた情報融合戦略(早期,後期,中間融合)の評価を行った。 さらに,複数の連結車両からの情報を集約する新しいAttentive Intermediate Fusionパイプラインを提案する。 実験の結果,提案パイプラインは既存の3次元LiDAR検出器と容易に統合でき,高い圧縮速度でも優れた性能が得られることがわかった。 より多くの研究者がVager-to-Vehicleの知覚を調査できるように、データセット、ベンチマークメソッド、および関連するすべてのコードをhttps://mobility-lab .seas.ucla.edu/opv2v /でリリースします。

Employing Vehicle-to-Vehicle communication to enhance perception performance in self-driving technology has attracted considerable attention recently; however, the absence of a suitable open dataset for benchmarking algorithms has made it difficult to develop and assess cooperative perception technologies. To this end, we present the first large-scale open simulated dataset for Vehicle-to-Vehicle perception. It contains over 70 interesting scenes, 111,464 frames, and 232,913 annotated 3D vehicle bounding boxes, collected from 8 towns in CARLA and a digital town of Culver City, Los Angeles. We then construct a comprehensive benchmark with a total of 16 implemented models to evaluate several information fusion strategies~(i.e. early, late, and intermediate fusion) with state-of-the-art LiDAR detection algorithms. Moreover, we propose a new Attentive Intermediate Fusion pipeline to aggregate information from multiple connected vehicles. Our experiments show that the proposed pipeline can be easily integrated with existing 3D LiDAR detectors and achieve outstanding performance even with large compression rates. To encourage more researchers to investigate Vehicle-to-Vehicle perception, we will release the dataset, benchmark methods, and all related codes in https://mobility-lab .seas.ucla.edu/opv2v /.
翻訳日:2021-09-18 04:27:25 公開日:2021-09-16
# (参考訳) METEOR: 自律運転のための高密度・不均質な行動データセット [全文訳有]

METEOR: A Massive Dense & Heterogeneous Behavior Dataset for Autonomous Driving ( http://arxiv.org/abs/2109.07648v1 )

ライセンス: CC BY 4.0
Rohan Chandra, Mridul Mahajan, Rahul Kala, Rishitha Palugulla, Chandrababu Naidu, Alok Jain, and Dinesh Manocha(参考訳) インドにおける非構造化シナリオにおけるトラフィックパターンをキャプチャする,新しい複雑なトラフィックデータセットMETEORを提案する。 METEORは1000分以上のビデオクリップと、エゴ車軌道を持つ200万以上の注釈付きフレームと、周囲の車両や交通機関のための1300万以上のバウンディングボックスで構成されている。 METEORは、微視的およびマクロ的な交通特性の不均一性を捉えたユニークなデータセットである。 さらに、カットイン、降車、オーバテイク、過速度、ジグザグ、突然車線変更、交通信号の実行、間違った車線での運転、間違ったターン、交差点での通行権の欠如など、希少で興味深い運転行動に対するアノテーションを提供する。 また, 雨天, 夜間運転, 道路標識のない農村部での運転, 高密度交通シナリオなど, 様々な交通シナリオを提示する。 我々は,新しいデータセットを用いて物体検出および行動予測アルゴリズムの性能評価を行った。 現状の物体検出器はこれらの困難な条件で故障することを示し、また新しいベンチマークテストとして、ベースラインmAPスコア70.74のアクションビヘイビア予測を提案する。

We present a new and complex traffic dataset, METEOR, which captures traffic patterns in unstructured scenarios in India. METEOR consists of more than 1000 one-minute video clips, over 2 million annotated frames with ego-vehicle trajectories, and more than 13 million bounding boxes for surrounding vehicles or traffic agents. METEOR is a unique dataset in terms of capturing the heterogeneity of microscopic and macroscopic traffic characteristics. Furthermore, we provide annotations for rare and interesting driving behaviors such as cut-ins, yielding, overtaking, overspeeding, zigzagging, sudden lane changing, running traffic signals, driving in the wrong lanes, taking wrong turns, lack of right-of-way rules at intersections, etc. We also present diverse traffic scenarios corresponding to rainy weather, nighttime driving, driving in rural areas with unmarked roads, and high-density traffic scenarios. We use our novel dataset to evaluate the performance of object detection and behavior prediction algorithms. We show that state-of-the-art object detectors fail in these challenging conditions and also propose a new benchmark test: action-behavior prediction with a baseline mAP score of 70.74.
翻訳日:2021-09-18 04:14:11 公開日:2021-09-16
# (参考訳) SPINロードマッパー:自律走行のための空間空間グラフ推論による航空画像からの道路抽出 [全文訳有]

SPIN Road Mapper: Extracting Roads from Aerial Images via Spatial and Interaction Space Graph Reasoning for Autonomous Driving ( http://arxiv.org/abs/2109.07701v1 )

ライセンス: CC BY 4.0
Wele Gedara Chaminda Bandara, Jeya Maria Jose Valanarasu, Vishal M. Patel(参考訳) 道路抽出は自律航法システムを構築するための重要なステップである。 道路セグメントの検出は、様々な幅があり、画像全体を通して分岐し、地形、雲、その他の気象条件によって遮蔽されることが多いため、困難である。 この問題に対して単に畳み込みニューラルネットワーク(ConvNets)を使用することは、道路接続の抽出に不可欠である画像中の道路セグメント間の遠い依存関係を捉えるのが効率的ではないため、効果がない。 この目的のために,ConvNetにプラグインされた時,特徴写像から投影された空間空間および相互作用空間上に構築されたグラフに対して推論を行う空間空間空間グラフ推論(SPIN)モジュールを提案する。 空間空間上の推論は、異なる空間領域と他の文脈情報の間の依存関係を抽出する。 投影された相互作用空間上の推論は、画像に存在する他の地形から道路を適切に切り離すのに役立つ。 したがって、spinは道路セグメント間の長距離依存性を抽出し、他の意味論から効果的に道路を区切る。 また、複数スケールにわたるSPINグラフ推論を行い、マルチスケールの特徴を抽出するSPINピラミッドも導入する。 本研究では,既存手法と比較して性能が向上する道路分割のための時間ガラスモジュールとSPINピラミッドに基づくネットワークを提案する。 また,提案手法は計算効率が高く,訓練中の収束速度が著しく向上し,大規模高分解能空中画像に適用が容易である。 https://github.com/w gcban/SPIN_RoadMappe r.git.comで公開されている。

Road extraction is an essential step in building autonomous navigation systems. Detecting road segments is challenging as they are of varying widths, bifurcated throughout the image, and are often occluded by terrain, cloud, or other weather conditions. Using just convolution neural networks (ConvNets) for this problem is not effective as it is inefficient at capturing distant dependencies between road segments in the image which is essential to extract road connectivity. To this end, we propose a Spatial and Interaction Space Graph Reasoning (SPIN) module which when plugged into a ConvNet performs reasoning over graphs constructed on spatial and interaction spaces projected from the feature maps. Reasoning over spatial space extracts dependencies between different spatial regions and other contextual information. Reasoning over a projected interaction space helps in appropriate delineation of roads from other topographies present in the image. Thus, SPIN extracts long-range dependencies between road segments and effectively delineates roads from other semantics. We also introduce a SPIN pyramid which performs SPIN graph reasoning across multiple scales to extract multi-scale features. We propose a network based on stacked hourglass modules and SPIN pyramid for road segmentation which achieves better performance compared to existing methods. Moreover, our method is computationally efficient and significantly boosts the convergence speed during training, making it feasible for applying on large-scale high-resolution aerial images. Code available at: https://github.com/w gcban/SPIN_RoadMappe r.git.
翻訳日:2021-09-18 03:58:29 公開日:2021-09-16
# (参考訳) 3次元心臓MRI画像分割におけるアドホック不確かさ推定のためのマルチタスククロスタスク学習アーキテクチャ [全文訳有]

A Multi-Task Cross-Task Learning Architecture for Ad-hoc Uncertainty Estimation in 3D Cardiac MRI Image Segmentation ( http://arxiv.org/abs/2109.07702v1 )

ライセンス: CC BY 4.0
S. M. Kamrul Hasan, Cristian A. Linte(参考訳) 深層学習アーキテクチャのおかげで、医用画像のセグメンテーションは大きな恩恵を受けている。 さらに、半教師付き学習(SSL)は、豊富なラベルのないデータを活用することで、モデル全体のパフォーマンスを改善するためのトレンドが最近増えている。 さらに、同じモデル内で複数のタスクを学習することで、モデルの一般化性がさらに向上する。 3次元心MR画像からよりスムーズで正確なセグメンテーションマスクを生成するために,画素レベル(セグメンテーション)と幾何学レベル(距離マップ)タスクの相関を強制するマルチタスククロスタスク学習整合性アプローチを提案する。 トレーニングセット内の様々なラベル付きデータを用いた広範な実験により,gadolinium-enhanced magnetic resonance (ge-mr) 画像からの左心房腔のセグメンテーションに対するモデルの有効性が検証された。 CNNが生成するセグメンテーションマスクの故障を検出する不確実性推定を組み込むことにより,本モデルが与えられたモデルから低品質セグメンテーションをフラグする可能性を示す。

Medical image segmentation has significantly benefitted thanks to deep learning architectures. Furthermore, semi-supervised learning (SSL) has recently been a growing trend for improving a model's overall performance by leveraging abundant unlabeled data. Moreover, learning multiple tasks within the same model further improves model generalizability. To generate smoother and accurate segmentation masks from 3D cardiac MR images, we present a Multi-task Cross-task learning consistency approach to enforce the correlation between the pixel-level (segmentation) and the geometric-level (distance map) tasks. Our extensive experimentation with varied quantities of labeled data in the training sets justifies the effectiveness of our model for the segmentation of the left atrial cavity from Gadolinium-enhanced magnetic resonance (GE-MR) images. With the incorporation of uncertainty estimates to detect failures in the segmentation masks generated by CNNs, our study further showcases the potential of our model to flag low-quality segmentation from a given model.
翻訳日:2021-09-18 03:41:56 公開日:2021-09-16
# (参考訳) ROS-X-Habitat: ROSエコシステムをエボダイドAIでブリッジする [全文訳有]

ROS-X-Habitat: Bridging the ROS Ecosystem with Embodied AI ( http://arxiv.org/abs/2109.07703v1 )

ライセンス: CC BY 4.0
Guanxiong Chen, Haoyu Yang and Ian M. Mitchell(参考訳) ROS-X-HabitatはAI Habitatプラットフォームを橋渡しし、強化学習エージェントをROSを介して他のロボットリソースに組み込むソフトウェアインターフェースである。 このインターフェースは、エンボディエージェントとシミュレータ間の標準化された通信プロトコルを提供するだけでなく、物理ベースのシミュレーションも提供する。 このインターフェースにより、ロボットは別のシミュレーション環境でHabitat RLエージェントをトレーニングしたり、Habitat Sim内で独自のロボットアルゴリズムを開発することができる。 サイリコ実験を通じて,ros-x-habitatが生息域エージェントのナビゲーション性能とシミュレーション速度にほとんど影響を与えないこと,rosマッピング,計画およびナビゲーションツールの標準セットが居住域シミュレータで動作できること,居住域エージェントが標準のrosシミュレータガゼボで動作できることを実証した。

We introduce ROS-X-Habitat, a software interface that bridges the AI Habitat platform for embodied reinforcement learning agents with other robotics resources via ROS. This interface not only offers standardized communication protocols between embodied agents and simulators, but also enables physics-based simulation. With this interface, roboticists are able to train their own Habitat RL agents in another simulation environment or to develop their own robotic algorithms inside Habitat Sim. Through in silico experiments, we demonstrate that ROS-X-Habitat has minimal impact on the navigation performance and simulation speed of Habitat agents; that a standard set of ROS mapping, planning and navigation tools can run in the Habitat simulator, and that a Habitat agent can run in the standard ROS simulator Gazebo.
翻訳日:2021-09-18 03:35:11 公開日:2021-09-16
# (参考訳) フェデレートサブモデル平均化 [全文訳有]

Federated Submodel Averaging ( http://arxiv.org/abs/2109.07704v1 )

ライセンス: CC BY 4.0
Yucheng Ding, Chaoyue Niu. Fan Wu, Shaojie Tang, Chengfei Lv, Yanghe Feng, Guihai Chen(参考訳) 我々は,クライアントの非d.d.データに疎結合な特徴があり,特定のクライアントのローカルデータは通常,サブモデルと呼ばれるモデル全体のごく一部に限られる,フェデレート学習の基礎となる実践的データ特性について検討する。 データ分散のため、古典的なフェデレーション平均化(FedAvg)アルゴリズムまたはその変種は、グローバルモデルを更新する際に、各クライアントのサブモデルを除くフルモデルのゼロ更新が不正確に集約されるため、大幅に遅くなる。 そこで我々は,フェデレートされたサブモデル平均化(FedSubAvg)を提案し,各モデルパラメータのグローバル更新の期待値が,それに関与するクライアントのローカル更新の平均値に等しいことを保証する。 理論上、feedsubavg の収束速度は、要素ワイズ勾配ノルムと呼ばれる新しい計量の下で上界を導出することで証明した。 特に、この新しい計量はスパースデータに対するフェデレーション最適化の収束を特徴づけることができるが、従来の2乗勾配ノルムの計量はFedAvgとその変種では適用できない。 我々は、パブリックデータセットと産業データセットの両方についてfeedsubavgを広範囲に評価した。 評価の結果,FedSubAvgはFedAvgとその変種よりも有意に優れていた。

We study practical data characteristics underlying federated learning, where non-i.i.d. data from clients have sparse features, and a certain client's local data normally involves only a small part of the full model, called a submodel. Due to data sparsity, the classical federated averaging (FedAvg) algorithm or its variants will be severely slowed down, because when updating the global model, each client's zero update of the full model excluding its submodel is inaccurately aggregated. Therefore, we propose federated submodel averaging (FedSubAvg), ensuring that the expectation of the global update of each model parameter is equal to the average of the local updates of the clients who involve it. We theoretically proved the convergence rate of FedSubAvg by deriving an upper bound under a new metric called the element-wise gradient norm. In particular, this new metric can characterize the convergence of federated optimization over sparse data, while the conventional metric of squared gradient norm used in FedAvg and its variants cannot. We extensively evaluated FedSubAvg over both public and industrial datasets. The evaluation results demonstrate that FedSubAvg significantly outperforms FedAvg and its variants.
翻訳日:2021-09-18 03:18:32 公開日:2021-09-16
# (参考訳) 周波数領域におけるポイントワイズ畳み込みの高密度プルーニング [全文訳有]

Dense Pruning of Pointwise Convolutions in the Frequency Domain ( http://arxiv.org/abs/2109.07707v1 )

ライセンス: CC BY 4.0
Mark Buckler, Neil Adit, Yuwei Hu, Zhiru Zhang, and Adrian Sampson(参考訳) 離散的に分離可能な畳み込みと周波数領域畳み込みは、効率的な畳み込みニューラルネットワークを構築するための最近の2つのアイデアである。 深く分離可能なCNNの操作の大部分は、ポイントワイドの畳み込み層にあるが、ポイントワイドのレイヤは周波数変換の恩恵を受けない1x1カーネルを使用する。 本稿では、カーネルではなくアクティベーションを変換することで、これらの2つのアイデアを統一する。 私たちの重要な洞察は 1) 点別畳み込みは周波数変換により可換であり, 周波数領域では修正せずに計算できる。 2)所定の層内の各チャネルは周波数領域プルーニングに対する感度のレベルが異なる。 3) 各チャネルの周波数プルーニングに対する感度は周波数に対してほぼ単調である。 我々は、各チャネルのニーズに応じて、与えられた閾値以上の係数を選択的にプーンするために切り離された離散コサイン変換(DCT)で各ポイントワイド層をラップする新しい手法を提案する。 各チャネルの刈り込みしきい値を指定する新しい学習パラメータを導入することで、どのチャネルからどの周波数を刈り取るべきかを学習する。 タスク精度を維持しつつ、保持周波数数を減少させるモデルにインセンティブを与える新しい正規化項を追加する。 スパース演算子に依存する重み打ち法とは異なり、連続周波数帯打ち法は完全な密度計算をもたらす。 提案手法をMobileNetV2に適用することにより,計算時間を22%削減し,精度を1%向上させる。

Depthwise separable convolutions and frequency-domain convolutions are two recent ideas for building efficient convolutional neural networks. They are seemingly incompatible: the vast majority of operations in depthwise separable CNNs are in pointwise convolutional layers, but pointwise layers use 1x1 kernels, which do not benefit from frequency transformation. This paper unifies these two ideas by transforming the activations, not the kernels. Our key insights are that 1) pointwise convolutions commute with frequency transformation and thus can be computed in the frequency domain without modification, 2) each channel within a given layer has a different level of sensitivity to frequency domain pruning, and 3) each channel's sensitivity to frequency pruning is approximately monotonic with respect to frequency. We leverage this knowledge by proposing a new technique which wraps each pointwise layer in a discrete cosine transform (DCT) which is truncated to selectively prune coefficients above a given threshold as per the needs of each channel. To learn which frequencies should be pruned from which channels, we introduce a novel learned parameter which specifies each channel's pruning threshold. We add a new regularization term which incentivizes the model to decrease the number of retained frequencies while still maintaining task accuracy. Unlike weight pruning techniques which rely on sparse operators, our contiguous frequency band pruning results in fully dense computation. We apply our technique to MobileNetV2 and in the process reduce computation time by 22% and incur <1% accuracy degradation.
翻訳日:2021-09-18 02:11:13 公開日:2021-09-16
# (参考訳) CNNのバックプロパゲーション促進のための爆発的活性化に基づくグラディエント出力空間 [全文訳有]

Exploiting Activation based Gradient Output Sparsity to Accelerate Backpropagation in CNNs ( http://arxiv.org/abs/2109.07710v1 )

ライセンス: CC BY 4.0
Anup Sarma, Sonali Singh, Huaipan Jiang, Ashutosh Pattnaik, Asit K Mishra, Vijaykrishnan Narayanan, Mahmut T Kandemir and Chita R Das(参考訳) 機械学習(ML/DL)ベースの技術は多くの最先端技術の背後にある原動力として登場し、画像分類やオブジェクト検出といったコンピュータビジョンのワークロードに対して高い精度を達成する。 しかし、大きなパラメータを含むこれらのモデルのトレーニングは、時間消費とエネルギー消費の両方である。 この点に関して、いくつかの先行研究は、DLトレーニングのスピードアップよりも、推論フェーズの高速化を提唱している。 この研究は、トレーニング中、前方と後方のパスの間隔が相関しているという観察から始まる。 そこで我々は,勾配降下に基づく最適化アルゴリズムに固有の2種類の疎度(入出力型)について検討し,これを利用するハードウェアマイクロアーキテクチャを提案する。 実験結果は、Imagenetデータセット上で5つの最先端CNNモデルを用いており、密度の高いベースライン実行と比較して1.69$\times$から5.43$\times$までの伝播速度を示す。 前方パスと後方パスの両方でsparsityを活用することで、speedupの改善はsparsity非依存のベースライン実行に対して 1.68$\times$ から 3.30$\times$ となる。 我々の研究は、GPUベースの実行よりもエネルギー効率が大幅に向上するだけでなく、以前提案した複数の高密度かつスパースなアクセラレータベースのプラットフォームに対して、トレーニングのイテレーション時間を大幅に短縮する。

Machine/deep-learnin g (ML/DL) based techniques are emerging as a driving force behind many cutting-edge technologies, achieving high accuracy on computer vision workloads such as image classification and object detection. However, training these models involving large parameters is both time-consuming and energy-hogging. In this regard, several prior works have advocated for sparsity to speed up the of DL training and more so, the inference phase. This work begins with the observation that during training, sparsity in the forward and backward passes are correlated. In that context, we investigate two types of sparsity (input and output type) inherent in gradient descent-based optimization algorithms and propose a hardware micro-architecture to leverage the same. Our experimental results use five state-of-the-art CNN models on the Imagenet dataset, and show back propagation speedups in the range of 1.69$\times$ to 5.43$\times$, compared to the dense baseline execution. By exploiting sparsity in both the forward and backward passes, speedup improvements range from 1.68$\times$ to 3.30$\times$ over the sparsity-agnostic baseline execution. Our work also achieves significant reduction in training iteration time over several previously proposed dense as well as sparse accelerator based platforms, in addition to achieving order of magnitude energy efficiency improvements over GPU based execution.
翻訳日:2021-09-18 01:57:17 公開日:2021-09-16
# (参考訳) グラウンドドミニマル編集による移動可能なペルソナ・グラウンド対話 [全文訳有]

Transferable Persona-Grounded Dialogues via Grounded Minimal Edits ( http://arxiv.org/abs/2109.07713v1 )

ライセンス: CC BY 4.0
Chen Henry Wu, Yinhe Zheng, Xiaoxi Mao, Minlie Huang(参考訳) 接地対話モデルは、ある概念に基づく応答を生成する。 接地された対話データの分布によって制限され、そのようなデータで訓練されたモデルは、データ分布と接地された概念のタイプの観点から、転送可能性の課題に直面している。 そこで本研究では,既存の応答を最小限に編集し,与えられた概念に基づく最小編集フレームワークを提案する。 パーソナラに焦点をあてて,パーソナラ関連部分とパーソナ非依存部分の分離と組換えによって編集を学ぶ,グラウンドド・ミニマム・エディタ(gme)を提案する。 人為的な最小限の編集を評価するため,PersonaMinEditデータセットを提示し,実験結果から,GMEが競争ベースラインをはるかに上回ることを示す。 トランスファー可能性を評価するために,mixedskilltalkのテストセットを実験し,gmeが対話モデルの応答を編集し,知識と共感の使用を保ちながら,パーソナライズ性を大幅に向上できることを示した。

Grounded dialogue models generate responses that are grounded on certain concepts. Limited by the distribution of grounded dialogue data, models trained on such data face the transferability challenges in terms of the data distribution and the type of grounded concepts. To address the challenges, we propose the grounded minimal editing framework, which minimally edits existing responses to be grounded on the given concept. Focusing on personas, we propose Grounded Minimal Editor (GME), which learns to edit by disentangling and recombining persona-related and persona-agnostic parts of the response. To evaluate persona-grounded minimal editing, we present the PersonaMinEdit dataset, and experimental results show that GME outperforms competitive baselines by a large margin. To evaluate the transferability, we experiment on the test set of BlendedSkillTalk and show that GME can edit dialogue models' responses to largely improve their persona consistency while preserving the use of knowledge and empathy.
翻訳日:2021-09-18 01:29:07 公開日:2021-09-16
# (参考訳) Sister Help: フレーム・セマンティックなロールラベリングのためのデータ拡張 [全文訳有]

Sister Help: Data Augmentation for Frame-Semantic Role Labeling ( http://arxiv.org/abs/2109.07725v1 )

ライセンス: CC BY 4.0
Ayush Pancholy, Miriam R. L. Petruck, Swabha Swayamdipta(参考訳) FrameNetは自然言語処理におけるセマンティクスの豊富なリソースとして広く見なされているが、主要な批判は、PropBankやVerbNetといった他の一般的な語彙リソースと比較して、そのカバレッジの欠如とラベル付きデータの相対的な曖昧さを懸念している。 本稿では,これらのギャップに対処するためのパイロット研究について報告する。 既存のフレーム固有のアノテーションを用いて、注釈のない同じフレームの他の語彙単位を自動的に注釈付けするデータ拡張手法を提案する。 ルールベースアプローチでは,姉妹語彙単位の概念を定義し,フレーム固有の拡張データを生成する。 我々は,このデータ強化の重要性を示すフレーム意味的ロールラベリング実験を行い,フレームネットのフレーム識別と引数識別において,フレームネットのフルテキストアノテーションとレキソグラフィアノテーションを併用することにより,事前の結果を大幅に改善する。 データ拡張に関する知見は,フレーム・セマンティック解析における改良モデルに対する自動資源生成の価値を強調した。

While FrameNet is widely regarded as a rich resource of semantics in natural language processing, a major criticism concerns its lack of coverage and the relative paucity of its labeled data compared to other commonly used lexical resources such as PropBank and VerbNet. This paper reports on a pilot study to address these gaps. We propose a data augmentation approach, which uses existing frame-specific annotation to automatically annotate other lexical units of the same frame which are unannotated. Our rule-based approach defines the notion of a sister lexical unit and generates frame-specific augmented data for training. We present experiments on frame-semantic role labeling which demonstrate the importance of this data augmentation: we obtain a large improvement to prior results on frame identification and argument identification for FrameNet, utilizing both full-text and lexicographic annotations under FrameNet. Our findings on data augmentation highlight the value of automatic resource creation for improved models in frame-semantic parsing.
翻訳日:2021-09-18 01:09:33 公開日:2021-09-16
# (参考訳) 5G RIS mmWaveシステムを超える: コミュニケーションとローカライゼーション [全文訳有]

Beyond 5G RIS mmWave Systems: Where Communication and Localization Meet ( http://arxiv.org/abs/2109.07729v1 )

ライセンス: CC BY 4.0
Jiguang He and Fan Jiang and Kamran Keykhosravi and Joonas Kokkoniemi and Henk Wymeersch and Markku Juntti(参考訳) 第5世代(5G)通信システムは、例えば、再構成可能なインテリジェントサーフェス(RIS)、統合通信、ローカライゼーション、センシング、mmWave/THz通信といった新しい技術を採用することで、重要なパフォーマンス指標をさらに強化し、新しいユースケースを完全にサポートすることを目指している。 最先端の人工知能技術によって強化された無線インテリジェンスはトランシーバーでは広く検討されており、現在ではRISによる無線伝搬環境のスマートコントロールにシフトしていると考えられている。 本稿では、RISの潜在能力を最大限に活用するためには、局所化とコミュニケーションを緊密に結合する必要があると論じる。 これは、ローカライゼーションがマイナーな追加サービスであった5Gやそれ以前の世代とは対照的だ。 これを支援するために、まずRIS mmWaveチャネルモデリングの基礎を紹介し、続いてRISチャネル状態情報取得とリンク確立について述べる。 そして, 地域化とコミュニケーションの関連性について, 別々かつ共同的な視点から検討する。

Upcoming beyond fifth generation (5G) communications systems aim at further enhancing key performance indicators and fully supporting brand new use cases by embracing emerging techniques, e.g., reconfigurable intelligent surface (RIS), integrated communication, localization, and sensing, and mmWave/THz communications. The wireless intelligence empowered by state-of-the-art artificial intelligence techniques has been widely considered at the transceivers, and now the paradigm is deemed to be shifted to the smart control of radio propagation environment by virtue of RISs. In this article, we argue that to harness the full potential of RISs, localization and communication must be tightly coupled. This is in sharp contrast to 5G and earlier generations, where localization was a minor additional service. To support this, we first introduce the fundamentals of RIS mmWave channel modeling, followed by RIS channel state information acquisition and link establishment. Then, we deal with the connection between localization and communications, from a separate and joint perspective.
翻訳日:2021-09-18 00:58:35 公開日:2021-09-16
# (参考訳) スペインのバイオメディカルクロールコーパス:スペインのバイオメディカル言語モデルのための大規模で多様なデータセット [全文訳有]

Spanish Biomedical Crawled Corpus: A Large, Diverse Dataset for Spanish Biomedical Language Models ( http://arxiv.org/abs/2109.07765v1 )

ライセンス: CC BY 4.0
Casimiro Pio Carrino, Jordi Armengol-Estap\' ;e, Ona de Gibert Bonet, Asier Guti\'errez-Fandi\~no, Aitor Gonzalez-Agirre, Martin Krallinger, Marta Villegas(参考訳) スペイン最大の生物医学コーパスであるcowese (the corpus web salud espa\~nol) を紹介する。 CoWeSeは、2020年に実行された3000のスペインドメインの大規模なクローラーの結果です。 コーパスは公開されており、すでに前処理されている。 CoWeSeはスペイン語のバイオメディカルおよび健康的なNLPにとって重要なリソースであり、すでにドメイン固有の言語モデルのトレーニングや単語の組込みに使われている。 我々はCoWeSeコーパスをCreative Commons Attribution 4.0国際ライセンスでリリースし、どちらもZenodo (\url{https://zenodo.org/r ecord/456 1971\#)でリリースしました。 yti5snvkiea)。

We introduce CoWeSe (the Corpus Web Salud Espa\~nol), the largest Spanish biomedical corpus to date, consisting of 4.5GB (about 750M tokens) of clean plain text. CoWeSe is the result of a massive crawler on 3000 Spanish domains executed in 2020. The corpus is openly available and already preprocessed. CoWeSe is an important resource for biomedical and health NLP in Spanish and has already been employed to train domain-specific language models and to produce word embbedings. We released the CoWeSe corpus under a Creative Commons Attribution 4.0 International license, both in Zenodo (\url{https://zenodo.org/r ecord/4561971\#.YTI5 SnVKiEA}).
翻訳日:2021-09-18 00:44:56 公開日:2021-09-16
# (参考訳) 双方向学習によるニューラルマシン翻訳の改善 [全文訳有]

Improving Neural Machine Translation by Bidirectional Training ( http://arxiv.org/abs/2109.07780v1 )

ライセンス: CC0 1.0
Liang Ding, Di Wu, Dacheng Tao(参考訳) 我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。 具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。 双方向更新を実現するために、トレーニングサンプルを"src$\rightarrow$tgt& quot;から"src+tgt$\rightarrow$tgt+src"に再構成し、複雑なモデル修正を行わない。 特に、我々のアプローチはパラメータやトレーニングステップを増やさず、単に並列データを必要とします。 実験の結果, BiTは8つの言語対(データサイズは160Kから38M)上の15の翻訳タスクに対して, SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。 提案手法は,既存のデータ操作戦略,すなわち逆変換,データ蒸留,データ多様化を補完する。 本手法がバイリンガルなコードスウィッチャーとして機能し,より優れたバイリンガルアライメントが得られた。

We present a simple and effective pretraining strategy -- bidirectional training (BiT) for neural machine translation. Specifically, we bidirectionally update the model parameters at the early stage and then tune the model normally. To achieve bidirectional updating, we simply reconstruct the training samples from "src$\rightarrow$tgt& quot; to "src+tgt$\rightarrow$tgt+src" without any complicated model modifications. Notably, our approach does not increase any parameters or training steps, requiring the parallel data merely. Experimental results show that BiT pushes the SOTA neural machine translation performance across 15 translation tasks on 8 language pairs (data sizes range from 160K to 38M) significantly higher. Encouragingly, our proposed model can complement existing data manipulation strategies, i.e. back translation, data distillation, and data diversification. Extensive analyses show that our approach functions as a novel bilingual code-switcher, obtaining better bilingual alignment.
翻訳日:2021-09-18 00:40:55 公開日:2021-09-16
# (参考訳) MHFC:Few-Shot Learningのためのマルチヘッド機能コラボレーション [全文訳有]

MHFC: Multi-Head Feature Collaboration for Few-Shot Learning ( http://arxiv.org/abs/2109.07785v1 )

ライセンス: CC BY 4.0
Shuai Shao, Lei Xing, Yan Wang, Rui Xu, Chunyan Zhao, Yan-Jiang Wang, Bao-Di Liu(参考訳) FSL(Few-shot Learning)は、データスカース問題に対処することを目的としている。 標準のFSLフレームワークは2つのコンポーネントで構成されている。 ベースデータを使用してCNNベースの特徴抽出モデル(FEM)を生成する。 (2) メタテスト。 トレーニングされたFEMを適用して、新しいデータの特徴を取得して認識する。 FSLはFEMの設計に大きく依存している。 しかし、様々なFEMは異なる相を持つ。 例えば、輪郭情報にもっと注意を払うものもあれば、テクスチャ情報に特に注目するものもある。 シングルヘッド機能は、サンプルの片側のみの表現である。 クロスドメインの負の影響(例えば、訓練されたFEMは、新しいクラスに完璧に適応できない)に加えて、新しいデータの分布は、分布シフトプロブレム(dis distribution-shift-p roblem、DSP)と呼ばれる基底真理分布と比較してある程度ずれがある。 dspに対処するために,マルチヘッド機能(例えば,様々なfemから抽出された複数の特徴)を統一空間に投影し,それらを融合してより識別的な情報を取り込むマルチヘッド機能協調 (mhfc) アルゴリズムを提案する。 典型的には,多頭部特徴を低次元表現に整列させる部分空間学習法を導入する。 より強力な差別で特徴を学習することでDSPを補正し、異なる頭部特徴からの不整合測定スケールの問題を克服する。 次に、各ヘッド機能の組合せ重みを自動的に更新するアテンションブロックを設計する。 様々な視点の貢献を包括的に考慮し、特徴の識別をさらに改善する。 提案手法を5つのベンチマークデータセット(クロスドメイン実験を含む)で評価し,2.1%-7.8%の大幅な改善を達成した。

Few-shot learning (FSL) aims to address the data-scarce problem. A standard FSL framework is composed of two components: (1) Pre-train. Employ the base data to generate a CNN-based feature extraction model (FEM). (2) Meta-test. Apply the trained FEM to acquire the novel data's features and recognize them. FSL relies heavily on the design of the FEM. However, various FEMs have distinct emphases. For example, several may focus more attention on the contour information, whereas others may lay particular emphasis on the texture information. The single-head feature is only a one-sided representation of the sample. Besides the negative influence of cross-domain (e.g., the trained FEM can not adapt to the novel class flawlessly), the distribution of novel data may have a certain degree of deviation compared with the ground truth distribution, which is dubbed as distribution-shift-p roblem (DSP). To address the DSP, we propose Multi-Head Feature Collaboration (MHFC) algorithm, which attempts to project the multi-head features (e.g., multiple features extracted from a variety of FEMs) to a unified space and fuse them to capture more discriminative information. Typically, first, we introduce a subspace learning method to transform the multi-head features to aligned low-dimensional representations. It corrects the DSP via learning the feature with more powerful discrimination and overcomes the problem of inconsistent measurement scales from different head features. Then, we design an attention block to update combination weights for each head feature automatically. It comprehensively considers the contribution of various perspectives and further improves the discrimination of features. We evaluate the proposed method on five benchmark datasets (including cross-domain experiments) and achieve significant improvements of 2.1%-7.8% compared with state-of-the-arts.
翻訳日:2021-09-18 00:29:57 公開日:2021-09-16
# (参考訳) オブザーバノイズを伴う咬合下の逆rlの辺縁マップ推定 [全文訳有]

Marginal MAP Estimation for Inverse RL under Occlusion with Observer Noise ( http://arxiv.org/abs/2109.07788v1 )

ライセンス: CC BY 4.0
Prasanth Sengadu Suresh, Prashant Doshi(参考訳) 騒音や部分的に観察可能な実演から課題に携わる専門家の行動選好を学習する問題を考える。 これは、人間の作業員を観察することから学習するラインロボットのような現実世界の応用によって動機付けられている。 さらに、ロボットの知覚は不完全でうるさい傾向がある。 逆強化学習(irl:inverse reinforcement learning)以前の手法では、欠落部分を省略するか、期待最大化の一部として推論するかのどちらかのアプローチをとっていた。 本稿では, 軌道の閉塞部分の辺縁化を図り, 有名なベイズ最大位置法(MAP) IRL法を一般化する手法を提案する。 これは知覚ノイズを考慮した観測モデルで拡張される。 おもちゃ問題に対する形成的評価と,ロボットによるオニオン分類ラインタスクの要約評価の両方において,咬合下の以前のirl技術において,マージンマップ(mmap)アプローチが著しく改善することを示す。

We consider the problem of learning the behavioral preferences of an expert engaged in a task from noisy and partially-observable demonstrations. This is motivated by real-world applications such as a line robot learning from observing a human worker, where some observations are occluded by environmental objects that cannot be removed. Furthermore, robotic perception tends to be imperfect and noisy. Previous techniques for inverse reinforcement learning (IRL) take the approach of either omitting the missing portions or inferring it as part of expectation-maximiza tion, which tends to be slow and prone to local optima. We present a new method that generalizes the well-known Bayesian maximum-a-posteriori (MAP) IRL method by marginalizing the occluded portions of the trajectory. This is additionally extended with an observation model to account for perception noise. We show that the marginal MAP (MMAP) approach significantly improves on the previous IRL technique under occlusion in both formative evaluations on a toy problem and in a summative evaluation on an onion sorting line task by a robot.
翻訳日:2021-09-18 00:10:19 公開日:2021-09-16
# (参考訳) 画像コピー再ランキング用コンパクトバイナリ指紋 [全文訳有]

Compact Binary Fingerprint for Image Copy Re-Ranking ( http://arxiv.org/abs/2109.07802v1 )

ライセンス: CC BY 4.0
Nazar Mohammad, Junaid Baber, Maheen Bakhtyar, Bilal Ahmed Chandio, Anwar Ali Sanjrani(参考訳) 画像コピー検出はコンピュータビジョンと信号処理において困難で魅力的なトピックである。 近年のマルチメディアの進歩により、グローバルな画像の配布は容易かつ迅速になり、偽造や画像コピー検索といった多くの問題に繋がる。 siftのようなローカルキーポイントディスクリプタは画像を表現するために使用され、それらのディスクリプタマッチングに基づいて、画像がマッチして検索される。 機能は定量化され、精度を損なうことなく、大規模なデータベースで検索/マッチングが実現可能になる。 本稿では,SIFTを2進数に量子化し,ランクリストを再検討し,偽陽性を除去する二進数特徴を提案する。 挑戦的なデータセットの実験は、精度と時間の上昇を示しています。

Image copy detection is challenging and appealing topic in computer vision and signal processing. Recent advancements in multimedia have made distribution of image across the global easy and fast: that leads to many other issues such as forgery and image copy retrieval. Local keypoint descriptors such as SIFT are used to represent the images, and based on those descriptors matching, images are matched and retrieved. Features are quantized so that searching/matching may be made feasible for large databases at the cost of accuracy loss. In this paper, we propose binary feature that is obtained by quantizing the SIFT into binary, and rank list is re-examined to remove the false positives. Experiments on challenging dataset shows the gain in accuracy and time.
翻訳日:2021-09-17 23:54:58 公開日:2021-09-16
# (参考訳) 教師なしテキスト転送のためのトランスダクティブ学習 [全文訳有]

Transductive Learning for Unsupervised Text Style Transfer ( http://arxiv.org/abs/2109.07812v1 )

ライセンス: CC BY 4.0
Fei Xiao, Liang Pang, Yanyan Lan, Yan Wang, Huawei Shen and Xueqi Cheng(参考訳) 教師なしスタイル転送モデルは、主に埋め込み、デコーダパラメータ、または判別パラメータとしてスタイルを表現し、これらの一般的なルールをテストケースに直接適用する帰納的学習アプローチに基づいている。 しかし、並列コーパスの欠如は、これらの帰納的学習方法の能力を妨げている。 結果として、『サラダは失礼である』など、厳格な一貫性のないスタイル表現を引き起こす可能性がある。 この問題に対処するために,検索に基づく文脈認識スタイルの表現に基づく新しいトランスダクティブ学習手法を提案する。 具体的には、レトリバーフレームワークを備えた注目エンコーダデコーダを用いる。 転送プロセスにおいて、ターゲットスタイルの上位Kの関連文を含む。 このようにして、上記の矛盾問題を緩和するためにコンテキスト認識スタイルの埋め込みを学ぶことができる。 本稿では,スパース関数 (BM25) と高密度検索関数 (MIPS) の両方を用い,共同学習を容易にするために2つの目的関数を設計する。 実験の結果,本手法は複数のベースラインよりも優れていた。 提案するトランスダクティブ学習手法は,教師なしスタイル転送の課題に対して汎用的で効果的であり,将来,他の2つの典型的な手法に適用する。

Unsupervised style transfer models are mainly based on an inductive learning approach, which represents the style as embeddings, decoder parameters, or discriminator parameters and directly applies these general rules to the test cases. However, the lacking of parallel corpus hinders the ability of these inductive learning methods on this task. As a result, it is likely to cause severe inconsistent style expressions, like `the salad is rude`. To tackle this problem, we propose a novel transductive learning approach in this paper, based on a retrieval-based context-aware style representation. Specifically, an attentional encoder-decoder with a retriever framework is utilized. It involves top-K relevant sentences in the target style in the transfer process. In this way, we can learn a context-aware style embedding to alleviate the above inconsistency problem. In this paper, both sparse (BM25) and dense retrieval functions (MIPS) are used, and two objective functions are designed to facilitate joint learning. Experimental results show that our method outperforms several strong baselines. The proposed transductive learning approach is general and effective to the task of unsupervised style transfer, and we will apply it to the other two typical methods in the future.
翻訳日:2021-09-17 23:40:33 公開日:2021-09-16
# (参考訳) 線形分類器の結合における確率的スコアリング関数 [全文訳有]

Probability-driven scoring functions in combining linear classifiers ( http://arxiv.org/abs/2109.07815v1 )

ライセンス: CC BY 4.0
Pawel Trajdos, Robert Burduk(参考訳) 線形分類器は機械学習で最も古い手法の1つであるが、機械学習コミュニティではまだ非常に人気がある。 これは計算の複雑さが低く、過度に適合することによる。 その結果、線形分類器は複数のアンサンブル分類系の基底分類器としてしばしば用いられる。 本研究の目的は,線形分類器のアンサンブルに特化した新しい融合法を構築することである。 融合スキームは測度空間と幾何空間の両方を用いる。 すなわち,基本分類器によって生成される決定超平面の向きに依存する確率駆動型スコアリング関数を提案する。 提案手法はkeelリポジトリから取得した複数のベンチマークデータセットを用いた参照手法と比較する。 比較は複数の品質基準を用いて行う。 また、得られた結果の統計的解析を行う。 実験的研究は、ある条件下ではいくつかの改善が得られたことを示している。

Although linear classifiers are one of the oldest methods in machine learning, they are still very popular in the machine learning community. This is due to their low computational complexity and robustness to overfitting. Consequently, linear classifiers are often used as base classifiers of multiple ensemble classification systems. This research is aimed at building a new fusion method dedicated to the ensemble of linear classifiers. The fusion scheme uses both measurement space and geometrical space. Namely, we proposed a probability-driven scoring function which shape depends on the orientation of the decision hyperplanes generated by the base classifiers. The proposed fusion method is compared with the reference method using multiple benchmark datasets taken from the KEEL repository. The comparison is done using multiple quality criteria. The statistical analysis of the obtained results is also performed. The experimental study shows that, under certain conditions, some improvement may be obtained.
翻訳日:2021-09-17 23:22:34 公開日:2021-09-16
# (参考訳) 分割、制約、征服を通じて論理プログラムを学ぶ [全文訳有]

Learning logic programs through divide, constrain, and conquer ( http://arxiv.org/abs/2109.07818v1 )

ライセンス: CC BY 4.0
Andrew Cropper(参考訳) 古典的除算探索と近代的制約駆動探索を組み合わせた帰納的論理プログラミング手法を提案する。 当社のanytimeアプローチは,最適かつ再帰的,大規模プログラムを学習し,述語発明を支援する。 3つのドメイン(分類、帰納的汎用ゲームプレイ、プログラム合成)に対する実験により、我々のアプローチは予測精度を高め、学習時間を短縮できることが示された。

We introduce an inductive logic programming approach that combines classical divide-and-conquer search with modern constraint-driven search. Our anytime approach can learn optimal, recursive, and large programs and supports predicate invention. Our experiments on three domains (classification, inductive general game playing, and program synthesis) show that our approach can increase predictive accuracies and reduce learning times.
翻訳日:2021-09-17 23:04:48 公開日:2021-09-16
# (参考訳) プロンプトの言語モデル : 生成による統語的不確かさの探索 [全文訳有]

The Language Model Understood the Prompt was Ambiguous: Probing Syntactic Uncertainty Through Generation ( http://arxiv.org/abs/2109.07848v1 )

ライセンス: CC BY 4.0
Laura Aina, Tal Linzen(参考訳) 一時的な構文曖昧性は、文の始まりが複数の構文解析と互換性があるときに生じる。 ニューラルネットワークモデル(LM)は、一時的にあいまいな入力を処理する際に、そのような解析に対して不確実性を示すか、不明瞭な手がかりによってその不確実性がどのように変調されるかを調べる。 我々は, 確率的復号法を用いて文補完のセットを導出し, 各解釈にlmが割り当てる確率を, コンプリート間のパース分布に基づいて推定する。 目標構文評価のためのスコアベース手法とは異なり、この手法は研究者が事前に仮説を立てていない完了を探索することができる。 本研究では,2つのLM(GPT2とLSTM)の3種類の一時的なあいまいさについて,人文処理実験の材料を用いて検討する。 LMは複数の解析を同時に追跡でき、不確実性の度合いは構成や状況によって異なる。 曖昧な手がかりに対する応答として、LMは正しい解釈を選択することが多いが、時々エラーは改善の潜在的な領域を示す。

Temporary syntactic ambiguities arise when the beginning of a sentence is compatible with multiple syntactic analyses. We inspect to which extent neural language models (LMs) exhibit uncertainty over such analyses when processing temporarily ambiguous inputs, and how that uncertainty is modulated by disambiguating cues. We probe the LM's expectations by generating from it: we use stochastic decoding to derive a set of sentence completions, and estimate the probability that the LM assigns to each interpretation based on the distribution of parses across completions. Unlike scoring-based methods for targeted syntactic evaluation, this technique makes it possible to explore completions that are not hypothesized in advance by the researcher. We apply this method to study the behavior of two LMs (GPT2 and an LSTM) on three types of temporary ambiguity, using materials from human sentence processing experiments. We find that LMs can track multiple analyses simultaneously; the degree of uncertainty varies across constructions and contexts. As a response to disambiguating cues, the LMs often select the correct interpretation, but occasional errors point to potential areas of improvement.
翻訳日:2021-09-17 22:51:58 公開日:2021-09-16
# (参考訳) 3次元仮想環境生成による連続学習アルゴリズムの評価 [全文訳有]

Evaluating Continual Learning Algorithms by Generating 3D Virtual Environments ( http://arxiv.org/abs/2109.07855v1 )

ライセンス: CC BY-SA 4.0
Enrico Meloni, Alessandro Betti, Lapo Faggi, Simone Marullo, Matteo Tiezzi, Stefano Melacci(参考訳) 連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。 この学習プロセスを機械でシミュレートしようという試みは、現実の世界に典型的な連続的に進化するダイナミクスを設計するための条件を作るのに固有の困難さのため、難しい作業である。 既存の研究の多くは、異なる学習タスクのシーケンスを考慮して、静的画像やショートビデオのデータセット上の仮想エージェントのトレーニングとテストを含む。 しかし, より現実的な条件下での連続学習アルゴリズムの考案には, 豊かな, 完全にカスタマイズ可能な, 制御された実験遊び場へのアクセスが不可欠である。 そこで,視覚の具体的事例に着目し,3d仮想環境における最近の進歩を活かし,写真リアルな外観を持つ生涯の動的シーンの自動生成にアプローチすることを提案する。 シーンは、異なるカスタマイズ可能なタイミングで可変経路に沿って移動するオブジェクトで構成されており、ランダム性もその進化に含めることができる。 この論文の新たな要素は、シーンをパラメトリックに記述することで、エージェントが知覚する入力ストリームの視覚的な複雑さを完全に制御できることである。 これらの一般的な原則は、最近公開された3D仮想環境を利用して具体的に実装されている。 ユーザはコンピュータグラフィックスの強力なスキルを必要とせずにシーンを生成することができる。 提案されたジェネレータを公開します。

Continual learning refers to the ability of humans and animals to incrementally learn over time in a given environment. Trying to simulate this learning process in machines is a challenging task, also due to the inherent difficulty in creating conditions for designing continuously evolving dynamics that are typical of the real-world. Many existing research works usually involve training and testing of virtual agents on datasets of static images or short videos, considering sequences of distinct learning tasks. However, in order to devise continual learning algorithms that operate in more realistic conditions, it is fundamental to gain access to rich, fully customizable and controlled experimental playgrounds. Focussing on the specific case of vision, we thus propose to leverage recent advances in 3D virtual environments in order to approach the automatic generation of potentially life-long dynamic scenes with photo-realistic appearance. Scenes are composed of objects that move along variable routes with different and fully customizable timings, and randomness can also be included in their evolution. A novel element of this paper is that scenes are described in a parametric way, thus allowing the user to fully control the visual complexity of the input stream the agent perceives. These general principles are concretely implemented exploiting a recently published 3D virtual environment. The user can generate scenes without the need of having strong skills in computer graphics, since all the generation facilities are exposed through a simple high-level Python interface. We publicly share the proposed generator.
翻訳日:2021-09-17 22:33:44 公開日:2021-09-16
# (参考訳) ストリーム分類のためのソフト混乱行列分類器 [全文訳有]

Soft Confusion Matrix Classifier for Stream Classification ( http://arxiv.org/abs/2109.07857v1 )

ライセンス: CC BY 4.0
Pawel Trajdos, Marek Kurzynski(参考訳) 本稿では,ストリーム学習タスクに対応するために,ソフト混乱行列(scm)ベースの分類器をカスタマイズする問題に対処する。 この作業の主な目標は、漸進的に学習できない分類器に段階的な学習を可能にするラッピング分類器を開発することである。 目標は、以前に開発されたSCM分類器で2つの改善を施すことである。 1つ目は、SCM分類器の計算コストの削減である。 そのため、オブジェクトのファジィ近傍の定義を変更する。 2つ目は、コンセプトドリフトを効果的に扱うことを目的としている。 これはADWINによって駆動されるドリフト検出器を用いており、ドリフトを検出するだけでなく、近隣のサイズを制御するためにも用いられる。 得られた実験結果から,提案手法は基準法よりも有意に優れていた。

In this paper, the issue of tailoring the soft confusion matrix (SCM) based classifier to deal with stream learning task is addressed. The main goal of the work is to develop a wrapping-classifier that allows incremental learning to classifiers that are unable to learn incrementally. The goal is achieved by making two improvements in the previously developed SCM classifier. The first one is aimed at reducing the computational cost of the SCM classifier. To do so, the definition of the fuzzy neighborhood of an object is changed. The second one is aimed at effective dealing with the concept drift. This is done by employing the ADWIN-driven concept drift detector that is not only used to detect the drift but also to control the size of the neighbourhood. The obtained experimental results show that the proposed approach significantly outperforms the reference methods.
翻訳日:2021-09-17 22:20:22 公開日:2021-09-16
# (参考訳) アンサンブルメンバーのランダム化モデルによる分類器のアンサンブルの構築 [全文訳有]

Building an Ensemble of Classifiers via Randomized Models of Ensemble Members ( http://arxiv.org/abs/2109.07861v1 )

ライセンス: CC BY 4.0
Pawel Trajdos, Marek Kurzynski(参考訳) 多くの動的アンサンブル選択法(DES)が文献で知られている。 著者らが以前に開発した手法は、ベース分類器のモデルとして扱われるランダム化分類器を構築することで構成される。 モデルはある確率論的意味で基底分類器と等価である。 次に、ランダム化分類器の正しい分類の確率を評価された分類器の能力とみなす。 本稿では,新しいベース分類器のランダム化モデルを開発した。 提案手法では,モデルのランダム操作は,一定サイズの学習集合の族から学習集合をランダムに選択することによって得られる。 本稿では,本手法の数学的基礎を提示し,学習と検証セットが与えられた場合の実用的応用において,能力の尺度を決定し,desスキームを用いてmcシステムを構築する方法を示す。 提案モデルを用いたdesスキームは67のベンチマークデータセットの収集で実験的に評価され、前述したランダムモデルの概念を用いた2つのアンサンブル分類器と8つの品質基準で比較された。 提案手法は, ほぼすべての品質基準において, 最低ランクを達成した。

Many dynamic ensemble selection (DES) methods are known in the literature. A previously-developed by the authors, method consists in building a randomized classifier which is treated as a model of the base classifier. The model is equivalent to the base classifier in a certain probabilistic sense. Next, the probability of correct classification of randomized classifier is taken as the competence of the evaluated classifier. In this paper, a novel randomized model of base classifier is developed. In the proposed method, the random operation of the model results from a random selection of the learning set from the family of learning sets of a fixed size. The paper presents the mathematical foundations of this approach and shows how, for a practical application when learning and validation sets are given, one can determine the measure of competence and build a MC system with the DES scheme. The DES scheme with the proposed model of competence was experimentally evaluated on the collection of 67 benchmark datasets and compared in terms of eight quality criteria with two ensemble classifiers which use the previously-proposed concepts of randomized model. The proposed approach achieved the lowest ranks for almost all investigated quality criteria.
翻訳日:2021-09-17 22:07:51 公開日:2021-09-16
# (参考訳) 翻訳トランスフォーマーが固有のデータドメインを再発見 [全文訳有]

Translation Transformers Rediscover Inherent Data Domains ( http://arxiv.org/abs/2109.07864v1 )

ライセンス: CC BY 4.0
Maksym Del, Elizaveta Korotkova, Mark Fishel(参考訳) 多くの研究が、ドメイン/マルチドメイン適応シナリオにおけるニューラルマシン翻訳(nmt)モデルの性能を改善する手法を提案している。 しかし、NMTのベースラインがテキストドメイン情報を内部的にどのように表現するかの理解はいまだに欠けている。 本稿では、nmtトランスフォーマーが学習した文表現を分析し、入力文をドメインラベルなしで見るだけで、テキストドメインに関する情報を明示的に含んでいることを示す。 さらに、この内部情報は、その下にあるドメインの文を、監督なしでクラスタリングするのに十分であることを示す。 NMTモデルは、事前訓練された言語モデル(LM)と比較して、実際のドメインに整合したクラスタを生成する。 特にドキュメントレベルで計算すると、nmtクラスタ間通信は100%に近い。 これらの知見は,自動抽出ドメインを用いたNMTドメイン適応へのアプローチと併用する。 従来,テキストクラスタリングでは外部のLMに頼っていたが,教師なしクラスタのソースとしてNMTモデルを再利用することを提案する。 本研究では,2つのデータシナリオにまたがる2つのアプローチ,3つの言語ペア,文レベルのクラスタリングと文書レベルのクラスタリングを比較した実験を行った。

Many works proposed methods to improve the performance of Neural Machine Translation (NMT) models in a domain/multi-domain adaptation scenario. However, an understanding of how NMT baselines represent text domain information internally is still lacking. Here we analyze the sentence representations learned by NMT Transformers and show that these explicitly include the information on text domains, even after only seeing the input sentences without domains labels. Furthermore, we show that this internal information is enough to cluster sentences by their underlying domains without supervision. We show that NMT models produce clusters better aligned to the actual domains compared to pre-trained language models (LMs). Notably, when computed on document-level, NMT cluster-to-domain correspondence nears 100%. We use these findings together with an approach to NMT domain adaptation using automatically extracted domains. Whereas previous work relied on external LMs for text clustering, we propose re-using the NMT model as a source of unsupervised clusters. We perform an extensive experimental study comparing two approaches across two data scenarios, three language pairs, and both sentence-level and document-level clustering, showing equal or significantly superior performance compared to LMs.
翻訳日:2021-09-17 21:59:13 公開日:2021-09-16
# (参考訳) 超人分類器の人間認証 [全文訳有]

Humanly Certifying Superhuman Classifiers ( http://arxiv.org/abs/2109.07867v1 )

ライセンス: CC BY 4.0
Qiongkai Xu, Christian Walder, Chenchen Xu(参考訳) 機械学習システムの性能を推定することは、人工知能研究における長年の課題である。 今日では、この課題が特に重要になっているのは、人類をますます上回りつつあるように見えるシステムの出現である。 例えば、伝統的な2人のプレイヤーゲームで伝説的な人間のプレイヤーを倒すことで、この「スーパーヒューマン」のパフォーマンスが容易に示される。 一方,人間性能を超える可能性のある分類モデルを評価することは困難である。 実際、人間のアノテーションはしばしば、人間のアノテーションで訓練されたモデルよりも人間の優位性を暗黙的に仮定する基礎的な真実として扱われる。 実際には、人間の注釈は間違いを犯し、主観的である。 真のオラクルに対するパフォーマンスの評価は、oracleをクエリする場合であっても、もっと客観的で信頼性が高いかもしれません。 本稿ではまず,未観測のオラクルに対して,人間とモデルの両方のパフォーマンスを評価するという課題を提起する。 我々は,参照のための不完全な人間のアノテーションのみを用いて,オラクルと比較して精度を推定する理論を開発した。 我々の分析は,この環境での超人的性能の検出と証明のための簡単なレシピを提供し,分類研究の段階を理解するのに役立つと信じている。 我々は、既知のオラクルを用いた慎重に設計された玩具実験において、境界の収束と理論の仮定を検証する。 さらに,オラクルが存在しない大規模自然言語処理タスクをメタ分析することで,我々の理論の有用性を実証し,近年のモデルが高確率超人であることを示す。

Estimating the performance of a machine learning system is a longstanding challenge in artificial intelligence research. Today, this challenge is especially relevant given the emergence of systems which appear to increasingly outperform human beings. In some cases, this "superhuman" performance is readily demonstrated; for example by defeating legendary human players in traditional two player games. On the other hand, it can be challenging to evaluate classification models that potentially surpass human performance. Indeed, human annotations are often treated as a ground truth, which implicitly assumes the superiority of the human over any models trained on human annotations. In reality, human annotators can make mistakes and be subjective. Evaluating the performance with respect to a genuine oracle may be more objective and reliable, even when querying the oracle is expensive or impossible. In this paper, we first raise the challenge of evaluating the performance of both humans and models with respect to an oracle which is unobserved. We develop a theory for estimating the accuracy compared to the oracle, using only imperfect human annotations for reference. Our analysis provides a simple recipe for detecting and certifying superhuman performance in this setting, which we believe will assist in understanding the stage of current research on classification. We validate the convergence of the bounds and the assumptions of our theory on carefully designed toy experiments with known oracles. Moreover, we demonstrate the utility of our theory by meta-analyzing large-scale natural language processing tasks, for which an oracle does not exist, and show that under our assumptions a number of models from recent years are with high probability superhuman.
翻訳日:2021-09-17 21:42:48 公開日:2021-09-16
# (参考訳) クロスレゾリューション人物再同定のためのリゾリューションに基づく特徴蒸留 [全文訳有]

Resolution based Feature Distillation for Cross Resolution Person Re-Identification ( http://arxiv.org/abs/2109.07871v1 )

ライセンス: CC BY-SA 4.0
Asad Munir, Chengjin Lyu, Bart Goossens, Wilfried Philips, Christian Micheloni(参考訳) person re-identification (re-id) は、異なるカメラビューで同じアイデンティティの画像を取得することを目的としている。 解像度のミスマッチは、興味のある人とカメラの間の距離の違いによって起こり、これは現実世界のシナリオにおけるre-idのパフォーマンスを著しく低下させる。 既存のアプローチのほとんどは、高解像度画像ギャラリーで低解像度のクエリ画像を検索する低解像度問題として、re-idタスクを解決している。 イメージスーパーレゾリューション技術を適用して高解像度画像を生成する手法はいくつかあるが、より現実的なシナリオであるギャラリー画像の多重解像度を無視している。 本稿では,劣化データから特徴の学習を改善するために,チャネル相関を導入する。 さらに,複数解像度の問題を解決するために,分解能に基づく特徴蒸留(RFD)手法を提案する。 このようなアプローチは、距離行列を計算するのに使われる最後の特徴ベクトルから分解に関連する特徴をフィルタリングすることで分解能不変特徴を学習する。 提案手法は,合成した2つのデータセットと,実際の劣化を伴う1つのオリジナルマルチレゾリューションデータセットで検証した。 当社のアプローチは,複数の解像度がギャラリー内で発生した場合のパフォーマンスを改善し,単一解像度(低解像度再id)の場合と同等の結果を得る。

Person re-identification (re-id) aims to retrieve images of same identities across different camera views. Resolution mismatch occurs due to varying distances between person of interest and cameras, this significantly degrades the performance of re-id in real world scenarios. Most of the existing approaches resolve the re-id task as low resolution problem in which a low resolution query image is searched in a high resolution images gallery. Several approaches apply image super resolution techniques to produce high resolution images but ignore the multiple resolutions of gallery images which is a better realistic scenario. In this paper, we introduce channel correlations to improve the learning of features from the degraded data. In addition, to overcome the problem of multiple resolutions we propose a Resolution based Feature Distillation (RFD) approach. Such an approach learns resolution invariant features by filtering the resolution related features from the final feature vectors that are used to compute the distance matrix. We tested the proposed approach on two synthetically created datasets and on one original multi resolution dataset with real degradation. Our approach improves the performance when multiple resolutions occur in the gallery and have comparable results in case of single resolution (low resolution re-id).
翻訳日:2021-09-17 21:08:53 公開日:2021-09-16
# (参考訳) 深部領域適応の帰納的バイアスについて [全文訳有]

On the inductive biases of deep domain adaptation ( http://arxiv.org/abs/2109.07920v1 )

ライセンス: CC BY 4.0
Rodrigue Siry, Louis H\'emadou, Lo\"ic Simon, Fr\'ed\'eric Jurie(参考訳) ドメインアライメントは現在、教師なしのドメイン適応タスクの最も一般的なソリューションであり、しばしばターゲットドメインにおけるリスクに関する理論上の上限の最小化として提示される。 しかし、さらなる研究により、理論と実践の間に深刻な不備が明らかになった:我々はこの分析を集約し、特徴にドメインの不分散を課すことは、低いターゲットリスクを得るのに必要でも十分でもないことを確認した。 モデル事前学習やエンコーダアーキテクチャの設計など、一般的なプラクティスで見られる隠れた帰納的バイアスに大きく依存している、と我々は主張する。 一般的なベンチマークや合成トランスファーについて様々なアブレーション実験を行い,原型的状況におけるその役割を明らかにした。 分析を結論づけるため,我々は,特定の伝達を解き,手作りのヒューリスティックよりも優れた性能を示すために,メタリアンのパラメトリックインダクティブバイアスを提案する。

Domain alignment is currently the most prevalent solution to unsupervised domain-adaptation tasks and are often being presented as minimizers of some theoretical upper-bounds on risk in the target domain. However, further works revealed severe inadequacies between theory and practice: we consolidate this analysis and confirm that imposing domain invariance on features is neither necessary nor sufficient to obtain low target risk. We instead argue that successful deep domain adaptation rely largely on hidden inductive biases found in the common practice, such as model pre-training or design of encoder architecture. We perform various ablation experiments on popular benchmarks and our own synthetic transfers to illustrate their role in prototypical situations. To conclude our analysis, we propose to meta-learn parametric inductive biases to solve specific transfers and show their superior performance over handcrafted heuristics.
翻訳日:2021-09-17 20:59:11 公開日:2021-09-16
# (参考訳) PDBench:タンパク質配列設計のための計算手法の評価 [全文訳有]

PDBench: Evaluating Computational Methods for Protein Sequence Design ( http://arxiv.org/abs/2109.07925v1 )

ライセンス: CC BY-SA 4.0
Leonardo V. Castorina, Rokas Petrenas, Katric Subr and Christopher W. Wood(参考訳) タンパク質は、太陽エネルギーを化学エネルギーに変換し、DNAを複製し、高性能な材料、センシングなど、あらゆる生物系において重要なプロセスを実行する。 さまざまな機能が自然界でサンプル化されていますが、タンパク質宇宙のごく一部を占めています。 もしこの未探索のタンパク質構造プールを利用することができたら、人類が直面する環境や医療上の課題に取り組むために応用できる有用な性質を持つ新しいタンパク質を探すことができる。 これがタンパク質設計の目的である。 配列設計はタンパク質設計の重要な側面であり、これを実現する多くの方法が開発されている。 近年,分類問題としてのディープラーニング手法が強力なアプローチとして登場している。 報告された性能の改善に加えて、物理ベースの手法に対する大きな利点は、計算負担がユーザから開発者へとシフトし、設計方法へのアクセシビリティが向上することである。 この傾向にもかかわらず、これらのモデルの評価と比較のためのツールは非常に一般的である。 本稿の目的は,評価のタイムリーな問題に対処することと,その影響を加速する具体的な評価基準について,機械学習コミュニティ内でスポットライトを当てることである。 そこで本研究では, 深層学習に基づく手法の性能評価のための, 厳密なベンチマークセットを提案する。 我々の堅牢なベンチマークは、その性能と実用性を評価するのに欠かせない設計手法の振る舞いに関する生物学的知見を提供する。 既存の5つのモデルと2つの新しいモデルを比較した。 最後に,これらのモデルによって生成される設計を,最先端構造予測アルゴリズムであるAlphaFold2を用いて検証し,それらが意図した3次元形状に折り畳まれるかどうかを判断する。

Proteins perform critical processes in all living systems: converting solar energy into chemical energy, replicating DNA, as the basis of highly performant materials, sensing and much more. While an incredible range of functionality has been sampled in nature, it accounts for a tiny fraction of the possible protein universe. If we could tap into this pool of unexplored protein structures, we could search for novel proteins with useful properties that we could apply to tackle the environmental and medical challenges facing humanity. This is the purpose of protein design. Sequence design is an important aspect of protein design, and many successful methods to do this have been developed. Recently, deep-learning methods that frame it as a classification problem have emerged as a powerful approach. Beyond their reported improvement in performance, their primary advantage over physics-based methods is that the computational burden is shifted from the user to the developers, thereby increasing accessibility to the design method. Despite this trend, the tools for assessment and comparison of such models remain quite generic. The goal of this paper is to both address the timely problem of evaluation and to shine a spotlight, within the Machine Learning community, on specific assessment criteria that will accelerate impact. We present a carefully curated benchmark set of proteins and propose a number of standard tests to assess the performance of deep learning based methods. Our robust benchmark provides biological insight into the behaviour of design methods, which is essential for evaluating their performance and utility. We compare five existing models with two novel models for sequence prediction. Finally, we test the designs produced by these models with AlphaFold2, a state-of-the-art structure-prediction algorithm, to determine if they are likely to fold into the intended 3D shapes.
翻訳日:2021-09-17 20:45:08 公開日:2021-09-16
# (参考訳) オブジェクトとビューをまたいだLiDAR出力値の分散化による2次元物体位置の3次元化 [全文訳有]

Lifting 2D Object Locations to 3D by Discounting LiDAR Outliers across Objects and Views ( http://arxiv.org/abs/2109.07945v1 )

ライセンス: CC BY 4.0
Robert McCraith, Eldar Insafudinov, Lukas Neumann, Andrea Vedaldi(参考訳) 本稿では,2次元マスク物体予測と生lidar点雲を,物体のフル3次元バウンディングボックスに自動変換するシステムを提案する。 LiDAR点雲は部分的であるので、点雲に直結する境界ボックスは無意味である。 代わりに、良い結果を得るには、データセット内の \emph{all} オブジェクト間で情報を複数のフレームで共有する必要があると提案する。 次に、ベースラインを3つ改善します。 まず、この空間における直接最適化による物体の回転予測の曖昧さに対処し、モデルによる回転予測をバックプロパゲートする。 第2に、異常値を明示的にモデル化し、典型的なパターンを学習してネットワークをタスクする。 第3に,ビデオデータの入手時に時間的一貫性を強制する。 これらの貢献により,これらの手法は,より複雑なパイプライン,3次元モデル,付加的な人為的な事前情報ソースを使用するにもかかわらず,従来よりも優れていた。

We present a system for automatic converting of 2D mask object predictions and raw LiDAR point clouds into full 3D bounding boxes of objects. Because the LiDAR point clouds are partial, directly fitting bounding boxes to the point clouds is meaningless. Instead, we suggest that obtaining good results requires sharing information between \emph{all} objects in the dataset jointly, over multiple frames. We then make three improvements to the baseline. First, we address ambiguities in predicting the object rotations via direct optimization in this space while still backpropagating rotation prediction through the model. Second, we explicitly model outliers and task the network with learning their typical patterns, thus better discounting them. Third, we enforce temporal consistency when video data is available. With these contributions, our method significantly outperforms previous work despite the fact that those methods use significantly more complex pipelines, 3D models and additional human-annotated external sources of prior information.
翻訳日:2021-09-17 20:31:12 公開日:2021-09-16
# (参考訳) 事前学習言語モデルに対する効率的な属性注入 [全文訳有]

Efficient Attribute Injection for Pretrained Language Models ( http://arxiv.org/abs/2109.07953v1 )

ライセンス: CC BY 4.0
Reinald Kim Amplayo and Kang Min Yoo and Sang-Woo Lee(参考訳) メタデータ属性(レビューからのユーザIDや製品IDなど)は、パフォーマンスを改善するためにモデルのアーキテクチャを変更することで、ニューラルベースNLPモデルへの追加入力として組み込むことができる。 しかし、最近のモデルは事前学習された言語モデル(plm)に依存しており、属性注入のテクニックは非自明か非効率である。 本稿では,PLMに属性を注入する軽量でメモリ効率の良い手法を提案する。 アダプタ、すなわち小さなプラグインフィードフォワードモジュールを拡張して、テキストとは独立あるいは共同で属性を含むようにします。 属性語彙が大きい場合,特にパラメータの増加を制限するために,低ランク近似と超複素乗算を用い,総パラメータを著しく減少させる。 また、属性をマルチラベルまたはスパースにすることができるドメインを扱うためのトレーニングメカニズムも導入する。 異なる領域の8つのデータセットに対する大規模な実験と分析により,提案手法は従来の属性注入法より優れ,各種データセット上での最先端性能を実現することが示された。

Metadata attributes (e.g., user and product IDs from reviews) can be incorporated as additional inputs to neural-based NLP models, by modifying the architecture of the models, in order to improve their performance. Recent models however rely on pretrained language models (PLMs), where previously used techniques for attribute injection are either nontrivial or ineffective. In this paper, we propose a lightweight and memory-efficient method to inject attributes to PLMs. We extend adapters, i.e. tiny plug-in feed-forward modules, to include attributes both independently of or jointly with the text. To limit the increase of parameters especially when the attribute vocabulary is large, we use low-rank approximations and hypercomplex multiplications, significantly decreasing the total parameters. We also introduce training mechanisms to handle domains in which attributes can be multi-labeled or sparse. Extensive experiments and analyses on eight datasets from different domains show that our method outperforms previous attribute injection methods and achieves state-of-the-art performance on various datasets.
翻訳日:2021-09-17 20:15:55 公開日:2021-09-16
# (参考訳) 要約型質問生成による教師なし質問応答の改善 [全文訳有]

Improving Unsupervised Question Answering via Summarization-Inform ed Question Generation ( http://arxiv.org/abs/2109.07954v1 )

ライセンス: CC BY 4.0
Chenyang Lyu, Lifeng Shang, Yvette Graham, Jennifer Foster, Xin Jiang, Qun Liu(参考訳) 質問生成(QG)とは,与えられた<passage, answer>ペアに対して妥当な質問を生成するタスクである。 テンプレートベースのQGは言語的にインフォームドされたヒューリスティックスを用いて宣言文を疑問文に変換する一方、教師付きQGは既存のQAデータセットを使用して、パスと回答を与えられた質問を生成するシステムを訓練する。 ヒューリスティックなアプローチの欠点は、生成された質問が宣言的な質問と強く結びついていることです。 教師付きアプローチの欠点は、トレーニングデータとして使用されるQAデータセットのドメイン/言語に強く結びついていることだ。 これらの欠点を克服するために,要約からヒューリスティックに生成した質問をQGシステムのトレーニングデータ源として利用する教師なしQG手法を提案する。 我々は, 自由に利用可能なニュース要約データを用いて, 係り受け解析, 名前付きエンティティ認識, 意味的役割ラベリングによるヒューリスティックスを用いて, 宣言的要約文を適切な質問に変換する。 得られた質問は、元のニュース記事と組み合わせて、エンドツーエンドのニューラルQGモデルをトレーニングする。 我々のQGモデルは、QAモデルをトレーニングするための合成QAペアを生成するために使用される。 実験の結果、20kのウィキペディアベースの合成QAペアでトレーニングされたQAモデルは、3つのドメイン内データセット(SQuAD1.1、Natural Questions、TriviaQA)と3つの外部データセット(NewsQA、BioASQ、DuoRC)の教師なしモデルよりも大幅に優れており、アプローチの転送可能性を示している。

Question Generation (QG) is the task of generating a plausible question for a given <passage, answer> pair. Template-based QG uses linguistically-infor med heuristics to transform declarative sentences into interrogatives, whereas supervised QG uses existing Question Answering (QA) datasets to train a system to generate a question given a passage and an answer. A disadvantage of the heuristic approach is that the generated questions are heavily tied to their declarative counterparts. A disadvantage of the supervised approach is that they are heavily tied to the domain/language of the QA dataset used as training data. In order to overcome these shortcomings, we propose an unsupervised QG method which uses questions generated heuristically from summaries as a source of training data for a QG system. We make use of freely available news summary data, transforming declarative summary sentences into appropriate questions using heuristics informed by dependency parsing, named entity recognition and semantic role labeling. The resulting questions are then combined with the original news articles to train an end-to-end neural QG model. We extrinsically evaluate our approach using unsupervised QA: our QG model is used to generate synthetic QA pairs for training a QA model. Experimental results show that, trained with only 20k English Wikipedia-based synthetic QA pairs, the QA model substantially outperforms previous unsupervised models on three in-domain datasets (SQuAD1.1, Natural Questions, TriviaQA) and three out-of-domain datasets (NewsQA, BioASQ, DuoRC), demonstrating the transferability of the approach.
翻訳日:2021-09-17 19:56:35 公開日:2021-09-16
# (参考訳) 合成データを用いたリアルタイム単眼走行速度推定 [全文訳有]

Real Time Monocular Vehicle Velocity Estimation using Synthetic Data ( http://arxiv.org/abs/2109.07957v1 )

ライセンス: CC BY 4.0
Robert McCraith, Lukas Neumann, Andrea Vedaldi(参考訳) 視覚は自律運転における主要な感覚の1つである。 本稿では,移動車に搭載されたカメラから車両の速度を推定する問題について考察する。 ビデオ画素から車両の速度を推定するエンド・ツー・エンドのディープ・ネットワークを訓練する従来の手法とは対照的に,まずオフ・ザ・シェルフ・トラッカーを用いて車両のバウンディングボックスを抽出し,次に追跡されたバウンディングボックスから車両の速度を小さなニューラルネットワークでリセットする2段階のアプローチを提案する。 驚くべきことに、これは依然として最先端の予測性能を達成しており、速度推定に不可欠な統計を抽出できるクリーンで解釈可能で検証可能なインターフェースを通じて、動的推定から認識を分離する大きな利点がある。 本研究では,後者を用いて,有界箱空間における合成学習データを容易に生成し,これを用いて提案手法の性能をさらに向上できることを示す。

Vision is one of the primary sensing modalities in autonomous driving. In this paper we look at the problem of estimating the velocity of road vehicles from a camera mounted on a moving car. Contrary to prior methods that train end-to-end deep networks that estimate the vehicles' velocity from the video pixels, we propose a two-step approach where first an off-the-shelf tracker is used to extract vehicle bounding boxes and then a small neural network is used to regress the vehicle velocity from the tracked bounding boxes. Surprisingly, we find that this still achieves state-of-the-art estimation performance with the significant benefit of separating perception from dynamics estimation via a clean, interpretable and verifiable interface which allows us distill the statistics which are crucial for velocity estimation. We show that the latter can be used to easily generate synthetic training data in the space of bounding boxes and use this to improve the performance of our method further.
翻訳日:2021-09-17 19:38:16 公開日:2021-09-16
# (参考訳) Alquist 4.0:生成モデルと対話パーソナライゼーションを用いたソーシャルインテリジェンスを目指して [全文訳有]

Alquist 4.0: Towards Social Intelligence Using Generative Models and Dialogue Personalization ( http://arxiv.org/abs/2109.07968v1 )

ライセンス: CC BY 4.0
Jakub Konr\'ad, Jan Pichl, Petr Marek, Petr Lorenc, Van Duy Ta, Ond\v{r}ej Kobza, Lenka H\'ylov\'a and Jan \v{S}ediv\'y(参考訳) オープンなドメイン対話システムであるAlquistは、ソーシャルインテリジェンスのベンチマークの1つと見なされる、一貫性のある会話を行うという目標を持っている。 このシステムの4番目のバージョンは、Alexa Prize Socialbot Grand Challenge 4で開発されたもので、2つの大きなイノベーションをもたらす。 第1はコヒーレンスに、第2は会話の係り合いに対処する。 コヒーレンスに関するイノベーションのために,手作りの応答と生成モデルを組み合わせた新しいハイブリッドアプローチを提案する。 提案手法は,ハンドデザイン対話,ドメイン外検出,ニューラル応答生成器を用いた。 手書きの対話は、高品質な会話の流れをユーザーに届ける。 ドメイン外検出は、ユーザが予め定義されたフローから逸脱していることを認識し、予期せぬユーザ入力に意味のないスクリプト化されたレスポンスを生成することを防止する。 最後に、ニューラルネットワーク応答生成器は、予期せぬユーザの入力に正しく反応し、手作りの対話の境界に応答する対話のコンテキストに基づいて応答を生成する。 私たちが提案するエンゲージメントのイノベーションは、主に有名な探検・探検ジレンマにインスパイアされている。 対話相手との魅力的な会話を行うには、自分の好みや興味を学ぶ必要がある。 さらに、パートナーと関わるためには、既に学んだ知識 -- 搾取を活用しなければなりません。 本研究では,Alexa Prize Socialbot Grand Challenge 4で開発されたオープンドメイン対話システムAlquistの個々のコンポーネントの原理と内部動作について述べる。

The open domain-dialogue system Alquist has a goal to conduct a coherent and engaging conversation that can be considered as one of the benchmarks of social intelligence. The fourth version of the system, developed within the Alexa Prize Socialbot Grand Challenge 4, brings two main innovations. The first addresses coherence, and the second addresses the engagingness of the conversation. For innovations regarding coherence, we propose a novel hybrid approach combining hand-designed responses and a generative model. The proposed approach utilizes hand-designed dialogues, out-of-domain detection, and a neural response generator. Hand-designed dialogues walk the user through high-quality conversational flows. The out-of-domain detection recognizes that the user diverges from the predefined flow and prevents the system from producing a scripted response that might not make sense for unexpected user input. Finally, the neural response generator generates a response based on the context of the dialogue that correctly reacts to the unexpected user input and returns the dialogue to the boundaries of hand-designed dialogues. The innovations for engagement that we propose are mostly inspired by the famous exploration-exploita tion dilemma. To conduct an engaging conversation with the dialogue partners, one has to learn their preferences and interests -- exploration. Moreover, to engage the partner, we have to utilize the knowledge we have already learned -- exploitation. In this work, we present the principles and inner workings of individual components of the open-domain dialogue system Alquist developed within the Alexa Prize Socialbot Grand Challenge 4 and the experiments we have conducted to evaluate them.
翻訳日:2021-09-17 19:26:44 公開日:2021-09-16
# (参考訳) 言語モデルはローマへの道を知っているか? [全文訳有]

Do Language Models Know the Way to Rome? ( http://arxiv.org/abs/2109.07971v1 )

ライセンス: CC BY 4.0
Bastien Li\'etard and Mostafa Abdou and Anders S{\o}gaard(参考訳) 言語モデルのグローバルな幾何学は、様々な応用において重要であるが、言語モデルプローブは、より局所的な関係を評価する傾向がある。 本稿では,地理的に地平の真理が地域関係を超えているという事実を活用する。 一連の実験において、都市名と国名の言語モデル表現が現実世界の地理に同型である範囲を評価する。例えば、パリとベルリンのある言語モデルを伝える場合、ローマへの道を知っているか? 言語モデルは通常、限られた地理的情報を符号化しているが、より大規模なモデルでは、高次共起統計から地理的知識が引き起こされる可能性が示唆されている。

The global geometry of language models is important for a range of applications, but language model probes tend to evaluate rather local relations, for which ground truths are easily obtained. In this paper we exploit the fact that in geography, ground truths are available beyond local relations. In a series of experiments, we evaluate the extent to which language model representations of city and country names are isomorphic to real-world geography, e.g., if you tell a language model where Paris and Berlin are, does it know the way to Rome? We find that language models generally encode limited geographic information, but with larger models performing the best, suggesting that geographic knowledge can be induced from higher-order co-occurrence statistics.
翻訳日:2021-09-17 19:10:17 公開日:2021-09-16
# (参考訳) SAFRAN: 埋め込みモデルより優れた解釈可能なルールベースのリンク予測手法 [全文訳有]

SAFRAN: An interpretable, rule-based link prediction method outperforming embedding models ( http://arxiv.org/abs/2109.08002v1 )

ライセンス: CC BY-SA 4.0
Simon Ott, Christian Meilicke, Matthias Samwald(参考訳) ニューラルネットワークを用いた機械学習モデルは、知識グラフにおける新しいリンクを予測することを約束している。 残念ながら、実用性は解釈可能性の欠如によって低下している。 近年、AnyBURLは完全に解釈可能なルールベースのアルゴリズムが、多くの汎用リンク予測ベンチマークで高い競争力を得た。 しかし、複数のルールによる予測の集約に対する現在のアプローチは冗長性に影響される。 我々は,non-redundant noise-orと呼ばれる新しいアグリゲーションアプローチを用いて,アグリゲーション前に冗長なルールを検出し,クラスタ化するsafran rule application frameworkを導入することで,anyburlを改善した。 SAFRANは、確立された汎用ベンチマーク FB15K-237, WN18RR, YAGO3-10 上で、完全に解釈可能なリンク予測のための新しい最先端の結果を得る。 さらに、FB15K-237およびWN18RR上の複数の確立された埋め込みベースのアルゴリズムの結果を超え、YAGO3-10上のルールベースのアルゴリズムと埋め込みベースのアルゴリズムのギャップを狭める。

Neural embedding-based machine learning models have shown promise for predicting novel links in knowledge graphs. Unfortunately, their practical utility is diminished by their lack of interpretability. Recently, the fully interpretable, rule-based algorithm AnyBURL yielded highly competitive results on many general-purpose link prediction benchmarks. However, current approaches for aggregating predictions made by multiple rules are affected by redundancies. We improve upon AnyBURL by introducing the SAFRAN rule application framework, which uses a novel aggregation approach called Non-redundant Noisy-OR that detects and clusters redundant rules prior to aggregation. SAFRAN yields new state-of-the-art results for fully interpretable link prediction on the established general-purpose benchmarks FB15K-237, WN18RR and YAGO3-10. Furthermore, it exceeds the results of multiple established embedding-based algorithms on FB15K-237 and WN18RR and narrows the gap between rule-based and embedding-based algorithms on YAGO3-10.
翻訳日:2021-09-17 19:00:41 公開日:2021-09-16
# (参考訳) wmt21効率タスクのためのniuトランスシステム [全文訳有]

The NiuTrans System for the WMT21 Efficiency Task ( http://arxiv.org/abs/2109.08003v1 )

ライセンス: CC BY 4.0
Chenglong Wang, Chi Hu, Yongyu Mu, Zhongxiang Yan, Siming Wu, Minyi Hu, Hang Cao, Bei Li, Ye Lin, Tong Xiao, Jingbo Zhu(参考訳) 本稿では,WMT21翻訳効率タスク(http://statmt.org/w mt21/efficiency-task .html)のためのNiuTransシステムについて述べる。 昨年の作業に続いて、翻訳品質を維持しながら効率を向上させるための様々な手法を探求する。 軽量変圧器アーキテクチャと知識蒸留戦略の組み合わせについて検討する。 また,グラフ最適化,低精度,動的バッチ処理,並列前/後処理により翻訳効率を向上させる。 私たちのシステムはNVIDIA A100で毎秒247,000ワードを変換することができ、昨年のシステムよりも3$\times$高速です。 我々のシステムは最速で、GPUのスループットトラック上では最小のメモリ消費を持つ。 コード、モデル、パイプラインはNiuTrans.NMT(https:/ /github.com/NiuTrans /NiuTrans.NMT)で入手できる。

This paper describes the NiuTrans system for the WMT21 translation efficiency task (http://statmt.org/w mt21/efficiency-task .html). Following last year's work, we explore various techniques to improve efficiency while maintaining translation quality. We investigate the combinations of lightweight Transformer architectures and knowledge distillation strategies. Also, we improve the translation efficiency with graph optimization, low precision, dynamic batching, and parallel pre/post-processing. Our system can translate 247,000 words per second on an NVIDIA A100, being 3$\times$ faster than last year's system. Our system is the fastest and has the lowest memory consumption on the GPU-throughput track. The code, model, and pipeline will be available at NiuTrans.NMT (https://github.com/ NiuTrans/NiuTrans.NM T).
翻訳日:2021-09-17 18:42:32 公開日:2021-09-16
# (参考訳) WNGT 2020効率タスクのためのニウトランスシステム [全文訳有]

The NiuTrans System for WNGT 2020 Efficiency Task ( http://arxiv.org/abs/2109.08008v1 )

ライセンス: CC BY 4.0
Chi Hu, Bei Li, Ye Lin, Yinqiao Li, Yanyang Li, Chenglong Wang, Tong Xiao, Jingbo Zhu(参考訳) 本稿では,NuTrans チームの WNGT 2020 効率共有タスクへの提出について述べる。 我々は,NLPタスクの柔軟なツールキットであるNiuTensor(https://gi thub.com/NiuTrans/Ni uTensor)を用いて,Deep Transformerモデルの効率的な実装に焦点を当てた。 モデル圧縮と知識蒸留によるトランスフォーマーモデルにおける深部エンコーダと浅部デコーダの組み合わせについて検討した。 ニューラルマシン翻訳復号は、FP16推論、アテンションキャッシュ、動的バッチ、バッチプルーニングの恩恵を受ける。 我々のシステムは、翻訳品質と効率の両面で有望な結果を達成する。例えば、我々の最速のシステムは、1秒間に40,000以上のトークンをRTX 2080 Tiで翻訳できる。 NiuTrans.NMT (https://github.com/ NiuTrans/NiuTrans.NM T) ではコード、モデル、ドッカーイメージが公開されている。

This paper describes the submissions of the NiuTrans Team to the WNGT 2020 Efficiency Shared Task. We focus on the efficient implementation of deep Transformer models \cite{wang-etal-2019-learn ing, li-etal-2019-niutran s} using NiuTensor (https://github.com/ NiuTrans/NiuTensor), a flexible toolkit for NLP tasks. We explored the combination of deep encoder and shallow decoder in Transformer models via model compression and knowledge distillation. The neural machine translation decoding also benefits from FP16 inference, attention caching, dynamic batching, and batch pruning. Our systems achieve promising results in both translation quality and efficiency, e.g., our fastest system can translate more than 40,000 tokens per second with an RTX 2080 Ti while maintaining 42.9 BLEU on \textit{newstest2018}. The code, models, and docker images are available at NiuTrans.NMT (https://github.com/ NiuTrans/NiuTrans.NM T).
翻訳日:2021-09-17 18:32:33 公開日:2021-09-16
# (参考訳) WildWood:新しいランダムフォレストアルゴリズム [全文訳有]

WildWood: a new Random Forest algorithm ( http://arxiv.org/abs/2109.08010v1 )

ライセンス: CC BY 4.0
St\'ephane Ga\"iffas and Ibrahim Merad and Yiyang Yu(参考訳) 本研究では、ランダムフォレスト(RF)タイプの教師あり学習のための新しいアンサンブルアルゴリズムWildWood(WW)を紹介する。 標準的なrfアルゴリズムはbootstrap out-of-bagのスコアを計算するのにbootstrap out-of-bagのサンプルを使用するが、wwはこれらのサンプルを使用して、森林で育てられた各木で可能な全てのサブツリーの予測を集約することで得られる予測を改善した。 これは、コンテキストツリー重み付けと呼ばれるアルゴリズムによって正確に、非常に効率的に計算される、バッグ外のサンプルで計算された指数重みによる集約によって達成される。 この改良は、分割探索を加速するヒストグラム戦略と組み合わさって、標準RFや極端な勾配促進アルゴリズムといった他の確立されたアンサンブル法と比較して、WWを高速かつ競争的にする。

We introduce WildWood (WW), a new ensemble algorithm for supervised learning of Random Forest (RF) type. While standard RF algorithms use bootstrap out-of-bag samples to compute out-of-bag scores, WW uses these samples to produce improved predictions given by an aggregation of the predictions of all possible subtrees of each fully grown tree in the forest. This is achieved by aggregation with exponential weights computed over out-of-bag samples, that are computed exactly and very efficiently thanks to an algorithm called context tree weighting. This improvement, combined with a histogram strategy to accelerate split finding, makes WW fast and competitive compared with other well-established ensemble methods, such as standard RF and extreme gradient boosting algorithms.
翻訳日:2021-09-17 18:23:16 公開日:2021-09-16
# (参考訳) 大規模3次元顔表情認識のためのデータセット生成 [全文訳有]

Generating Dataset For Large-scale 3D Facial Emotion Recognition ( http://arxiv.org/abs/2109.08043v1 )

ライセンス: CC BY 4.0
Faizan Farooq Khan and Syed Zulqarnain Gilani(参考訳) ディープラーニングの飛躍的な発展により、顔認識(fer)はここ数年で大きな注目を集めている。 3D FERは、その2D画像に対して固有のエッジを持っているが、2D画像の研究がこの分野を支配している。 3D FERの遅い開発の主な理由は、大規模なトレーニングと大規模なテストデータセットが利用できないことである。 認識精度はすでに、ギャラリーのサイズが小さいため、既存の3D感情認識データセットに飽和している。 2D写真とは異なり、3D顔画像の収集は容易ではなく、ディープ3D FERネットワークやデータセットの開発にボトルネックを引き起こす。 本研究では,ラベル付き感情を持つ3次元顔の大規模データセットを生成する手法を提案する。 また624,000個の顔スキャンで訓練した3D FERのためのディープ畳み込みニューラルネットワーク(CNN)を開発した。 テストデータには20万8000の3d顔スキャンが含まれる。

The tremendous development in deep learning has led facial expression recognition (FER) to receive much attention in the past few years. Although 3D FER has an inherent edge over its 2D counterpart, work on 2D images has dominated the field. The main reason for the slow development of 3D FER is the unavailability of large training and large test datasets. Recognition accuracies have already saturated on existing 3D emotion recognition datasets due to their small gallery sizes. Unlike 2D photographs, 3D facial scans are not easy to collect, causing a bottleneck in the development of deep 3D FER networks and datasets. In this work, we propose a method for generating a large dataset of 3D faces with labeled emotions. We also develop a deep convolutional neural network(CNN) for 3D FER trained on 624,000 3D facial scans. The test data comprises 208,000 3D facial scans.
翻訳日:2021-09-17 17:45:34 公開日:2021-09-16
# (参考訳) Eformer: エッジ強調に基づく医用画像復調用トランス

Eformer: Edge Enhancement based Transformer for Medical Image Denoising ( http://arxiv.org/abs/2109.08044v1 )

ライセンス: CC BY 4.0
Achleshwar Luthra, Harsh Sulakhe, Tanish Mittal, Abhishek Iyer, Santosh Yadav(参考訳) 本研究では,医療用画像復調用トランスフォーマブロックを用いたエンコーダデコーダネットワークを構築する新しいアーキテクチャであるEformer-Edge拡張ベーストランスフォーマを提案する。 非オーバーラップウィンドウベースの自己アテンションは、計算要求を減らすトランスフォーマーブロックで使用される。 この研究はさらに、学習可能なソベル・フェルドマン演算子を組み込んで、画像のエッジを強化し、アーキテクチャの中間層にそれらを結合する効果的な方法を提案します。 医用画像復調作業における決定論的学習と残留学習を比較して実験分析を行う。 AAPM-Mayo Clinical Low-Dose CT Grand Challenge Dataset を用いて提案手法の有効性を検証し,43.487 PSNR,0.0067 RMSE,0.9861 SSIM の最先端性能を実現する。 私たちの研究は、残差学習を用いた医用画像分類のためのトランスフォーマーベースのアーキテクチャの研究をさらに促進すると信じています。

In this work, we present Eformer - Edge enhancement based transformer, a novel architecture that builds an encoder-decoder network using transformer blocks for medical image denoising. Non-overlapping window-based self-attention is used in the transformer block that reduces computational requirements. This work further incorporates learnable Sobel-Feldman operators to enhance edges in the image and propose an effective way to concatenate them in the intermediate layers of our architecture. The experimental analysis is conducted by comparing deterministic learning and residual learning for the task of medical image denoising. To defend the effectiveness of our approach, our model is evaluated on the AAPM-Mayo Clinic Low-Dose CT Grand Challenge Dataset and achieves state-of-the-art performance, $i.e.$, 43.487 PSNR, 0.0067 RMSE, and 0.9861 SSIM. We believe that our work will encourage more research in transformer-based architectures for medical image denoising using residual learning.
翻訳日:2021-09-17 17:36:20 公開日:2021-09-16
# (参考訳) Recommender システムに対するメンバシップ推論攻撃 [全文訳有]

Membership Inference Attacks Against Recommender Systems ( http://arxiv.org/abs/2109.08045v1 )

ライセンス: CC BY 4.0
Minxing Zhang, Zhaochun Ren, Zihan Wang, Pengjie Ren, Zhumin Chen, Pengfei Hu, Yang Zhang(参考訳) 近年、レコメンダシステムは有望なパフォーマンスを達成し、最も広く使われているwebアプリケーションの1つとなっている。 しかし、レコメンダシステムはセンシティブなユーザデータに基づいてトレーニングされることが多いため、レコメンダシステムからの潜在的なデータ漏洩は、重大なプライバシ問題を引き起こす可能性がある。 本稿では,会員推論のレンズを用いて,レコメンダシステムのプライバシー漏洩を定量化するための最初の試みを行う。 機械学習分類器に対する従来のメンバーシップ推論とは対照的に、攻撃には2つの大きな違いがある。 まず、当社の攻撃はユーザーレベルですが、データサンプルレベルではありません。 第2に、敵は後確率の形での予測結果ではなく、推奨者システムから指示された推奨項目のみを観察できる。 以上の課題に対処するために,ユーザを関連項目から表現する新しい手法を提案する。 また、シャドーレコメンデータを設けて、アタックモデルをトレーニングするためのラベル付きトレーニングデータを導出する。 広範な実験結果から,攻撃フレームワークは強力な性能を達成できた。 さらに,レコメンダシステムのメンバシップ推論の脅威を効果的に軽減するための防御機構を設計する。

Recently, recommender systems have achieved promising performances and become one of the most widely used web applications. However, recommender systems are often trained on highly sensitive user data, thus potential data leakage from recommender systems may lead to severe privacy problems. In this paper, we make the first attempt on quantifying the privacy leakage of recommender systems through the lens of membership inference. In contrast with traditional membership inference against machine learning classifiers, our attack faces two main differences. First, our attack is on the user-level but not on the data sample-level. Second, the adversary can only observe the ordered recommended items from a recommender system instead of prediction results in the form of posterior probabilities. To address the above challenges, we propose a novel method by representing users from relevant items. Moreover, a shadow recommender is established to derive the labeled training data for training the attack model. Extensive experimental results show that our attack framework achieves a strong performance. In addition, we design a defense mechanism to effectively mitigate the membership inference threat of recommender systems.
翻訳日:2021-09-17 17:35:23 公開日:2021-09-16
# (参考訳) MOFSimplify: 3万個の金属有機フレームワークの安定性データを抽出した機械学習モデル [全文訳有]

MOFSimplify: Machine Learning Models with Extracted Stability Data of Three Thousand Metal-Organic Frameworks ( http://arxiv.org/abs/2109.08098v1 )

ライセンス: CC BY 4.0
A. Nandy, G. Terrones, N. Arunachalam, C. Duan, D. W. Kastner, and H. J. Kulik(参考訳) 構造的特徴を有するMOFとその溶媒除去および熱安定性を記述した既存の金属-有機フレームワーク(MOF)文献をマイニングするためのワークフローと自然言語処理(NLP)ベースの手順の成果を報告する。 テキストマイニングから2,000以上の溶媒除去安定度と熱重力解析データから3,000以上の熱分解温度を得た。 我々は,NLP法の有効性と抽出したデータの精度を手書きサブセットと比較することにより評価した。 このデータに基づいてトレーニングされた機械学習(ml、すなわち人工ニューラルネットワーク)モデルは、グラフおよび細孔ジオメトリーに基づく表現を使用して、定量不確実性を持つ新しいmofの安定性の予測を可能にする。 当社のWebインターフェースであるMOFSimplifyは、ユーザがキュレートされたデータにアクセスし、そのデータを新しいMOFの予測に利用できるようにする。 MOFSimplifyは、既存のデータやコミュニティベースのアクティブラーニングのためのMLモデル予測に対するコミュニティからのフィードバックを奨励し、MOF安定性モデルを改善する。

We report a workflow and the output of a natural language processing (NLP)-based procedure to mine the extant metal-organic framework (MOF) literature describing structurally characterized MOFs and their solvent removal and thermal stabilities. We obtain over 2,000 solvent removal stability measures from text mining and 3,000 thermal decomposition temperatures from thermogravimetric analysis data. We assess the validity of our NLP methods and the accuracy of our extracted data by comparing to a hand-labeled subset. Machine learning (ML, i.e. artificial neural network) models trained on this data using graph- and pore-geometry-based representations enable prediction of stability on new MOFs with quantified uncertainty. Our web interface, MOFSimplify, provides users access to our curated data and enables them to harness that data for predictions on new MOFs. MOFSimplify also encourages community feedback on existing data and on ML model predictions for community-based active learning for improved MOF stability models.
翻訳日:2021-09-17 17:10:39 公開日:2021-09-16
# (参考訳) invertable frowns:ビデオからビデオへの感情翻訳 [全文訳有]

Invertable Frowns: Video-to-Video Facial Emotion Translation ( http://arxiv.org/abs/2109.08061v1 )

ライセンス: CC BY 4.0
Ian Magnusson and Aruna Sankaranarayanan and Andrew Lippman(参考訳) 提案するwav2lip-emotionは,話し手の映像における感情の表情を変化させるビデオからビデオへの翻訳アーキテクチャである。 以前の作品では、イメージ内の感情を修正したり、単一の画像を使ってアニメーションされた感情を持ったビデオを作成したり、参照ビデオからランドマークのあるビデオで表情をパペットしたりしている。 しかし、ポストプロダクションでの俳優の演技の修正、個人をよりアニメーションスピーカーに指導したり、テレ会議で感情に触れたりといった多くのユースケースでは、ビデオからビデオへの翻訳アプローチが必要となる。 表現された感情を翻訳しながら、話者の唇の動き、アイデンティティ、ポーズを維持する方法を探る。 提案手法は,既存のマルチモーダルリップ同期アーキテクチャを拡張し,l1再構成と事前学習された感情目標を用いて話者の感情を変化させる。 また,新しい感情自動評価手法を提案し,ユーザスタディと照合する。 これらの結果から, 唇の同期を維持しながら感情を変化させることに成功した。 視覚的品質は若干低下しており、感情の変化とモデル間の視覚的品質のトレードオフがある。 しかしながら,(1) 感情の表情をL1再構成と事前訓練された感情目標だけで修正できること,(2) 自動感情評価アプローチは人間の判断と一致していることを示す。

We present Wav2Lip-Emotion, a video-to-video translation architecture that modifies facial expressions of emotion in videos of speakers. Previous work modifies emotion in images, uses a single image to produce a video with animated emotion, or puppets facial expressions in videos with landmarks from a reference video. However, many use cases such as modifying an actor's performance in post-production, coaching individuals to be more animated speakers, or touching up emotion in a teleconference require a video-to-video translation approach. We explore a method to maintain speakers' lip movements, identity, and pose while translating their expressed emotion. Our approach extends an existing multi-modal lip synchronization architecture to modify the speaker's emotion using L1 reconstruction and pre-trained emotion objectives. We also propose a novel automated emotion evaluation approach and corroborate it with a user study. These find that we succeed in modifying emotion while maintaining lip synchronization. Visual quality is somewhat diminished, with a trade off between greater emotion modification and visual quality between model variants. Nevertheless, we demonstrate (1) that facial expressions of emotion can be modified with nothing other than L1 reconstruction and pre-trained emotion objectives and (2) that our automated emotion evaluation approach aligns with human judgements.
翻訳日:2021-09-17 16:45:38 公開日:2021-09-16
# 複数の最小サポートを持つ頻繁なアイテムセットマイニング:制約に基づくアプローチ

Frequent Itemset Mining with Multiple Minimum Supports: a Constraint-based Approach ( http://arxiv.org/abs/2109.07844v1 )

ライセンス: Link先を確認
Mohamed-Bachir Belaid and Nadjib Lazaar(参考訳) 稀なものを含む頻繁なアイテムセットを発見するという問題に大きな注目を集めている。 鉱業プロセスは、頻繁かつ稀なレギュラーを一度に抽出できるほど柔軟でなければならない。 一方で、制約プログラミングはデータマイニングタスクに取り組む柔軟な方法であることが最近示されている。 本稿では,複数の最小サポートを持つアイテムセットをマイニングするための制約プログラミング手法を提案する。 当社のアプローチは,最小限の項目をサポートする上で,任意の種類の制約を表現可能にする。 実験分析の結果,本手法の実用性は,技術の現状と比較して明らかとなった。

The problem of discovering frequent itemsets including rare ones has received a great deal of attention. The mining process needs to be flexible enough to extract frequent and rare regularities at once. On the other hand, it has recently been shown that constraint programming is a flexible way to tackle data mining tasks. In this paper, we propose a constraint programming approach for mining itemsets with multiple minimum supports. Our approach provides the user with the possibility to express any kind of constraints on the minimum item supports. An experimental analysis shows the practical effectiveness of our approach compared to the state of the art.
翻訳日:2021-09-17 16:31:30 公開日:2021-09-16
# 歩行者検出のためのテストケースの効率的かつ効果的な生成 -- SVLにおけるBaidu Apolloの検索ベースソフトウェアテスト

Efficient and Effective Generation of Test Cases for Pedestrian Detection -- Search-based Software Testing of Baidu Apollo in SVL ( http://arxiv.org/abs/2109.07960v1 )

ライセンス: Link先を確認
Hamid Ebadi, Mahshid Helali Moghadam, Markus Borg, Gregory Gay, Afonso Fontes, Kasper Socha(参考訳) 自動運転車の能力の増大に伴い、自動車AIのコンテキストにおける機械学習対応システムに対する高度な実用的品質保証アプローチへの需要が高まっている。 シミュレーションベースのプロトタイピングプラットフォームを使用することで、初期段階のテストが可能となり、安価なテストと重要なコーナーケーステストシナリオのキャプチャが可能になる。 シミュレーションベーステストは、従来のオンロードテストを適切に補完する。 しかし、これらのシステムにおけるテスト入力パラメータの空間が広いため、効率的なテストシナリオの生成が失敗の露呈につながることは困難である。 本稿では,SVLシミュレータ内での自律走行プラットフォームであるBaidu Apolloの歩行者検出と緊急制動システムをテストする。 本稿では,SVL環境におけるApolloの障害検出シナリオを生成する進化的自動テスト生成手法を提案する。 提案手法は,汎用的かつ柔軟なデータ構造を用いて入力空間をモデル化し,最適化を目標とした目的関数に対するマルチクリトリア安全性に基づくヒューリスティクスを有効活用する。 本稿では,2021年のIEEE Autonomous Driving AI Test Challengeで提案したテスト生成手法について述べる。 また,本手法の効率性と有効性を示すため,ベースライン乱数生成手法の結果を報告する。 評価の結果,提案する進化的テストケースジェネレータは,故障回避テストケース生成に有効であること,ランダムベースラインよりも生成した障害の多様性が高いことが判明した。

With the growing capabilities of autonomous vehicles, there is a higher demand for sophisticated and pragmatic quality assurance approaches for machine learning-enabled systems in the automotive AI context. The use of simulation-based prototyping platforms provides the possibility for early-stage testing, enabling inexpensive testing and the ability to capture critical corner-case test scenarios. Simulation-based testing properly complements conventional on-road testing. However, due to the large space of test input parameters in these systems, the efficient generation of effective test scenarios leading to the unveiling of failures is a challenge. This paper presents a study on testing pedestrian detection and emergency braking system of the Baidu Apollo autonomous driving platform within the SVL simulator. We propose an evolutionary automated test generation technique that generates failure-revealing scenarios for Apollo in the SVL environment. Our approach models the input space using a generic and flexible data structure and benefits a multi-criteria safety-based heuristic for the objective function targeted for optimization. This paper presents the results of our proposed test generation technique in the 2021 IEEE Autonomous Driving AI Test Challenge. In order to demonstrate the efficiency and effectiveness of our approach, we also report the results from a baseline random generation technique. Our evaluation shows that the proposed evolutionary test case generator is more effective at generating failure-revealing test cases and provides higher diversity between the generated failures than the random baseline.
翻訳日:2021-09-17 16:31:21 公開日:2021-09-16
# 文脈情報を用いた分布的ロバスト最適潮流

Distributionally Robust Optimal Power Flow with Contextual Information ( http://arxiv.org/abs/2109.07896v1 )

ライセンス: Link先を確認
Adri\'an Esteban-P\'erez and Juan M. Morales(参考訳) 本稿では, 最適潮流問題 (OPF) の分布性に頑健な確率制約付き定式化を開発し, システムオペレーターは文脈情報を利用することができる。 本研究は,OPFの不確かさと,それらの連立確率分布のサンプルによって伝達される文脈の関係に関する不完全な知識に対して,ディスパッチソリューションが保護される確率トリミングと最適輸送に基づくあいまいさを利用する。 提案する分布的ロバストな確率制約付きopf問題の、一般的な条件付き値-リスク近似の下での正確な再構成を提案する。 風向不確実性を有する改良型ieee-118バスネットワーク上での数値実験により,風力出力の点予測とそれに伴う予測誤差との統計的依存性を考慮に入れることで,電力系統が実質的に有益であることを示す。 さらに, 提案手法によりOPF法に与えられる分布ロバスト性は, 予測コストとシステム信頼性の観点から, 代替手法よりも優れていることを示した。

In this paper, we develop a distributionally robust chance-constrained formulation of the Optimal Power Flow problem (OPF) whereby the system operator can leverage contextual information. For this purpose, we exploit an ambiguity set based on probability trimmings and optimal transport through which the dispatch solution is protected against the incomplete knowledge of the relationship between the OPF uncertainties and the context that is conveyed by a sample of their joint probability distribution. We provide an exact reformulation of the proposed distributionally robust chance-constrained OPF problem under the popular conditional-value-at -risk approximation. By way of numerical experiments run on a modified IEEE-118 bus network with wind uncertainty, we show how the power system can substantially benefit from taking into account the well-known statistical dependence between the point forecast of wind power outputs and its associated prediction error. Furthermore, the experiments conducted also reveal that the distributional robustness conferred on the OPF solution by our probability-trimming s-based approach is superior to that bestowed by alternative approaches in terms of expected cost and system reliability.
翻訳日:2021-09-17 16:30:58 公開日:2021-09-16
# 非視線撮影へ向けて

Towards Non-Line-of-Sight Photography ( http://arxiv.org/abs/2109.07783v1 )

ライセンス: Link先を確認
Jiayong Peng, Fangzhou Mu, Ji Hyun Nam, Siddeshwar Raghavan, Yin Li, Andreas Velten, and Zhiwei Xiong(参考訳) 非視線イメージング(NLOS)は、隠された物体からの多重バウンス間接反射を捉えている。 アクティブなNLOSイメージングシステムは、シーン中を飛行する時の捕捉に依存しており、特別なシーン設定や事前の仮定を必要とせずに、隠れたシーンの正確で堅牢な再構築を約束している。 既存の手法では深度分解能に優れる隠れ場面の3次元形状を再現できるが、被写体のテクスチャや外観を高精度に復元することは難しい課題である。 本研究では,この不足を具体的に解決するために,nlos photography という新しい問題定式化を提案する。 本手法は,3次元シーン形状の中間推定を行うのではなく,データ駆動方式を用いて,従来のリレー壁の位置から撮影した映像とよく似たNLOSシーンの2次元画像を直接再構成する。 この定式化は、3次元幾何学の明示的なモデリングを回避し、比較的小さなトレーニングデータセットを持つ深層モデルの学習を可能にすることで、難解な再構築問題を大いに単純化する。 結果は前例のない解像度と画質のnlos再構成である。

Non-line-of-sight (NLOS) imaging is based on capturing the multi-bounce indirect reflections from the hidden objects. Active NLOS imaging systems rely on the capture of the time of flight of light through the scene, and have shown great promise for the accurate and robust reconstruction of hidden scenes without the need for specialized scene setups and prior assumptions. Despite that existing methods can reconstruct 3D geometries of the hidden scene with excellent depth resolution, accurately recovering object textures and appearance with high lateral resolution remains an challenging problem. In this work, we propose a new problem formulation, called NLOS photography, to specifically address this deficiency. Rather than performing an intermediate estimate of the 3D scene geometry, our method follows a data-driven approach and directly reconstructs 2D images of a NLOS scene that closely resemble the pictures taken with a conventional camera from the location of the relay wall. This formulation largely simplifies the challenging reconstruction problem by bypassing the explicit modeling of 3D geometry, and enables the learning of a deep model with a relatively small training dataset. The results are NLOS reconstructions of unprecedented lateral resolution and image quality.
翻訳日:2021-09-17 16:30:12 公開日:2021-09-16
# SketchHairSalon:Deep Sketchベースのヘアイメージ合成

SketchHairSalon: Deep Sketch-based Hair Image Synthesis ( http://arxiv.org/abs/2109.07874v1 )

ライセンス: Link先を確認
Chufeng Xiao, Deng Yu, Xiaoguang Han, Youyi Zheng, Hongbo Fu(参考訳) 最近の深層生成モデルはスケッチ入力からリアルタイムに毛髪画像を生成することができる。 既存のソリューションでは、ターゲットの毛髪の形を指定するために、ユーザが提供するバイナリマスクを必要とすることが多い。 これにより、余分な労力がかかるだけでなく、複雑なヘアバウンダリを捕捉できない。 これらの解は通常、配向写像を介して毛髪構造をエンコードするが、複雑な構造をエンコードするのにはあまり効果的ではない。 色付きヘアスケッチは, 対象のヘア形状や外観を暗黙的に定義しており, 配向地図よりもヘア構造を表現しやすくなっている。 そこで本研究では, 髪型と外観を表現したフリーハンドスケッチから直接, リアルな髪型画像を生成するための2段階フレームワークであるsketchhairsalonを提案する。 最初の段階では、入力されたヘアスケッチからヘアマットを予測するネットワークをトレーニングし、オプションで非ヘアストロークをセットします。 第2段階では、入力スケッチと生成されたマットから毛髪画像の構造と外観を合成する別のネットワークを訓練する。 ストロークの長期依存性を2段階のネットワークに認識させるため,これらに自己注意モジュールを適用した。 これらのネットワークをトレーニングするために,数千のアノテートヘアスケッチイメージ対とそれに対応するヘアマットを含む新しいデータセットを提案する。 2つの効率的なスケッチ補完法を提案し, 繰り返し編み部品とヘアストロークをそれぞれ自動補完し, ユーザの作業量を削減した。 トレーニングされたネットワークと2つのスケッチ補完戦略に基づいて、初心者でも様々なヘア構造や外観を表現した視覚的に喜ぶヘアイメージをフリーハンドスケッチでデザインできる直感的なインターフェースを構築した。 定性的かつ定量的な評価は、既存のソリューションや代替ソリューションよりも提案されたシステムの利点を示している。

Recent deep generative models allow real-time generation of hair images from sketch inputs. Existing solutions often require a user-provided binary mask to specify a target hair shape. This not only costs users extra labor but also fails to capture complicated hair boundaries. Those solutions usually encode hair structures via orientation maps, which, however, are not very effective to encode complex structures. We observe that colored hair sketches already implicitly define target hair shapes as well as hair appearance and are more flexible to depict hair structures than orientation maps. Based on these observations, we present SketchHairSalon, a two-stage framework for generating realistic hair images directly from freehand sketches depicting desired hair structure and appearance. At the first stage, we train a network to predict a hair matte from an input hair sketch, with an optional set of non-hair strokes. At the second stage, another network is trained to synthesize the structure and appearance of hair images from the input sketch and the generated matte. To make the networks in the two stages aware of long-term dependency of strokes, we apply self-attention modules to them. To train these networks, we present a new dataset containing thousands of annotated hair sketch-image pairs and corresponding hair mattes. Two efficient methods for sketch completion are proposed to automatically complete repetitive braided parts and hair strokes, respectively, thus reducing the workload of users. Based on the trained networks and the two sketch completion strategies, we build an intuitive interface to allow even novice users to design visually pleasing hair images exhibiting various hair structures and appearance via freehand sketches. The qualitative and quantitative evaluations show the advantages of the proposed system over the existing or alternative solutions.
翻訳日:2021-09-17 16:29:50 公開日:2021-09-16
# 病理組織像のセマンティックセグメンテーションに基づく大腸生検のリスク自動分類

Automated risk classification of colon biopsies based on semantic segmentation of histopathology images ( http://arxiv.org/abs/2109.07892v1 )

ライセンス: Link先を確認
John-Melle Bokhorsta, Iris D. Nagtegaal, Filippo Fraggetta, Simona Vatrano, Wilma Mesker, Michael Vieth, Jeroen van der Laak, Francesco Ciompi(参考訳) 人工知能(AI)は、幅広い種類のがんの診断において、病理学者を支援する可能性がある。 大腸癌(crc)では、aiはポリープを含む切除された生検の診断と報告の手間を軽減し、その数はcrc人口スクリーニングプログラムの結果増加しており、世界中の多くの国で行われている。 本稿では,CRCの病理組織像全体の自動評価における2つの大きな課題に対処するアプローチを提案する。 まず, 組織形態と構成の異なる, 知覚可能な画像を提供するH&E-Stained whole-slide画像中の複数の組織を分割するAIベースの手法を提案する。 セグメンテーションモデルで利用できる最先端の損失関数のパネルを検証・比較し,その分析に基づく病理像セグメンテーションにおける使用例を示す。 a)オランダ及びドイツの5つの医療センターのCRC症例の多中心コホート b) crcのセグメンテーションに関する2つの公開データセット 第2に、大腸生検を病理学的に関連のある4つの主要なカテゴリに分類するコンピュータ支援診断システム(CAD)の基礎として、最高のAIモデルを用いる。 本システムの性能は1,000人以上の患者から独立したコホートで報告した。 以上の結果から,CRCの診断における病理医を支援するAIベースのシステムの可能性が示唆された。 セグメンテーションモデルをhttps://grand-challe nge.org/algorithms/c olon-tissue-segmenta tion/で研究するために利用しました。

Artificial Intelligence (AI) can potentially support histopathologists in the diagnosis of a broad spectrum of cancer types. In colorectal cancer (CRC), AI can alleviate the laborious task of characterization and reporting on resected biopsies, including polyps, the numbers of which are increasing as a result of CRC population screening programs, ongoing in many countries all around the globe. Here, we present an approach to address two major challenges in automated assessment of CRC histopathology whole-slide images. First, we present an AI-based method to segment multiple tissue compartments in the H\&E-stained whole-slide image, which provides a different, more perceptible picture of tissue morphology and composition. We test and compare a panel of state-of-the-art loss functions available for segmentation models, and provide indications about their use in histopathology image segmentation, based on the analysis of a) a multi-centric cohort of CRC cases from five medical centers in the Netherlands and Germany, and b) two publicly available datasets on segmentation in CRC. Second, we use the best performing AI model as the basis for a computer-aided diagnosis system (CAD) that classifies colon biopsies into four main categories that are relevant pathologically. We report the performance of this system on an independent cohort of more than 1,000 patients. The results show the potential of such an AI-based system to assist pathologists in diagnosis of CRC in the context of population screening. We have made the segmentation model available for research use on https://grand-challe nge.org/algorithms/c olon-tissue-segmenta tion/.
翻訳日:2021-09-17 16:29:19 公開日:2021-09-16
# 軌道最適化による逆正規化政策学習

Adversarially Regularized Policy Learning Guided by Trajectory Optimization ( http://arxiv.org/abs/2109.07627v1 )

ライセンス: Link先を確認
Zhigen Zhao, Simiao Zuo, Tuo Zhao, Ye Zhao(参考訳) 軌道最適化と関数近似(特にニューラルネットワーク)を組み合わせる最近の進歩は、ロボットシステムにおける多様なタスクに対する複雑な制御ポリシーを学ぶことを約束している。 その柔軟性にもかかわらず、制御ポリシーをパラメータ化するための大きなニューラルネットワークは、大きな課題を課す。 学習された神経制御ポリシーは、しばしば複雑で不機嫌であり、予期せぬ動きやロボットの動きを容易に引き起こす可能性がある。 そのため、実際は一般化性能が劣ることが多い。 この問題に対処するために、スムーズな制御ポリシーを学ぶために、trajeCtory optimizAtion (VERONICA) でガイドされたアドベサリ正規化 pOlicy learNIng を提案する。 具体的には,入力状態に対する最悪の摂動に対して出力制御を安定化させることにより,神経制御方針の滑らかさ(局所リプシッツ連続性)を制御する。 ロボット操作実験により,提案手法はニューラルポリシー学習のサンプル効率を向上するだけでなく,センサノイズ,環境不確実性,モデルミスマッチなど,各種障害に対するポリシーの堅牢性を高めることが示唆された。

Recent advancement in combining trajectory optimization with function approximation (especially neural networks) shows promise in learning complex control policies for diverse tasks in robot systems. Despite their great flexibility, the large neural networks for parameterizing control policies impose significant challenges. The learned neural control policies are often overcomplex and non-smooth, which can easily cause unexpected or diverging robot motions. Therefore, they often yield poor generalization performance in practice. To address this issue, we propose adVErsarially Regularized pOlicy learNIng guided by trajeCtory optimizAtion (VERONICA) for learning smooth control policies. Specifically, our proposed approach controls the smoothness (local Lipschitz continuity) of the neural control policies by stabilizing the output control with respect to the worst-case perturbation to the input state. Our experiments on robot manipulation show that our proposed approach not only improves the sample efficiency of neural policy learning but also enhances the robustness of the policy against various types of disturbances, including sensor noise, environmental uncertainty, and model mismatch.
翻訳日:2021-09-17 16:28:11 公開日:2021-09-16
# 不確実性定量化を用いた機械学習hasdmモデル

Machine-Learned HASDM Model with Uncertainty Quantification ( http://arxiv.org/abs/2109.07651v1 )

ライセンス: Link先を確認
Richard J. Licata, Piyush M. Mehta, W. Kent Tobiska, and S. Huzurbazar(参考訳) SET HASDM密度データベースに基づいて, 安定かつ確実な不確実性推定を伴う最初の熱圏中性質量密度モデルを開発した。 このデータベースは、SET(Space Environment Technologies)によって作成され、アメリカ空軍の高精度衛星ドラッグモデル(HASDM)から20年間の出力を含んでおり、密度とドラッグモデリングの最先端を表現している。 我々は主成分分析(PCA)を次元減少に利用し、非線形機械学習(ML)回帰モデルが訓練された係数を作成する。 これらのモデルでは、平均二乗誤差(MSE)、予測密度の負対数(NLPD)、連続ランク確率スコア(CRPS)の3つのユニークな損失関数を用いる。 3つの入力セットもテストされ、地磁気指標の時間履歴の導入時の性能が向上した。 これらのモデルではモンテカルロ(MC)のドロップアウトを利用して不確実性推定を行い、NLPD損失関数を用いることでモデルの精度を犠牲にすることなくよく校正された不確実性推定が得られる(10%平均絶対誤差)。 衛星軌道上でのHASDM-MLモデルとHASDMデータベースを比較した結果,全宇宙気象条件における密度空間の堅牢かつ確実な不確実性が得られた。 嵐時の比較により、HASDM-MLは極端なイベントの間に意味のある不確実性の測定も提供することが示された。

The first thermospheric neutral mass density model with robust and reliable uncertainty estimates is developed based on the SET HASDM density database. This database, created by Space Environment Technologies (SET), contains 20 years of outputs from the U.S. Space Force's High Accuracy Satellite Drag Model (HASDM), which represents the state-of-the-art for density and drag modeling. We utilize principal component analysis (PCA) for dimensionality reduction, creating the coefficients upon which nonlinear machine-learned (ML) regression models are trained. These models use three unique loss functions: mean square error (MSE), negative logarithm of predictive density (NLPD), and continuous ranked probability score (CRPS). Three input sets are also tested, showing improved performance when introducing time histories for geomagnetic indices. These models leverage Monte Carlo (MC) dropout to provide uncertainty estimates, and the use of the NLPD loss function results in well-calibrated uncertainty estimates without sacrificing model accuracy (<10% mean absolute error). By comparing the best HASDM-ML model to the HASDM database along satellite orbits, we found that the model provides robust and reliable uncertainties in the density space over all space weather conditions. A storm-time comparison shows that HASDM-ML also supplies meaningful uncertainty measurements during extreme events.
翻訳日:2021-09-17 16:27:50 公開日:2021-09-16
# 予測強調による二面マッチング市場のインセンティブ

Incentives in Two-sided Matching Markets with Prediction-enhanced Preference-formation ( http://arxiv.org/abs/2109.07835v1 )

ライセンス: Link先を確認
Stefania Ionescu, Yuhao Du, Kenneth Joseph, Anik\'o Hann\'ak(参考訳) 両面のマッチング市場は、規制された取引所がない状態でのペアエージェントとして長い間存在してきた。 典型的な例は学校選択であり、マッチングメカニズムは生徒と学校の選好を使って生徒を学校に割り当てる。 このような設定では、好みの形成は困難かつ重要である。 先行研究では、エージェントが好みを決定するのに役立つ様々な予測メカニズムが提案されている。 しばしば一緒に配置されるが、これらのマッチングと予測メカニズムはほとんど常に分離して分析される。 市場へ戻るエージェント(例:学校)は、短期のノンオプティマイズをマッチと相互作用させることで、将来の予測を攻撃できる。 ここではまず,このタイプの戦略行動を紹介し,これを「攻撃的相互作用攻撃」と呼ぶ。 次に,エージェントを補助する予測機構と,それらをペアリングするマッチング機構とのフィードバックループをキャプチャする形式的経済モデルを構築した。 この経済モデルにより、敵の相互作用攻撃を分析することができる。 最後に,学校選択を例として用いて,予測の信頼度や精度が向上するにつれて,対人的相互作用攻撃を開始することにより,学校が徐々に増加することを示すシミュレーションを構築した。 また,この攻撃は学生の不平等を増すことを示した。

Two-sided matching markets have long existed to pair agents in the absence of regulated exchanges. A common example is school choice, where a matching mechanism uses student and school preferences to assign students to schools. In such settings, forming preferences is both difficult and critical. Prior work has suggested various prediction mechanisms that help agents make decisions about their preferences. Although often deployed together, these matching and prediction mechanisms are almost always analyzed separately. The present work shows that at the intersection of the two lies a previously unexplored type of strategic behavior: agents returning to the market (e.g., schools) can attack future predictions by interacting short-term non-optimally with their matches. Here, we first introduce this type of strategic behavior, which we call an `adversarial interaction attack'. Next, we construct a formal economic model that captures the feedback loop between prediction mechanisms designed to assist agents and the matching mechanism used to pair them. This economic model allows us to analyze adversarial interaction attacks. Finally, using school choice as an example, we build a simulation to show that, as the trust in and accuracy of predictions increases, schools gain progressively more by initiating an adversarial interaction attack. We also show that this attack increases inequality in the student population.
翻訳日:2021-09-17 16:27:24 公開日:2021-09-16
# OpenFed: オープンソースのセキュリティとプライバシ保証フェデレーション学習フレームワーク

OpenFed: An Open-Source Security and Privacy Guaranteed Federated Learning Framework ( http://arxiv.org/abs/2109.07852v1 )

ライセンス: Link先を確認
Chen Dengsheng(参考訳) 自動運転車から高度な医療診断まで、人工知能技術の幅広い応用は、多くの利益をもたらす。 フェデレーテッド・ラーニング(Federated Learning)は、個人データ保護と研究および商業展開における利用のギャップを埋める技術、特にセキュリティとプライバシが重要な関心事であるユースケースにおいて、新しいタイプの人工知能を提供する。 ここでは,データ保護と利用の要求を同時に解決するオープンソースソフトウェアフレームワークであるOpenFedを紹介する。 実際には、openfedは低信頼環境での最先端のモデル開発を可能にする。ローカルデータの利用が制限されているにも関わらず、アセット保護の懸念を緩和することで、持続可能な協調型モデル開発と商業展開のための土台となる。 さらにopenfedは,フェデレーション学習アルゴリズムの開発を容易にするエンドツーエンドツールキットや,さまざまなコンピューティングパラダイムや構成下でのパフォーマンス比較を行うためのベンチマークも提供している。

The broad application of artificial intelligence techniques ranging from self-driving vehicles to advanced medical diagnostics afford many benefits. Federated learning is a new breed of artificial intelligence, offering techniques to help bridge the gap between personal data protection and utilization for research and commercial deployment, especially in the use-cases where security and privacy are the key concerns. Here, we present OpenFed, an open-source software framework to simultaneously address the demands for data protection and utilization. In practice, OpenFed enables state-of-the-art model development in low-trust environments despite limited local data availability, which lays the groundwork for sustainable collaborative model development and commercial deployment by alleviating concerns of asset protection. In addition, OpenFed also provides an end-to-end toolkit to facilitate federated learning algorithm development as well as several benchmarks to fair performance comparison under diverse computing paradigms and configurations.
翻訳日:2021-09-17 16:27:05 公開日:2021-09-16
# 動的グラフニューラルネットワークの効率的なスケーリング

Efficient Scaling of Dynamic Graph Neural Networks ( http://arxiv.org/abs/2109.07893v1 )

ライセンス: Link先を確認
Venkatesan T. Chakaravarthy, Shivmaran S. Pandian, Saurabh Raje, Yogish Sabharwal, Toyotaro Suzumura, Shashanka Ubaru(参考訳) マルチノード,マルチGPUシステムにまたがる大規模グラフ上で,動的グラフニューラルネットワーク(GNN)を学習するための分散アルゴリズムを提案する。 我々の知る限りでは、これは動的GNNに関する最初のスケーリング研究である。 我々は,GPUメモリ使用量を削減する機構を考案し,CPU-GPUデータ転送と通信量という2つの実行時間ボトルネックを特定した。 動的グラフの爆発特性を抽出し,移動時間を著しく短縮するグラフ差分に基づく戦略を設計する。 我々は,任意の数のGPUに対して,通信容量を固定し,入力サイズを線形に維持する,単純かつ効果的なデータ分散手法を開発した。 128GPUのシステム上で10億のグラフを用いた実験は、次のように示している。 (i)128GPU上で最大30倍の高速化を実現する。 (二)グラフ差分法により、転送時間を最大4.1倍に短縮し、全体の実行時間を最大40%短縮する。

We present distributed algorithms for training dynamic Graph Neural Networks (GNN) on large scale graphs spanning multi-node, multi-GPU systems. To the best of our knowledge, this is the first scaling study on dynamic GNN. We devise mechanisms for reducing the GPU memory usage and identify two execution time bottlenecks: CPU-GPU data transfer; and communication volume. Exploiting properties of dynamic graphs, we design a graph difference-based strategy to significantly reduce the transfer time. We develop a simple, but effective data distribution technique under which the communication volume remains fixed and linear in the input size, for any number of GPUs. Our experiments using billion-size graphs on a system of 128 GPUs shows that: (i) the distribution scheme achieves up to 30x speedup on 128 GPUs; (ii) the graph-difference technique reduces the transfer time by a factor of up to 4.1x and the overall execution time by up to 40%
翻訳日:2021-09-17 16:26:48 公開日:2021-09-16
# 美学とニューラルネットワーク画像表現

Aesthetics and neural network image representations ( http://arxiv.org/abs/2109.08103v1 )

ライセンス: Link先を確認
Romuald A. Janik(参考訳) 我々はbigganアーキテクチャの生成ネットワークで符号化された画像の空間を分析する。 フォトリアリスティックな点から離れた一般的な乗法的摂動は、しばしば対応する対象の「芸術的回帰」として現れる画像につながる。 これは、ニューラルネットワークのパラメトリゼーションと組み合わされたフォトリアリスティックな環境の構造から直接、美的特性の出現を示す。 さらに、ニューラルネットワークエンコーディングの深い意味部分を変更することで、象徴的な視覚表現の出現につながる。

We analyze the spaces of images encoded by generative networks of the BigGAN architecture. We find that generic multiplicative perturbations away from the photo-realistic point often lead to images which appear as "artistic renditions" of the corresponding objects. This demonstrates an emergence of aesthetic properties directly from the structure of the photo-realistic environment coupled with its neural network parametrization. Moreover, modifying a deep semantic part of the neural network encoding leads to the appearance of symbolic visual representations.
翻訳日:2021-09-17 16:26:17 公開日:2021-09-16
# 超広角高忠実ホログラフィディスプレイのためのニューラル \'{E}tendue Expander

Neural \'{E}tendue Expander for Ultra-Wide-Angle High-Fidelity Holographic Display ( http://arxiv.org/abs/2109.08123v1 )

ライセンス: Link先を確認
Seung-Hwan Baek, Ethan Tseng, Andrew Maimone, Nathan Matsuda, Grace Kuo, Qiang Fu, Wolfgang Heidrich, Douglas Lanman, Felix Heide(参考訳) ホログラフィックディスプレイは、空間光変調器を用いて光のコヒーレントビームの波面を動的に変調することで光場を生成することができる。 しかし、既存の動的空間光変調器の空間分解能は、回折角に強い拘束力を与える。 結果として、今日のホログラフィックディスプレイは、表示領域の積であり、回折光の最大固体角である低い \'{e}tendue を有する。 低い \'{e}tendue は視野(fov)または表示サイズのいずれかの犠牲を強いる。 本研究では,neural \'{e}tendue expanderを提示することで,この制限を解消する。 自然画像データセットから学習されたこの新しい光学素子は、コンパクトなフォームファクターと表示されたコンテンツの忠実さを維持しながら、超広帯域のFOVに対して高い回折角を可能にする。 neural \'{e}tendue expandersでは、再現品質(psnrで測定)が29db以上の自然画像が、シミュレーションされた網膜解像度画像上で64$\times$ \'{e}tendueで拡張される。 その結果、64$\times$の展開係数を用いた提案手法により、8KピクセルのSLMを用いた自然画像の超広角ホログラム投影が可能となり、18.5mmのアイボックスサイズと2.18スタディアンFOVとなり、人間のステレオFOVの85%を占める。

Holographic displays can generate light fields by dynamically modulating the wavefront of a coherent beam of light using a spatial light modulator, promising rich virtual and augmented reality applications. However, the limited spatial resolution of existing dynamic spatial light modulators imposes a tight bound on the diffraction angle. As a result, today's holographic displays possess low \'{e}tendue, which is the product of the display area and the maximum solid angle of diffracted light. The low \'{e}tendue forces a sacrifice of either the field of view (FOV) or the display size. In this work, we lift this limitation by presenting neural \'{e}tendue expanders. This new breed of optical elements, which is learned from a natural image dataset, enables higher diffraction angles for ultra-wide FOV while maintaining both a compact form factor and the fidelity of displayed contents to human viewers. With neural \'{e}tendue expanders, we achieve 64$\times$ \'{e}tendue expansion of natural images with reconstruction quality (measured in PSNR) over 29dB on simulated retinal-resolution images. As a result, the proposed approach with expansion factor 64$\times$ enables high-fidelity ultra-wide-angle holographic projection of natural images using an 8K-pixel SLM, resulting in a 18.5 mm eyebox size and 2.18 steradians FOV, covering 85\% of the human stereo FOV.
翻訳日:2021-09-17 16:26:09 公開日:2021-09-16
# 人工身体の効率的な微分可能シミュレーション

Efficient Differentiable Simulation of Articulated Bodies ( http://arxiv.org/abs/2109.07719v1 )

ライセンス: Link先を確認
Yi-Ling Qiao, Junbang Liang, Vladlen Koltun, and Ming C. Lin(参考訳) 本稿では,関節物体の効率的な微分シミュレーション手法を提案する。 これにより、articulated body dynamicsのディープラーニングフレームワークへの統合と、articulated body上で動作するニューラルネットワークの勾配ベース最適化が可能になる。 空間代数と随伴法を用いてフォワードダイナミクスの勾配を導出する。 私たちのアプローチはAutodiffツールよりも桁違いに高速です。 シミュレーションプロセスを通じて初期状態だけを保存することにより、メモリ要求を2桁減らすことができる。 種々の応用において, 音節体に対する効率的な微分力学の有用性を実証する。 本手法では, 調音システムによる強化学習を, 勾配を用いて高速化できることを示す。 制御および逆問題への応用において、我々の研究によって実現された勾配に基づく最適化は1桁以上の収束を加速する。

We present a method for efficient differentiable simulation of articulated bodies. This enables integration of articulated body dynamics into deep learning frameworks, and gradient-based optimization of neural networks that operate on articulated bodies. We derive the gradients of the forward dynamics using spatial algebra and the adjoint method. Our approach is an order of magnitude faster than autodiff tools. By only saving the initial states throughout the simulation process, our method reduces memory requirements by two orders of magnitude. We demonstrate the utility of efficient differentiable dynamics for articulated bodies in a variety of applications. We show that reinforcement learning with articulated systems can be accelerated using gradients provided by our method. In applications to control and inverse problems, gradient-based optimization enabled by our work accelerates convergence by more than an order of magnitude.
翻訳日:2021-09-17 16:25:20 公開日:2021-09-16
# 遠隔医療とCovid-19:SARS-CoV-2感染早期診断のための非侵襲的で低コストでスケーラブルでマルチモーダルなリアルタイムスマートフォンアプリケーション

Telehealthcare and Covid-19: A Noninvasive & Low Cost Invasive, Scalable and Multimodal Real-Time Smartphone Application for Early Diagnosis of SARS-CoV-2 Infection ( http://arxiv.org/abs/2109.07846v1 )

ライセンス: Link先を確認
Abdullah Bin Shams, Md. Mohsin Sarker Raihan, Md. Mohi Uddin Khan, Rahat Bin Preo and Ocean Monjur(参考訳) 世界的な新型コロナウイルス(covid-19)パンデミックは、多くの医療システムを圧倒し、ロックダウンを強制し、在宅勤務を奨励した。 これにより遠隔医療が急速に普及し、患者に低リスクケアが提供された。 それにもかかわらず、新しい変種への継続的な突然変異と、特に発展途上国におけるテストキットの広範な利用不可能は、将来の感染の波を制御しようとする挑戦を持っている。 本稿では,Covid-19感染症の早期診断のための新しいスマートフォンアプリケーションプラットフォームを提案する。 このアプリケーションは、可能性のある症状、うっ血音、特定の血液マーカーから3つの診断方法を提供する。 ユーザが特定の設定を選択して必要な情報を提供すると、インターネットを使用してリモートサーバにデプロイされたトレーニングされた機械学習(ML)モデルにデータを送信する。 MLアルゴリズムは、Covid-19と契約する可能性を予測し、フィードバックをユーザに送信する。 手続き全体はリアルタイムで行われる。 われわれの機械学習モデルは、100%、95.65%、および77.59%の精度でコビッド19の患者を識別できる。 さらに、血液および音に対するML感度は100%であり、コビッド陽性患者の正しい同定を示す。 これはウイルスの拡散を制限する上で重要である。 マルチモーダリティ(multimodality, マルチモダリティ)は, 感染者の分類を改善するマルチプレックス診断手法を提供するとともに, 本手法の即時性とともに, 遠隔医療のパワーを, 将来のパンデミックに対する容易で広く普及する, スケーラブルな診断ソリューションとして実証する。

The global coronavirus pandemic overwhelmed many health care systems, enforcing lockdown and encouraged work from home to control the spread of the virus and prevent overrunning of hospitalized patients. This prompted a sharp widespread use of telehealth to provide low-risk care for patients. Nevertheless, a continuous mutation into new variants and widespread unavailability of test kits, especially in developing countries, possess the challenge to control future potential waves of infection. In this paper, we propose a novel Smartphone application-based platform for early diagnosis of possible Covid-19 infected patients. The application provides three modes of diagnosis from possible symptoms, cough sound, and specific blood biomarkers. When a user chooses a particular setting and provides the necessary information, it sends the data to a trained machine learning (ML) model deployed in a remote server using the internet. The ML algorithm then predicts the possibility of contracting Covid-19 and sends the feedback to the user. The entire procedure takes place in real-time. Our machine learning models can identify Covid-19 patients with an accuracy of 100%, 95.65%, and 77.59% from blood parameters, cough sound, and symptoms respectively. Moreover, the ML sensitivity for blood and sound is 100%, which indicates correct identification of Covid positive patients. This is significant in limiting the spread of the virus. The multimodality offers multiplex diagnostic methods to better classify possible infectees and together with the instantaneous nature of our technique, demonstrates the power of telehealthcare as an easy and widespread low-cost scalable diagnostic solution for future pandemics.
翻訳日:2021-09-17 16:25:07 公開日:2021-09-16
# NPハード等間隔分割最適化のための二次時間局所最適化アルゴリズム

A Quadratic Time Locally Optimal Algorithm for NP-hard Equal Cardinality Partition Optimization ( http://arxiv.org/abs/2109.07882v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 等濃度集合分割問題(等大きさ分割の和の絶対差が最小となる場合)の最適化版について検討する。 この問題はNPハードであり、一般には指数関数的複雑性を必要とするが、我々はNPハード問題のより弱いバージョンを定式化し、そこでは局所最適解を求める。 私たちの研究で考慮される局所的最適性は、対立するパーティションの要素対間のスワップ下にある。 この目的のために、我々は、$O(N^2)$ timeと$O(N)$ spaceでそのような局所最適解を生成できるアルゴリズムを設計した。 我々のアプローチでは正あるいは整数入力は必要とせず、任意の入力精度で同じように機能する。 したがって、様々な問題シナリオで広く適用できる。

We study the optimization version of the equal cardinality set partition problem (where the absolute difference between the equal sized partitions' sums are minimized). While this problem is NP-hard and requires exponential complexity to solve in general, we have formulated a weaker version of this NP-hard problem, where the goal is to find a locally optimal solution. The local optimality considered in our work is under any swap between the opposing partitions' element pairs. To this end, we designed an algorithm which can produce such a locally optimal solution in $O(N^2)$ time and $O(N)$ space. Our approach does not require positive or integer inputs and works equally well under arbitrary input precisions. Thus, it is widely applicable in different problem scenarios.
翻訳日:2021-09-17 16:24:34 公開日:2021-09-16
# 機械学習データの研究:なぜパワーを意味するバイアスについて語るのか?

Studying Up Machine Learning Data: Why Talk About Bias When We Mean Power? ( http://arxiv.org/abs/2109.08131v1 )

ライセンス: Link先を確認
Milagros Miceli, Julian Posada, Tianling Yang(参考訳) 機械学習の研究(ML)は、不完全または偏りのあるデータセットで訓練されたモデルが差別的な出力につながると主に主張している。 このコメンタリーでは、パワーアウェアの観点から機械学習データセットを"研究"し、バイアス指向のフレーミングを超えて研究の焦点を移すことを提案する。 これは、データに記載された歴史的不平等、労働条件、認識論的観点の会計を意味する。 HCIとCSCWの作業は、私たちの議論を支持し、以前の調査を批判的に分析し、コミュニティ内の2つの既存の作業ラインを指し示します。 このように、データ品質、データワーク、データドキュメントという3つの分野における対話と協調の必要性を強調します。 最初の領域では、社会的問題を「バイアス」に減らすことは、文脈に基づくデータの性質を損なうと論じる。 第2の記事では、次にmlデータセットを形成するデータワーカーの労働にかかわる企業力と市場命令を強調します。 最後に、データ設計と生産の社会的文脈を反映したデータセットドキュメントにおける、現在の透明性指向の取り組みの拡大を提案する。

Research in machine learning (ML) has primarily argued that models trained on incomplete or biased datasets can lead to discriminatory outputs. In this commentary, we propose moving the research focus beyond bias-oriented framings by adopting a power-aware perspective to "study up" ML datasets. This means accounting for historical inequities, labor conditions, and epistemological standpoints inscribed in data. We draw on HCI and CSCW work to support our argument, critically analyze previous research, and point at two co-existing lines of work within our community -- one bias-oriented, the other power-aware. This way, we highlight the need for dialogue and cooperation in three areas: data quality, data work, and data documentation. In the first area, we argue that reducing societal problems to "bias" misses the context-based nature of data. In the second one, we highlight the corporate forces and market imperatives involved in the labor of data workers that subsequently shape ML datasets. Finally, we propose expanding current transparency-oriente d efforts in dataset documentation to reflect the social contexts of data design and production.
翻訳日:2021-09-17 16:24:20 公開日:2021-09-16
# 量子場理論による機械学習

Machine learning with quantum field theories ( http://arxiv.org/abs/2109.07730v1 )

ライセンス: Link先を確認
Dimitrios Bachtis, Gert Aarts, Biagio Lucini(参考訳) 離散化されたユークリッド場の理論とある種の確率的グラフィカルモデル、すなわちマルコフ確率場の数学的枠組みとの正確な等価性は、場の量子論の観点から機械学習を研究する機会を開く。 この貢献において、ハマーズリー・クリフォードの定理により、平方格子上の$\phi^{4}$スカラー場理論が局所マルコフ性質を満たすことを示し、従ってマルコフランダム場として再キャストすることができる。 次に、従来のニューラルネットワークアーキテクチャの一般化と見なすことのできる$\phi^{4}$理論の機械学習アルゴリズムとニューラルネットワークから派生する。 最後に、$\phi^{4}$機械学習アルゴリズムの確率分布とターゲット確率分布との非対称距離の最小化に基づくアプリケーションを提案する。

The precise equivalence between discretized Euclidean field theories and a certain class of probabilistic graphical models, namely the mathematical framework of Markov random fields, opens up the opportunity to investigate machine learning from the perspective of quantum field theory. In this contribution we will demonstrate, through the Hammersley-Clifford theorem, that the $\phi^{4}$ scalar field theory on a square lattice satisfies the local Markov property and can therefore be recast as a Markov random field. We will then derive from the $\phi^{4}$ theory machine learning algorithms and neural networks which can be viewed as generalizations of conventional neural network architectures. Finally, we will conclude by presenting applications based on the minimization of an asymmetric distance between the probability distribution of the $\phi^{4}$ machine learning algorithms and target probability distributions.
翻訳日:2021-09-17 16:24:01 公開日:2021-09-16
# (参考訳) アラビア語の自動誤り型アノテーション [全文訳有]

Automatic Error Type Annotation for Arabic ( http://arxiv.org/abs/2109.08068v1 )

ライセンス: CC BY 4.0
Riadh Belkebir and Nizar Habash(参考訳) 現代標準アラビア語のための自動エラー型アノテーションシステムであるARETAを提案する。 我々はアラビア語の形態的豊かさと正書法的曖昧さに対処するためにARETAを設計する。 我々は誤り分類をアラビア学習者コーパス(ALC)のError Tagsetにいくつかの修正を加えた。 ARETAは、ALCのマニュアルアノテートされたブラインドテスト部分において85.8%(マイクロ平均F1スコア)のパフォーマンスを達成する。 また, アラビア語の文法的誤り訂正のためのQALB 2014共有タスクから, 多数の提案にARETAを応用し, ユーザビリティを実証した。 その結果得られた分析は、異なる投稿の長所と短所についての有益な洞察を与え、共有タスクで使用される不透明なm2スコア指標よりも有用である。 ARETAは大きなアラビア形態分析器を使用しているが、完全に監督されていない。 ARETAを公開しています。

We present ARETA, an automatic error type annotation system for Modern Standard Arabic. We design ARETA to address Arabic's morphological richness and orthographic ambiguity. We base our error taxonomy on the Arabic Learner Corpus (ALC) Error Tagset with some modifications. ARETA achieves a performance of 85.8% (micro average F1 score) on a manually annotated blind test portion of ALC. We also demonstrate ARETA's usability by applying it to a number of submissions from the QALB 2014 shared task for Arabic grammatical error correction. The resulting analyses give helpful insights on the strengths and weaknesses of different submissions, which is more useful than the opaque M2 scoring metrics used in the shared task. ARETA employs a large Arabic morphological analyzer, but is completely unsupervised otherwise. We make ARETA publicly available.
翻訳日:2021-09-17 16:23:01 公開日:2021-09-16
# (参考訳) レストレスマルチアーマッドバンドの展開に関するフィールドスタディ:母子保健改善のための非利益支援 [全文訳有]

Field Study in Deploying Restless Multi-Armed Bandits: Assisting Non-Profits in Improving Maternal and Child Health ( http://arxiv.org/abs/2109.08075v1 )

ライセンス: CC BY 4.0
Aditya Mate, Lovish Madaan, Aparna Taneja, Neha Madhiwalla, Shresth Verma, Gargi Singh, Aparna Hegde, Pradeep Varakantham, Milind Tambe(参考訳) 携帯電話の普及により、非営利団体は受益者に重要な健康情報をタイムリーに提供できるようになった。 本稿では,妊婦や出産後の受給者へのタイムリーな予防ケア情報提供のために,自動メッセージプログラムを利用する非営利団体を支援する取り組みについて述べる。 残念ながら、こうした情報配信プログラムにおける重要な課題は、かなりの数の受益者がプログラムから抜け出すことである。 しかし、非営利団体は、そうしたエンゲージメントの低下を防ぐために、受益者とのライブ対話に重要なサービスコールを行うための医療従事者資源(時間)が限られていることが多い。 この限られた資源を最適化する非営利団体を支援するために,restless multi-armed bandits (rmabs) システムを開発した。 このシステムにおける重要な技術的貢献の一つは、未知のRMABパラメータを推測するオフライン履歴データのクラスタリング手法である。 2つ目の大きな貢献は、実際のサービス品質改善研究を通じて、NGOと共同でRMABシステムの評価である。 サービスコールを最適化するための戦略を、7週間で23003人に比較し、エンゲージメントの減少を減らした。 RMAB群は他の比較群に比べて統計的に有意な改善が得られ,約30%のエンゲージメント低下が減少した。 私たちの知る限りでは、実世界の公衆衛生環境におけるrmabsの有用性を示す最初の研究です。 RMABシステムをNGOに移行して、現実世界での利用を予定しています。

The widespread availability of cell phones has enabled non-profits to deliver critical health information to their beneficiaries in a timely manner. This paper describes our work to assist non-profits that employ automated messaging programs to deliver timely preventive care information to beneficiaries (new and expecting mothers) during pregnancy and after delivery. Unfortunately, a key challenge in such information delivery programs is that a significant fraction of beneficiaries drop out of the program. Yet, non-profits often have limited health-worker resources (time) to place crucial service calls for live interaction with beneficiaries to prevent such engagement drops. To assist non-profits in optimizing this limited resource, we developed a Restless Multi-Armed Bandits (RMABs) system. One key technical contribution in this system is a novel clustering method of offline historical data to infer unknown RMAB parameters. Our second major contribution is evaluation of our RMAB system in collaboration with an NGO, via a real-world service quality improvement study. The study compared strategies for optimizing service calls to 23003 participants over a period of 7 weeks to reduce engagement drops. We show that the RMAB group provides statistically significant improvement over other comparison groups, reducing ~ 30% engagement drops. To the best of our knowledge, this is the first study demonstrating the utility of RMABs in real world public health settings. We are transitioning our RMAB system to the NGO for real-world use.
翻訳日:2021-09-17 16:04:18 公開日:2021-09-16
# (参考訳) クラスタ化された知識伝達を伴う異種顧客のための個人化フェデレーション学習 [全文訳有]

Personalized Federated Learning for Heterogeneous Clients with Clustered Knowledge Transfer ( http://arxiv.org/abs/2109.08119v1 )

ライセンス: CC BY 4.0
Yae Jee Cho, Jianyu Wang, Tarun Chiruvolu, Gauri Joshi(参考訳) パーソナライズド・フェデレーション・ラーニング(FL)は、高いデータと不均一なシステムを持つ個々のクライアントに対してうまく機能するモデルを訓練することを目的としている。 しかし、パーソナライズされたflの作業の多くは、すべてのクライアントで同じモデルアーキテクチャを使用することを前提としており、モデルの送受信によって通信コストを増加させる。 これはflの現実的なシナリオでは実現不可能かもしれない。 実際には、クライアントは非常に異質なシステム能力を持ち、通信リソースが限られている。 本研究では、クライアントが異種モデルアーキテクチャを使用でき、モデルパラメータを直接通信できないパーソナライズされたFLフレームワークPerFed-CKTを提案する。 PerFed-CKTはクラスタ化された共蒸留を使用しており、クライアントはロジットを使用して知識を同様のデータ分散を持つ他のクライアントに転送する。 perfed-cktの収束特性と一般化特性を理論的に示し,perfed-cktは最先端のパーソナライズfl方式に比べて数桁低い通信コストで高いテスト精度を達成できることを実証的に示した。

Personalized federated learning (FL) aims to train model(s) that can perform well for individual clients that are highly data and system heterogeneous. Most work in personalized FL, however, assumes using the same model architecture at all clients and increases the communication cost by sending/receiving models. This may not be feasible for realistic scenarios of FL. In practice, clients have highly heterogeneous system-capabilities and limited communication resources. In our work, we propose a personalized FL framework, PerFed-CKT, where clients can use heterogeneous model architectures and do not directly communicate their model parameters. PerFed-CKT uses clustered co-distillation, where clients use logits to transfer their knowledge to other clients that have similar data-distributions. We theoretically show the convergence and generalization properties of PerFed-CKT and empirically show that PerFed-CKT achieves high test accuracy with several orders of magnitude lower communication cost compared to the state-of-the-art personalized FL schemes.
翻訳日:2021-09-17 15:50:02 公開日:2021-09-16
# (参考訳) 依存型パーザのトライトレーニング再考 [全文訳有]

Revisiting Tri-training of Dependency Parsers ( http://arxiv.org/abs/2109.08122v1 )

ライセンス: CC BY 4.0
Joachim Wagner and Jennifer Foster(参考訳) 2つの直交半教師付き学習手法であるtri-trainingとpretrained word embeddedを依存性解析のタスクで比較した。 言語固有のFastTextとELMoの埋め込みと多言語BERTの埋め込みについて検討する。 半教師付き学習が最も影響すると思われるため、リソースの少ないシナリオにフォーカスしています。 ツリーバンクのサイズと利用可能なELMoモデルに基づいて、ハンガリー語、ウイグル語(mBERTのゼロショット言語)、ベトナム語を選択します。 さらに,低リソース環境下では英語をシミュレートする。 事前学習した単語の埋め込みは、トリオトレーニングよりも非ラベルデータの方が有効であるが、2つのアプローチをうまく組み合わせることができる。

We compare two orthogonal semi-supervised learning techniques, namely tri-training and pretrained word embeddings, in the task of dependency parsing. We explore language-specific FastText and ELMo embeddings and multilingual BERT embeddings. We focus on a low resource scenario as semi-supervised learning can be expected to have the most impact here. Based on treebank size and available ELMo models, we select Hungarian, Uyghur (a zero-shot language for mBERT) and Vietnamese. Furthermore, we include English in a simulated low-resource setting. We find that pretrained word embeddings make more effective use of unlabelled data than tri-training but that the two approaches can be successfully combined.
翻訳日:2021-09-17 15:19:46 公開日:2021-09-16
# (参考訳) バッチ強化学習における3つの正則化法の比較と統一 [全文訳有]

Comparison and Unification of Three Regularization Methods in Batch Reinforcement Learning ( http://arxiv.org/abs/2109.08134v1 )

ライセンス: CC BY 4.0
Sarah Rathnam, Susan A. Murphy, and Finale Doshi-Velez(参考訳) バッチ強化学習では、状態-作用ペアの探索が不十分であり、学習が不十分で不正確なモデルと関連するポリシーが不十分である。 様々な正規化手法はマルコフ決定過程(MDP)において過剰に複雑なモデルを学習する問題を緩和することができるが、技術的、直感的に異なる方法で動作し、比較する共通の形式が欠如している。 本稿では、重み付き平均遷移行列という共通フレームワークにおける3つの正規化手法を統一する。 この共通形式の正規化法を考えると、バッチデータセットのMDP構造と状態-作用対分布が正規化法の相対的性能にどのように影響するかが照らされる。 我々は,共通フレームワークから生成された直感を,多岐にわたるMDPとデータ収集ポリシーの実証評価により確認する。

In batch reinforcement learning, there can be poorly explored state-action pairs resulting in poorly learned, inaccurate models and poorly performing associated policies. Various regularization methods can mitigate the problem of learning overly-complex models in Markov decision processes (MDPs), however they operate in technically and intuitively distinct ways and lack a common form in which to compare them. This paper unifies three regularization methods in a common framework -- a weighted average transition matrix. Considering regularization methods in this common form illuminates how the MDP structure and the state-action pair distribution of the batch data set influence the relative performance of regularization methods. We confirm intuitions generated from the common framework by empirical evaluation across a range of MDPs and data collection policies.
翻訳日:2021-09-17 14:58:41 公開日:2021-09-16
# (参考訳) knowman: 弱い教師付き多項逆ネットワーク [全文訳有]

KnowMAN: Weakly Supervised Multinomial Adversarial Networks ( http://arxiv.org/abs/2109.07994v1 )

ライセンス: CC BY 4.0
Luisa M\"arz, Ehsaneddin Asgari, Fabienne Braune, Franziska Zimmermann and Benjamin Roth(参考訳) ニューラルネットワークを訓練するためのラベル付きデータがないことは、特定のタスクに関する知識を活用することでしばしば解決される。 知識は、トレーニングサンプルの特定の規則性やパターンを検出し、トレーニングのために対応するラベルを注釈付けするラベル付け関数でキャプチャされる。 この弱い教師付きトレーニングのプロセスは、ラベル付け関数によって取得された信号に過度に依存し、他の信号を利用するためにモデルを妨げる可能性がある。 本稿では,特定のラベリング関数に関連する信号の影響を制御可能な敵スキームであるknowmanを提案する。 KnowMANはネットワークにこれらの信号に不変な表現を学習させ、出力ラベルとより一般的に関連付けられている他の信号を拾うように強制する。 KnowMANは、事前学習されたトランスフォーマー言語モデルと機能ベースのベースラインによる直接教師付き学習と比較して、結果を強く改善する。

The absence of labeled data for training neural models is often addressed by leveraging knowledge about the specific task, resulting in heuristic but noisy labels. The knowledge is captured in labeling functions, which detect certain regularities or patterns in the training samples and annotate corresponding labels for training. This process of weakly supervised training may result in an over-reliance on the signals captured by the labeling functions and hinder models to exploit other signals or to generalize well. We propose KnowMAN, an adversarial scheme that enables to control influence of signals associated with specific labeling functions. KnowMAN forces the network to learn representations that are invariant to those signals and to pick up other signals that are more generally associated with an output label. KnowMAN strongly improves results compared to direct weakly supervised learning with a pre-trained transformer language model and a feature-based baseline.
翻訳日:2021-09-17 14:28:09 公開日:2021-09-16
# ニューラルマシン翻訳のスケーリング則

Scaling Laws for Neural Machine Translation ( http://arxiv.org/abs/2109.07740v1 )

ライセンス: Link先を確認
Behrooz Ghorbani, Orhan Firat, Markus Freitag, Ankur Bapna, Maxim Krikun, Xavier Garcia, Ciprian Chelba, Colin Cherry(参考訳) ニューラルネットワーク翻訳(NMT)におけるエンコーダ・デコーダ変換モデルのスケーリング特性について実験的検討を行った。 モデルサイズ関数としてのクロスエントロピー損失は, あるスケーリング法則に従うことを示す。 具体的には (i)エントロピー損失のスケーリング挙動をエンコーダとデコーダの大きさの2変数関数として記述する式を提案し,様々なスケーリング手法や言語で正確な予測を行うことを示す。 (ii)デコーダのスケーリング時とエンコーダのスケーリング時に異なる電力法則指数を観察し、この観測に基づいてエンコーダ/デコーダ容量の最適割り当てを推奨する。 (iii)また,モデルのスケーリング挙動は,自然生成テキスト(機械生成テキストや人間の翻訳テキスト)からの逸脱と定義される,列車/テストセットの構成バイアスに強く影響されていることを報告した。 対象側の自然なテキストはスケーリングを楽しみ、これはクロスエントロピー損失の低減に成功していることを示す。 (iv) 最後に, クロスエントロピー損失と生成する翻訳の質との関係について検討する。 テストデータの性質によって、2つの異なる振る舞いを見つけます。 元々ターゲット言語からソース言語に翻訳されたテストセットでは、モデルサイズが大きくなるにつれて損失とBLEUスコアが向上する。 対照的に、元来ソース言語からターゲット言語に翻訳されたテストセットでは、損失は改善されるが、BLEUスコアは一定の閾値の後に改善されなくなる。 本研究で使用するすべてのモデルから生成されたテキストをリリースする。

We present an empirical study of scaling properties of encoder-decoder Transformer models used in neural machine translation (NMT). We show that cross-entropy loss as a function of model size follows a certain scaling law. Specifically (i) We propose a formula which describes the scaling behavior of cross-entropy loss as a bivariate function of encoder and decoder size, and show that it gives accurate predictions under a variety of scaling approaches and languages; we show that the total number of parameters alone is not sufficient for such purposes. (ii) We observe different power law exponents when scaling the decoder vs scaling the encoder, and provide recommendations for optimal allocation of encoder/decoder capacity based on this observation. (iii) We also report that the scaling behavior of the model is acutely influenced by composition bias of the train/test sets, which we define as any deviation from naturally generated text (either via machine generated or human translated text). We observe that natural text on the target side enjoys scaling, which manifests as successful reduction of the cross-entropy loss. (iv) Finally, we investigate the relationship between the cross-entropy loss and the quality of the generated translations. We find two different behaviors, depending on the nature of the test data. For test sets which were originally translated from target language to source language, both loss and BLEU score improve as model size increases. In contrast, for test sets originally translated from source language to target language, the loss improves, but the BLEU score stops improving after a certain threshold. We release generated text from all models used in this study.
翻訳日:2021-09-17 14:18:44 公開日:2021-09-16
# GPTk言語に対する教育的プロンプトのフレーミング

Reframing Instructional Prompts to GPTk's Language ( http://arxiv.org/abs/2109.07830v1 )

ライセンス: Link先を確認
Swaroop Mishra, Daniel Khashabi, Chitta Baral, Yejin Choi and Hannaneh Hajishirzi(参考訳) モデルデザイナーはどのようにタスク命令を言語モデルの効果的なプロンプトにするか? GPT3の広範な経験的分析に支えられ、我々は教育的プロンプトを成功させるために重要な特徴を観察し、モデル設計者がそのようなプロンプトを作成するためのいくつかのリフレーミング手法を提案する。 例えば、複雑なタスクを複数の単純なタスクに分解することができる。 我々は6つのカテゴリ(探索生成、分類など)にまたがる12のNLPタスクを実験した。 この結果から,リフレーミングは,既存の数ショットベースラインよりもサンプルの複雑さを低減しつつ,数ショット学習性能を14倍向上させることがわかった。 パフォーマンスの向上は、gpt3のような大きな言語モデルにおいて特に重要であり、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。 さらに、これらの利得はGPT3に限らず、異なるモデルアーキテクチャにおける生の命令よりも、リフレームされたタスクの方が優れており、これらのガイドラインのクロスモデル一般性を裏付けている。 これらの実証駆動技術が、将来のLMを促進するためのより効果的な方法へと道を開くことを願っている。

How can model designers turn task instructions into effective prompts for language models? Backed by extensive empirical analysis on GPT3, we observe important features for successful instructional prompts, and propose several reframing techniques for model designers to create such prompts. For example, a complex task can be decomposed into multiple simpler tasks. We experiment over 12 NLP tasks across 6 diverse categories (question generation, classification, etc.). Our results show that reframing improves few-shot learning performance by 14\% while reducing sample complexity over existing few-shot baselines. The performance gains are particularly important on large language models, such as GPT3 where tuning models or prompts on large datasets is not feasible. Furthermore, we observe that such gains are not limited to GPT3; the reframed tasks remain superior over raw instructions across different model architectures, underscoring the cross-model generality of these guidelines. We hope these empirical-driven techniques will pave way for more effective ways to prompt LMs in future.
翻訳日:2021-09-17 14:18:16 公開日:2021-09-16
# ベースラインタイムポイントからの脳結合性の進化を予測する機械学習手法の比較検討

A Comparative Study of Machine Learning Methods for Predicting the Evolution of Brain Connectivity from a Baseline Timepoint ( http://arxiv.org/abs/2109.07739v1 )

ライセンス: Link先を確認
\c{S}eymanur Akt{\i} and Do\u{g}ay Kamar and \"Ozg\"ur An{\i}l \"Ozl\"u and Ihsan Soydemir and Muhammet Akcan and Abdullah Kul and Islem Rekik(参考訳) コネクトームとも呼ばれる脳ネットワークの進化を予測し、解剖学的領域のペアをリンクする接続重みの変化を予測することにより、初期の段階で接続関連神経疾患を見つけ出し、潜在的なコネクトーム異常の発生を検出することができる。 驚くべきことに、このような困難な予測問題は、予測コネクトミクス文献ではほとんど研究されていない。 機械学習(ML)手法が様々なコンピュータビジョン問題において予測能力を証明することは知られている事実である。 しかし、単一時点からの脳の結合進化軌道の予測に適したML技術はほとんど欠落している。 このギャップを埋めるために、20の競合チームが単一の時間ポイントから脳の接続性進化を予測するための高度な機械学習パイプラインを設計したKaggleコンペティションを組織しました。 競合するチームは、データ前処理、次元削減、学習方法を組み合わせたMLパイプラインを開発した。 包括的評価手法を用いて,2つの相補的評価指標(絶対誤差(mae)とピアソン相関係数(pcc))と,それらの評価手法を異なるトレーニングおよびテストデータ摂動戦略(single random split and cross-validation)を用いて分類した。 最終ランクは、すべての評価基準と検証戦略で、競合チームごとにランク製品を用いて算出された。 open scienceのサポートにより、開発された20mlパイプラインとコネクトミックデータセットがgithubで公開されている。 この競争の結果は、時間とともに脳の接続の進化を予測できる予測モデルや、他の種類のネットワーク(例えば遺伝ネットワーク)のさらなる発展につながることが期待されている。

Predicting the evolution of the brain network, also called connectome, by foreseeing changes in the connectivity weights linking pairs of anatomical regions makes it possible to spot connectivity-related neurological disorders in earlier stages and detect the development of potential connectomic anomalies. Remarkably, such a challenging prediction problem remains least explored in the predictive connectomics literature. It is a known fact that machine learning (ML) methods have proven their predictive abilities in a wide variety of computer vision problems. However, ML techniques specifically tailored for the prediction of brain connectivity evolution trajectory from a single timepoint are almost absent. To fill this gap, we organized a Kaggle competition where 20 competing teams designed advanced machine learning pipelines for predicting the brain connectivity evolution from a single timepoint. The competing teams developed their ML pipelines with a combination of data pre-processing, dimensionality reduction, and learning methods. Utilizing an inclusive evaluation approach, we ranked the methods based on two complementary evaluation metrics (mean absolute error (MAE) and Pearson Correlation Coefficient (PCC)) and their performances using different training and testing data perturbation strategies (single random split and cross-validation). The final rank was calculated using the rank product for each competing team across all evaluation measures and validation strategies. In support of open science, the developed 20 ML pipelines along with the connectomic dataset are made available on GitHub. The outcomes of this competition are anticipated to lead to the further development of predictive models that can foresee the evolution of brain connectivity over time, as well as other types of networks (e.g., genetic networks).
翻訳日:2021-09-17 14:17:57 公開日:2021-09-16
# 人間の精液運動の自動予測のための機械学習フレームワーク

A Machine Learning Framework for Automatic Prediction of Human Semen Motility ( http://arxiv.org/abs/2109.08049v1 )

ライセンス: Link先を確認
Sandra Ottl and Maurice Gerczuk and Shahin Amiriparian and Bj\"orn Schuller(参考訳) 生殖健康の分野では、男性の出生率の問題を検出するための重要な側面は、ヒト精液の品質の分析である。 重要な2つの要因は精子細胞の形態と運動性である。 前者は精子の異なる部分の欠陥を記述しているが、後者は細胞の効率的な移動を測定する。 多くの非ヒト種にとって、いわゆるComputer-Aided Sperm Analysisシステムは、顕微鏡的なビデオ記録からこれらの特徴を評価するのにうまく機能する。 ここでは、大量のトレーニングデータを利用して有能な特徴を抽出する機械学習手法は、不妊や体外受精の手順を検出する医師を支援することができる。 本研究は,下流回帰モデルを用いた特徴抽出のための教師なし手法を統合する機械学習フレームワークを用いて,与えられた精子サンプルの全体的な運動性を予測した。 ここで評価したモデルは、ビデオベース精子運動量予測のための最先端技術を改善する。

In the field of reproductive health, a vital aspect for the detection of male fertility issues is the analysis of human semen quality. Two factors of importance are the morphology and motility of the sperm cells. While the former describes defects in different parts of a spermatozoon, the latter measures the efficient movement of cells. For many non-human species, so-called Computer-Aided Sperm Analysis systems work well for assessing these characteristics from microscopic video recordings but struggle with human sperm samples which generally show higher degrees of debris and dead spermatozoa, as well as lower overall sperm motility. Here, machine learning methods that harness large amounts of training data to extract salient features could support physicians with the detection of fertility issues or in vitro fertilisation procedures. In this work, the overall motility of given sperm samples is predicted with the help of a machine learning framework integrating unsupervised methods for feature extraction with downstream regression models. The models evaluated herein improve on the state-of-the-art for video-based sperm-motility prediction.
翻訳日:2021-09-17 14:17:25 公開日:2021-09-16
# 3次元物体検出のためのエンド・ツー・エンド変圧器モデル

An End-to-End Transformer Model for 3D Object Detection ( http://arxiv.org/abs/2109.08141v1 )

ライセンス: Link先を確認
Ishan Misra, Rohit Girdhar, Armand Joulin(参考訳) 3dポイントクラウドのためのエンドツーエンドトランスフォーマベースの物体検出モデルである3detrを提案する。 3d固有のインダクティブバイアスを用いる既存の検出方法と比較すると、3detrはバニラ変圧器ブロックの最小限の変更を必要とする。 具体的には、非パラメトリッククエリとフーリエ位置埋め込みを備えた標準変換器は、手動のハイパーパラメータを持つ3D固有演算子のライブラリを使用する特殊なアーキテクチャと競合する。 それでも、3DETRは概念的にはシンプルで実装が容易であり、3Dドメイン知識を取り入れることでさらなる改善を可能にする。 広範な実験を通じて、3DETRは、挑戦的なScanNetV2データセット上で、確立された高度に最適化されたVoteNetベースラインを9.5%向上させる。 さらに,3DETRは検出以外の3次元タスクに適用可能であることを示し,今後の研究のためのビルディングブロックとして機能することを示す。

We propose 3DETR, an end-to-end Transformer based object detection model for 3D point clouds. Compared to existing detection methods that employ a number of 3D-specific inductive biases, 3DETR requires minimal modifications to the vanilla Transformer block. Specifically, we find that a standard Transformer with non-parametric queries and Fourier positional embeddings is competitive with specialized architectures that employ libraries of 3D-specific operators with hand-tuned hyperparameters. Nevertheless, 3DETR is conceptually simple and easy to implement, enabling further improvements by incorporating 3D domain knowledge. Through extensive experiments, we show 3DETR outperforms the well-established and highly optimized VoteNet baselines on the challenging ScanNetV2 dataset by 9.5%. Furthermore, we show 3DETR is applicable to 3D tasks beyond detection, and can serve as a building block for future research.
翻訳日:2021-09-17 14:17:09 公開日:2021-09-16
# 説明には対話性が必要です

Explainability Requires Interactivity ( http://arxiv.org/abs/2109.07869v1 )

ライセンス: Link先を確認
Matthias Kirchler, Martin Graf, Marius Kloft, Christoph Lippert(参考訳) ディープニューラルネットワークの決定を説明するとき、単純なストーリーは誘惑的だが危険だ。 特にコンピュータビジョンでは、最も一般的な説明アプローチは、ユーザーに誤った理解を与え、過度に単純化されたイメージを提供する。 現代視覚モデルの高度に複雑な決定境界を理解するためのインタラクティブなフレームワークを導入する。 ユーザーはネットワークの決定を徹底的に検査し、調査し、テストすることができる。 様々なケーススタディにおいて、インタラクティブなアプローチのパワーを静的な説明手法と比較し、これがユーザアストレイをいかに導くかを示し、潜在的に深刻な結果をもたらす可能性があることを示す。

When explaining the decisions of deep neural networks, simple stories are tempting but dangerous. Especially in computer vision, the most popular explanation approaches give a false sense of comprehension to its users and provide an overly simplistic picture. We introduce an interactive framework to understand the highly complex decision boundaries of modern vision models. It allows the user to exhaustively inspect, probe, and test a network's decisions. Across a range of case studies, we compare the power of our interactive approach to static explanation methods, showing how these can lead a user astray, with potentially severe consequences.
翻訳日:2021-09-17 14:16:54 公開日:2021-09-16
# 住宅地利用適性分析のためのオントロジーに基づく情報抽出システム

An Ontology-Based Information Extraction System for Residential Land Use Suitability Analysis ( http://arxiv.org/abs/2109.07672v1 )

ライセンス: Link先を確認
Munira Al-Ageili and Malek Mouhoub(参考訳) 本稿では,土地利用適合性分析(lusa)に適用される基準と価値の抽出を,地理的関心領域に関する規制文書から自動化するオントロジーに基づく情報抽出(obie)システムを提案する。 提案したLUSA OBIEシステム(土地利用適性基準とそれらの値)は,抽出された基準と特性値の例に代表されるオントロジーとして提示された。 この後者の出力オントロジーは、異なる種類の土地利用に適した地図を構築するために応用されたマルチクオリトリア意思決定(MCDM)モデルに組み込まれている。 得られたマップは最終目的の製品かもしれないし、将来の都市の成長を予測するためのセルラーオートマチックな都市モデリングとシミュレーションに組み込むこともできる。 LUSA OBIEの出力を応用してサスカチュワン州レジーナ市の住宅開発に適した地域を特定するための適合性マップを作成するケーススタディが実施されている。 サスカチュワンの法則と規制文書がダウンロードされ、LUSA OBIEシステムに入力された。 抽出した情報をlusaオントロジーと注釈付き文書のセットを使ってアクセスした。 この点において,LUSA OBIEシステムは最終適合性マップの作成に有効であった。

We propose an Ontology-Based Information Extraction (OBIE) system to automate the extraction of the criteria and values applied in Land Use Suitability Analysis (LUSA) from bylaw and regulation documents related to the geographic area of interest. The results obtained by our proposed LUSA OBIE system (land use suitability criteria and their values) are presented as an ontology populated with instances of the extracted criteria and property values. This latter output ontology is incorporated into a Multi-Criteria Decision Making (MCDM) model applied for constructing suitability maps for different kinds of land uses. The resulting maps may be the final desired product or can be incorporated into the cellular automata urban modeling and simulation for predicting future urban growth. A case study has been conducted where the output from LUSA OBIE is applied to help produce a suitability map for the City of Regina, Saskatchewan, to assist in the identification of suitable areas for residential development. A set of Saskatchewan bylaw and regulation documents were downloaded and input to the LUSA OBIE system. We accessed the extracted information using both the populated LUSA ontology and the set of annotated documents. In this regard, the LUSA OBIE system was effective in producing a final suitability map.
翻訳日:2021-09-17 14:16:26 公開日:2021-09-16
# 効果的な評価データセットを用いたコモンセンス知識ベース人口のベンチマーク

Benchmarking Commonsense Knowledge Base Population with an Effective Evaluation Dataset ( http://arxiv.org/abs/2109.07679v1 )

ライセンス: Link先を確認
Tianqing Fang, Weiqi Wang, Sehyun Choi, Shibo Hao, Hongming Zhang, Yangqiu Song, Bin He(参考訳) 要素が自由テキストの形で存在する常識知識ベース(CSKB)に対する推論は、NLPにおいて重要な課題である。 CSKBの完成はCSKBのドメイン内の欠落したリンクのみを埋めるが、CSKBの人口は外部リソースから見知らぬ主張を推論する目的で提案される。 このタスクでは、CSKBは大規模な結果(アクティビティ、状態、イベント)グラフに基づいて、結果性グラフからの新規な三重項が妥当かどうかを判別する。 しかし, 人口タスクに対する既存の評価は正確でない(ランダムにサンプル化した負の例による自動評価)か, 小型(人間のアノテーション)である。 本稿では,まず4つのCSKBを並べた大規模データセットを用いてCSKB集団タスクをベンチマークし,その上で,ニューラルネットワークのコモンセンス推論能力を探索するための高品質な人間アノテーション評価セットを提案する。 また,グラフを理由とする新しい帰納的コモンセンス推論モデルを提案する。 実験の結果,無意味なアサーションに対するコモンセンス推論の一般化は本質的に難しい課題であることがわかった。 トレーニング中に高い精度を達成するモデルは、評価セットでパフォーマンスが悪く、人間のパフォーマンスの間に大きなギャップがある。 将来的なコントリビューションのために、データを公開します。 コードとデータはhttps://github.com/H KUST-KnowComp/CSKB-P opulationで公開されている。

Reasoning over commonsense knowledge bases (CSKB) whose elements are in the form of free-text is an important yet hard task in NLP. While CSKB completion only fills the missing links within the domain of the CSKB, CSKB population is alternatively proposed with the goal of reasoning unseen assertions from external resources. In this task, CSKBs are grounded to a large-scale eventuality (activity, state, and event) graph to discriminate whether novel triples from the eventuality graph are plausible or not. However, existing evaluations on the population task are either not accurate (automatic evaluation with randomly sampled negative examples) or of small scale (human annotation). In this paper, we benchmark the CSKB population task with a new large-scale dataset by first aligning four popular CSKBs, and then presenting a high-quality human-annotated evaluation set to probe neural models' commonsense reasoning ability. We also propose a novel inductive commonsense reasoning model that reasons over graphs. Experimental results show that generalizing commonsense reasoning on unseen assertions is inherently a hard task. Models achieving high accuracy during training perform poorly on the evaluation set, with a large gap between human performance. We will make the data publicly available for future contributions. Codes and data are available at https://github.com/H KUST-KnowComp/CSKB-P opulation.
翻訳日:2021-09-17 14:16:09 公開日:2021-09-16
# ペルシア語レビューにおけるアスペクトベース感性分析のための共同モデリングと極性

Jointly Modeling Aspect and Polarity for Aspect-based Sentiment Analysis in Persian Reviews ( http://arxiv.org/abs/2109.07680v1 )

ライセンス: Link先を確認
Milad Vazan and Jafar Razmara(参考訳) 自然言語テキストからのユーザの意見の同定は,現実世界の応用が拡大する中で,エキサイティングな研究分野となっている。 研究分野は感情分析と分類と呼ばれ、アスペクトカテゴリー検出(ACD)とアスペクトカテゴリー極性(ACP)はアスペクトベースの感情分析の2つの重要なサブタスクである。 ACDの目標は、ACPがACDタスクから各アスペクトカテゴリの極性を指定するのに対して、エンティティのどのアスペクトが意見として現れるかを指定することである。 以前の研究は主にこれらの2つのサブタスクに対する別の解を提案する。 本稿では,ACD と ACP のサブタスクに着目し,両問題を同時に解決する。 提案手法では,4種類の深層モデルを用いたマルチラベル分類を行い,その性能を比較検討した。 ペルシアのレビューのデータセットはCinemaTicketのウェブサイトから収集され、14のカテゴリから2200のサンプルが集められた。 サンプルベースおよびラベルベースメトリクスを用いて,収集したデータセットを用いてモデルの評価を行った。 その結果,LSTMおよびBi-LSTMと比較して,CNNおよびGRUモデルの高い適用性と嗜好性を示した。

Identification of user's opinions from natural language text has become an exciting field of research due to its growing applications in the real world. The research field is known as sentiment analysis and classification, where aspect category detection (ACD) and aspect category polarity (ACP) are two important sub-tasks of aspect-based sentiment analysis. The goal in ACD is to specify which aspect of the entity comes up in opinion while ACP aims to specify the polarity of each aspect category from the ACD task. The previous works mostly propose separate solutions for these two sub-tasks. This paper focuses on the ACD and ACP sub-tasks to solve both problems simultaneously. The proposed method carries out multi-label classification where four different deep models were employed and comparatively evaluated to examine their performance. A dataset of Persian reviews was collected from CinemaTicket website including 2200 samples from 14 categories. The developed models were evaluated using the collected dataset in terms of example-based and label-based metrics. The results indicate the high applicability and preference of the CNN and GRU models in comparison to LSTM and Bi-LSTM.
翻訳日:2021-09-17 14:15:45 公開日:2021-09-16
# 言語モデルと多言語学習者

Language Models are Few-shot Multilingual Learners ( http://arxiv.org/abs/2109.07684v1 )

ライセンス: Link先を確認
Genta Indra Winata, Andrea Madotto, Zhaojiang Lin, Rosanne Liu, Jason Yosinski, Pascale Fung(参考訳) 汎用言語モデルは、非常に少数の例から命令を推測する際に、さまざまな下流自然言語処理(NLP)タスクやベンチマークに対する最先端のアプローチと同等の性能を発揮している。 本稿では,パラメータ更新を伴わずに非英語言語における多クラス分類を行う際に,gptとt5モデルの多言語スキルを評価する。 文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できる。 最後に,言語モデルの文脈内小文字間予測結果がランダム予測よりも有意に優れており,既存の言語間予測モデルと比較して競争力が高いことがわかった。

General-purpose language models have demonstrated impressive capabilities, performing on par with state-of-the-art approaches on a range of downstream natural language processing (NLP) tasks and benchmarks when inferring instructions from very few examples. Here, we evaluate the multilingual skills of the GPT and T5 models in conducting multi-class classification on non-English languages without any parameter updates. We show that, given a few English examples as context, pre-trained language models can predict not only English test samples but also non-English ones. Finally, we find the in-context few-shot cross-lingual prediction results of language models are significantly better than random prediction, and they are competitive compared to the existing state-of-the-art cross-lingual models.
翻訳日:2021-09-17 14:15:28 公開日:2021-09-16
# CATをバッグから外す: テキストの対照的な説明

Let the CAT out of the bag: Contrastive Attributed explanations for Text ( http://arxiv.org/abs/2109.07983v1 )

ライセンス: Link先を確認
Saneem Chemmengath, Amar Prakash Azad, Ronny Luss, Amit Dhurandhar(参考訳) ブラックボックスモデルの振る舞いを理解するための対照的な説明は、最近、議論の可能性を秘めているため、多くの注目を集めている。 本稿では,自然言語テキストデータに対して,属性分類器を構築・活用し,より意味的に意味のある説明へと導く新しいツイストを用いた対比的説明を提供する手法であるcatを提案する。 私たちのコントラスト生成テキストが、原文に関して最も編集が少ないことを保証すると同時に、人間の生成したコントラストに近いことを保証するために、bert言語モデルと利用可能な属性で訓練された属性分類器を使って正規化された最小の摂動アプローチを頼りにする。 質的例とユーザスタディを通して,提案手法は,これらの属性によってより深い洞察を与えるだけでなく,より高品質な(一貫性のある)テキストをもたらすことを示した。 さらに,本手法は他の最先端手法よりも効率的であり,フリップ率,(正規化)レフェンシュタイン距離,流束率,コンテンツ保存などのベンチマーク指標も高い値を示した。

Contrastive explanations for understanding the behavior of black box models has gained a lot of attention recently as they provide potential for recourse. In this paper, we propose a method Contrastive Attributed explanations for Text (CAT) which provides contrastive explanations for natural language text data with a novel twist as we build and exploit attribute classifiers leading to more semantically meaningful explanations. To ensure that our contrastive generated text has the fewest possible edits with respect to the original text, while also being fluent and close to a human generated contrastive, we resort to a minimal perturbation approach regularized using a BERT language model and attribute classifiers trained on available attributes. We show through qualitative examples and a user study that our method not only conveys more insight because of these attributes, but also leads to better quality (contrastive) text. Moreover, quantitatively we show that our method is more efficient than other state-of-the-art methods with it also scoring higher on benchmark metrics such as flip rate, (normalized) Levenstein distance, fluency and content preservation.
翻訳日:2021-09-17 14:15:14 公開日:2021-09-16
# 画像キャプションのための幾何学的コヒーレントオブジェクトを用いたラベルアテンショントランスフォーマ

Label-Attention Transformer with Geometrically Coherent Objects for Image Captioning ( http://arxiv.org/abs/2109.07799v1 )

ライセンス: Link先を確認
Shikha Dubey, Farrukh Olimov, Muhammad Aasim Rafique, Joonmo Kim, Moongu Jeon(参考訳) 画像やビデオにおけるシーン理解の自動転写は、人工知能への一歩だ。 画像キャプションは、コンピュータビジョン技術を用いて画像に意味のある情報を記述するための命名法である。 自動画像キャプション技術はエンコーダとデコーダアーキテクチャを使用し、エンコーダは画像から特徴を抽出し、デコーダは転写文を生成する。 本研究では,トランスを用いた画像キャプションに関する2つの未探索概念について考察する。 第二に、ラベルと言語構造を明確に関連付けること。 幾何学的コヒーレントオブジェクト(LATGeO)を用いたラベルアテンション変換器を提案する。 提案手法は,ディープニューラルネットワーク(DNN)を用いた幾何学的コヒーレントなオブジェクトの提案を取得し,ラベルアテンションモジュールを用いてそれらの関係を調査してキャプションを生成する。 オブジェクトコヒーレンスは、提案の幾何学的性質の局所化比を用いて定義される。 ラベルアテンションモジュールは、抽出したオブジェクトクラスを自己アテンション層を使用して利用可能な辞書に関連付ける。 実験の結果, 物体の周囲における関連性や視覚的特徴と幾何学的局所化比を関連づけることで, 意味のあるキャプションを定義できることがわかった。 提案したフレームワークは,MSCOCOデータセット上でテストされ,総合的に優れた定量的スコアが優位性を示す。

Automatic transcription of scene understanding in images and videos is a step towards artificial general intelligence. Image captioning is a nomenclature for describing meaningful information in an image using computer vision techniques. Automated image captioning techniques utilize encoder and decoder architecture, where the encoder extracts features from an image and the decoder generates a transcript. In this work, we investigate two unexplored ideas for image captioning using transformers: First, we demonstrate the enforcement of using objects' relevance in the surrounding environment. Second, learning an explicit association between labels and language constructs. We propose label-attention Transformer with geometrically coherent objects (LATGeO). The proposed technique acquires a proposal of geometrically coherent objects using a deep neural network (DNN) and generates captions by investigating their relationships using a label-attention module. Object coherence is defined using the localized ratio of the geometrical properties of the proposals. The label-attention module associates the extracted objects classes to the available dictionary using self-attention layers. The experimentation results show that objects' relevance in surroundings and binding of their visual feature with their geometrically localized ratios combined with its associated labels help in defining meaningful captions. The proposed framework is tested on the MSCOCO dataset, and a thorough evaluation resulting in overall better quantitative scores pronounces its superiority.
翻訳日:2021-09-17 14:14:55 公開日:2021-09-16
# 物体検出のためのラベル割り当て蒸留

Label Assignment Distillation for Object Detection ( http://arxiv.org/abs/2109.07843v1 )

ライセンス: Link先を確認
Minghao Gao, Hailun Zhang (1) and Yige Yan (2) ((1) Beijing Institute of Technology, (2) Hohai University)(参考訳) 知識蒸留法はニューラルネットワークの性能向上に有望であることが証明され、推論時間の間に追加の計算コストは必要とされない。 オブジェクト検出の精度を高めるため,特にオブジェクト検出のために多くの知識蒸留法が提案されている。 しかし、これらの方法のほとんどは機能レベルの蒸留とラベルレベルの蒸留のみに焦点を当てており、ラベル割当てステップは、オブジェクト検出のためのユニークかつパラマウントな手順である。 本研究では,学習者ネットワークの正と負のサンプルが教師ネットワークの予測に従って選択されるオブジェクト検出におけるラベル割り当てに着目した,シンプルだが効果的な知識蒸留手法を提案する。 本手法は, MSCOCO2017ベンチマークにおいて, 1段検出器と2段検出器の両方に適用できるだけでなく, 他の知識蒸留法と直交的に利用できることを示す。

Knowledge distillation methods are proved to be promising in improving the performance of neural networks and no additional computational expenses are required during the inference time. For the sake of boosting the accuracy of object detection, a great number of knowledge distillation methods have been proposed particularly designed for object detection. However, most of these methods only focus on feature-level distillation and label-level distillation, leaving the label assignment step, a unique and paramount procedure for object detection, by the wayside. In this work, we come up with a simple but effective knowledge distillation approach focusing on label assignment in object detection, in which the positive and negative samples of student network are selected in accordance with the predictions of teacher network. Our method shows encouraging results on the MSCOCO2017 benchmark, and can not only be applied to both one-stage detectors and two-stage detectors but also be utilized orthogonally with other knowledge distillation methods.
翻訳日:2021-09-17 14:14:33 公開日:2021-09-16
# 個人化フェデレーション最適化のためのサブスペース学習

Subspace Learning for Personalized Federated Optimization ( http://arxiv.org/abs/2109.07628v1 )

ライセンス: Link先を確認
Seok-Ju Hahn, Minwoo Jeong, Junghye Lee(参考訳) データがほぼどこでも生成され保存されるため、データ分散設定からモデルを学ぶことは、多くのai駆動サービスプロバイダにとって興味深いタスクです。 このような状況において、連合学習は主要な解決策として定着するが、パーソナライゼーションの観点では改善の余地がある。 連合学習システムのトレーニングは通常、すべてのクライアントデバイスに同一にデプロイされるグローバルモデルを最適化することに焦点を当てる。 しかし、ローカルデータが同一にクライアントに分散していないと仮定しているため、各クライアントがパフォーマンスでパーソナライズされるには、単一のグローバルモデルでは不十分である。 本稿では,2つのエンドポイント(すなわちグローバルモデルとローカルモデル)の高精度アンサンブルを生成する低損失部分空間連続体の構築に基づいて,アンサンブル学習のレンズを通してこの問題に対処する手法を提案する。 提案手法は,複数の標準ベンチマークデータセットに対する広範囲な実験により,パーソナライズされたクライアント評価設定と見えないクライアント評価設定の両方において一貫した利得が得られることを示す。

As data is generated and stored almost everywhere, learning a model from a data-decentralized setting is a task of interest for many AI-driven service providers. Although federated learning is settled down as the main solution in such situations, there still exists room for improvement in terms of personalization. Training federated learning systems usually focuses on optimizing a global model that is identically deployed to all client devices. However, a single global model is not sufficient for each client to be personalized on their performance as local data assumes to be not identically distributed across clients. We propose a method to address this situation through the lens of ensemble learning based on the construction of a low-loss subspace continuum that generates a high-accuracy ensemble of two endpoints (i.e. global model and local model). We demonstrate that our method achieves consistent gains both in personalized and unseen client evaluation settings through extensive experiments on several standard benchmark datasets.
翻訳日:2021-09-17 14:13:03 公開日:2021-09-16
# 学習した視覚パターンを用いた深部RLに基づく自律走行の目標攻撃

Targeted Attack on Deep RL-based Autonomous Driving with Learned Visual Patterns ( http://arxiv.org/abs/2109.07723v1 )

ライセンス: Link先を確認
Prasanth Buddareddygari, Travis Zhang, Yezhou Yang, Yi Ren(参考訳) 近年の研究では、敵対的攻撃に対する深い強化学習を通じて学んだコントロールポリシーの脆弱性が実証され、自動運転車のようなリスクに敏感なタスクへのそのようなモデルの適用に対する懸念が高まっている。 これらの実験の脅威モデルは,(1)エージェントの観察をリアルタイムに操作することによる標的攻撃,(2)物理的環境の操作による標的外攻撃に限られる。 前者はエージェントのステート/オブザーブレーションへの完全なアクセスを常に想定するが、後者は攻撃結果のコントロールを持たない。 本稿は,実物体に視覚学習パターンを配置し,実物体の実用性と有効性を組み合わせる脅威モデルを用いて,標的攻撃の実現可能性について検討する。 分析を通じて,事前訓練されたポリシは,例えば敵オブジェクトが存在する場合に意図しない自己駐車を行うような時間枠内でハイジャック可能であることを実証する。 攻撃を可能にするために,我々は,環境とエージェントの両方のダイナミクスが攻撃者によって学習できるという仮定を採用する。 最後に,異なる運転シナリオに対する攻撃の有効性を実証的に示すとともに,ロバスト性試験を行い,攻撃強度と有効性とのトレードオフについて検討する。

Recent studies demonstrated the vulnerability of control policies learned through deep reinforcement learning against adversarial attacks, raising concerns about the application of such models to risk-sensitive tasks such as autonomous driving. Threat models for these demonstrations are limited to (1) targeted attacks through real-time manipulation of the agent's observation, and (2) untargeted attacks through manipulation of the physical environment. The former assumes full access to the agent's states/observations at all times, while the latter has no control over attack outcomes. This paper investigates the feasibility of targeted attacks through visually learned patterns placed on physical object in the environment, a threat model that combines the practicality and effectiveness of the existing ones. Through analysis, we demonstrate that a pre-trained policy can be hijacked within a time window, e.g., performing an unintended self-parking, when an adversarial object is present. To enable the attack, we adopt an assumption that the dynamics of both the environment and the agent can be learned by the attacker. Lastly, we empirically show the effectiveness of the proposed attack on different driving scenarios, perform a location robustness test, and study the tradeoff between the attack strength and its effectiveness.
翻訳日:2021-09-17 14:12:47 公開日:2021-09-16
# ニューラルネットワークを用いた重み付きグラフに基づく信号時間論理推論

Weighted Graph-Based Signal Temporal Logic Inference Using Neural Networks ( http://arxiv.org/abs/2109.08078v1 )

ライセンス: Link先を確認
Nasim Baharisangari, Kazuma Hirota, Ruixuan Yan, Agung Julius, Zhe Xu(参考訳) データから時空間知識を抽出することは、多くのアプリケーションで有用である。 得られた知識が人間の解釈可能であり,形式解析に適していることが重要である。 本稿では,重み付きグラフに基づく信号時間論理式(wGSTL)を用いて,ニューラルネットワークを用いて空間時間特性を学習する手法を提案する。 wGSTL式を学習するために、ユーザの好みを推論されたwGSTL式に適用できる柔軟なwGSTL式構造を導入する。 提案した枠組みでは、ニューラルネットワークの各ニューロンは、柔軟なwGSTL式構造におけるサブフォーミュラに対応する。 まず、ニューラルネットワークをトレーニングして、wGSTL演算子を学び、それから第2のニューラルネットワークをトレーニングして、フレキシブルなwGSTL公式構造でパラメータを学習します。 提案したフレームワークとアルゴリズムの性能を評価するために、COVID-19データセットと降雨予測データセットを使用します。 提案手法の性能を,K-アネレスト近傍,決定木,人工ニューラルネットワークの3つのベースライン分類法と比較した。 提案手法により得られた分類精度は,ベースライン分類法と同等である。

Extracting spatial-temporal knowledge from data is useful in many applications. It is important that the obtained knowledge is human-interpretable and amenable to formal analysis. In this paper, we propose a method that trains neural networks to learn spatial-temporal properties in the form of weighted graph-based signal temporal logic (wGSTL) formulas. For learning wGSTL formulas, we introduce a flexible wGSTL formula structure in which the user's preference can be applied in the inferred wGSTL formulas. In the proposed framework, each neuron of the neural networks corresponds to a subformula in a flexible wGSTL formula structure. We initially train a neural network to learn the wGSTL operators and then train a second neural network to learn the parameters in a flexible wGSTL formula structure. We use a COVID-19 dataset and a rain prediction dataset to evaluate the performance of the proposed framework and algorithms. We compare the performance of the proposed framework with three baseline classification methods including K-nearest neighbors, decision trees, and artificial neural networks. The classification accuracy obtained by the proposed framework is comparable with the baseline classification methods.
翻訳日:2021-09-17 14:12:25 公開日:2021-09-16
# 大規模ネットワーク監視のための統計的保証を用いた最適探索

Optimal Probing with Statistical Guarantees for Network Monitoring at Scale ( http://arxiv.org/abs/2109.07743v1 )

ライセンス: Link先を確認
Muhammad Jehangir Amjad, Christophe Diot, Dimitris Konomis, Branislav Kveton, Augustin Soule, and Xiaolong Yang(参考訳) クラウドネットワークは急速に成長し、監視の予算が限られているため、監視が難しい。 本稿では,監視予算の固定化による推定誤差を保証し,遅延やパケットロスなどのネットワーク指標を推定するためのフレームワークを提案する。 提案アルゴリズムは,ネットワーク経路にまたがるプローブの分布を計測し,統計学におけるA-およびE-最適実験設計に基づく。 残念ながら、これらの設計は生産規模で使うには計算コストがかかりすぎる。 我々はfrank-wolfeアルゴリズムに基づくスケーラブルで近似に近い近似を提案する。 実際のネットワークトポロジ上でのシミュレーションや,実クラウドネットワークにおける実運用検出システムを用いたシミュレーションのアプローチを検証する。 調査予算が極めて低い場合でも,推定誤差を低く抑えつつ,生産ベースラインと学術ベースラインの両方と比較して,調査予算の削減に大きな効果を示す。

Cloud networks are difficult to monitor because they grow rapidly and the budgets for monitoring them are limited. We propose a framework for estimating network metrics, such as latency and packet loss, with guarantees on estimation errors for a fixed monitoring budget. Our proposed algorithms produce a distribution of probes across network paths, which we then monitor; and are based on A- and E-optimal experimental designs in statistics. Unfortunately, these designs are too computationally costly to use at production scale. We propose their scalable and near-optimal approximations based on the Frank-Wolfe algorithm. We validate our approaches in simulation on real network topologies, and also using a production probing system in a real cloud network. We show major gains in reducing the probing budget compared to both production and academic baselines, while maintaining low estimation errors, even with very low probing budgets.
翻訳日:2021-09-17 14:11:51 公開日:2021-09-16
# directed degree corrected mixed membership modelとdirected networkにおけるコミュニティメンバーシップの推定

Directed degree corrected mixed membership model and estimating community memberships in directed networks ( http://arxiv.org/abs/2109.07826v1 )

ライセンス: Link先を確認
Huan Qing(参考訳) 本稿では,各行 (コロン) が各行 (コロン) コミュニティのメンバシップを決定するベクタに関連付けられる有向ネットワークにおける,ノードのコミュニティメンバシップのモデル化と推定の問題について考察する。 このような有向ネットワークをモデル化するために、次数不均一性を考慮した有向度補正混合メンバシップ(DiDCMM)モデルを提案する。 DiDCMMは、次数不均一性を考慮した場合、混合会員ネットワークの一般的な条件下で識別可能である。 左特異ベクトルの正規化バージョンに固有のコーン構造と、集団隣接行列の右特異ベクトルに固有の単純構造に基づいて、DiMSCと呼ばれる効率的なアルゴリズムを構築し、行ノードと列ノードの両方のコミュニティメンバシップベクトルを推定する。 提案アルゴリズムは,DiMSCと同じ推定値を返却するDiMSCの等価アルゴリズムと,直列の特異ベクトル偏差に対する最近の発展を活かして,各行ノードとDiDCMM下の各列ノードの帰属ベクトルに対する誤差境界を提供することにより,穏やかな条件下で漸近的に整合性を示す。 その理論はシミュレーション研究によって補われている。

This paper considers the problem of modeling and estimating community memberships of nodes in a directed network where every row (column) node is associated with a vector determining its membership in each row (column) community. To model such directed network, we propose directed degree corrected mixed membership (DiDCMM) model by considering degree heterogeneity. DiDCMM is identifiable under popular conditions for mixed membership network when considering degree heterogeneity. Based on the cone structure inherent in the normalized version of the left singular vectors and the simplex structure inherent in the right singular vectors of the population adjacency matrix, we build an efficient algorithm called DiMSC to infer the community membership vectors for both row nodes and column nodes. By taking the advantage of DiMSC's equivalence algorithm which returns same estimations as DiMSC and the recent development on row-wise singular vector deviation, we show that the proposed algorithm is asymptotically consistent under mild conditions by providing error bounds for the inferred membership vectors of each row node and each column node under DiDCMM. The theory is supplemented by a simulation study.
翻訳日:2021-09-17 14:11:35 公開日:2021-09-16
# NFLパスのフレーム完了確率によるフレーム

Frame by frame completion probability of an NFL pass ( http://arxiv.org/abs/2109.08051v1 )

ライセンス: Link先を確認
Gustavo Pompeu da Silva, Rafael de Andrade Moral(参考訳) アメリカンフットボールは人気の高いスポーツであり、世界中の多くの国で観衆が増えている。 世界で最も注目されているアメリカンフットボールリーグは、全米フットボールリーグ(NFL)であり、あらゆる攻撃的なプレーはランまたはパスのいずれかであり、この作品ではパスに焦点を当てている。 多くの要因は、最も近いディフェンダーからの受信者分離、受信者から通行者への距離、違反生成など、パス完了の確率に影響を与える可能性がある。 パスの完了確率を予測する場合には、パスの目標が誰であるかを知ることが不可欠である。 プレーヤとボール間の距離測定を用いて、経験的確率を計算し、ターゲットが誰であるかを正確に予測することができる。 大きな疑問は、ボールが空中にいる間にnflの試合でパスが完了する確率がどれくらいなのかだ。 そこで我々は,複数の予測器から解く機械学習アルゴリズムを開発した。 2018年のNFLシーズンのデータを用いて,ランダム森林モデルに基づくパス完了確率の条件付きおよび限界予測値を得た。 これは2段階の手順に基づいており、まず、各攻撃者がパスターゲットである確率を計算し、次に、目標に基づいて条件を定め、ランダム森林モデルに基づいて完了確率を予測する。 最後に、総確率の法則を用いて一般完備確率を計算することができる。 選択されたプレイのアニメーションを提示し,パス完了確率の進化を示す。

American football is an increasingly popular sport, with a growing audience in many countries in the world. The most watched American football league in the world is the United States' National Football League (NFL), where every offensive play can be either a run or a pass, and in this work we focus on passes. Many factors can affect the probability of pass completion, such as receiver separation from the nearest defender, distance from receiver to passer, offense formation, among many others. When predicting the completion probability of a pass, it is essential to know who the target of the pass is. By using distance measures between players and the ball, it is possible to calculate empirical probabilities and predict very accurately who the target will be. The big question is: how likely is it for a pass to be completed in an NFL match while the ball is in the air? We developed a machine learning algorithm to answer this based on several predictors. Using data from the 2018 NFL season, we obtained conditional and marginal predictions for pass completion probability based on a random forest model. This is based on a two-stage procedure: first, we calculate the probability of each offensive player being the pass target, then, conditional on the target, we predict completion probability based on the random forest model. Finally, the general completion probability can be calculated using the law of total probability. We present animations for selected plays and show the pass completion probability evolution.
翻訳日:2021-09-17 14:11:14 公開日:2021-09-16
# 単位の構成説明の評価のための検出精度

Detection Accuracy for Evaluating Compositional Explanations of Units ( http://arxiv.org/abs/2109.07804v1 )

ライセンス: Link先を確認
Sayo M. Makinwa, Biagio La Rosa and Roberto Capobianco(参考訳) 複雑な問題や異なる領域におけるディープラーニングモデルの最近の成功は、彼らが何を学んだかを理解することへの関心を高めている。 そのため、これらのモデルを説明するために様々なアプローチが採用されている。 このアプローチを使う方法の2つの例は、ネットワーク分割と構成的説明である。 前者は原子概念を用いた単位を説明し、後者はより表現力のある説明を行い、原子概念を論理形式に置き換える。 直感的には、論理形式は原子の概念よりも有益であるが、どのようにこの改善を定量化するかは定かではない。 本稿では,提案手法を用いて,各ユニットが割り当てた説明文の検出の一貫性を計測する検出精度の評価指標を提案する。 本稿では,(1) 長さの異なる説明を効果的に評価し,(2) は構成的説明探索の停止基準として使用でき,(3) 長さ1の説明が長い説明の知覚的抽象化であるような,新たな特殊単位を公開することを示す。

The recent success of deep learning models in solving complex problems and in different domains has increased interest in understanding what they learn. Therefore, different approaches have been employed to explain these models, one of which uses human-understandable concepts as explanations. Two examples of methods that use this approach are Network Dissection and Compositional explanations. The former explains units using atomic concepts, while the latter makes explanations more expressive, replacing atomic concepts with logical forms. While intuitively, logical forms are more informative than atomic concepts, it is not clear how to quantify this improvement, and their evaluation is often based on the same metric that is optimized during the search-process and on the usage of hyper-parameters to be tuned. In this paper, we propose to use as evaluation metric the Detection Accuracy, which measures units' consistency of detection of their assigned explanations. We show that this metric (1) evaluates explanations of different lengths effectively, (2) can be used as a stopping criterion for the compositional explanation search, eliminating the explanation length hyper-parameter, and (3) exposes new specialized units whose length 1 explanations are the perceptual abstractions of their longer explanations.
翻訳日:2021-09-17 14:10:31 公開日:2021-09-16
# ファッションコンパチビリティのための半教師付き視覚表現学習

Semi-Supervised Visual Representation Learning for Fashion Compatibility ( http://arxiv.org/abs/2109.08052v1 )

ライセンス: Link先を確認
Ambareesh Revanur, Vijay Kumar, Deepthi Sharma(参考訳) 我々は相補的ファッション予測の問題を考える。 既存のアプローチでは、視覚的に互換性のあるさまざまなカテゴリのファッションアイテムが互いに近接する埋め込みスペースの学習に重点を置いている。 しかし、このようなラベル付きの衣装を作るのは重厚であり、特に大型のファッションカタログで、あらゆる可能な組み合わせを生成できるわけではない。 そこで本研究では,大規模無ラベルファッションコーパスを活用し,トレーニング中に偽陽性・偽陰性の衣装を製作する半教師付き学習手法を提案する。 トレーニングバッチ内のラベル付き衣装ごとにラベル付き衣装の各アイテムとラベル付きアイテムをマッチングすることにより、擬似アウトフィットを得る。 さらに、原画像とその変換の表現が、自己監督を通じて暗黙的に色やその他の重要な属性を組み込むようにするために、一貫性の正則化を導入する。 我々は,Polyvore,Polyvore-D ,および新たに作成した大規模Fashion Outfitsデータセットについて広範な実験を行った。

We consider the problem of complementary fashion prediction. Existing approaches focus on learning an embedding space where fashion items from different categories that are visually compatible are closer to each other. However, creating such labeled outfits is intensive and also not feasible to generate all possible outfit combinations, especially with large fashion catalogs. In this work, we propose a semi-supervised learning approach where we leverage large unlabeled fashion corpus to create pseudo-positive and pseudo-negative outfits on the fly during training. For each labeled outfit in a training batch, we obtain a pseudo-outfit by matching each item in the labeled outfit with unlabeled items. Additionally, we introduce consistency regularization to ensure that representation of the original images and their transformations are consistent to implicitly incorporate colour and other important attributes through self-supervision. We conduct extensive experiments on Polyvore, Polyvore-D and our newly created large-scale Fashion Outfits datasets, and show that our approach with only a fraction of labeled examples performs on-par with completely supervised methods.
翻訳日:2021-09-17 14:10:11 公開日:2021-09-16
# 不明:不明瞭な要因を蒸留して絡み合い学習を行う

DisUnknown: Distilling Unknown Factors for Disentanglement Learning ( http://arxiv.org/abs/2109.08090v1 )

ライセンス: Link先を確認
Sitao Xiang, Yuming Gu, Pengda Xiang, Menglei Chai, Hao Li, Yajie Zhao, Mingming He(参考訳) データを解釈可能な独立要因に分割することは、制御可能な生成タスクにとって重要である。 ラベル付きデータの可用性により、監視は、期待される特定の要因の分離を強制するのに役立ちます。 しかし、すべての要素をラベル付けすることは、しばしば高価または不可能であり、完全に教師付き不整合を達成する。 本稿では,ラベル付けや識別が難しいすべての因子を単一の未知の因子としてカプセル化する一般設定を採用する。 そこで本研究では,ラベル付きおよび未知の因子について,未知の因子を抽出し,多条件生成を可能にする,柔軟な弱教師付き多因子異方性フレームワークを提案する。 具体的には、まず、未知の因子を効果的で堅牢な訓練法で切り離し、次に、未知の蒸留を利用したラベル付き因子の適切な切り離しで最終生成物を訓練するために、2段階のトレーニング手法を採用する。 本手法の一般化能力と拡張性を示すために,複数のベンチマークデータセットで定性的かつ定量的に評価し,複雑なデータセット上の様々な実世界アプリケーションに適用した。

Disentangling data into interpretable and independent factors is critical for controllable generation tasks. With the availability of labeled data, supervision can help enforce the separation of specific factors as expected. However, it is often expensive or even impossible to label every single factor to achieve fully-supervised disentanglement. In this paper, we adopt a general setting where all factors that are hard to label or identify are encapsulated as a single unknown factor. Under this setting, we propose a flexible weakly-supervised multi-factor disentanglement framework DisUnknown, which Distills Unknown factors for enabling multi-conditional generation regarding both labeled and unknown factors. Specifically, a two-stage training approach is adopted to first disentangle the unknown factor with an effective and robust training method, and then train the final generator with the proper disentanglement of all labeled factors utilizing the unknown distillation. To demonstrate the generalization capacity and scalability of our method, we evaluate it on multiple benchmark datasets qualitatively and quantitatively and further apply it to various real-world applications on complicated datasets.
翻訳日:2021-09-17 14:09:51 公開日:2021-09-16
# ビデオにおける時間文接地に関する調査

A Survey on Temporal Sentence Grounding in Videos ( http://arxiv.org/abs/2109.08039v1 )

ライセンス: Link先を確認
Xiaohan Lan, Yitian Yuan, Xin Wang, Zhi Wang and Wenwu Zhu(参考訳) ビデオにおける時間文グラウンドリング(TSGV)は、与えられた文問合せに関する未編集ビデオから1つの対象セグメントをローカライズすることを目的としており、ここ数年研究コミュニティで注目されている。 時間的行動の局所化のタスクと異なり、tsgvは自然言語による複雑なアクティビティを事前に定義されたアクションカテゴリから制限することなく見つけることができるため、より柔軟である。 一方、TSGVは2つのモダリティ(テキストとビデオ)間のセマンティックアライメントにテキストと視覚の両方の理解を必要とするため、より難しい。 本調査では,TSGVの概要について概観する。 一 既存の方法の分類を要約すること。 ii) tsgvで使用する評価プロトコルの詳細な説明(すなわち、データセットとメトリクス)を提供する。 三 更なる調査のための現在のベンチマーク設計の潜在的な問題及び研究の方向性を詳細に検討すること。 我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。 具体的には,2段階の手法,エンドツーエンドの手法,強化学習に基づく手法,弱教師付き手法の4つのカテゴリに分類することで,既存のTSGVアプローチについて議論する。 次に、現在の研究進捗を評価するためのベンチマークデータセットと評価指標を示す。 最後に,TSGVにおける最先端の研究を推し進めるであろう,現在の評価プロトコルで不適切に解決された潜在的な問題を指摘することによって,TSGVのいくつかの制限について論じる。 さらに、TSGVに基づいた新しい実践的な設定を備えた3つの典型的なタスクを含む、いくつかの有望な方向性に関する洞察も共有しています。

Temporal sentence grounding in videos~(TSGV), which aims to localize one target segment from an untrimmed video with respect to a given sentence query, has drawn increasing attentions in the research community over the past few years. Different from the task of temporal action localization, TSGV is more flexible since it can locate complicated activities via natural languages, without restrictions from predefined action categories. Meanwhile, TSGV is more challenging since it requires both textual and visual understanding for semantic alignment between two modalities~(i.e., text and video). In this survey, we give a comprehensive overview for TSGV, which i) summarizes the taxonomy of existing methods, ii) provides a detailed description of the evaluation protocols~(i.e., datasets and metrics) to be used in TSGV, and iii) in-depth discusses potential problems of current benchmarking designs and research directions for further investigations. To the best of our knowledge, this is the first systematic survey on temporal sentence grounding. More specifically, we first discuss existing TSGV approaches by grouping them into four categories, i.e., two-stage methods, end-to-end methods, reinforcement learning-based methods, and weakly supervised methods. Then we present the benchmark datasets and evaluation metrics to assess current research progress. Finally, we discuss some limitations in TSGV through pointing out potential problems improperly resolved in the current evaluation protocols, which may push forwards more cutting edge research in TSGV. Besides, we also share our insights on several promising directions, including three typical tasks with new and practical settings based on TSGV.
翻訳日:2021-09-17 14:09:31 公開日:2021-09-16
# 動き予測における文脈認識の促進

Raising context awareness in motion forecasting ( http://arxiv.org/abs/2109.08048v1 )

ライセンス: Link先を確認
H\'edi Ben-Younes, \'Eloi Zablocki, Micka\"el Chen, Patrick P\'erez, Matthieu Cord(参考訳) 学習に基づく軌道予測モデルは非常に成功しており、動き履歴に加えて文脈情報を活用することを約束している。 しかし、最先端の予測手法はエージェントのダイナミクスに過度に依存する傾向にあり、入力時に提供される意味的手がかりを活用できない。 そこで本研究では,意味的文脈情報の利用を促進するためのトレーニング手順を備えた動き予測モデルであるCABを紹介する。 また、連続する予測の時間的一貫性を測定するために、2つの新しい指標(分散と収束-距離)を導入する。 本手法は,広く採用されているnuScenes予測ベンチマークで評価する。

Learning-based trajectory prediction models have encountered great success, with the promise of leveraging contextual information in addition to motion history. Yet, we find that state-of-the-art forecasting methods tend to overly rely on the agent's dynamics, failing to exploit the semantic cues provided at its input. To alleviate this issue, we introduce CAB, a motion forecasting model equipped with a training procedure designed to promote the use of semantic contextual information. We also introduce two novel metrics -- dispersion and convergence-to-range -- to measure the temporal consistency of successive forecasts, which we found missing in standard metrics. Our method is evaluated on the widely adopted nuScenes Prediction benchmark.
翻訳日:2021-09-17 14:09:04 公開日:2021-09-16
# 質問生成と読解理解を用いたゼロショットオープン情報抽出

Zero-Shot Open Information Extraction using Question Generation and Reading Comprehension ( http://arxiv.org/abs/2109.08079v1 )

ライセンス: Link先を確認
Himanshu Gupta, Amogh Badugu, Tamanna Agrawal, Himanshu Sharad Bhatt(参考訳) 一般に、オープン情報抽出(openie)は、主題、関係、および関係の対象を表す三重項の抽出に焦点を当てている。 しかし、既存の技術のほとんどは、これらの関係が不明な新しい領域(例えば財務文書など)に適用性を制限する、各ドメインの事前定義された関係に基づいている。 本稿では,mrcモデルを用いて文からエンティティ(値)とその記述(キー)を抽出するゼロショットオープン情報抽出手法を提案する。 このモデルに対する入力質問は、新しい名詞句生成法を用いて作成される。 本手法は文の文脈を考慮に入れ、我々の技術領域を独立にするための様々な質問を作成できる。 質問や文が与えられた場合,本手法はMCCモデルを用いてエンティティ(値)を抽出する。 疑問に対応する名詞句は、最も信頼度が高いもので、その記述(キー)として扱われる。 本稿では,米国証券取引委員会(SEC)に上場している企業からの公開財務文書に基づくEDGAR10-Qデータセットについても紹介する。 データセットは、段落、タグ付き値(エンティティ)、キー(記述)で構成され、エンティティ抽出データセットの中でも最大である。 このデータセットは、特に金融分野において、研究コミュニティに貴重な追加となるでしょう。 最後に,EDGAR10-QとAde corpusの薬物服用データセットに対する提案手法の有効性を示し,86.84 %,97%の精度を得た。

Typically, Open Information Extraction (OpenIE) focuses on extracting triples, representing a subject, a relation, and the object of the relation. However, most of the existing techniques are based on a predefined set of relations in each domain which limits their applicability to newer domains where these relations may be unknown such as financial documents. This paper presents a zero-shot open information extraction technique that extracts the entities (value) and their descriptions (key) from a sentence, using off the shelf machine reading comprehension (MRC) Model. The input questions to this model are created using a novel noun phrase generation method. This method takes the context of the sentence into account and can create a wide variety of questions making our technique domain independent. Given the questions and the sentence, our technique uses the MRC model to extract entities (value). The noun phrase corresponding to the question, with the highest confidence, is taken as the description (key). This paper also introduces the EDGAR10-Q dataset which is based on publicly available financial documents from corporations listed in US securities and exchange commission (SEC). The dataset consists of paragraphs, tagged values (entities), and their keys (descriptions) and is one of the largest among entity extraction datasets. This dataset will be a valuable addition to the research community, especially in the financial domain. Finally, the paper demonstrates the efficacy of the proposed technique on the EDGAR10-Q and Ade corpus drug dosage datasets, where it obtained 86.84 % and 97% accuracy, respectively.
翻訳日:2021-09-17 14:08:22 公開日:2021-09-16
# マルチタスクオフライン強化学習のための保守的データ共有

Conservative Data Sharing for Multi-Task Offline Reinforcement Learning ( http://arxiv.org/abs/2109.08128v1 )

ライセンス: Link先を確認
Tianhe Yu, Aviral Kumar, Yevgen Chebotar, Karol Hausman, Sergey Levine, Chelsea Finn(参考訳) オフライン強化学習(RL)アルゴリズムは、豊富な事前収集データが存在する領域で有望な結果を示している。 しかしながら、従来の方法はオフラインのrlエージェントが複数のスキルを習得する方法を考慮せずに、オフラインデータセットで個々の問題をスクラッチから解決することに焦点を当てている。 オフラインRLの自然なユースケースは、さまざまなシナリオで収集された大量のデータをさまざまなタスクの解決に利用し、これらのデータを利用して各タスクを個別にトレーニングするのではなく、すべてのタスクの振る舞いを効果的に学習する、という設定にある、と我々は主張する。 しかし、マルチタスクオフラインRLにおける全タスク間でのデータ共有は、実際驚くほど不十分である。 徹底的な実証分析では、データ共有は学習したポリシーとデータセットの分散的な変化を悪化させ、結果として学習したポリシーと低いパフォーマンスの相違を引き起こす可能性がある。 この課題に対処するために、タスク固有のデータの改善に基づいてデータをルーティングするマルチタスクオフラインRLにおけるデータ共有の簡単な手法を開発した。 我々はこれを保守的データ共有(CDS)と呼び、複数の単一タスクのオフラインRL手法で適用することができる。 マルチタスクのロコモーション、ナビゲーション、視覚に基づくロボット操作の問題に挑戦する範囲において、CDSは以前のオフラインマルチタスクRL法や以前のデータ共有アプローチと比較して、最高または同等のパフォーマンスを達成する。

Offline reinforcement learning (RL) algorithms have shown promising results in domains where abundant pre-collected data is available. However, prior methods focus on solving individual problems from scratch with an offline dataset without considering how an offline RL agent can acquire multiple skills. We argue that a natural use case of offline RL is in settings where we can pool large amounts of data collected in various scenarios for solving different tasks, and utilize all of this data to learn behaviors for all the tasks more effectively rather than training each one in isolation. However, sharing data across all tasks in multi-task offline RL performs surprisingly poorly in practice. Thorough empirical analysis, we find that sharing data can actually exacerbate the distributional shift between the learned policy and the dataset, which in turn can lead to divergence of the learned policy and poor performance. To address this challenge, we develop a simple technique for data-sharing in multi-task offline RL that routes data based on the improvement over the task-specific data. We call this approach conservative data sharing (CDS), and it can be applied with multiple single-task offline RL methods. On a range of challenging multi-task locomotion, navigation, and vision-based robotic manipulation problems, CDS achieves the best or comparable performance compared to prior offline multi-task RL methods and previous data sharing approaches.
翻訳日:2021-09-17 14:07:57 公開日:2021-09-16
# 無線通信における深層学習に基づく電力制御に対する敵対的攻撃

Adversarial Attacks against Deep Learning Based Power Control in Wireless Communications ( http://arxiv.org/abs/2109.08139v1 )

ライセンス: Link先を確認
Brian Kim and Yi Shi and Yalin E. Sagduyu and Tugba Erpek and Sennur Ulukus(参考訳) 本稿では,基地局(bs)が複数の直交サブキャリアに送信電力を割り当てる電力割当に基づく機械学習攻撃について,ディープニューラルネットワーク(dnn)を用いて複数のユーザ機器(ues)にサービスを提供する。 回帰モデルに対応するDNNは、入力および割り当てられた送信電力を出力としてチャネルゲインで訓練される。 BS は UE に送信電力を割り当てて全ての UE のレートを最大化する一方で、これらのレートを最小化する敵が存在する。 相手は、チャネルゲインを測定するために送信されるパイロット信号に干渉することにより、DNNへの入力を操作することを目的とした外部送信機かもしれない。 あるいは、敵は、製造されたチャネル推定値をBSに送信するローグUEかもしれない。 いずれの場合も、敵は、これらの摂動の強さの上限となるbsのdnnへの入力を操作するために、敵の摂動を慎重に作っている。 攻撃対象は単一UEまたは全UEである。 これらの攻撃を、敵がDNNに入力をスケールダウンするベンチマークと比較する。 敵攻撃は,通信速度の低下の観点から,ベンチマーク攻撃よりもはるかに効果的であることを示す。 また,敵の攻撃は,チャネルゲインの誤った知識や,攻撃を正確に行う際の潜在的な誤りなど,敵側の不確実性に対して頑健であることを示す。

We consider adversarial machine learning based attacks on power allocation where the base station (BS) allocates its transmit power to multiple orthogonal subcarriers by using a deep neural network (DNN) to serve multiple user equipments (UEs). The DNN that corresponds to a regression model is trained with channel gains as the input and allocated transmit powers as the output. While the BS allocates the transmit power to the UEs to maximize rates for all UEs, there is an adversary that aims to minimize these rates. The adversary may be an external transmitter that aims to manipulate the inputs to the DNN by interfering with the pilot signals that are transmitted to measure the channel gain. Alternatively, the adversary may be a rogue UE that transmits fabricated channel estimates to the BS. In both cases, the adversary carefully crafts adversarial perturbations to manipulate the inputs to the DNN of the BS subject to an upper bound on the strengths of these perturbations. We consider the attacks targeted on a single UE or all UEs. We compare these attacks with a benchmark, where the adversary scales down the input to the DNN. We show that adversarial attacks are much more effective than the benchmark attack in terms of reducing the rate of communications. We also show that adversarial attacks are robust to the uncertainty at the adversary including the erroneous knowledge of channel gains and the potential errors in exercising the attacks exactly as specified.
翻訳日:2021-09-17 14:07:30 公開日:2021-09-16
# DeepMTS: PET/CTによる進行鼻咽頭癌の生存予測のための深層マルチタスク学習

DeepMTS: Deep Multi-task Learning for Survival Prediction in Patients with Advanced Nasopharyngeal Carcinoma using Pretreatment PET/CT ( http://arxiv.org/abs/2109.07711v1 )

ライセンス: Link先を確認
Mingyuan Meng, Bingxin Gu, Lei Bi, Shaoli Song, David Dagan Feng, and Jinman Kim(参考訳) 鼻咽頭癌 (NPC) は世界中の悪性上皮癌である。 生存予測はNPC患者にとって大きな関心事であり、治療のガイドに必要な早期予後情報を提供する。 近年,深層ニューラルネットワーク(DNN)を用いて画像パターンの深部表現を学習する深層学習が,NPCを含む様々ながんの生存予測に導入されている。 画像由来のエンド・ツー・エンドのディープサバイバルモデルが臨床予後指標や従来のx線学的サバイバルモデルよりも予後に優れる可能性があると報告されている。 しかし、ディープサバイバルモデル、特に3Dモデルは、過度な適合を避けるために大きな画像トレーニングデータを必要とする。 残念ながら、PET/CTスキャンのコストが高いため、特にPET/CT(Positron Emission Tomography/Computed Tomography)では医療画像データが不足している。 腫瘍の解剖学的情報のみを提供する磁気共鳴画像(MRI)やCT(CT)と比較して、解剖学的情報(CT)と代謝的情報(PET)の両方を提供するPET/CTは、より正確な生存予測を達成することを約束している。 しかし,NPC患者のPET/CTデータに適用可能な3次元深層生存モデルは見出されていない。 本研究では,小さなデータから生じる過剰適合問題に対処するために,深部生存モデルに重ねるマルチタスクの概念を導入した。 PET/CTデータからの学習効率を高めるため,腫瘍の分節化を補助的タスクとして組み込んだ。 そこで本研究では,3次元エンド・ツー・エンドのディープ・マルチタスク・サバイバルモデル(deepmts)を提案する。 進行npc患者170例のpet/ctデータを用いて,deepmtsは生存予測と腫瘍分画を共同学習できる。

Nasopharyngeal Carcinoma (NPC) is a worldwide malignant epithelial cancer. Survival prediction is a major concern for NPC patients, as it provides early prognostic information that is needed to guide treatments. Recently, deep learning, which leverages Deep Neural Networks (DNNs) to learn deep representations of image patterns, has been introduced to the survival prediction in various cancers including NPC. It has been reported that image-derived end-to-end deep survival models have the potential to outperform clinical prognostic indicators and traditional radiomics-based survival models in prognostic performance. However, deep survival models, especially 3D models, require large image training data to avoid overfitting. Unfortunately, medical image data is usually scarce, especially for Positron Emission Tomography/Computed Tomography (PET/CT) due to the high cost of PET/CT scanning. Compared to Magnetic Resonance Imaging (MRI) or Computed Tomography (CT) providing only anatomical information of tumors, PET/CT that provides both anatomical (from CT) and metabolic (from PET) information is promising to achieve more accurate survival prediction. However, we have not identified any 3D end-to-end deep survival model that applies to small PET/CT data of NPC patients. In this study, we introduced the concept of multi-task leaning into deep survival models to address the overfitting problem resulted from small data. Tumor segmentation was incorporated as an auxiliary task to enhance the model's efficiency of learning from scarce PET/CT data. Based on this idea, we proposed a 3D end-to-end Deep Multi-Task Survival model (DeepMTS) for joint survival prediction and tumor segmentation. Our DeepMTS can jointly learn survival prediction and tumor segmentation using PET/CT data of only 170 patients with advanced NPC.
翻訳日:2021-09-17 14:07:09 公開日:2021-09-16
# 広帯域環境における部分観察可能な視覚ナビゲーション

End-to-End Partially Observable Visual Navigation in a Diverse Environment ( http://arxiv.org/abs/2109.07752v1 )

ライセンス: Link先を確認
Bo Ai, Wei Gao, Vinay, David Hsu(参考訳) ロボットは、屋内や屋外、オフィスの廊下や公園の小道、平らな地面、階段、エレベーターなどに沿って、豊かで多様な環境でうまく移動できるのだろうか? この目的のために、この研究は3つの課題を目指しています。 (i)複雑な視覚観察。 (ii)局所センシングの部分的可観測性、及び (iii)局所環境と高レベル目標の両方に依存するマルチモーダルナビゲーション行動。 ローカルコントローラを表現するニューラルネットワーク(NN)アーキテクチャを提案し,エンドツーエンドアプローチの柔軟性を活用して強力なポリシを学習する。 複雑な視覚観察に取り組むため,畳み込み層を通して多スケール空間情報を抽出する。 部分観測可能性に対処するため、LSTMのようなモジュールで豊富な履歴情報をエンコードする。 重要なことに、この2つを単一の統一アーキテクチャに統合し、畳み込みメモリセルを利用して複数の空間スケールでの観測履歴を追跡し、観測と制御の間の複雑な時空間依存性を捉えることができる。 さらに、異なるナビゲーション動作モードを生成するために、ネットワークをハイレベルな目標に設定する。 具体的には,独立したメモリセルを異なるモードに使用することで,学習方針のモード崩壊を防止することを提案する。 本研究では,SPOTロボットにNNコントローラを実装し,対向歩行者回避,盲点障害物回避,エレベーター乗馬の3つの課題について評価した。 我々のモデルは、CNN、従来のLSTM、またはモデルの短縮バージョンよりも大幅に優れています。 デモビデオが公開され、私たちの大学キャンパスの様々な場所を横断するspotロボットが紹介される。

How can a robot navigate successfully in a rich and diverse environment, indoors or outdoors, along an office corridor or a trail in the park, on the flat ground, the staircase, or the elevator, etc.? To this end, this work aims at three challenges: (i) complex visual observations, (ii) partial observability of local sensing, and (iii) multimodal navigation behaviors that depend on both the local environment and the high-level goal. We propose a novel neural network (NN) architecture to represent a local controller and leverage the flexibility of the end-to-end approach to learn a powerful policy. To tackle complex visual observations, we extract multiscale spatial information through convolution layers. To deal with partial observability, we encode rich history information in LSTM-like modules. Importantly, we integrate the two into a single unified architecture that exploits convolutional memory cells to track the observation history at multiple spatial scales, which can capture the complex spatiotemporal dependencies between observations and controls. We additionally condition the network on the high-level goal in order to generate different navigation behavior modes. Specifically, we propose to use independent memory cells for different modes to prevent mode collapse in the learned policy. We implemented the NN controller on the SPOT robot and evaluate it on three challenging tasks with partial observations: adversarial pedestrian avoidance, blind-spot obstacle avoidance, and elevator riding. Our model significantly outperforms CNNs, conventional LSTMs, or the ablated versions of our model. A demo video will be publicly available, showing our SPOT robot traversing many different locations on our university campus.
翻訳日:2021-09-17 14:06:39 公開日:2021-09-16
# クオリティに配慮した心内MRI画像再構成とアンダーサンプルk空間データの解析

Quality-aware Cine Cardiac MRI Reconstruction and Analysis from Undersampled k-space Data ( http://arxiv.org/abs/2109.07955v1 )

ライセンス: Link先を確認
Ines Machado, Esther Puyol-Anton, Kerstin Hammernik, Gastao Cruz, Devran Ugurlu, Bram Ruijsink, Miguel Castelo-Branco, Alistair Young, Claudia Prieto, Julia A. Schnabel, Andrew P. King(参考訳) 心臓MRIは心臓の健康評価のために日常的に取得されるが、撮像プロセスは遅く、通常、良好な画像品質を確保するのに十分なk空間プロファイルを取得するために呼吸ホールドを必要とする。 過去数十年間、心臓のMRI取得を高速化するアンダーサンプリングベースの再建技術が提案されている。 しかし、アンダーサンプリング係数は通常、診断画像の品質を確保するために取得前の保守的な値に固定される。 本稿では, 画像取得と再構成と, セグメンテーション, 体積曲線解析, 心機能パラメータ推定などの下流タスクを併用した, エンドツーエンド品質を意識した短軸MRIフレームワークを提案する。 目標は、k空間データのほんの一部を取得するだけでスキャン時間を短縮し、品質管理チェックをパスし、心機能パラメータの信頼性の高い推定を可能にすることである。 本フレームワークは、アンダーサンプルデータから2D+t心筋MRI画像の再構成のためのディープラーニングモデルと、良質な再構成を検出する画像品質制御ステップと、両室セグメンテーションのためのディープラーニングモデルと、良質なセグメンテーションを検出する品質制御ステップと、心機能パラメータの自動計算からなる。 提案手法の有効性を実証するため,英国バイオバンク(n=270),健常者200名,心疾患患者70名から選択した参加者のコホートを用いてシミュレーションを行った。 その結果,1スライスあたり12秒から4秒のスキャン時間で品質制御画像を生成することができ,5%以内の射出率などの心機能パラメータの信頼性の高い推定が可能となった。

Cine cardiac MRI is routinely acquired for the assessment of cardiac health, but the imaging process is slow and typically requires several breath-holds to acquire sufficient k-space profiles to ensure good image quality. Several undersampling-based reconstruction techniques have been proposed during the last decades to speed up cine cardiac MRI acquisition. However, the undersampling factor is commonly fixed to conservative values before acquisition to ensure diagnostic image quality, potentially leading to unnecessarily long scan times. In this paper, we propose an end-to-end quality-aware cine short-axis cardiac MRI framework that combines image acquisition and reconstruction with downstream tasks such as segmentation, volume curve analysis and estimation of cardiac functional parameters. The goal is to reduce scan time by acquiring only a fraction of k-space data to enable the reconstruction of images that can pass quality control checks and produce reliable estimates of cardiac functional parameters. The framework consists of a deep learning model for the reconstruction of 2D+t cardiac cine MRI images from undersampled data, an image quality-control step to detect good quality reconstructions, followed by a deep learning model for bi-ventricular segmentation, a quality-control step to detect good quality segmentations and automated calculation of cardiac functional parameters. To demonstrate the feasibility of the proposed approach, we perform simulations using a cohort of selected participants from the UK Biobank (n=270), 200 healthy subjects and 70 patients with cardiomyopathies. Our results show that we can produce quality-controlled images in a scan time reduced from 12 to 4 seconds per slice, enabling reliable estimates of cardiac functional parameters such as ejection fraction within 5% mean absolute error.
翻訳日:2021-09-17 14:06:13 公開日:2021-09-16
# objectfolder:暗黙の視覚的、聴覚的、触覚的な表現を持つオブジェクトのデータセット

ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and Tactile Representations ( http://arxiv.org/abs/2109.07991v1 )

ライセンス: Link先を確認
Ruohan Gao, Yen-Yu Chang, Shivani Mall, Li Fei-Fei, Jiajun Wu(参考訳) 近年、多感覚オブジェクト中心の知覚、推論、相互作用が重要な研究課題となっている。 しかし、これらの方向の進歩は、利用可能な小さなオブジェクトセットによって制限されている。合成オブジェクトは十分に現実的ではなく、主に幾何学を中心にしているが、ycbのような実際のオブジェクトデータセットは、国際的な出荷、在庫、財務コストのために、事実上困難で不安定である。 ObjectFolderは100の仮想オブジェクトからなるデータセットで、両方の課題に2つの重要なイノベーションで対処します。 まず、ObjectFolderは視覚的、聴覚的、触覚的な感覚データをすべてのオブジェクトにエンコードし、オブジェクトの幾何学に純粋にフォーカスする既存のデータセットを超えて、多くのマルチセンサーオブジェクト認識タスクを可能にします。 第二に、ObjectFolderは各オブジェクトの視覚的テクスチャ、音響シミュレーション、触覚的な読みに一様でオブジェクト中心で暗黙的な表現を採用しており、データセットを柔軟に使いやすく、共有しやすくしている。 本稿では,多感覚知覚と制御のためのテストベッドとしてのデータセットの有用性を,インスタンス認識,クロスセンサ検索,3次元再構成,ロボット認識など,さまざまなベンチマークタスクで評価する。

Multisensory object-centric perception, reasoning, and interaction have been a key research topic in recent years. However, the progress in these directions is limited by the small set of objects available -- synthetic objects are not realistic enough and are mostly centered around geometry, while real object datasets such as YCB are often practically challenging and unstable to acquire due to international shipping, inventory, and financial cost. We present ObjectFolder, a dataset of 100 virtualized objects that addresses both challenges with two key innovations. First, ObjectFolder encodes the visual, auditory, and tactile sensory data for all objects, enabling a number of multisensory object recognition tasks, beyond existing datasets that focus purely on object geometry. Second, ObjectFolder employs a uniform, object-centric, and implicit representation for each object's visual textures, acoustic simulations, and tactile readings, making the dataset flexible to use and easy to share. We demonstrate the usefulness of our dataset as a testbed for multisensory perception and control by evaluating it on a variety of benchmark tasks, including instance recognition, cross-sensory retrieval, 3D reconstruction, and robotic grasping.
翻訳日:2021-09-17 14:05:38 公開日:2021-09-16
# 自然シーン画像におけるウルドゥー文字:新しいデータセットと予備テキスト検出

Urdu text in natural scene images: a new dataset and preliminary text detection ( http://arxiv.org/abs/2109.08060v1 )

ライセンス: Link先を確認
Hazrat Ali, Khalid Iqbal, Ghulam Mujtaba, Ahmad Fayyaz, Mohammad Farhad Bulbul, Fazal Wahab Karam and Ali Zahir(参考訳) コンテンツ解析のための自然シーン画像中のテキスト検出は興味深い課題である。 研究コミュニティは英語とマンダリンのテキスト検出に大きな進歩を遂げてきた。 しかし,自然シーン画像におけるウルドゥー語のテキスト抽出は未解決な課題である。 本研究では,まず,自然シーン画像中のUrduテキストに新しいデータセットを導入する。 データセットは、実際のシーンから取得した500のスタンドアロンイメージで構成されている。 次に、最大安定な四肢領域(mser)法を適用し、画像中の候補としてウルドゥテキスト領域を抽出する。 非候補領域を除去するために二段階フィルタリング機構が適用される。 第1段階では、テキストとノイズはその幾何学的性質に基づいて分類される。 第2段階では、サポートベクトルマシン分類器が訓練され、非テキスト候補領域を破棄する。 その後、テキスト候補領域は、センタロイドベースの垂直距離と水平距離でリンクされる。 テキスト行はさらにHOG機能に基づいて異なる分類器によって分析され、非テキスト領域を削除する。 パフォーマンスを評価するために、ローカルに開発されたデータセットで広範囲の実験が行われる。 実験結果は,テストセット画像において良好な性能を示す。 データセットは研究用に提供される予定だ。 我々の知る限りでは、この研究はウルドゥー語にとって最初のものであり、自由な研究用データセットを提供し、ウルドゥー語テキスト抽出のタスクにおけるベースラインのパフォーマンスとして機能する。

Text detection in natural scene images for content analysis is an interesting task. The research community has seen some great developments for English/Mandarin text detection. However, Urdu text extraction in natural scene images is a task not well addressed. In this work, firstly, a new dataset is introduced for Urdu text in natural scene images. The dataset comprises of 500 standalone images acquired from real scenes. Secondly, the channel enhanced Maximally Stable Extremal Region (MSER) method is applied to extract Urdu text regions as candidates in an image. Two-stage filtering mechanism is applied to eliminate non-candidate regions. In the first stage, text and noise are classified based on their geometric properties. In the second stage, a support vector machine classifier is trained to discard non-text candidate regions. After this, text candidate regions are linked using centroid-based vertical and horizontal distances. Text lines are further analyzed by a different classifier based on HOG features to remove non-text regions. Extensive experimentation is performed on the locally developed dataset to evaluate the performance. The experimental results show good performance on test set images. The dataset will be made available for research use. To the best of our knowledge, the work is the first of its kind for the Urdu language and would provide a good dataset for free research use and serve as a baseline performance on the task of Urdu text extraction.
翻訳日:2021-09-17 14:05:17 公開日:2021-09-16
# MOVER: ハイパーブート生成のためのマスク、オーバージェネレーション、ランク

MOVER: Mask, Over-generate and Rank for Hyperbole Generation ( http://arxiv.org/abs/2109.07726v1 )

ライセンス: Link先を確認
Yunxiang Zhang, Xiaojun Wan(参考訳) ハイパーボイルは音声の共通表現であるにもかかわらず、その識別タスクを扱った研究が少なからず行われている。 本稿では,リテラル文をそのハイパーボラパラフレーズに転送するハイパーボラ生成の新しいタスクを提案する。 利用可能な双曲文の欠如に対処するために,17,862個の双曲文を含む最初の大規模双曲コーパスであるhypo-xlを非自明な方法で構築する。 本稿では,並列リテラルとハイパーボイルのペアを必要とせず,教師なしのハイパーボイル生成法を提案する。 訓練中は,HyPO-XLから得られた多文のマスク付き多文を埋め込むためにBARTを微調整した。 推論中、入力リテラル文の一部をマスクし、複数の双曲バージョンを過剰に生成する。 そして、BERTベースのランク付け器は、双曲性およびパラフレーズ品質により最適な候補を選択する。 人間評価の結果,このモデルは双曲的パラフロー文を生成でき,複数のベースラインシステムよりも優れていた。

Despite being a common figure of speech, hyperbole is under-researched with only a few studies addressing its identification task. In this paper, we introduce a new task of hyperbole generation to transfer a literal sentence into its hyperbolic paraphrase. To tackle the lack of available hyperbolic sentences, we construct HYPO-XL, the first large-scale hyperbole corpus containing 17,862 hyperbolic sentences in a non-trivial way. Based on our corpus, we propose an unsupervised method for hyperbole generation with no need for parallel literal-hyperbole pairs. During training, we fine-tune BART to infill masked hyperbolic spans of sentences from HYPO-XL. During inference, we mask part of an input literal sentence and over-generate multiple possible hyperbolic versions. Then a BERT-based ranker selects the best candidate by hyperbolicity and paraphrase quality. Human evaluation results show that our model is capable of generating hyperbolic paraphrase sentences and outperforms several baseline systems.
翻訳日:2021-09-17 14:03:49 公開日:2021-09-16
# 共感対話生成のための感情コンセンサスの構築と非ペアデータの利用

Constructing Emotion Consensus and Utilizing Unpaired Data for Empathetic Dialogue Generation ( http://arxiv.org/abs/2109.07779v1 )

ライセンス: Link先を確認
Lei Shen, Jinchao Zhang, Jiao Ou, Xiaofang Zhao, Jie Zhou(参考訳) 対話共感の研究は、感情に対する正確な理解と適切な反応の能力を持つエージェントを養うことを目的としている。 共感的対話生成のための既存のモデルでは、感情の流れを文脈から反応へと一方向に集中している。 我々は、共感的な会話を行うことは双方向のプロセスであり、2人の対話者の感情が同じ点、すなわち感情のコンセンサスに達するときに共感が起こると論じている。 また,共感的対話コーパスは極めて限定的であり,モデル性能がさらに制限されることがわかった。 上記の問題に対処するために,感情コンセンサスの構築と外部非ペアデータの利用を同時に行うために,デュアル生成モデルであるdual-empを提案する。 具体的には,前方対話モデル,後方対話モデル,感情コンセンサスを表す離散的潜在変数を統一アーキテクチャに統合する。 次に、ペアデータの制約を緩和するために、オープンドメイン会話から非ペア感情データを抽出し、デュアルempを用いて擬似ペア共感サンプルを作成し、人間のアノテーションよりも効率的で低コストな方法を提案する。 自動評価と人的評価は,コヒーレントで共感的な反応を生み出す際の競争基準よりも優れていることを示す。

Researches on dialogue empathy aim to endow an agent with the capacity of accurate understanding and proper responding for emotions. Existing models for empathetic dialogue generation focus on the emotion flow in one direction, that is, from the context to response. We argue that conducting an empathetic conversation is a bidirectional process, where empathy occurs when the emotions of two interlocutors could converge on the same point, i.e., reaching an emotion consensus. Besides, we also find that the empathetic dialogue corpus is extremely limited, which further restricts the model performance. To address the above issues, we propose a dual-generative model, Dual-Emp, to simultaneously construct the emotion consensus and utilize some external unpaired data. Specifically, our model integrates a forward dialogue model, a backward dialogue model, and a discrete latent variable representing the emotion consensus into a unified architecture. Then, to alleviate the constraint of paired data, we extract unpaired emotional data from open-domain conversations and employ Dual-Emp to produce pseudo paired empathetic samples, which is more efficient and low-cost than the human annotation. Automatic and human evaluations demonstrate that our method outperforms competitive baselines in producing coherent and empathetic responses.
翻訳日:2021-09-17 14:03:33 公開日:2021-09-16
# mfe-ner:中国のエンティティ認識のための多機能融合埋め込み

MFE-NER: Multi-feature Fusion Embedding for Chinese Named Entity Recognition ( http://arxiv.org/abs/2109.07877v1 )

ライセンス: Link先を確認
Jiatong Li and Kui Meng(参考訳) 事前学習された言語モデルは、名前付きエンティティ認識(ner)を新しい時代へと導く一方で、特定の問題におけるパフォーマンスを改善するために、さらなる知識が必要になる。 中国語のNERでは、文字置換は複雑な言語現象である。 いくつかの漢字は、同じ成分を共有したり、類似の発音を持つのによく似ている。 名前付きエンティティの文字を類似の文字で置き換えて、新しいコロケーションを生成するが、同じオブジェクトを参照する。 インターネット時代にはさらに一般的になり、インターネット検閲を避けたり、単に楽しんだりするためによく使われる。 このような文字置換は、新しいコロケーションが時々存在するため、事前訓練された言語モデルと親和性がない。 結果として、NERタスクでは認識できない、あるいは認識できないエラーにつながる。 本稿では,中国語固有体認識のための多機能融合埋め込み法(mfe-ner)を提案し,中国語の言語パターンを強化し,中国語固有体認識における文字置換問題に対処する。 MFEはセマンティック、グリフ、音声機能を融合する。 グリフ領域では、構造特徴を表すために漢字を構成要素に分解し、類似した構造を持つ文字が密接な埋め込み空間表現を持つようにする。 また,漢字間の音韻類似度を合理的に計算できるように,音声システムの改良も提案されている。 実験により,中国語nerの全体的な性能が向上し,特に非公式言語環境での性能が向上することを示す。

Pre-trained language models lead Named Entity Recognition (NER) into a new era, while some more knowledge is needed to improve their performance in specific problems. In Chinese NER, character substitution is a complicated linguistic phenomenon. Some Chinese characters are quite similar for sharing the same components or having similar pronunciations. People replace characters in a named entity with similar characters to generate a new collocation but referring to the same object. It becomes even more common in the Internet age and is often used to avoid Internet censorship or just for fun. Such character substitution is not friendly to those pre-trained language models because the new collocations are occasional. As a result, it always leads to unrecognizable or recognition errors in the NER task. In this paper, we propose a new method, Multi-Feature Fusion Embedding for Chinese Named Entity Recognition (MFE-NER), to strengthen the language pattern of Chinese and handle the character substitution problem in Chinese Named Entity Recognition. MFE fuses semantic, glyph, and phonetic features together. In the glyph domain, we disassemble Chinese characters into components to denote structure features so that characters with similar structures can have close embedding space representation. Meanwhile, an improved phonetic system is also proposed in our work, making it reasonable to calculate phonetic similarity among Chinese characters. Experiments demonstrate that our method improves the overall performance of Chinese NER and especially performs well in informal language environments.
翻訳日:2021-09-17 14:03:10 公開日:2021-09-16
# 検索法を検索しない - 逆テキスト攻撃に対する単純なヒューリスティックス

Don't Search for a Search Method -- Simple Heuristics Suffice for Adversarial Text Attacks ( http://arxiv.org/abs/2109.07926v1 )

ライセンス: Link先を確認
Nathaniel Berger, Stefan Riezler, Artem Sokolov, Sebastian Ebert(参考訳) 近年,自然言語処理(NLP)のためのニューラルネットワークに対する敵攻撃に注目が集まっている。 中心的な研究テーマは、ベンチマークアルゴリズムとタスクを伴う検索アルゴリズムと検索制約の調査である。 ゼロオーダー最適化に基づく攻撃にインスパイアされたアルゴリズムを実装し、TextAttackフレームワークのベンチマーク結果と比較する。 驚くべきことに、最適化に基づく手法は制約付きセットアップでは改善されず、検索スペースが大きい制約付き設定でのみ近似勾配情報を利用できる。 対照的に、目標関数を問合せせずに最も近い隣人を利用する単純なヒューリスティックは、制約された設定でかなりの成功率をもたらし、訓練されていない設定でほぼ完全な成功率を、非常に少ないクエリで得る。 これらの結果から、現在のTextAttackベンチマークタスクは簡単すぎて制約が厳しすぎて、ブラックボックスの敵対的テキスト攻撃に関する有意義な研究が妨げられていると結論付けた。

Recently more attention has been given to adversarial attacks on neural networks for natural language processing (NLP). A central research topic has been the investigation of search algorithms and search constraints, accompanied by benchmark algorithms and tasks. We implement an algorithm inspired by zeroth order optimization-based attacks and compare with the benchmark results in the TextAttack framework. Surprisingly, we find that optimization-based methods do not yield any improvement in a constrained setup and slightly benefit from approximate gradient information only in unconstrained setups where search spaces are larger. In contrast, simple heuristics exploiting nearest neighbors without querying the target function yield substantial success rates in constrained setups, and nearly full success rate in unconstrained setups, at an order of magnitude fewer queries. We conclude from these results that current TextAttack benchmark tasks are too easy and constraints are too strict, preventing meaningful research on black-box adversarial text attacks.
翻訳日:2021-09-17 14:02:47 公開日:2021-09-16
# RetrievalSum: 抽象的な要約のための検索強化フレームワーク

RetrievalSum: A Retrieval Enhanced Framework for Abstractive Summarization ( http://arxiv.org/abs/2109.07943v1 )

ライセンス: Link先を確認
Chenxin An, Ming Zhong, Zhichao Geng, Jianqiang Yang, Xipeng Qiu(参考訳) 既存の要約システムは、主にソース文書の内容に依存した要約を生成する。 しかし、人間にとってでさえ、ソースドキュメントを十分に理解し、特定のフォーマットで要約を書くのに、通常、いくつかの参照や例証が必要です。 しかし、どのようにして高品質な模範を見つけ、それらを要約システムに組み込むかは、いまだに困難で検討に値する。 本稿では,RetrievalSumを提案する。RetrievalSumは,高密度なRetrieverとSummarizerで構成される,新しい検索拡張抽象要約フレームワークである。 まず、複数の近縁な例題を補足入力として検索し、生成モデルがテキストをより包括的に理解できるようにする。 さらに、検索された例題は、特定のコーパスの書き込みスタイルを捉えるためにモデルを導く役割も果たせる。 提案手法は,複数のドメインにまたがる広範囲な要約データセットと,BERTとBARTの2つのバックボーンモデルで検証する。 その結果, ROUGE-1スコアの1.38~4.66では, 強力な事前学習モデルと比較すると, 大幅な改善が得られ, BillSum上での新たな最先端化が達成された。 人間の評価は、検索強化モデルがドメイン固有の書き込みスタイルをよりうまく捉えられることを示す。

Existing summarization systems mostly generate summaries purely relying on the content of the source document. However, even for humans, we usually need some references or exemplars to help us fully understand the source document and write summaries in a particular format. But how to find the high-quality exemplars and incorporate them into summarization systems is still challenging and worth exploring. In this paper, we propose RetrievalSum, a novel retrieval enhanced abstractive summarization framework consisting of a dense Retriever and a Summarizer. At first, several closely related exemplars are retrieved as supplementary input to help the generation model understand the text more comprehensively. Furthermore, retrieved exemplars can also play a role in guiding the model to capture the writing style of a specific corpus. We validate our method on a wide range of summarization datasets across multiple domains and two backbone models: BERT and BART. Results show that our framework obtains significant improvement by 1.38~4.66 in ROUGE-1 score when compared with the powerful pre-trained models, and achieve new state-of-the-art on BillSum. Human evaluation demonstrates that our retrieval enhanced model can better capture the domain-specific writing style.
翻訳日:2021-09-17 14:02:29 公開日:2021-09-16
# 知識グラフにおけるコンテキスト対応エンティティ型付け

Context-aware Entity Typing in Knowledge Graphs ( http://arxiv.org/abs/2109.07990v1 )

ライセンス: Link先を確認
Weiran Pan, Wei Wei and Xian-Ling Mao(参考訳) 知識グラフエンティティタイピングは、知識グラフにおけるエンティティの欠落タイプを推測することを目的としている。 本稿では,エンティティの文脈情報を利用した新しいタスク手法を提案する。 具体的には2つの推論メカニズムを 設計しています i) N2T: 独立してその型を推測するためにエンティティの各隣人を使用する。 ii) Agg2T: エンティティの隣人を集約してその型を推測する。 これらのメカニズムは複数の推論結果を生成し、指数関数的に重み付けされたプーリングメソッドを使用して最終的な推論結果を生成する。 さらに,トレーニング中の偽陰性問題を緩和する新たな損失関数を提案する。 2つの実世界のKG実験により,本手法の有効性が示された。 本論文のソースコードとデータはhttps://github.com/C CIIPLab/CETから取得できる。

Knowledge graph entity typing aims to infer entities' missing types in knowledge graphs which is an important but under-explored issue. This paper proposes a novel method for this task by utilizing entities' contextual information. Specifically, we design two inference mechanisms: i) N2T: independently use each neighbor of an entity to infer its type; ii) Agg2T: aggregate the neighbors of an entity to infer its type. Those mechanisms will produce multiple inference results, and an exponentially weighted pooling method is used to generate the final inference result. Furthermore, we propose a novel loss function to alleviate the false-negative problem during training. Experiments on two real-world KGs demonstrate the effectiveness of our method. The source code and data of this paper can be obtained from https://github.com/C CIIPLab/CET.
翻訳日:2021-09-17 14:02:08 公開日:2021-09-16
# 文脈的埋め込みにおける言語特化情報の位置決め

Locating Language-Specific Information in Contextualized Embeddings ( http://arxiv.org/abs/2109.08040v1 )

ライセンス: Link先を確認
Sheng Liang, Philipp Dufter, Hinrich Sch\"utze(参考訳) 多言語事前訓練言語モデル(MPLM)は多言語性を示し、言語間の移動に適している。 ほとんどのMPLMは教師なしで訓練されており、目的と多言語の関係は不明確である。 より具体的には、MPLM表現が言語に依存しないのか、単に学習したタスク予測ヘッドと干渉するだけなのかが問題となる。 本研究では,言語固有の情報をmplmに配置し,その次元とその情報が発生する層を同定する。 言語固有の情報は様々な次元に分散し,線形部分空間に投影できることを示す。 本研究は,MPLM表現をよりよく理解し,解析不能な情報の塊として扱うこと以上に貢献する。

Multilingual pretrained language models (MPLMs) exhibit multilinguality and are well suited for transfer across languages. Most MPLMs are trained in an unsupervised fashion and the relationship between their objective and multilinguality is unclear. More specifically, the question whether MPLM representations are language-agnostic or they simply interleave well with learned task prediction heads arises. In this work, we locate language-specific information in MPLMs and identify its dimensionality and the layers where this information occurs. We show that language-specific information is scattered across many dimensions, which can be projected into a linear subspace. Our study contributes to a better understanding of MPLM representations, going beyond treating them as unanalyzable blobs of information.
翻訳日:2021-09-17 14:01:57 公開日:2021-09-16
# MeLT: スタンス検出のための事前訓練としてのマスケ文書表現付きメッセージレベル変換器

MeLT: Message-Level Transformer with Masked Document Representations as Pre-Training for Stance Detection ( http://arxiv.org/abs/2109.08113v1 )

ライセンス: Link先を確認
Matthew Matero, Nikita Soni, Niranjan Balasubramanian, and H. Andrew Schwartz(参考訳) 自然言語処理の多くは、大容量の言語モデルを活用することに重点を置いており、通常は1つ以上のトークンを予測するタスクで単一のメッセージで訓練される。 しかし、より高レベルな文脈(すなわちメッセージのシーケンス)での人間の言語モデリングは、未探索である。 メッセージの属性を予測しようとするスタンス検出やその他のソーシャルメディアタスクでは、著者によってゆるく意味的に接続されるコンテキストデータがあります。 本稿では,twitter上で事前学習した階層型メッセージエンコーダであるメッセージレベルトランスフォーマ(melt)を紹介し,スタンス予測のタスクに適用する。 メッセージのコンテキスト(すなわち、前のメッセージのシーケンス)を知ることの恩恵を受けるタスクとして、スタンス予測に注目します。 このモデルはマスク付き言語モデリングの変種を用いて訓練されており、トークンを予測する代わりに、再構成損失を通じてマスク付き(集約された)メッセージベクター全体を生成する。 この事前学習されたマスク付きメッセージレベル変換器を姿勢検出の下流タスクに適用すると、F1性能は67%となる。

Much of natural language processing is focused on leveraging large capacity language models, typically trained over single messages with a task of predicting one or more tokens. However, modeling human language at higher-levels of context (i.e., sequences of messages) is under-explored. In stance detection and other social media tasks where the goal is to predict an attribute of a message, we have contextual data that is loosely semantically connected by authorship. Here, we introduce Message-Level Transformer (MeLT) -- a hierarchical message-encoder pre-trained over Twitter and applied to the task of stance prediction. We focus on stance prediction as a task benefiting from knowing the context of the message (i.e., the sequence of previous messages). The model is trained using a variant of masked-language modeling; where instead of predicting tokens, it seeks to generate an entire masked (aggregated) message vector via reconstruction loss. We find that applying this pre-trained masked message-level transformer to the downstream task of stance detection achieves F1 performance of 67%.
翻訳日:2021-09-17 14:01:45 公開日:2021-09-16
# 因果レンズによるオンラインヘイトスピーチの実態調査

A Survey of Online Hate Speech through the Causal Lens ( http://arxiv.org/abs/2109.08120v1 )

ライセンス: Link先を確認
Antigoni-Maria Founta and Lucia Specia(参考訳) デジタル敵意の社会的問題は、これまで多くの注目を集めてきた。 このテーマは豊富な文学を扱っているが、その主観的な性質から、相変わらず目立って挑戦的であり続けている。 この問題をよりよく理解するには、因果推論フレームワークを使う必要があると仮定する。 この調査は、オンラインヘイトスピーチに関連する因果効果の推定に関する関連する研究をまとめたものである。 当初我々は、なぜ因果的な言葉でヘイトスピーチの探索を再確立したのかを議論する。 その後、成果の方向性に関して分類された主要な研究の概要と、関連するすべての研究の概要と、今後の研究に影響を及ぼす可能性のあるオープンな研究課題の概要を述べる。

The societal issue of digital hostility has previously attracted a lot of attention. The topic counts an ample body of literature, yet remains prominent and challenging as ever due to its subjective nature. We posit that a better understanding of this problem will require the use of causal inference frameworks. This survey summarises the relevant research that revolves around estimations of causal effects related to online hate speech. Initially, we provide an argumentation as to why re-establishing the exploration of hate speech in causal terms is of the essence. Following that, we give an overview of the leading studies classified with respect to the direction of their outcomes, as well as an outline of all related research, and a summary of open research problems that can influence future work on the topic.
翻訳日:2021-09-17 14:01:25 公開日:2021-09-16
# 要約評価は他言語への翻訳に耐えられるか?

Does Summary Evaluation Survive Translation to Other Languages? ( http://arxiv.org/abs/2109.08129v1 )

ライセンス: Link先を確認
Neslihan Iskender, Oleg Vasilyev, Tim Polzehl, John Bohannon, Sebastian M\"oller(参考訳) 大規模な要約品質データセットの作成は、慎重な計画とセットアップを必要とする、かなりのコストと時間を要する作業である。 人文および機械による要約の作成と、人間による要約の評価、好ましくは言語の専門家による評価、自動評価ツールによる評価を含む。 もしそのような努力が1つの言語でなされたら、他の言語でそれを使うことが有益でしょう。 他の言語での人間のアノテーションを繰り返すことなく、そのようなデータセットの翻訳をどれだけ信頼できるかを調べるため、既存の英語要約データセット SummEval を4つの言語に翻訳し、翻訳言語における自動評価指標からスコアを分析し、ソース言語における人間のアノテーションとの相関を調べた。 結果から,翻訳は自動スコアの絶対値を変化させるが,スコアは同じランクの順で,人間のアノテーションとほぼ同じ相関を保っていることがわかった。

The creation of a large summarization quality dataset is a considerable, expensive, time-consuming effort, requiring careful planning and setup. It includes producing human-written and machine-generated summaries and evaluation of the summaries by humans, preferably by linguistic experts, and by automatic evaluation tools. If such effort is made in one language, it would be beneficial to be able to use it in other languages. To investigate how much we can trust the translation of such dataset without repeating human annotations in another language, we translated an existing English summarization dataset, SummEval dataset, to four different languages and analyzed the scores from the automatic evaluation metrics in translated languages, as well as their correlation with human annotations in the source language. Our results reveal that although translation changes the absolute value of automatic scores, the scores keep the same rank order and approximately the same correlations with human annotations.
翻訳日:2021-09-17 14:01:14 公開日:2021-09-16
# 不確実性分解による医療介入に対するリスク対応強化学習の導入

Enabling risk-aware Reinforcement Learning for medical interventions through uncertainty decomposition ( http://arxiv.org/abs/2109.07827v1 )

ライセンス: Link先を確認
Paul Festor, Giulia Luise, Matthieu Komorowski and A. Aldo Faisal(参考訳) 複雑な制御と意思決定問題を解決するツールとして強化学習(RL)が登場している。 しかしながら、医療、製造業、自動車、航空宇宙などのリスクの高い環境では、エージェントが学習した明らかに最適な政策と、それに関連する不確実性やリスクのため、現実の展開とのギャップを埋めることはしばしば困難である。 広義のRL剤は2種類の不確実性に直面している。 1.世界の力学における無作為性や騒音を反映する無秩序不確実性 2. 疫学上の不確実性は、モデル上の限界と、エージェントが世界で獲得した情報・データの有限量により、エージェントの知識の境界を反映している。 これらの2つの不確実性は、パフォーマンスの評価とリスクや信頼のレベルに根本的に異なる意味を持つ。 しかし、これらのアレタリックな不確実性は一般に標準として成り立っており、分布RLでさえこの違いとは無関係である。 本稿では,各不確実性のネット効果を分解して不確かさを再現するために,分布的アプローチ (UA-DQN) を再キャストする方法を提案する。 本稿では,この手法をグリッド・ワールドの例で実演して直観を構築し,批判的ケアにおける臨床意思決定支援システムとして動作するrlエージェントの概念実証を行った。

Reinforcement Learning (RL) is emerging as tool for tackling complex control and decision-making problems. However, in high-risk environments such as healthcare, manufacturing, automotive or aerospace, it is often challenging to bridge the gap between an apparently optimal policy learnt by an agent and its real-world deployment, due to the uncertainties and risk associated with it. Broadly speaking RL agents face two kinds of uncertainty, 1. aleatoric uncertainty, which reflects randomness or noise in the dynamics of the world, and 2. epistemic uncertainty, which reflects the bounded knowledge of the agent due to model limitations and finite amount of information/data the agent has acquired about the world. These two types of uncertainty carry fundamentally different implications for the evaluation of performance and the level of risk or trust. Yet these aleatoric and epistemic uncertainties are generally confounded as standard and even distributional RL is agnostic to this difference. Here we propose how a distributional approach (UA-DQN) can be recast to render uncertainties by decomposing the net effects of each uncertainty. We demonstrate the operation of this method in grid world examples to build intuition and then show a proof of concept application for an RL agent operating as a clinical decision support system in critical care
翻訳日:2021-09-17 14:00:57 公開日:2021-09-16
# Deep Algorithmic Question Answering: アルゴリズム推論のための合成ハイブリッドAIを目指して

Deep Algorithmic Question Answering: Towards a Compositionally Hybrid AI for Algorithmic Reasoning ( http://arxiv.org/abs/2109.08006v1 )

ライセンス: Link先を確認
Kwwabena Nuamah(参考訳) 人工知能(AI)の重要な側面は、その正しさを検査し検証できるステップバイステップの「アルゴリズム」的な推論能力である。 これは質問応答(QA)の領域において特に重要である。 QAにおけるアルゴリズム推論の課題は、ディープニューラルネットワークを含むシンボル的およびサブシンボル的手法のハイブリッド利用を特徴とする、AIに対する"システム"アプローチに効果的に取り組むことができる、と我々は主張する。 さらに,エンド・ツー・エンドのトレーニングパイプラインを持つニューラルネットワークモデルは,画像分類や言語モデリングといった狭義のアプリケーションではうまく機能するが,タスクが複数の領域にまたがる場合には,それ自体ではアルゴリズム推論をうまく実行できないと主張する。 我々は、いくつかの注目すべき例外を議論し、QA問題が他の知能要求タスクを含むように拡張されたときに、それらがまだ制限されていることを指摘した。 しかし、ディープラーニングと機械学習全般は、推論プロセスの構成要素として重要な役割を果たす。 このようなaiシステムが持つべき解釈性、一般化性、頑健性という3つの望ましい性質に基づいて、qa、深層アルゴリズム的質問応答(daqa)のアルゴリズム推論のアプローチを提案し、ハイブリッドaiと合成aiの組み合わせで最も達成されると結論づける。

An important aspect of artificial intelligence (AI) is the ability to reason in a step-by-step "algorithmic" manner that can be inspected and verified for its correctness. This is especially important in the domain of question answering (QA). We argue that the challenge of algorithmic reasoning in QA can be effectively tackled with a "systems" approach to AI which features a hybrid use of symbolic and sub-symbolic methods including deep neural networks. Additionally, we argue that while neural network models with end-to-end training pipelines perform well in narrow applications such as image classification and language modelling, they cannot, on their own, successfully perform algorithmic reasoning, especially if the task spans multiple domains. We discuss a few notable exceptions and point out how they are still limited when the QA problem is widened to include other intelligence-requiri ng tasks. However, deep learning, and machine learning in general, do play important roles as components in the reasoning process. We propose an approach to algorithm reasoning for QA, Deep Algorithmic Question Answering (DAQA), based on three desirable properties: interpretability, generalizability and robustness which such an AI system should possess and conclude that they are best achieved with a combination of hybrid and compositional AI.
翻訳日:2021-09-17 14:00:35 公開日:2021-09-16
# RGBT追跡のための動的核融合ネットワーク

Dynamic Fusion Network for RGBT Tracking ( http://arxiv.org/abs/2109.07662v1 )

ライセンス: Link先を確認
Jingchao Peng, Haitao Zhao, Zhengwei Hu(参考訳) 可視画像と赤外線画像の両方に独自の利点と欠点があるため、RGBTトラッキングはますます注目を集めている。 RGBT追跡の重要な点は、特徴抽出と可視画像と赤外線画像の融合にある。 現在のrgbt追跡手法は、主に個々の特徴(単一のカメラの画像から抽出された特徴)と一般的な特徴(rgbカメラとサーマルカメラから抽出・融合された特徴)の両方に注意を向けるが、個々の特徴の異なるダイナミックな貢献や、登録された画像ペアの異なるシーケンスに共通する特徴にはあまり注意を払わない。 本稿では,各層に2つの非共有畳み込みカーネルを用いて個々の特徴を抽出する,動的フュージョンネットワーク(DFNet)と呼ばれる新しいRGBT追跡手法を提案する。 さらにDFNetは、共通の特徴を抽出するために、各レイヤでコンボリューションカーネルを共有している。 非共有畳み込みカーネルと共有畳み込みカーネルは、異なる画像ペアに応じて適応的に重み付けされ、集計されるので、dfnetは異なるシーケンスに対する異なる貢献を処理できる。 DFNetの速度は28.658 FPSである。 実験の結果,dfnetのマルト添加量が非共有畳み込み核融合法より0.02%増加した場合,精度率 (pr) と成功率 (sr) はそれぞれ88.1%, 71.9%であった。

For both visible and infrared images have their own advantages and disadvantages, RGBT tracking has attracted more and more attention. The key points of RGBT tracking lie in feature extraction and feature fusion of visible and infrared images. Current RGBT tracking methods mostly pay attention to both individual features (features extracted from images of a single camera) and common features (features extracted and fused from an RGB camera and a thermal camera), while pay less attention to the different and dynamic contributions of individual features and common features for different sequences of registered image pairs. This paper proposes a novel RGBT tracking method, called Dynamic Fusion Network (DFNet), which adopts a two-stream structure, in which two non-shared convolution kernels are employed in each layer to extract individual features. Besides, DFNet has shared convolution kernels for each layer to extract common features. Non-shared convolution kernels and shared convolution kernels are adaptively weighted and summed according to different image pairs, so that DFNet can deal with different contributions for different sequences. DFNet has a fast speed, which is 28.658 FPS. The experimental results show that when DFNet only increases the Mult-Adds of 0.02% than the non-shared-convoluti on-kernel-based fusion method, Precision Rate (PR) and Success Rate (SR) reach 88.1% and 71.9% respectively.
翻訳日:2021-09-17 13:59:36 公開日:2021-09-16
# サンプル毎プロトタイプによる少数ショット物体検出

Few-Shot Object Detection by Attending to Per-Sample-Prototype ( http://arxiv.org/abs/2109.07734v1 )

ライセンス: Link先を確認
Hojun Lee, Myunggi Lee, Nojun Kwak(参考訳) 少数のサポートサンプルだけでクエリイメージ内の特定のカテゴリのインスタンスを検出することを目的としている。 これは、教師付き物体検出のための十分な注釈画像を得るよりも少ない労力を要するが、従来の物体検出法に比べてはるかに劣る結果となる。 本稿では,各支援サンプルの特徴を考慮したメタラーニングに基づくアプローチを提案する。 サポートサンプルの情報を単に平均してカテゴリごとに1つのプロトタイプを生成するのではなく、各サポートサンプルを個々のプロトタイプとして扱うことにより、サポートサンプルの情報をうまく利用することができる。 具体的には,問合せを集約する2種類の注意機構と,特徴マップのサポートについて紹介する。 まず,支援サンプル間の共有情報を注意を通して抽出し,少数サンプルの情報を洗練することである。 次に、各サポートサンプルをクラスコードとして使用して、各サポート機能とクエリ機能との類似性を比較する。 提案手法は従来の手法と相補的であり,さらなる改良のためにプラグ・アンド・プレイが容易である。 本手法をPASCAL VOCおよびCOCOベンチマークで評価し,本手法の有効性を検証した。 特に,支援データに多様性がある場合に,本手法の利点を最大化する。

Few-shot object detection aims to detect instances of specific categories in a query image with only a handful of support samples. Although this takes less effort than obtaining enough annotated images for supervised object detection, it results in a far inferior performance compared to the conventional object detection methods. In this paper, we propose a meta-learning-based approach that considers the unique characteristics of each support sample. Rather than simply averaging the information of the support samples to generate a single prototype per category, our method can better utilize the information of each support sample by treating each support sample as an individual prototype. Specifically, we introduce two types of attention mechanisms for aggregating the query and support feature maps. The first is to refine the information of few-shot samples by extracting shared information between the support samples through attention. Second, each support sample is used as a class code to leverage the information by comparing similarities between each support feature and query features. Our proposed method is complementary to the previous methods, making it easy to plug and play for further improvement. We have evaluated our method on PASCAL VOC and COCO benchmarks, and the results verify the effectiveness of our method. In particular, the advantages of our method are maximized when there is more diversity among support data.
翻訳日:2021-09-17 13:59:04 公開日:2021-09-16
# 超微細視分類のためのマスクガイド特徴抽出と強調

Mask-Guided Feature Extraction and Augmentation for Ultra-Fine-Grained Visual Categorization ( http://arxiv.org/abs/2109.07755v1 )

ライセンス: Link先を確認
Zicheng Pan, Xiaohan Yu, Miaohua Zhang, Yongsheng Gao(参考訳) 細粒度視覚分類(FGVC)の問題は近年大きく発展してきたが,超微細度視覚分類(Ultra-FGVC)の問題も検討されている。 FGVCは、同じ種からオブジェクトを分類すること(非常に類似したカテゴリ)を目標とし、Ultra-FGVCは、人間の専門家でさえ視覚的な違いを識別できない超微細な粒度で画像を分類するより難しい問題を目標としている。 Ultra-FGVCの課題は主に2つの側面から生じている: 1つは、Ultra-FGVCがトレーニングサンプルの欠如によって過度に適合する問題を引き起こすこと、もう1つは、画像間のクラス間のばらつきが通常のFGVCタスクよりもはるかに小さく、各クラスにおける識別的特徴の習得が難しいことである。 これらの課題を解決するために,マスク誘導型特徴抽出・特徴拡張手法を提案し,元の特徴マップを付加するために使用される画像の識別・情報領域を抽出する。 提案手法の利点は, 特徴検出抽出モデルでは, トレーニング用境界ボックスを持つ少数の対象領域サンプルしか必要とせず, 高い検出精度で, データセット内の多数の画像に対して, 対象領域を自動的に特定できる点である。 2つの公開データセットと10の最先端ベンチマーク手法の実験結果は、提案手法の有効性を視覚的かつ定量的に一貫して示す。

While the fine-grained visual categorization (FGVC) problems have been greatly developed in the past years, the Ultra-fine-grained visual categorization (Ultra-FGVC) problems have been understudied. FGVC aims at classifying objects from the same species (very similar categories), while the Ultra-FGVC targets at more challenging problems of classifying images at an ultra-fine granularity where even human experts may fail to identify the visual difference. The challenges for Ultra-FGVC mainly comes from two aspects: one is that the Ultra-FGVC often arises overfitting problems due to the lack of training samples; and another lies in that the inter-class variance among images is much smaller than normal FGVC tasks, which makes it difficult to learn discriminative features for each class. To solve these challenges, a mask-guided feature extraction and feature augmentation method is proposed in this paper to extract discriminative and informative regions of images which are then used to augment the original feature map. The advantage of the proposed method is that the feature detection and extraction model only requires a small amount of target region samples with bounding boxes for training, then it can automatically locate the target area for a large number of images in the dataset at a high detection accuracy. Experimental results on two public datasets and ten state-of-the-art benchmark methods consistently demonstrate the effectiveness of the proposed method both visually and quantitatively.
翻訳日:2021-09-17 13:58:44 公開日:2021-09-16
# 自己監督型視覚表現学習のためのDense Semantic Contrast

Dense Semantic Contrast for Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2109.07756v1 )

ライセンス: Link先を確認
Xiaoni Li, Yu Zhou, Yifei Zhang, Aoting Zhang, Wei Wang, Ning Jiang, Haiying Wu, Weiping Wang(参考訳) 視覚前訓練のための自己教師付き表現学習は、サンプル(インスタンスまたはピクセル)の識別と、例のセマンティックス発見で顕著な成功を収めた一方、事前訓練されたモデルと下流の高密度予測タスクの間には、無視できないギャップがある。 具体的には、これらの下流タスクはより正確な表現を必要とし、言い換えれば、同じオブジェクトからのピクセルは、以前のメソッドに欠けている共有セマンティックカテゴリに属しなければならない。 本稿では,これらの課題を満たすために,意味圏決定境界を密度の高いレベルでモデル化するためのDense Semantic Contrast(DSC)を提案する。 さらに,多粒度表現学習のためのクロスイメージ・セマンティックコントラスト学習フレームワークを提案する。 特に,異なる視点から画素間の関係を抽出し,データセットの意味的構造を明らかにする。 画像内関係モデリングでは,複数の視点から画素近傍を探索する。 そして、画像間関係において、同じセマンティッククラスからのピクセル表現を1つのミニバッチ内の異なるクラスからの表現とよりよく似ているように強制する。 実験の結果,dscモデルは,オブジェクト検出やセマンティクスセグメンテーション,インスタンスセグメンテーションなど,下流の密集した予測タスクに移行する場合,最先端の手法よりも優れていることがわかった。 コードは利用可能になる。

Self-supervised representation learning for visual pre-training has achieved remarkable success with sample (instance or pixel) discrimination and semantics discovery of instance, whereas there still exists a non-negligible gap between pre-trained model and downstream dense prediction tasks. Concretely, these downstream tasks require more accurate representation, in other words, the pixels from the same object must belong to a shared semantic category, which is lacking in the previous methods. In this work, we present Dense Semantic Contrast (DSC) for modeling semantic category decision boundaries at a dense level to meet the requirement of these tasks. Furthermore, we propose a dense cross-image semantic contrastive learning framework for multi-granularity representation learning. Specially, we explicitly explore the semantic structure of the dataset by mining relations among pixels from different perspectives. For intra-image relation modeling, we discover pixel neighbors from multiple views. And for inter-image relations, we enforce pixel representation from the same semantic class to be more similar than the representation from different classes in one mini-batch. Experimental results show that our DSC model outperforms state-of-the-art methods when transferring to downstream dense prediction tasks, including object detection, semantic segmentation, and instance segmentation. Code will be made available.
翻訳日:2021-09-17 13:58:16 公開日:2021-09-16
# 意味セグメンテーションのための文脈認識パディング

Context-aware Padding for Semantic Segmentation ( http://arxiv.org/abs/2109.07854v1 )

ライセンス: Link先を確認
Yu-Hui Huang, Marc Proesmans, Luc Van Gool(参考訳) ゼロパディングは畳み込みニューラルネットワークにおいて、特徴マップのサイズが速すぎないように広く使われている。 しかし、国境の統計を妨害していると主張されている。 代替として、画像を拡張するためのコンテキスト認識(CA)パディング手法を提案する。 画像外挿問題としてパディング問題を再構成し,意味的セグメンテーションタスクに与える影響を解説する。 resnetベースのセグメンテーションモデルは、コンテキストアウェアパディングを使用して、従来の都市景観のゼロパディングやdeepglobe衛星画像チャレンジのデータセットよりも高い平均交点オーバー結合を達成する。 さらに、私たちのパディングは、トレーニングやテスト中に目立ったオーバーヘッドをもたらしません。

Zero padding is widely used in convolutional neural networks to prevent the size of feature maps diminishing too fast. However, it has been claimed to disturb the statistics at the border. As an alternative, we propose a context-aware (CA) padding approach to extend the image. We reformulate the padding problem as an image extrapolation problem and illustrate the effects on the semantic segmentation task. Using context-aware padding, the ResNet-based segmentation model achieves higher mean Intersection-Over-Un ion than the traditional zero padding on the Cityscapes and the dataset of DeepGlobe satellite imaging challenge. Furthermore, our padding does not bring noticeable overhead during training and testing.
翻訳日:2021-09-17 13:57:53 公開日:2021-09-16
# 乳癌の病理組織像における術前診断システム

A Medical Pre-Diagnosis System for Histopathological Image of Breast Cancer ( http://arxiv.org/abs/2109.07878v1 )

ライセンス: Link先を確認
Shiyu Fan, Runhai Xu, Zhaohang Yan(参考訳) 本稿では, 自動コミュニケーションと乳がんの病理画像認識を実現する新しい知的医療診断システムを構築した。 このシステムには、m-chatbotと呼ばれる事前学習されたチャットボットと、上位レイヤのアクティベーション機能をacon-cに置き換えた efficientnetv2-s のニューラルネットモデルが含まれる。 情報検索機構を用いて、M-Chatbotは患者に乳房の病理像をEfficientNetV2-SAネットワークに送信するように指示し、転送学習によって訓練された分類器は診断結果を返す。 当社のチャットボットの性能と,extrinsic metricsとbreakhis datasetの分類をそれぞれ検証した。 M-Chatbotのタスク完了率は63.33\%に達した。 BreaKHisデータセットでは、EfficientNetV2-SAネットワークの最高精度は84.71\%に達した。 これらの実験結果から,本モデルにより画像認識の精度が向上し,新しい知能診断システムが乳がんの自動診断に成功し,効果的であることが示唆された。

This paper constructs a novel intelligent medical diagnosis system, which can realize automatic communication and breast cancer pathological image recognition. This system contains two main parts, including a pre-training chatbot called M-Chatbot and an improved neural network model of EfficientNetV2-S named EfficientNetV2-SA, in which the activation function in top layers is replaced by ACON-C. Using information retrieval mechanism, M-Chatbot instructs patients to send breast pathological image to EfficientNetV2-SA network, and then the classifier trained by transfer learning will return the diagnosis results. We verify the performance of our chatbot and classification on the extrinsic metrics and BreaKHis dataset, respectively. The task completion rate of M-Chatbot reached 63.33\%. For the BreaKHis dataset, the highest accuracy of EfficientNetV2-SA network have achieved 84.71\%. All these experimental results illustrate that the proposed model can improve the accuracy performance of image recognition and our new intelligent medical diagnosis system is successful and efficient in providing automatic diagnosis of breast cancer.
翻訳日:2021-09-17 13:57:40 公開日:2021-09-16
# 車両再識別のための不均一な関係補間

Heterogeneous Relational Complement for Vehicle Re-identification ( http://arxiv.org/abs/2109.07894v1 )

ライセンス: Link先を確認
Jiajian Zhao, Yifan Zhao, Jia Li, Ke Yan, Yonghong Tian(参考訳) 車両再識別における重要な問題は、この物体をクロスビューカメラからレビューする際に同じ車両の同一性を見つけることである。 本稿では,ロバストな特徴表現の構築とカメラセンシティブ評価の提案という2つの側面からこの問題を解決することを提案する。 本稿では、まず、地域特化特徴とクロスレベル特徴を元のハイレベル出力の補完として組み込むことにより、新しい異種関係補完ネットワーク(HRCN)を提案する。 分布の相違と意味的ミスアライメントを考慮すると、これらの不均一な特徴を1つの高次元空間に埋め込むグラフベースの関係モジュールを提案する。 一方,既存の測定方法(CMC,AP)におけるクロスカメラ評価の欠如を考慮し,位置感度とクロスカメラ一般化法を導入して評価を改善するためのクロスカメラ一般化尺度(CGM)を提案する。 さらに,提案したCGMによる既存モデルの新たなベンチマークを構築し,提案したHRCNモデルがVeRi-776, VehicleID, VERI-Wildの新たな最先端を実現することを示す。

The crucial problem in vehicle re-identification is to find the same vehicle identity when reviewing this object from cross-view cameras, which sets a higher demand for learning viewpoint-invariant representations. In this paper, we propose to solve this problem from two aspects: constructing robust feature representations and proposing camera-sensitive evaluations. We first propose a novel Heterogeneous Relational Complement Network (HRCN) by incorporating region-specific features and cross-level features as complements for the original high-level output. Considering the distributional differences and semantic misalignment, we propose graph-based relation modules to embed these heterogeneous features into one unified high-dimensional space. On the other hand, considering the deficiencies of cross-camera evaluations in existing measures (i.e., CMC and AP), we then propose a Cross-camera Generalization Measure (CGM) to improve the evaluations by introducing position-sensitivity and cross-camera generalization penalties. We further construct a new benchmark of existing models with our proposed CGM and experimental results reveal that our proposed HRCN model achieves new state-of-the-art in VeRi-776, VehicleID, and VERI-Wild.
翻訳日:2021-09-17 13:57:22 公開日:2021-09-16
# M2RNet:RGB次元高次物体検出のためのマルチモーダル・マルチスケール精製ネットワーク

M2RNet: Multi-modal and Multi-scale Refined Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2109.07922v1 )

ライセンス: Link先を確認
Xian Fang and Jinchao Zhu and Ruixun Zhang and Xiuli Shao and Hongpeng Wang(参考訳) 正当性物体検出はコンピュータビジョンの基本的なトピックである。 従来のRGB-Dに基づく手法では,マルチモーダルな特徴融合の不整合や,マルチスケールな特徴集約の不整合に悩まされることが多い。 これら2つのジレンマに対処するために,新しいマルチモーダル・マルチスケール改良ネットワーク (M2RNet) を提案する。 このネットワークには3つの重要な要素がある。 nested dual attention module (ndam) は rgb と depth flow の複合機能を明示的に活用している。 隣り合うインタラクティブアグリゲーションモジュール(AIAM)は、ハイレベル、ミドルレベル、ローレベルの隣り合う特徴を徐々に統合する。 ジョイントハイブリッド最適化損失(jhol)は、予測に顕著な概要を持つ。 広範な実験により,本手法は他の最先端手法よりも優れていることが証明された。

Salient object detection is a fundamental topic in computer vision. Previous methods based on RGB-D often suffer from the incompatibility of multi-modal feature fusion and the insufficiency of multi-scale feature aggregation. To tackle these two dilemmas, we propose a novel multi-modal and multi-scale refined network (M2RNet). Three essential components are presented in this network. The nested dual attention module (NDAM) explicitly exploits the combined features of RGB and depth flows. The adjacent interactive aggregation module (AIAM) gradually integrates the neighbor features of high, middle and low levels. The joint hybrid optimization loss (JHOL) makes the predictions have a prominent outline. Extensive experiments demonstrate that our method outperforms other state-of-the-art approaches.
翻訳日:2021-09-17 13:57:03 公開日:2021-09-16
# 汎用顔提示検出のための学習可能な多レベル周波数分解と階層的注意機構

Learnable Multi-level Frequency Decomposition and Hierarchical Attention Mechanism for Generalized Face Presentation Attack Detection ( http://arxiv.org/abs/2109.07950v1 )

ライセンス: Link先を確認
Meiling Fang and Naser Damer and Florian Kirchbuchner and Arjan Kuijper(参考訳) 顔認識システムが日常的に普及するにつれて,顔提示アタック検出(pad)が注目され,顔認識システムのセキュリティにおいて重要な役割を担っている。 データセット内評価において手作りおよびディープラーニングベースの手法によって達成された優れたパフォーマンスにもかかわらず、目に見えないシナリオを扱う場合のパフォーマンスは低下する。 本研究では,両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。 1つのストリームは4つの学習可能な周波数フィルタを適用して周波数領域の特徴を学習する。 他のストリームはRGB画像を利用して周波数領域の特徴を補完する。 さらに、CNNの異なる層における深い特徴の性質を考慮し、2つのストリームからの情報を異なる段階で結合する階層的アテンションモジュールの統合を提案する。 提案手法はデータセット内およびデータセット間設定において評価され,提案手法はドメイン適応/シフト問題に特化して設計された手法を含む最先端技術と比較して,ほとんどの実験装置における一般化可能性を高めることを示す。 提案手法は, 学習可能な周波数分解, 階層的注意モジュール設計, 使用済み損失関数を含む段階的アブレーション研究において, 提案手法の設計を成功に導いた。 トレーニングコードと事前訓練されたモデルが公開されている。

With the increased deployment of face recognition systems in our daily lives, face presentation attack detection (PAD) is attracting a lot of attention and playing a key role in securing face recognition systems. Despite the great performance achieved by the hand-crafted and deep learning based methods in intra-dataset evaluations, the performance drops when dealing with unseen scenarios. In this work, we propose a dual-stream convolution neural networks (CNNs) framework. One stream adapts four learnable frequency filters to learn features in the frequency domain, which are less influenced variations in sensors/illumination s. The other stream leverage the RGB images to complement the features of the frequency domain. Moreover, we propose a hierarchical attention module integration to join the information from the two streams at different stages by considering the nature of deep features in different layers of the CNN. The proposed method is evaluated in the intra-dataset and cross-dataset setups and the results demonstrates that our proposed approach enhances the generalizability in most experimental setups in comparison to state-of-the-art, including the methods designed explicitly for domain adaption/shift problem. We successfully prove the design of our proposed PAD solution in a step-wise ablation study that involves our proposed learnable frequency decomposition, our hierarchical attention module design, and the used loss function. Training codes and pre-trained models are publicly released.
翻訳日:2021-09-17 13:56:51 公開日:2021-09-16
# Tencent Multi-modal Ads Video Understanding Challengeの概要

Overview of Tencent Multi-modal Ads Video Understanding Challenge ( http://arxiv.org/abs/2109.07951v1 )

ライセンス: Link先を確認
Zhenzhi Wang, Liyu Wu, Zhimin Li, Jiangfeng Xiong, Qinglin Lu(参考訳) マルチモーダル広告ビデオ理解チャレンジは、広告ビデオを包括的に理解するための最初の大きな挑戦だ。 課題は,時間次元の映像構造化とマルチモーダルビデオ分類の2つの課題である。 参加者は、細粒度および広告関連カテゴリ階層に基づいて、各シーンのシーン境界とマルチラベルカテゴリの両方を正確に予測するよう求める。 そこで本課題は,広告ドメイン,マルチモーダル情報,時間的セグメンテーション,マルチラベル分類の4つの特徴を持つ。 広告の理解の基盤を前進させ、ビデオレコメンデーションのような多くの広告アプリケーションに大きな影響を与えるだろう。 本稿では,広告ビデオの背景,タスクとデータセットの詳細な説明,評価プロトコル,提案するベースラインなど,本課題の概要について述べる。 ベースラインの重要なコンポーネントを補足することで、このタスクの主な課題を明らかにし、この分野の今後の研究に有用なガイダンスを提供したいと思っています。 本稿では,課題概要の拡張版について述べる。 データセットはhttps://algo.qq.com/ .comで公開される。

Multi-modal Ads Video Understanding Challenge is the first grand challenge aiming to comprehensively understand ads videos. Our challenge includes two tasks: video structuring in the temporal dimension and multi-modal video classification. It asks the participants to accurately predict both the scene boundaries and the multi-label categories of each scene based on a fine-grained and ads-related category hierarchy. Therefore, our task has four distinguishing features from previous ones: ads domain, multi-modal information, temporal segmentation, and multi-label classification. It will advance the foundation of ads video understanding and have a significant impact on many ads applications like video recommendation. This paper presents an overview of our challenge, including the background of ads videos, an elaborate description of task and dataset, evaluation protocol, and our proposed baseline. By ablating the key components of our baseline, we would like to reveal the main challenges of this task and provide useful guidance for future research of this area. In this paper, we give an extended version of our challenge overview. The dataset will be publicly available at https://algo.qq.com/ .
翻訳日:2021-09-17 13:56:28 公開日:2021-09-16
# パーセプチュアル・アドバーサリーパッチを用いた群衆数計測

Harnessing Perceptual Adversarial Patches for Crowd Counting ( http://arxiv.org/abs/2109.07986v1 )

ライセンス: Link先を確認
Shunchang Liu, Jiakai Wang, Aishan Liu, Yingwei Li, Yijie Gao, Xianglong Liu, Dacheng Tao(参考訳) 群衆カウントは、安全クリティカルなシーンの人々の数を推定するのに非常に重要であり、物理的世界の敵の例(例えば、敵のパッチ)に弱いことが示されている。 敵対的な例は有害であるが、モデルのロバスト性の評価と理解を深めるためにも有用である。 しかし、群衆カウントシナリオにおける既存の逆例生成手法では、異なるブラックボックスモデル間での強い伝達性が欠如している。 本稿では,モデルスケールの知覚と位置知覚の両方を活用することで,モデル間の共有知覚特徴を学習するための知覚逆パッチ(PAP)生成フレームワークを提案する。 具体的には、PAPは異なる補間と密度の注意を生かして、トレーニング中のモデル間の不変性を学ぶ。 さらに私たちは,クロスデータセットや複雑なバックグラウンドなど,いくつかの課題を軽減すべく,バニラモデルのパフォーマンス向上にも,敵のパッチを活用できることに驚いたのです。 デジタルと物理の両方のシナリオで広範な実験を行い,papの有効性を実証した。

Crowd counting, which is significantly important for estimating the number of people in safety-critical scenes, has been shown to be vulnerable to adversarial examples in the physical world (e.g., adversarial patches). Though harmful, adversarial examples are also valuable for assessing and better understanding model robustness. However, existing adversarial example generation methods in crowd counting scenarios lack strong transferability among different black-box models. Motivated by the fact that transferability is positively correlated to the model-invariant characteristics, this paper proposes the Perceptual Adversarial Patch (PAP) generation framework to learn the shared perceptual features between models by exploiting both the model scale perception and position perception. Specifically, PAP exploits differentiable interpolation and density attention to help learn the invariance between models during training, leading to better transferability. In addition, we surprisingly found that our adversarial patches could also be utilized to benefit the performance of vanilla models for alleviating several challenges including cross datasets and complex backgrounds. Extensive experiments under both digital and physical world scenarios demonstrate the effectiveness of our PAP.
翻訳日:2021-09-17 13:56:13 公開日:2021-09-16
# スプリット秒における回転平均化:周期グラフに対する原始双対法と閉形式

Rotation Averaging in a Split Second: A Primal-Dual Method and a Closed-Form for Cycle Graphs ( http://arxiv.org/abs/2109.08046v1 )

ライセンス: Link先を確認
Gabriel Moreira, Manuel Marques, Jo\~ao Paulo Costeira(参考訳) 幾何再構成の土台である回転平均化は絶対回転の集合を求め、それらの間の測定された相対方向の集合を最適に説明する。 バンドル調整と構造から運動への積分部分であるにもかかわらず、平均回転は非凸かつ高次元の最適化問題である。 本稿では,最大確率推定の観点からこの問題に対処し,2次元の貢献を行う。 まず,新しい初期化フリーな原始双対法を考案し,大域的最適に収束する経験則を示した。 さらに、サイクルグラフにおける回転平均化のための最初の最適閉形式解であり、スペクトルグラフ理論においてこの結果を文脈化する。 提案手法は精度と性能において有意な利益を得た。

A cornerstone of geometric reconstruction, rotation averaging seeks the set of absolute rotations that optimally explains a set of measured relative orientations between them. In spite of being an integral part of bundle adjustment and structure-from-motio n, averaging rotations is both a non-convex and high-dimensional optimization problem. In this paper, we address it from a maximum likelihood estimation standpoint and make a twofold contribution. Firstly, we set forth a novel initialization-free primal-dual method which we show empirically to converge to the global optimum. Further, we derive what is to our knowledge, the first optimal closed-form solution for rotation averaging in cycle graphs and contextualize this result within spectral graph theory. Our proposed methods achieve a significant gain both in precision and performance.
翻訳日:2021-09-17 13:55:35 公開日:2021-09-16
# 外部知識は説明可能な自然言語推論に役立つか? 人格評価と自動評価

Does External Knowledge Help Explainable Natural Language Inference? Automatic Evaluation vs. Human Ratings ( http://arxiv.org/abs/2109.07833v1 )

ライセンス: Link先を確認
Hendrik Schuff, Hsiu-Yu Yang, Heike Adel, Ngoc Thang Vu(参考訳) 自然言語推論(NLI)は、常識知識を学習し応用するためのモデルを必要とする。 これらの推論能力は、ラベル予測に加えて自然言語説明を生成する説明可能なnliシステムにおいて特に重要である。 外部知識の統合はNLIシステムを改善することが示されており、その説明能力も改善できるか検討する。 そこで本研究では,外部知識の異なるソースを調査し,ドメイン内データおよび細粒度推論能力を評価する特別転送データセット上でのモデルの性能評価を行う。 例えば、言語モデルに記憶されている暗黙的な知識は、数や否定の推論を妨げる可能性がある。 最後に,これまでで最大かつ最もきめ細かいNLIクラウドソーシング研究を行っている。 自動演奏スコアの大きな違いは、ラベル、説明、常識、文法の正確性といった人間の評価を反映しないことが明らかになった。

Natural language inference (NLI) requires models to learn and apply commonsense knowledge. These reasoning abilities are particularly important for explainable NLI systems that generate a natural language explanation in addition to their label prediction. The integration of external knowledge has been shown to improve NLI systems, here we investigate whether it can also improve their explanation capabilities. For this, we investigate different sources of external knowledge and evaluate the performance of our models on in-domain data as well as on special transfer datasets that are designed to assess fine-grained reasoning capabilities. We find that different sources of knowledge have a different effect on reasoning abilities, for example, implicit knowledge stored in language models can hinder reasoning on numbers and negations. Finally, we conduct the largest and most fine-grained explainable NLI crowdsourcing study to date. It reveals that even large differences in automatic performance scores do neither reflect in human ratings of label, explanation, commonsense nor grammar correctness.
翻訳日:2021-09-17 13:54:57 公開日:2021-09-16
# Phrase RetrievalもPhrase Retrievalを学習

Phrase Retrieval Learns Passage Retrieval, Too ( http://arxiv.org/abs/2109.08133v1 )

ライセンス: Link先を確認
Jinhyuk Lee, Alexander Wettig, Danqi Chen(参考訳) 密集した検索手法は, nlp問題の範囲において, スパース検索法に対して大きな期待を寄せている。 中でも,質問応答やスロット充填タスクの出力として句を直接用いることができるため,きめ細かな検索単位である密集句検索が魅力的である。 本研究は,句の検索が自然により大きなテキストブロックの検索を伴い,句検索が文節や文書を含む粗い検索の基盤となるか検討する。 まず,再学習を伴わない高密度なフレーズ検索システムは,経路検索器と比較して,経路検索精度(+3~5%)が向上し,また,経路の少ないエンドツーエンドQA性能も向上することを示した。 次に,句レベルの監督が文節レベルの監督よりも細粒度の詳細学習に役立つ理由を解釈し,また,エンティティリンクや知識接頭辞といった文書検索における競合性能を達成するために句検索が改善されることを示す。 最後に,単語のフィルタリングとベクトル量子化によってインデックスのサイズを4~10倍に減らし,高密度な句検索を多粒度検索における実用的で汎用的な解とすることを示す。

Dense retrieval methods have shown great promise over sparse retrieval methods in a range of NLP problems. Among them, dense phrase retrieval-the most fine-grained retrieval unit-is appealing because phrases can be directly used as the output for question answering and slot filling tasks. In this work, we follow the intuition that retrieving phrases naturally entails retrieving larger text blocks and study whether phrase retrieval can serve as the basis for coarse-level retrieval including passages and documents. We first observe that a dense phrase-retrieval system, without any retraining, already achieves better passage retrieval accuracy (+3-5% in top-5 accuracy) compared to passage retrievers, which also helps achieve superior end-to-end QA performance with fewer passages. Then, we provide an interpretation for why phrase-level supervision helps learn better fine-grained entailment compared to passage-level supervision, and also show that phrase retrieval can be improved to achieve competitive performance in document-retrieval tasks such as entity linking and knowledge-grounded dialogue. Finally, we demonstrate how phrase filtering and vector quantization can reduce the size of our index by 4-10x, making dense phrase retrieval a practical and versatile solution in multi-granularity retrieval.
翻訳日:2021-09-17 13:54:43 公開日:2021-09-16
# 計算薬物再配置のためのニューラルメトリック因子分解

The Neural Metric Factorization for Computational Drug Repositioning ( http://arxiv.org/abs/2109.07690v1 )

ライセンス: Link先を確認
Xinxing Yang and Genke Yang(参考訳) 計算的な薬物再配置は、市販薬の新しい治療疾患を発見することを目的としており、従来の医薬品開発に比べて低コスト、短期間の開発サイクル、高制御性という利点がある。 行列因数分解モデルは, 実装が容易で, スケーラビリティに優れ, 計算薬品再配置の主流となる技術となっている。 しかし、マトリックス因子化モデルは内積操作を用いて、表現能力に乏しい薬物と疾患の関連を表現する。 さらに、薬物や疾患の類似性の程度は、それぞれの潜伏因子ベクターに含められず、薬物発見の常識を満たさない。 そこで本研究では, 計算薬物再配置のためのニューラルメトリック因子化モデルを提案する。 本稿では, 薬物・疾患の潜伏因子ベクトルを高次元座標系における点として, 内製品手術の欠点を補うために, 薬物・疾患の関連を表わすユークリッド距離の一般化を提案する。 さらに、潜伏因子ベクターの符号化空間に複数の薬物及び疾患指標情報を埋め込むことにより、類似した薬物又は疾患の潜伏因子ベクターを近づける。 最後に、上記の改善点の有効性とNMFモデルの優位性を示すために、2つの実データに対して広範囲に解析実験を行う。

Computational drug repositioning aims to discover new therapeutic diseases for marketed drugs and has the advantages of low cost, short development cycle, and high controllability compared to traditional drug development. The matrix factorization model has become a mainstream cornerstone technique for computational drug repositioning due to its ease of implementation and excellent scalability. However, the matrix factorization model uses the inner product operation to represent the association between drugs and diseases, which is lacking in expressive ability. Moreover, the degree of similarity of drugs or diseases could not be implied on their respective latent factor vectors, which is not satisfy the common sense of drug discovery. Therefore, a neural metric factorization model for computational drug repositioning is proposed in this work. We novelly consider the latent factor vector of drugs and diseases as a point in a high-dimensional coordinate system and propose a generalized Euclidean distance to represent the association between drugs and diseases to compensate for the shortcomings of the inner product operation. Furthermore, by embedding multiple drug and disease metrics information into the encoding space of the latent factor vector, the latent factor vectors of similar drugs or diseases are made closer. Finally, we conduct wide analysis experiments on two real datasets to demonstrate the effectiveness of the above improvement points and the superiority of the NMF model.
翻訳日:2021-09-17 13:53:48 公開日:2021-09-16
# 有限可塑性に対する射影型モデル次数還元のニューラルネットワーク加速:RCVへの応用

Neural-network acceleration of projection-based model-order-reductio n for finite plasticity: Application to RVEs ( http://arxiv.org/abs/2109.07747v1 )

ライセンス: Link先を確認
S. Vijayaraghavan, L. Wu, L. Noels, S. P. A. Bordas, S. Natarajan, L. A. A. Beex(参考訳) 従来のプロジェクションに基づくモデル次数還元と比較して、そのニューラルネットワークの加速はオンラインシミュレーションが方程式なしという利点を持つ。 したがって、剛性行列を構築する必要はなく、応力更新はインクリメント毎に1回だけ計算する必要がある。 本研究では,rveの弾塑性力学的挙動の投影に基づくモデル次数還元を高速化するために,リカレントニューラルネットワークを開発した。 単にマクロ的な変形(パス)とマクロ的な応力の関係をエミュレートするニューラルネットワークとは対照的に、プロジェクションベースのモデル順序推論のニューラルネットワークアクセラレーションは、この情報をインクリメント毎に一度計算する価格で全てのミクロ構造情報を保存する。

Compared to conventional projection-based model-order-reductio n, its neural-network acceleration has the advantage that the online simulations are equation-free, meaning that no system of equations needs to be solved iteratively. Consequently, no stiffness matrix needs to be constructed and the stress update needs to be computed only once per increment. In this contribution, a recurrent neural network is developed to accelerate a projection-based model-order-reductio n of the elastoplastic mechanical behaviour of an RVE. In contrast to a neural network that merely emulates the relation between the macroscopic deformation (path) and the macroscopic stress, the neural network acceleration of projection-based model-order-reductio n preserves all microstructural information, at the price of computing this information once per increment.
翻訳日:2021-09-17 13:53:25 公開日:2021-09-16
# 脳波に基づく睡眠ステージングのための自己教師付きコントラスト学習

Self-supervised Contrastive Learning for EEG-based Sleep Staging ( http://arxiv.org/abs/2109.07839v1 )

ライセンス: Link先を確認
Xue Jiang, Jianhui Zhao, Bo Du, Zhiyong Yuan(参考訳) EEG信号は通常取得は簡単であるが、ラベル付けは高価である。 教師付き学習は脳波信号解析の分野で広く用いられているが、その一般化性能は注釈付きデータ量によって制限されている。 コンピュータビジョン(CV)と自然言語処理(NLP)における一般的な学習パラダイムである自己教師あり学習(SSL)は、教師あり学習のデータ不足を補うためにラベルのないデータを使用することができる。 本稿では,睡眠段階分類のための脳波信号の自己教師付きコントラスト学習法を提案する。 トレーニング中,脳波信号から生成された適切な変換ペアに一致するように,ネットワークのプリテキストタスクを設定した。 このようにして、ネットワークは脳波信号の一般的な特徴を学習することで表現能力を向上させる。 ネットワークの堅牢性はまた、多様なデータを扱う際にも改善され、データの変更から一定の特徴を抽出する。 詳しくは、ネットワークのパフォーマンスは、自己教師あり学習のトレーニングプロセスで使用される、変換の選択とラベルなしデータの量に依存する。 スリープ・edfデータセットを用いた実証評価では, 睡眠時ステージング(88.16%の精度と81.96%のF1スコア)において, 脳波信号解析におけるSSL戦略の有効性が検証された。 すべてのコードはオンラインで公開されている。

EEG signals are usually simple to obtain but expensive to label. Although supervised learning has been widely used in the field of EEG signal analysis, its generalization performance is limited by the amount of annotated data. Self-supervised learning (SSL), as a popular learning paradigm in computer vision (CV) and natural language processing (NLP), can employ unlabeled data to make up for the data shortage of supervised learning. In this paper, we propose a self-supervised contrastive learning method of EEG signals for sleep stage classification. During the training process, we set up a pretext task for the network in order to match the right transformation pairs generated from EEG signals. In this way, the network improves the representation ability by learning the general features of EEG signals. The robustness of the network also gets improved in dealing with diverse data, that is, extracting constant features from changing data. In detail, the network's performance depends on the choice of transformations and the amount of unlabeled data used in the training process of self-supervised learning. Empirical evaluations on the Sleep-edf dataset demonstrate the competitive performance of our method on sleep staging (88.16% accuracy and 81.96% F1 score) and verify the effectiveness of SSL strategy for EEG signal analysis in limited labeled data regimes. All codes are provided publicly online.
翻訳日:2021-09-17 13:53:09 公開日:2021-09-16
# OMPQ:直交混合精密量子化

OMPQ: Orthogonal Mixed Precision Quantization ( http://arxiv.org/abs/2109.07865v1 )

ライセンス: Link先を確認
Yuexiao Ma, Taisong Jin, Xiawu Zheng, Yan Wang, Huixia Li, Guannan Jiang, Wei Zhang, Rongrong Ji(参考訳) ディープニューラルネットワークの複雑さとハードウェア能力のギャップを埋めるために、ネットワーク量子化はますます研究の注目を集めている。 混合精度量子化の最新のトレンドは、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の潜在能力を解き放つことである。 しかし、これはまた難しい整数プログラミングの定式化をもたらし、多くの既存のアプローチは様々な緩和にもかかわらず非常に時間を要する探索プロセスを使用するよう強制する。 元の整数プログラミングの問題を解決する代わりに、ネットワーク直交性の概念であるプロキシメトリックを最適化することを提案する。 このアプローチは、量子化精度の妥協がほとんどなく、検索時間と必要なデータ量を桁違いに削減する。 具体的には、トレーニング後の量子化において、mobilenetv2で71.27%のtop-1精度を達成し、検索に9秒、imagenet上での微調整に1.4gpu時間しかかからない。 私たちのコードはhttps://github.com/M AC-AutoML/OMPQで無効です。

To bridge the ever increasing gap between deep neural networks' complexity and hardware capability, network quantization has attracted more and more research attention. The latest trend of mixed precision quantization takes advantage of hardware's multiple bit-width arithmetic operations to unleash the full potential of network quantization. However, this also results in a difficult integer programming formulation, and forces most existing approaches to use an extremely time-consuming search process even with various relaxations. Instead of solving a problem of the original integer programming, we propose to optimize a proxy metric, the concept of network orthogonality, which is highly correlated with the loss of the integer programming but also easy to optimize with linear programming. This approach reduces the search time and required data amount by orders of magnitude, with little compromise on quantization accuracy. Specifically, on post-training quantization, we achieve 71.27% Top-1 accuracy on MobileNetV2, which only takes 9 seconds for searching and 1.4 GPU hours for finetuning on ImageNet. Our codes are avaliable at https://github.com/M AC-AutoML/OMPQ.
翻訳日:2021-09-17 13:52:45 公開日:2021-09-16
# 予測符号化による連想記憶

Associative Memories via Predictive Coding ( http://arxiv.org/abs/2109.08063v1 )

ライセンス: Link先を確認
Tommaso Salvatori, Yuhang Song, Yujian Hong, Simon Frieder, Lei Sha, Zhenghua Xu, Rafal Bogacz, Thomas Lukasiewicz(参考訳) 脳内の連想記憶は感覚ニューロンによって登録された活動パターンを受信し、保存し、必要な時にそれらを取得することができる。 人間の知性において重要であることから、連想記憶の計算モデルが数十年にわたって開発されてきた。 これには、データポイントの保存とストアされたデータポイントの$s$の取得を可能にする自動連想メモリと、マルチモーダルデータの保存とリコールが可能なヘテロ連想メモリが含まれている。 本稿では,知覚ニューロンを介して外部刺激を受ける階層的生成ネットワークに基づいて,連想記憶を実現する新しい神経モデルを提案する。 このモデルは、皮質における情報処理にインスパイアされたエラーベースの学習アルゴリズムである予測符号化を用いて訓練される。 このモデルの能力をテストするために,破損したデータポイントと不完全なデータポイントの両方から複数の検索実験を行う。 本研究では,バックプロパゲーションにより学習したオートエンコーダや,ホップフィールドネットワークなど,検索精度やロバスト性の高い連想記憶モデルよりも優れていることを示す。 特に,部分的データポイントの完了時には,原画像のごく一部しか表示されていない場合でも,imagenetなどの自然画像データセットに対して驚くほど高い精度で顕著な結果が得られる。 さらに,本手法はマルチモーダルデータを扱うことができ,記述から画像を取り出すことができ,その逆も可能であることを示す。 結論として,本モデルが脳内記憶の学習と検索に有効な枠組みを提供し,記憶指標と生成モデルとして海馬の行動と密接に類似していることを示し,神経科学コミュニティにおけるこの研究の影響について考察した。

Associative memories in the brain receive and store patterns of activity registered by the sensory neurons, and are able to retrieve them when necessary. Due to their importance in human intelligence, computational models of associative memories have been developed for several decades now. They include autoassociative memories, which allow for storing data points and retrieving a stored data point $s$ when provided with a noisy or partial variant of $s$, and heteroassociative memories, able to store and recall multi-modal data. In this paper, we present a novel neural model for realizing associative memories, based on a hierarchical generative network that receives external stimuli via sensory neurons. This model is trained using predictive coding, an error-based learning algorithm inspired by information processing in the cortex. To test the capabilities of this model, we perform multiple retrieval experiments from both corrupted and incomplete data points. In an extensive comparison, we show that this new model outperforms in retrieval accuracy and robustness popular associative memory models, such as autoencoders trained via backpropagation, and modern Hopfield networks. In particular, in completing partial data points, our model achieves remarkable results on natural image datasets, such as ImageNet, with a surprisingly high accuracy, even when only a tiny fraction of pixels of the original images is presented. Furthermore, we show that this method is able to handle multi-modal data, retrieving images from descriptions, and vice versa. We conclude by discussing the possible impact of this work in the neuroscience community, by showing that our model provides a plausible framework to study learning and retrieval of memories in the brain, as it closely mimics the behavior of the hippocampus as a memory index and generative model.
翻訳日:2021-09-17 13:52:26 公開日:2021-09-16
# (参考訳) 進化的軌道発生器を用いた強化学習:四足歩行の一般的なアプローチ [全文訳有]

Reinforcement Learning with Evolutionary Trajectory Generator: A General Approach for Quadrupedal Locomotion ( http://arxiv.org/abs/2109.06409v2 )

ライセンス: CC BY 4.0
Haojie Shi, Bo Zhou, Hongsheng Zeng, Fan Wang, Yueqiang Dong, Jiangyong Li, Kang Wang, Hao Tian, Max Q.-H. Meng(参考訳) 近年、強化学習 (RL) が四足歩行の有望なアプローチとして登場し、熟練型コントローラの設計などの従来の手法では手作業の節約が期待できる。 しかし、四足歩行ロボットの複雑な非線形ダイナミクスと報酬空間のため、特にバランスビームの上を歩くような困難な作業において、RLがスクラッチから効果的な歩行を学習することは依然として困難である。 このような困難を緩和するために,進化的足跡生成器を含む新しいRLベースのアプローチを提案する。 固定軌道生成器を使用する従来の方法とは異なり、ジェネレータは与えられたタスクの出力軌道の形状を継続的に最適化し、ポリシー学習を導くための多様な動作前を提供する。 この方針は、異なる歩行に適合する残留制御信号を出力する強化学習で訓練されている。 次に、軌道生成器とポリシーネットワークを最適化し、トレーニングを安定させ、探索データを共有し、サンプル効率を向上させる。 その結果,本手法は,平均台の上を歩いたり,洞窟をクロールしたりすることで,スクラッチから学習することで,シミュレーション上のさまざまな課題を解決することができる。 提案手法の有効性をさらに検証するため,12-DoF四足歩行ロボットにシミュレーションで学習したコントローラを配置し,効率の良い歩行で難解なシナリオを横断することに成功した。

Recently reinforcement learning (RL) has emerged as a promising approach for quadrupedal locomotion, which can save the manual effort in conventional approaches such as designing skill-specific controllers. However, due to the complex nonlinear dynamics in quadrupedal robots and reward sparsity, it is still difficult for RL to learn effective gaits from scratch, especially in challenging tasks such as walking over the balance beam. To alleviate such difficulty, we propose a novel RL-based approach that contains an evolutionary foot trajectory generator. Unlike prior methods that use a fixed trajectory generator, the generator continually optimizes the shape of the output trajectory for the given task, providing diversified motion priors to guide the policy learning. The policy is trained with reinforcement learning to output residual control signals that fit different gaits. We then optimize the trajectory generator and policy network alternatively to stabilize the training and share the exploratory data to improve sample efficiency. As a result, our approach can solve a range of challenging tasks in simulation by learning from scratch, including walking on a balance beam and crawling through the cave. To further verify the effectiveness of our approach, we deploy the controller learned in the simulation on a 12-DoF quadrupedal robot, and it can successfully traverse challenging scenarios with efficient gaits.
翻訳日:2021-09-17 11:17:32 公開日:2021-09-16
# (参考訳) EfficientBERT: ウォームアップ知識蒸留による多層パーセプトロンの探索 [全文訳有]

EfficientBERT: Progressively Searching Multilayer Perceptron via Warm-up Knowledge Distillation ( http://arxiv.org/abs/2109.07222v2 )

ライセンス: CC BY 4.0
Chenhe Dong, Guangrun Wang, Hang Xu, Jiefeng Peng, Xiaozhe Ren, Xiaodan Liang(参考訳) 事前学習された言語モデルは様々なnlpタスクで顕著な結果を示している。 それにもかかわらず、その大きなサイズと推論速度が遅いため、エッジデバイスにデプロイするのは困難である。 本稿では、BERTにおけるフィードフォワードネットワーク(FFN)の改善は、FFNの計算コストがMHAの2$\sim$3倍であることから、マルチヘッドアテンション(MHA)の改善よりも高い利得が得られるという批判的な洞察を得る。 したがって,よりコンパクトなBERTでは,従来のMHAに注目する作業とは対照的に,効率的なFFNの設計に重点を置いている。 FFNは、BERT最適化に不可欠な多層パーセプトロン(MLP)から構成されるため、さらに高度なMLPに向けて徹底的な探索空間を設計し、効率的なBERTアーキテクチャを探索するための粗大な機構を実行する。 さらに,モデル転送可能性の向上と探索の促進を目的として,探索段階ごとに新しいウォームアップ知識蒸留戦略を採用する。 検索したEfficientBERTは6.9$\times$小さく、4.4$\times$はBERT$\rm_{BASE}$より高速で、GLUEおよびSQuADベンチマーク上での競合性能を持つ。 具体的には、EfficientBERTは、GLUE \emph{test}で平均スコア77.7、MobileBERT$\rm_{TINY}$より0.7、SQuAD v1.1/v2.0 \emph{dev}で85.3/74.5、TinyBERT$_4$でも3.2/2.7に達する。 コードはhttps://github.com/c heneydon/ efficient-bertでリリースされる。

Pre-trained language models have shown remarkable results on various NLP tasks. Nevertheless, due to their bulky size and slow inference speed, it is hard to deploy them on edge devices. In this paper, we have a critical insight that improving the feed-forward network (FFN) in BERT has a higher gain than improving the multi-head attention (MHA) since the computational cost of FFN is 2$\sim$3 times larger than MHA. Hence, to compact BERT, we are devoted to designing efficient FFN as opposed to previous works that pay attention to MHA. Since FFN comprises a multilayer perceptron (MLP) that is essential in BERT optimization, we further design a thorough search space towards an advanced MLP and perform a coarse-to-fine mechanism to search for an efficient BERT architecture. Moreover, to accelerate searching and enhance model transferability, we employ a novel warm-up knowledge distillation strategy at each search stage. Extensive experiments show our searched EfficientBERT is 6.9$\times$ smaller and 4.4$\times$ faster than BERT$\rm_{BASE}$, and has competitive performances on GLUE and SQuAD Benchmarks. Concretely, EfficientBERT attains a 77.7 average score on GLUE \emph{test}, 0.7 higher than MobileBERT$\rm_{TINY}$, and achieves an 85.3/74.5 F1 score on SQuAD v1.1/v2.0 \emph{dev}, 3.2/2.7 higher than TinyBERT$_4$ even without data augmentation. The code is released at https://github.com/c heneydon/efficient-b ert.
翻訳日:2021-09-17 11:05:30 公開日:2021-09-16
# 会話空間:空間言語的意味から推測する

Talking Space: inference from spatial linguistic meanings ( http://arxiv.org/abs/2109.06554v2 )

ライセンス: Link先を確認
Vincent Wang-Mascianica and Bob Coecke(参考訳) 本稿は、私たちが生活している自然と身近な空間の交わり、私たちが観察し、その中の物事を想像することに関するものである。 言語の重要な特徴の多くは空間的意味を持ち、例えば、多くの前置詞(例えば、イン、アフター、オンなど)は基本的に空間的である。 空間は、多くの単語/フレーズ/文/テキストの意味の重要な要素であり、空間はキーではなく、参照するコンテキスト(例えば、ポインティング)とエンボディメントである。 本稿では,空間構造と言語構造を一致した構成方法で相互作用させるメカニズムを提案する。 例えば、カルテシア空間、地下鉄駅、チェス盤のチェスピース、ペンローズの階段などがある。 構築の出発点は合成自然言語の意味のDisCoCatモデルであり、物理空間に対応するためにリラックスする。 我々は、複数のエージェント/オブジェクトを空間に持つ問題に対処する。例えば、各エージェントがその空間に対して異なる能力を持っている場合、例えば、各チェスピースができる特定の動きや、到達可能な異なる速度などである。 モデルが成立すると、物理空間の構造から引き出された推論がどのように作成されるかを示す。 また,空間の言語モデルと私たちの感覚や身体に関連する他のモデル,例えば色彩,味覚,嗅覚といった概念空間との相互作用によって,世界における人間の経験や具体化に近い豊かな構成的意味モデルが生み出せるかについても検討した。

This paper concerns the intersection of natural language and the physical space around us in which we live, that we observe and/or imagine things within. Many important features of language have spatial connotations, for example, many prepositions (like in, next to, after, on, etc.) are fundamentally spatial. Space is also a key factor of the meanings of many words/phrases/senten ces/text, and space is a, if not the key, context for referencing (e.g. pointing) and embodiment. We propose a mechanism for how space and linguistic structure can be made to interact in a matching compositional fashion. Examples include Cartesian space, subway stations, chesspieces on a chess-board, and Penrose's staircase. The starting point for our construction is the DisCoCat model of compositional natural language meaning, which we relax to accommodate physical space. We address the issue of having multiple agents/objects in a space, including the case that each agent has different capabilities with respect to that space, e.g., the specific moves each chesspiece can make, or the different velocities one may be able to reach. Once our model is in place, we show how inferences drawing from the structure of physical space can be made. We also how how linguistic model of space can interact with other such models related to our senses and/or embodiment, such as the conceptual spaces of colour, taste and smell, resulting in a rich compositional model of meaning that is close to human experience and embodiment in the world.
翻訳日:2021-09-17 10:45:31 公開日:2021-09-16
# 多変数ガウス多様体に対するKL-発散を用いた共役前駆体の構築

How to use KL-divergence to construct conjugate priors, with well-defined non-informative limits, for the multivariate Gaussian ( http://arxiv.org/abs/2109.07384v2 )

ライセンス: Link先を確認
Niko Br\"ummer(参考訳) ウィッシュアート分布は、平均が知られているときの多変量ガウス確率の精度の前の標準共役であり、また平均が未知であるときの通常のウィッシュアートも用いられる。 しかし、これらの分布のハイパーパラメータに値を割り当てる方法はあまり明確ではない。 特に、これらの分布の非インフォーマルな極限を形成する場合、ウィッシュアートの形状(あるいは自由度)パラメータは注意して扱う必要がある。 擬似数として形を直接解釈してゼロにする直感的な解法は、いくつかの著者が提案したように、形状パラメータの制限に違反している。 Wishart と normal-Wishart の共役前駆体を構築するためのエネルギー関数として多変量ガウス多様体間のスケールした KL 分割を利用する方法を示す。 情報プリエントとして使用される場合、これらの分布のサルエント特徴はモードであり、klスケーリング係数は擬似数として機能する。 スケール係数はゼロの極限まで下げることができ、ウィッシュアート形状パラメータの制約に違反しない非インフォーマティブな事前値を形成することができる。 この極限は、後続モードがガウスのパラメータの最大推定値と同一であるという意味では非形式的である。

The Wishart distribution is the standard conjugate prior for the precision of the multivariate Gaussian likelihood, when the mean is known -- while the normal-Wishart can be used when the mean is also unknown. It is however not so obvious how to assign values to the hyperparameters of these distributions. In particular, when forming non-informative limits of these distributions, the shape (or degrees of freedom) parameter of the Wishart must be handled with care. The intuitive solution of directly interpreting the shape as a pseudocount and letting it go to zero, as proposed by some authors, violates the restrictions on the shape parameter. We show how to use the scaled KL-divergence between multivariate Gaussians as an energy function to construct Wishart and normal-Wishart conjugate priors. When used as informative priors, the salient feature of these distributions is the mode, while the KL scaling factor serves as the pseudocount. The scale factor can be taken down to the limit at zero, to form non-informative priors that do not violate the restrictions on the Wishart shape parameter. This limit is non-informative in the sense that the posterior mode is identical to the maximum likelihood estimate of the parameters of the Gaussian.
翻訳日:2021-09-17 10:45:06 公開日:2021-09-16
# 3次元形状表現のための多分解能深絞り関数

Multiresolution Deep Implicit Functions for 3D Shape Representation ( http://arxiv.org/abs/2109.05591v2 )

ライセンス: Link先を確認
Zhang Chen and Yinda Zhang and Kyle Genova and Sean Fanello and Sofien Bouaziz and Christian Haene and Ruofei Du and Cem Keskin and Thomas Funkhouser and Danhang Tang(参考訳) 形状整形などのグローバルな操作を行なえるとともに,微細な幾何学的詳細を復元できる階層表現であるMDIF(Multi resolution Deep Implicit Function)を導入する。 我々のモデルは、遅延格子の階層構造を持つ複雑な3次元形状を表現し、様々な詳細レベルにデコードでき、精度も向上する。 形状完備化のために,潜時空間の部分データをシミュレーションし,デコーダ側へ遅延する潜在格子ドロップアウトを提案する。 マルチレス設計と合わせて,デコーダのみの潜時最適化による形状仕上げ品質が大幅に向上する。 我々の知る限り、MDIFは(1)異なる詳細レベルを表現でき、プログレッシブデコードを可能にする最初の暗黙関数モデルであり、(2)エンコーダ-デコーダ推論とデコーダのみの潜在最適化の両方をサポートし、複数のアプリケーションに対応し、(3)詳細なデコーダのみの形状補完を行う。 実験は、様々な3次元再構築タスクにおいて、先行技術に対する優れた性能を示す。

We introduce Multiresolution Deep Implicit Functions (MDIF), a hierarchical representation that can recover fine geometry detail, while being able to perform global operations such as shape completion. Our model represents a complex 3D shape with a hierarchy of latent grids, which can be decoded into different levels of detail and also achieve better accuracy. For shape completion, we propose latent grid dropout to simulate partial data in the latent space and therefore defer the completing functionality to the decoder side. This along with our multires design significantly improves the shape completion quality under decoder-only latent optimization. To the best of our knowledge, MDIF is the first deep implicit function model that can at the same time (1) represent different levels of detail and allow progressive decoding; (2) support both encoder-decoder inference and decoder-only latent optimization, and fulfill multiple applications; (3) perform detailed decoder-only shape completion. Experiments demonstrate its superior performance against prior art in various 3D reconstruction tasks.
翻訳日:2021-09-17 10:44:29 公開日:2021-09-16
# PnP-DETR:変換器を用いた効率的な視覚解析を目指して

PnP-DETR: Towards Efficient Visual Analysis with Transformers ( http://arxiv.org/abs/2109.07036v2 )

ライセンス: Link先を確認
Tao Wang, Li Yuan, Yunpeng Chen, Jiashi Feng, Shuicheng Yan(参考訳) detrは最近、画像特徴マップをオブジェクト検出結果に直接翻訳するトランスフォーマによる視覚タスクのソリューションの先駆者となった。 有効ではあるが、背景のような領域で冗長な計算を行うため、フル機能マップの翻訳はコストがかかる可能性がある。 本研究では,空間的冗長性を削減するという考え方を新しいpnpサンプリングモジュールにカプセル化し,その計算を空間的に適応的に割り当ててより効率的にするエンドツーエンドのpnp-detrアーキテクチャを構築する。 具体的には、PnPモジュールは画像特徴マップを微細な前景オブジェクト特徴ベクトルと、少数の粗い背景背景特徴ベクトルに抽象化する。 トランスフォーマーは、細粒度特徴空間内の情報相互作用をモデル化し、特徴を検出結果に変換する。 さらに、PnP拡張モデルは、既存の手法として複数のモデルを訓練することなく、サンプル特徴長を変化させることにより、単一モデルによる性能と計算の間の様々なトレードオフを即座に達成することができる。 これにより、さまざまな計算制約のあるさまざまなシナリオでのデプロイメントの柔軟性が向上する。 さらに,pnpモジュールのパンオプティカルセグメンテーションと最近のトランスフォーマティブベース画像認識モデルvitの一般化可能性をさらに検証し,一貫した効率向上を示す。 我々は,この手法が,空間冗長性をよく観察するトランスフォーマーを用いた効率的な視覚解析のステップとなると信じている。 コードは \url{https://github.com/t wangnh/pnp-detr}で入手できる。

Recently, DETR pioneered the solution of vision tasks with transformers, it directly translates the image feature map into the object detection result. Though effective, translating the full feature map can be costly due to redundant computation on some area like the background. In this work, we encapsulate the idea of reducing spatial redundancy into a novel poll and pool (PnP) sampling module, with which we build an end-to-end PnP-DETR architecture that adaptively allocates its computation spatially to be more efficient. Concretely, the PnP module abstracts the image feature map into fine foreground object feature vectors and a small number of coarse background contextual feature vectors. The transformer models information interaction within the fine-coarse feature space and translates the features into the detection result. Moreover, the PnP-augmented model can instantly achieve various desired trade-offs between performance and computation with a single model by varying the sampled feature length, without requiring to train multiple models as existing methods. Thus it offers greater flexibility for deployment in diverse scenarios with varying computation constraint. We further validate the generalizability of the PnP module on panoptic segmentation and the recent transformer-based image recognition model ViT and show consistent efficiency gain. We believe our method makes a step for efficient visual analysis with transformers, wherein spatial redundancy is commonly observed. Code will be available at \url{https://github.com/t wangnh/pnp-detr}.
翻訳日:2021-09-17 10:44:09 公開日:2021-09-16
# 低リソース言語におけるASR構築のための教師なしドメイン適応方式

Unsupervised Domain Adaptation Schemes for Building ASR in Low-resource Languages ( http://arxiv.org/abs/2109.05494v2 )

ライセンス: Link先を確認
Anoop C S, Prathosh A P, A G Ramakrishnan(参考訳) スクラッチから自動音声認識(ASR)システムを構築するには、多くの言語で収集が困難である大量の注釈付き音声データが必要である。 しかし、ASRを構築するのに十分なアノテートデータを持つ高リソース言語と、低リソース言語が共通の音響空間を共有する場合もある。 このような場合、教師なしドメイン適応(UDA)スキームを通じて高リソース言語から学習したドメイン非依存音響モデルにより、低リソース言語におけるASRの性能が向上することを示す。 私たちは、ソースドメインのhindiとターゲットドメインのsanskritの特定の例を使っています。 2つのアーキテクチャを探求します 一 勾配反転層(GRL)を用いたドメイン逆行訓練及び 二 ドメイン分離ネットワーク(DSN) grlとdsnアーキテクチャはそれぞれ6.71%と7.32%の絶対的な改善を行い、ターゲットドメインの5.5時間のデータでトレーニングされた場合、ベースラインのディープニューラルネットワークモデルよりもエラー率が高い。 また、ソースドメイン内で適切な言語(telugu)を選択することでさらなる改善が期待できることを示す。 その結果,UDA スキームは低リソース言語用 ASR システムの開発に有効であることが示唆され,大量の注釈付き音声データ収集の難しさが軽減された。

Building an automatic speech recognition (ASR) system from scratch requires a large amount of annotated speech data, which is difficult to collect in many languages. However, there are cases where the low-resource language shares a common acoustic space with a high-resource language having enough annotated data to build an ASR. In such cases, we show that the domain-independent acoustic models learned from the high-resource language through unsupervised domain adaptation (UDA) schemes can enhance the performance of the ASR in the low-resource language. We use the specific example of Hindi in the source domain and Sanskrit in the target domain. We explore two architectures: i) domain adversarial training using gradient reversal layer (GRL) and ii) domain separation networks (DSN). The GRL and DSN architectures give absolute improvements of 6.71% and 7.32%, respectively, in word error rate over the baseline deep neural network model when trained on just 5.5 hours of data in the target domain. We also show that choosing a proper language (Telugu) in the source domain can bring further improvement. The results suggest that UDA schemes can be helpful in the development of ASR systems for low-resource languages, mitigating the hassle of collecting large amounts of annotated speech data.
翻訳日:2021-09-17 10:43:42 公開日:2021-09-16
# 複素測地上の離散化独立サーロゲートモデリングのための非線形独立デュアルシステム(NIDS)

Non-linear Independent Dual System (NIDS) for Discretization-indep endent Surrogate Modeling over Complex Geometries ( http://arxiv.org/abs/2109.07018v2 )

ライセンス: Link先を確認
James Duvall, Karthik Duraisamy, Shaowu Pan(参考訳) 偏微分方程式(PDE)の数値解は高価なシミュレーションを必要とし、設計最適化ルーチン、モデルベース制御、大規模逆問題解への応用を制限する。 既存の畳み込みニューラルネットワークに基づくサロゲートモデリングフレームワークは、現実的なエンジニアリングアプリケーションには適さない、ピクセル化とデータ前処理を必要とする。 そこで我々は,PDE解の離散化に依存しない連続表現のための深層学習サロゲートモデルである非線形独立二重系(NIDS)を提案する。 NIDSは暗黙の神経表現を活用し、線形出力層におけるケースワイドパラメータネットワークとポイントワイド空間ネットワークの評価を組み合わせることで、問題パラメータと空間座標間の非線形マッピングを状態予測に展開する。 空間ネットワークの入力特徴は、問題の幾何学を暗黙的に符号化する最小距離関数評価によって強化された物理座標を含む。 全体出力層の形式は双対系を誘導し、写像内の各項は非線形で独立である。 さらに,共有パラメータネットワークを用いたNIDSモデルの最小距離関数駆動重み付け和を提案し,一定の制約の下で構成によって境界条件を強制する。 このフレームワークは、非パラメトリックで定義されたメッシュ上の複雑でパラメトリックで定義された幾何学の解を予測するために応用される。 テストケースには、複雑な形状とデータ不足を伴う車両の空力問題が含まれ、トレーニングの進行とともに、より多くのケースが徐々に追加されるトレーニング方法によって実現される。

Numerical solutions of partial differential equations (PDEs) require expensive simulations, limiting their application in design optimization routines, model-based control, or solution of large-scale inverse problems. Existing Convolutional Neural Network-based frameworks for surrogate modeling require lossy pixelization and data-preprocessing, which is not suitable for realistic engineering applications. Therefore, we propose non-linear independent dual system (NIDS), which is a deep learning surrogate model for discretization-indep endent, continuous representation of PDE solutions, and can be used for prediction over domains with complex, variable geometries and mesh topologies. NIDS leverages implicit neural representations to develop a non-linear mapping between problem parameters and spatial coordinates to state predictions by combining evaluations of a case-wise parameter network and a point-wise spatial network in a linear output layer. The input features of the spatial network include physical coordinates augmented by a minimum distance function evaluation to implicitly encode the problem geometry. The form of the overall output layer induces a dual system, where each term in the map is non-linear and independent. Further, we propose a minimum distance function-driven weighted sum of NIDS models using a shared parameter network to enforce boundary conditions by construction under certain restrictions. The framework is applied to predict solutions around complex, parametrically-defin ed geometries on non-parametrically-d efined meshes with solutions obtained many orders of magnitude faster than the full order models. Test cases include a vehicle aerodynamics problem with complex geometry and data scarcity, enabled by a training method in which more cases are gradually added as training progresses.
翻訳日:2021-09-17 10:43:21 公開日:2021-09-16