このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210915となっている論文です。

PDF登録状況(公開日: 20210915)

TitleAuthorsAbstract論文公表日・翻訳日
# 進化的ニューラルネットワークを用いたcovid-19症例の予測

Forecasting of COVID-19 Cases, Using an Evolutionary Neural Architecture Search Approach ( http://arxiv.org/abs/2109.13062v1 )

ライセンス: Link先を確認
Mahdi Rahbar, Samaneh Yazdani(参考訳) 2019年後半には、重症呼吸器疾患である新型コロナウイルス(COVID-19)が出現し、それ以来世界はパンデミックの危機に直面している。 このパンデミックは、社会の様々な側面に重大な影響を与えた。 日常的なケースの数に関する不確実性は、意思決定者が感染を抑えるのを難しくした。 ディープラーニングモデルは、ヘルスケアのような現実世界の多くの問題に役立てることができることを証明した。 しかし、機能を学び、許容できるソリューションを出力するためには、大量のデータが必要です。 新型コロナウイルス(COVID-19)は近年流行している病気であるため、特にパンデミックの初期段階ではデータはあまり得られておらず、このデータ不足は最適化されたモデルの設計を困難にしている。 これらの問題を克服するために,我々はまず,拡張機能を備えた新しいデータセットを導入し,次に,bbaを用いた進化的ニューラルネットワーク探索を用いて,最適化されたディープリカレントネットワークを生成する新しいアプローチで新型コロナウイルスのケースを予測する。 最後に、我々のアプローチの有効性を示すために、イランの毎日の事例の比較研究を行った。 その結果,パンデミックのケースを予測するための正確な深層アーキテクチャを,データ不足の初期段階でも生成できることがわかった。

In late 2019, COVID-19, a severe respiratory disease, emerged, and since then, the world has been facing a deadly pandemic caused by it. This ongoing pandemic has had a significant effect on different aspects of societies. The uncertainty around the number of daily cases made it difficult for decision-makers to control the outbreak. Deep Learning models have proved that they can come in handy in many real-world problems such as healthcare ones. However, they require a lot of data to learn the features properly and output an acceptable solution. Since COVID-19 has been a lately emerged disease, there was not much data available, especially in the first stage of the pandemic, and this shortage of data makes it challenging to design an optimized model. To overcome these problems, we first introduce a new dataset with augmented features and then forecast COVID-19 cases with a new approach, using an evolutionary neural architecture search with Binary Bat Algorithm (BBA) to generate an optimized deep recurrent network. Finally, to show our approach's effectiveness, we conducted a comparative study on Iran's COVID-19 daily cases. The results prove our approach's capability to generate an accurate deep architecture to forecast the pandemic cases, even in the early stages with limited data.
翻訳日:2021-10-03 10:39:25 公開日:2021-09-15
# (参考訳) セマンティクス・インスタンス・アウェア植物モデルを用いたブドウの冬期刈り取り自動化のための精密刈り取り点検出に向けて [全文訳有]

Towards Precise Pruning Points Detection using Semantic-Instance-Aw are Plant Models for Grapevine Winter Pruning Automation ( http://arxiv.org/abs/2109.07247v1 )

ライセンス: CC BY 4.0
Miguel Fernandes, Antonello Scaldaferri, Paolo Guadagna, Giuseppe Fiameni, Tao Teng, Matteo Gatti, Stefano Poni, Claudio Semini, Darwin Caldwell, Fei Chen(参考訳) グラペビンの冬刈りは複雑な作業であり、熟練した労働者が正しく実行する必要がある。 複雑さは時間がかかります。 これは1ヘクタールあたり80~120時間を要するオペレーションで、大規模なブドウ畑で重要なツールとして、プロセスをスピードアップする自動化ロボットシステムを作る。 説明します (a)ブドウのセグメンテーションのための新しい専門家注釈データセット b)artニューラルネットワークの実装の現状と課題 (c) 作物の簡易構造を利用した農業規則による刈り取り点の生成。 このアプローチにより、我々は、ブドウの冬刈りの正しい自動化に向けて、杖に一組の刈り込みポイントを発生させることができる。

Grapevine winter pruning is a complex task, that requires skilled workers to execute it correctly. The complexity makes it time consuming. It is an operation that requires about 80-120 hours per hectare annually, making an automated robotic system that helps in speeding up the process a crucial tool in large-size vineyards. We will describe (a) a novel expert annotated dataset for grapevine segmentation, (b) a state of the art neural network implementation and (c) generation of pruning points following agronomic rules, leveraging the simplified structure of the plant. With this approach, we are able to generate a set of pruning points on the canes, paving the way towards a correct automation of grapevine winter pruning.
翻訳日:2021-09-26 22:48:55 公開日:2021-09-15
# 整形外科的術中平板検出装置CT-Volume の自動面調整

Automatic Plane Adjustment of Orthopedic Intra-operative Flat Panel Detector CT-Volumes ( http://arxiv.org/abs/2109.10731v1 )

ライセンス: Link先を確認
Celia Martin Vicario, Florian Kordon, Felix Denzinger, Jan Siad El Barbari, Maxim Privalov, Jochen Franke, Sarina Thomas, Lisa Kausch, Andreas Maier, Holger Kunze(参考訳) 目的3d取得は、整形外科手術の結果を評価するためにしばしば取得される。 移動式C-Armシステムでは,これらの取得を術中行うことができる。 これにより、必要な修正手術の数を削減できる。 しかし、手術室の設置により、取得したボリュームが解剖学的領域に整列するように取得を行うことができないのが一般的である。 したがって、MPR(Multiplanar Restructed)平面は、ボリュームのレビュー中に手動で調整する必要がある。 本稿では,MPR平面のパラメータを推定するために,マルチタスク学習(MTL)回帰ネットワークを詳細に検討する。 アプローチ まず、ユーラー角、四元数、行列表現を含む回転に関する様々な数学的記述を改訂する。 次に、ポーゼネットに基づく3つの異なるmtlネットワークアーキテクチャを1つのタスク学習ネットワークと比較する。 その結果、ユーラー角の記述よりも行列記述を用いることで、回帰正規値の精度は7.7^{\circ}$から7.3^{\circ}$へと改善され、単一の解剖学の平均値となる。 マルチヘッドアプローチは、平面位置の回帰を7.4mm$から6.1mm$に改善するが、指向性はこのアプローチの恩恵を受けない。 結論 マルチヘッドアプローチは個々のタスクネットワークよりもわずかに優れた結果をもたらす可能性がある。 MTLアプローチの最も重要な利点は、保存されたパラメータの少ない全身体領域の標準平面回帰のための単一のネットワークであることである。

Purpose 3D acquisitions are often acquired to assess the result in orthopedic trauma surgery. With a mobile C-Arm system, these acquisitions can be performed intra-operatively. That reduces the number of required revision surgeries. However, due to the operation room setup, the acquisitions typically cannot be performed such that the acquired volumes are aligned to the anatomical regions. Thus, the multiplanar reconstructed (MPR) planes need to be adjusted manually during the review of the volume. In this paper, we present a detailed study of multi-task learning (MTL) regression networks to estimate the parameters of the MPR planes. Approach First, various mathematical descriptions for rotation, including Euler angle, quaternion, and matrix representation, are revised. Then, three different MTL network architectures based on the PoseNet are compared with a single task learning network. Results Using a matrix description rather than the Euler angle description, the accuracy of the regressed normals improves from $7.7^{\circ}$ to $7.3^{\circ}$ in the mean value for single anatomies. The multi-head approach improves the regression of the plane position from $7.4mm$ to $6.1mm$, while the orientation does not benefit from this approach. Conclusions The results show that a multi-head approach can lead to slightly better results than the individual tasks networks. The most important benefit of the MTL approach is that it is a single network for standard plane regression for all body regions with a reduced number of stored parameters.
翻訳日:2021-09-26 22:32:31 公開日:2021-09-15
# 物理系のメッシュモデリングのための条件パラメータ化離散化対応ニューラルネットワーク

Conditionally Parameterized, Discretization-Aware Neural Networks for Mesh-Based Modeling of Physical Systems ( http://arxiv.org/abs/2109.09510v1 )

ライセンス: Link先を確認
Jiayang Xu, Aniruddhe Pradhan, Karthik Duraisamy(参考訳) 物理系の数値シミュレーションはメッシュモデルに大きく依存している。 ニューラルネットワークはそのようなタスクを支援するために広く研究されてきたが、入力特徴間の相互作用や階層的関係を無視し、それらを結合混合として処理することが多い。 本研究では,入力パラメータの学習可能な関数を用いてニューラルネットワークの重みを生成する条件付きパラメトリゼーションの考え方を一般化し,数値シミュレーションに不可欠な情報を柔軟にエンコードする手法を提案する。 離散化数値法に触発されて、パラメータの選択には物理量とメッシュトポロジの特徴が含まれる。 モデル化された特徴とパラメータの間の機能的関係は、ネットワークアーキテクチャに組み込まれている。 この方法は様々なネットワーク上に実装されており、非モデル化物理学の発見、粗い場の超解像、化学反応による非定常流れのシミュレーションなど、よりフロンティアな科学機械学習タスクに適用されている。 その結果,条件パラメータ化ネットワークは従来のネットワークに比べて優れた性能を示すことがわかった。 CP-GNetと呼ばれるネットワークアーキテクチャも、不規則メッシュ上での反応フローのスタンドアロン予測が可能な最初のディープラーニングモデルとして提案されている。

The numerical simulations of physical systems are heavily dependent on mesh-based models. While neural networks have been extensively explored to assist such tasks, they often ignore the interactions or hierarchical relations between input features, and process them as concatenated mixtures. In this work, we generalize the idea of conditional parametrization -- using trainable functions of input parameters to generate the weights of a neural network, and extend them in a flexible way to encode information critical to the numerical simulations. Inspired by discretized numerical methods, choices of the parameters include physical quantities and mesh topology features. The functional relation between the modeled features and the parameters are built into the network architecture. The method is implemented on different networks, which are applied to several frontier scientific machine learning tasks, including the discovery of unmodeled physics, super-resolution of coarse fields, and the simulation of unsteady flows with chemical reactions. The results show that the conditionally parameterized networks provide superior performance compared to their traditional counterparts. A network architecture named CP-GNet is also proposed as the first deep learning model capable of standalone prediction of reacting flows on irregular meshes.
翻訳日:2021-09-26 22:32:08 公開日:2021-09-15
# (参考訳) カルポフの女王の犠牲とai [全文訳有]

Karpov's Queen Sacrifices and AI ( http://arxiv.org/abs/2109.08149v1 )

ライセンス: CC0 1.0
Shiva Maharaj and Nick Polson(参考訳) アナトリー・カルポフの女王の犠牲は分析される。 チェスのAIエンジンであるStockfish 14 NNUEは、Karpovの犠牲の効率を評価する。 比較のために、我々はKarpovのRookとKnightの犠牲に関するデータセットを提供し、Karpovが同様のレベルの精度を達成したかどうかをテストする。 我々の研究は、人間とAIの相互作用と、ブラックボックスAIアルゴリズムが採用する戦略をよりよく理解する方法に影響を及ぼす。 最後に、人間研究への意味から結論づける。 コンピュータエンジンによるチェス。

Anatoly Karpov's Queen sacrifices are analyzed. Stockfish 14 NNUE -- an AI chess engine -- evaluates how efficient Karpov's sacrifices are. For comparative purposes, we provide a dataset on Karpov's Rook and Knight sacrifices to test whether Karpov achieves a similar level of accuracy. Our study has implications for human-AI interaction and how humans can better understand the strategies employed by black-box AI algorithms. Finally, we conclude with implications for human study in. chess with computer engines.
翻訳日:2021-09-21 09:04:24 公開日:2021-09-15
# 拡張がソフトウェア空間の宇宙を説明するかもしれない計算不能な芸術作品

A Computable Piece of Uncomputable Art whose Expansion May Explain the Universe in Software Space ( http://arxiv.org/abs/2109.08523v1 )

ライセンス: Link先を確認
Hector Zenil(参考訳) 私が計算不可能芸術(uncomputable art)と計算認識論(computation epistemology)と呼ぶ実験哲学(experimental philosophy)の交わりにおいて、私たちは、逆問題の挑戦に対する、おそらく最善の解決策による因果関係に関する、エキサイティングで有望な科学領域を見つけました。 これは、物理的現象からデータ片の可能な原因、機械的起源、第一原理、生成モデルを見つけるという問題である。 ここでは、アルゴリズム情報ダイナミクスの枠組みに従って、ソフトウェア空間の生成と探索について説明する。小さなモデルを見つけて、科学発見の分野を補完的なツールで前進させ、科学自体を前進させる機会を提供するSF的な空間を探索することを学ぶことができる。

At the intersection of what I call uncomputable art and computational epistemology, a form of experimental philosophy, we find an exciting and promising area of science related to causation with an alternative, possibly best possible, solution to the challenge of the inverse problem. That is the problem of finding the possible causes, mechanistic origins, first principles, and generative models of a piece of data from a physical phenomenon. Here we explain how generating and exploring software space following the framework of Algorithmic Information Dynamics, it is possible to find small models and learn to navigate a sci-fi-looking space that can advance the field of scientific discovery with complementary tools to offer an opportunity to advance science itself.
翻訳日:2021-09-20 14:30:58 公開日:2021-09-15
# (参考訳) トータルリコール:ニューラルセマンティックパーザのためのカスタマイズされた連続学習法 [全文訳有]

Total Recall: a Customized Continual Learning Method for Neural Semantic Parsers ( http://arxiv.org/abs/2109.05186v2 )

ライセンス: CC BY 4.0
Zhuang Li, Lizhen Qu, Gholamreza Haffari(参考訳) 本稿では,意味解析のための連続学習について検討する。 この設定では、ニューラルセマンティックパーザは、以前のタスクから完全なトレーニングデータにアクセスすることなく、逐次タスクを学習する。 sota連続学習アルゴリズムのこの問題への直接適用は、セマンティックパーサによって得られる構造化出力の特殊特性を考慮していないため、すべてのタスクで再学習モデルと同等の性能を達成できない。 そこで我々は,ニューラル・セマンティック・パーサーのための連続学習手法であるTotalRecallを提案する。 一 論理形式のテンプレートを多様化し、メモリ内のパースアクションの分布のバランスをとるメモリリプレイのサンプリング方法 二 タスク間のパーサーの一般化能力を大幅に向上させる二段階訓練方法。 我々は, 連続的意味解析に関わる研究課題について広範な実験を行い, トータルリコールで訓練したニューラルセマンティックパーザは, SOTA連続学習アルゴリズムで直接訓練したものよりも優れた性能を示し, スクラッチから再学習するよりも3~6倍のスピードアップを達成した。 コードとデータセットは以下の通りである。

This paper investigates continual learning for semantic parsing. In this setting, a neural semantic parser learns tasks sequentially without accessing full training data from previous tasks. Direct application of the SOTA continual learning algorithms to this problem fails to achieve comparable performance with re-training models with all seen tasks because they have not considered the special properties of structured outputs yielded by semantic parsers. Therefore, we propose TotalRecall, a continual learning method designed for neural semantic parsers from two aspects: i) a sampling method for memory replay that diversifies logical form templates and balances distributions of parse actions in a memory; ii) a two-stage training method that significantly improves generalization capability of the parsers across tasks. We conduct extensive experiments to study the research problems involved in continual semantic parsing and demonstrate that a neural semantic parser trained with TotalRecall achieves superior performance than the one trained directly with the SOTA continual learning algorithms and achieve a 3-6 times speedup compared to re-training from scratch. Code and datasets are available at: https://github.com/z huang-li/cl_nsp.
翻訳日:2021-09-18 17:06:37 公開日:2021-09-15
# (参考訳) 第37回論理プログラミング国際会議(技術通信)

Proceedings 37th International Conference on Logic Programming (Technical Communications) ( http://arxiv.org/abs/2109.07914v1 )

ライセンス: CC BY 4.0
Andrea Formisano, Yanhong Annie Liu, Bart Bogaerts, Alex Brik, Veronica Dahl, Carmine Dodaro, Paul Fodor, Gian Luca Pozzato, Joost Vennekens, Neng-Fa Zhou(参考訳) ICLP(ICLP)は論理プログラミング研究のための国際会議である。 iclp 2021への貢献は、基礎:意味論、形式論、非単調な推論、知識表現を含む、論理プログラミングのあらゆる分野において求められた。 言語の問題:並行性、オブジェクト、コーディネーション、モビリティ、高階、型、モード、アサーション、モジュール、メタプログラミング、論理ベースのドメイン固有言語、プログラミング技術。 プログラミングサポート: プログラム解析、変換、検証、検証、デバッグ、プロファイリング、テスト、実行の可視化。 実装: コンパイル、仮想マシン、メモリ管理、並列および分散実行、制約処理ルール、タブリング、外部インターフェース、ユーザインターフェース。 関連するパラダイムとシナジー:帰納的および帰納的論理プログラミング、制約論理プログラミング、Answerセットプログラミング、SAT、SMT、CSPソルバとのインタラクション、Theorem証明、Argumentation、確率的プログラミング、機械学習。 アプリケーション:データベース、ビッグデータ、データ統合と連合、ソフトウェア工学、自然言語処理、webとセマンティックウェブ、エージェント、人工知能、計算生命科学、サイバーセキュリティ、ロボット工学、教育。

ICLP is the premier international event for presenting research in logic programming. Contributions to ICLP 2021 were sought in all areas of logic programming, including but not limited to: Foundations: Semantics, Formalisms, Nonmonotonic reasoning, Knowledge representation. Languages issues: Concurrency, Objects, Coordination, Mobility, Higher order, Types, Modes, Assertions, Modules, Meta-programming, Logic-based domain-specific languages, Programming techniques. Programming support: Program analysis, Transformation, Validation, Verification, Debugging, Profiling, Testing, Execution visualization. Implementation: Compilation, Virtual machines, Memory management, Parallel and Distributed execution, Constraint handling rules, Tabling, Foreign interfaces, User interfaces. Related Paradigms and Synergies: Inductive and coinductive logic programming, Constraint logic programming, Answer set programming, Interaction with SAT, SMT and CSP solvers, Theorem proving, Argumentation, Probabilistic programming, Machine learning. Applications: Databases, Big data, Data integration and federation, Software engineering, Natural language processing, Web and semantic web, Agents, Artificial intelligence, Computational life sciences, Cyber-security, Robotics, Education.
翻訳日:2021-09-18 11:12:05 公開日:2021-09-15
# (参考訳) FSER:音声感情認識のための深層畳み込みニューラルネットワーク [全文訳有]

FSER: Deep Convolutional Neural Networks for Speech Emotion Recognition ( http://arxiv.org/abs/2109.07916v1 )

ライセンス: CC BY 4.0
Bonaventure F. P. Dossou and Yeno K. S. Gbenou(参考訳) 従来のMFCC機能に対するメル・スペクトログラムを用いて、音声データから感情を正確に認識し分類する畳み込みニューラルネットワークの能力を評価する。 4つの有効な音声データベースで訓練された音声感情認識モデルfserを導入し,怒り,不安,落ち着き,嫌悪,幸福,中立,悲しみ,驚きという8種類の感情クラスから95,05\%の高分類精度を達成する。 各ベンチマークデータセットでは、FSERはこれまでに導入された最高のモデルよりも優れており、最先端のパフォーマンスを実現している。 FSERは、言語、性同一性、その他の外部要因から独立して、信頼性を維持していることを示す。 さらに、FSERが精神的および感情的な医療を改善するためにどのように使えるか、そして我々の分析と調査結果が、同じ方向に進むためのガイドラインとベンチマークとしてどのように役立つかを述べる。

Using mel-spectrograms over conventional MFCCs features, we assess the abilities of convolutional neural networks to accurately recognize and classify emotions from speech data. We introduce FSER, a speech emotion recognition model trained on four valid speech databases, achieving a high-classification accuracy of 95,05\%, over 8 different emotion classes: anger, anxiety, calm, disgust, happiness, neutral, sadness, surprise. On each benchmark dataset, FSER outperforms the best models introduced so far, achieving a state-of-the-art performance. We show that FSER stays reliable, independently of the language, sex identity, and any other external factor. Additionally, we describe how FSER could potentially be used to improve mental and emotional health care and how our analysis and findings serve as guidelines and benchmarks for further works in the same direction.
翻訳日:2021-09-18 11:11:04 公開日:2021-09-15
# (参考訳) 雑音下におけるキーワードスポッティングネットワークの挙動 [全文訳有]

Behavior of Keyword Spotting Networks Under Noisy Conditions ( http://arxiv.org/abs/2109.07930v1 )

ライセンス: CC BY-SA 4.0
Anwesh Mohanty, Adrian Frischknecht, Christoph Gerum and Oliver Bringmann(参考訳) キーワードスポッティング(KWS)は、人工知能とスマートデバイスの発展とともに、ユビキタスなニーズになりつつある。 この分野での最近の研究は、低音から中音のデータセットで良い結果を得るため、いくつかの異なるアーキテクチャに焦点を当てている。 しかし,これらのモデルの性能は,実験で示されたような高騒音条件下で劣化する。 本稿では,様々な雑音条件下での最先端KWSネットワークの比較について述べる。 また,学習段階でノイズファイルが未知である場合のネットワークの性能向上のための手法として,適応バッチ正規化を提案する。 このような高ノイズ特性の結果として、前述の条件でより優れた性能を持つモデルの開発が期待できる。

Keyword spotting (KWS) is becoming a ubiquitous need with the advancement in artificial intelligence and smart devices. Recent work in this field have focused on several different architectures to achieve good results on datasets with low to moderate noise. However, the performance of these models deteriorates under high noise conditions as shown by our experiments. In our paper, we present an extensive comparison between state-of-the-art KWS networks under various noisy conditions. We also suggest adaptive batch normalization as a technique to improve the performance of the networks when the noise files are unknown during the training phase. The results of such high noise characterization enable future work in developing models that perform better in the aforementioned conditions.
翻訳日:2021-09-18 11:05:09 公開日:2021-09-15
# (参考訳) 知識に基づく視覚的質問応答における言語モデルの有効利用のための画像キャプション [全文訳有]

Image Captioning for Effective Use of Language Models in Knowledge-Based Visual Question Answering ( http://arxiv.org/abs/2109.08029v1 )

ライセンス: CC BY 4.0
Ander Salaberria, Gorka Azkune, Oier Lopez de Lacalle, Aitor Soroa, Eneko Agirre(参考訳) 視覚的質問応答(VQA)のような視覚言語タスクにおける推論のための外部知識の統合は、オープンな問題である。 事前学習された言語モデルに世界的知識が組み込まれていることを考えると,画像と事前学習された言語モデルの自動キャプションに基づく,単文のみの列車と推論手法を提案する。 外部知識 (OK-VQA) を必要とする視覚的質問応答タスクの結果, テキストのみのモデルは, パラメータ数に匹敵する事前学習されたマルチモーダル(画像テキスト)モデルよりも優れていた。 対照的に、我々のモデルは標準的なVQAタスク(VQA 2.0)では効果が低く、テキストのみの手法が外部知識を必要とするタスクに対して特別に有効であることを確認した。 さらに,本モデルがOK-VQAとVQA 2.0の両方のマルチモーダルモデルに相補的であり,外部知識グラフを使用しないシステム間ではOK-VQAが最良であることを示す。 ok-vqaの質的分析から、自動キャプションは画像内の関連情報を捉えられず、テキストのみの言語モデルの推論能力の向上によってバランスが取れていることが分かりました。 我々の研究は、視覚言語タスクにおける推論をさらに改善する可能性を開く。

Integrating outside knowledge for reasoning in visio-linguistic tasks such as visual question answering (VQA) is an open problem. Given that pretrained language models have been shown to include world knowledge, we propose to use a unimodal (text-only) train and inference procedure based on automatic off-the-shelf captioning of images and pretrained language models. Our results on a visual question answering task which requires external knowledge (OK-VQA) show that our text-only model outperforms pretrained multimodal (image-text) models of comparable number of parameters. In contrast, our model is less effective in a standard VQA task (VQA 2.0) confirming that our text-only method is specially effective for tasks requiring external knowledge. In addition, we show that our unimodal model is complementary to multimodal models in both OK-VQA and VQA 2.0, and yield the best result to date in OK-VQA among systems not using external knowledge graphs, and comparable to systems that do use them. Our qualitative analysis on OK-VQA reveals that automatic captions often fail to capture relevant information in the images, which seems to be balanced by the better inference ability of the text-only language models. Our work opens up possibilities to further improve inference in visio-linguistic tasks.
翻訳日:2021-09-18 10:57:26 公開日:2021-09-15
# (参考訳) フェルミオンサンプリングが効率的になった [全文訳有]

Fermion Sampling Made More Efficient ( http://arxiv.org/abs/2109.07358v1 )

ライセンス: CC BY 4.0
Haoran Sun, Jie Zou and Xiaopeng Li(参考訳) フェルミオンサンプリングは、統計解析において「決定点過程」と呼ばれる多体スレーター決定波動関数の確率分布を生成する。 本質的に埋め込まれたパウリ排他原理のために、その応用はフェルミオン量子多体物理学をシミュレートするだけでなく、多様化したデータセットのための機械学習モデルを構築することができる。 本稿では,フェルミオン数における多項式時間複雑度とシステムサイズにおける線形性を有するフェルミオンサンプリングアルゴリズムを提案する。 このアルゴリズムは、最もよく知られたアルゴリズムよりも計算時間で約100%効率が良い。 対応する限界分布をサンプリングする際、我々のアルゴリズムはより劇的に改善され、スケーリングの優位性が得られる。 我々は,多体システムにおけるフェルミオンのサンプリングやテキスト要約の機械学習タスクなど,いくつかのテストアプリケーションにおいてその性能を実証し,浮動小数点演算を数えることにより,他の手法よりも優れた計算効率を確認する。

Fermion sampling is to generate probability distribution of a many-body Slater-determinant wavefunction, which is termed "determinantal point process" in statistical analysis. For its inherently-embedded Pauli exclusion principle, its application reaches beyond simulating fermionic quantum many-body physics to constructing machine learning models for diversified datasets. Here we propose a fermion sampling algorithm, which has a polynomial time-complexity -- quadratic in the fermion number and linear in the system size. This algorithm is about 100% more efficient in computation time than the best known algorithms. In sampling the corresponding marginal distribution, our algorithm has a more drastic improvement, achieving a scaling advantage. We demonstrate its power on several test applications, including sampling fermions in a many-body system and a machine learning task of text summarization, and confirm its improved computation efficiency over other methods by counting floating-point operations.
翻訳日:2021-09-18 10:41:50 公開日:2021-09-15
# (参考訳) $\textit{Node2vec+}$ を用いた重み付きグラフ上のバイアスランダムウォークの正確なモデリング [全文訳有]

Accurately Modeling Biased Random Walks on Weighted Graphs Using $\textit{Node2vec+}$ ( http://arxiv.org/abs/2109.08031v1 )

ライセンス: CC BY-SA 4.0
Renming Liu, Matthew Hirn, Arjun Krishnan(参考訳) ノード埋め込みは、グラフの各ノードの構造的役割を表現するための強力なアプローチである。 $\textit{Node2vec}$は、グラフ上のランダムウォークによって局所的な近傍を探索することによって機能するノード埋め込みの広く使われている方法である。 しかし、$\textit{node2vec}$はウォークバイアスの計算時にエッジウェイトを考慮しない。 この本質的な制限は、$\textit{node2vec}$が重み付きグラフのすべての情報を活用することを防ぎ、その適用を重み付きで密度の高い多くの実世界のネットワークに制限する。 ここでは自然に$\textit{node2vec}$から$\textit{node2vec+}$に拡張します。 2つの合成データセットを用いた重み付きグラフにおいて、$\textit{node2vec+}$は、$\textit{node2vec}$よりも加法雑音に強いことを実証的に示す。 また、一般的にベンチマークされたマルチラベルデータセット(Wikipedia)において、$\textit{node2vec+}$が$\textit{node2vec}$を大きく上回ることを示す。 さらに,2つのタンパク質-タンパク質相互作用ネットワーク上での遺伝子分類タスクを用いて,GCNとGraphSAGEに対して$\textit{node2vec+}$をテストする。 GCNとGraphSAGEの明確な利点にもかかわらず、$\textit{node2vec+}$と同等のパフォーマンスを示している。 最後に、$\textit{node2vec+}$は、バイアス付きランダムウォークを生成する一般的なアプローチとして使用することができ、$\textit{node2vec}$の上に構築された既存のメソッドの恩恵を受けることができる。 $\textit{Node2vec+}$は、$\texttt{PecanPy}$の一部として実装されている。

Node embedding is a powerful approach for representing the structural role of each node in a graph. $\textit{Node2vec}$ is a widely used method for node embedding that works by exploring the local neighborhoods via biased random walks on the graph. However, $\textit{node2vec}$ does not consider edge weights when computing walk biases. This intrinsic limitation prevents $\textit{node2vec}$ from leveraging all the information in weighted graphs and, in turn, limits its application to many real-world networks that are weighted and dense. Here, we naturally extend $\textit{node2vec}$ to $\textit{node2vec+}$ in a way that accounts for edge weights when calculating walk biases, but which reduces to $\textit{node2vec}$ in the cases of unweighted graphs or unbiased walks. We empirically show that $\textit{node2vec+}$ is more robust to additive noise than $\textit{node2vec}$ in weighted graphs using two synthetic datasets. We also demonstrate that $\textit{node2vec+}$ significantly outperforms $\textit{node2vec}$ on a commonly benchmarked multi-label dataset (Wikipedia). Furthermore, we test $\textit{node2vec+}$ against GCN and GraphSAGE using various challenging gene classification tasks on two protein-protein interaction networks. Despite some clear advantages of GCN and GraphSAGE, they show comparable performance with $\textit{node2vec+}$. Finally, $\textit{node2vec+}$ can be used as a general approach for generating biased random walks, benefiting all existing methods built on top of $\textit{node2vec}$. $\textit{Node2vec+}$ is implemented as part of $\texttt{PecanPy}$, which is available at https://github.com/k rishnanlab/PecanPy .
翻訳日:2021-09-18 10:28:27 公開日:2021-09-15
# (参考訳) 音声タグの見出し部分に対するクロスレジストレーション [全文訳有]

Cross-Register Projection for Headline Part of Speech Tagging ( http://arxiv.org/abs/2109.07483v1 )

ライセンス: CC BY 4.0
Adrian Benton, Hanyang Li, Igor Malioutov(参考訳) 音声(POS)タグ付けは慣れ親しんだNLPタスクである。 state of the art taggersは、ニュース本体のテキストで97%以上のトークンレベルの精度を定期的に達成している。 しかし、英語のニュース見出しの登録簿「headlinese」は、長文のテキストの登録とは大きく異なり、posタグモデルが見出しに過小評価される原因となっている。 本研究では,関連する文から予測タグを投影することで,ニュース見出しにposタグを付与する。 我々は,複数ドメインのposタグを長文と見出し文の両方で訓練し,両レジスタの合同訓練が1つまたはネイティブに連結されたトレーニングセットのトレーニングよりも優れていることを示す。 Google文圧縮コーパスから5,248以上の英ニュース見出しを新たに注釈付けしたコーパスで評価し,本モデルがトークンあたりの相対誤差を23%,見出しあたり19%減らすことを示す。 さらに,より優れた見出しPOSタグが,構文に基づくオープン情報抽出システムの性能を向上させることを示す。 我々はPOSタグ付きヘッドラインコーパスであるPOSHを作成し、ニュースの見出しのために改良されたNLPモデルの研究を奨励する。

Part of speech (POS) tagging is a familiar NLP task. State of the art taggers routinely achieve token-level accuracies of over 97% on news body text, evidence that the problem is well understood. However, the register of English news headlines, "headlinese", is very different from the register of long-form text, causing POS tagging models to underperform on headlines. In this work, we automatically annotate news headlines with POS tags by projecting predicted tags from corresponding sentences in news bodies. We train a multi-domain POS tagger on both long-form and headline text and show that joint training on both registers improves over training on just one or naively concatenating training sets. We evaluate on a newly-annotated corpus of over 5,248 English news headlines from the Google sentence compression corpus, and show that our model yields a 23% relative error reduction per token and 19% per headline. In addition, we demonstrate that better headline POS tags can improve the performance of a syntax-based open information extraction system. We make POSH, the POS-tagged Headline corpus, available to encourage research in improved NLP models for news headlines.
翻訳日:2021-09-18 10:09:43 公開日:2021-09-15
# (参考訳) wordnet 名詞 hypernymy graph 上のユークリッド埋め込みと双曲埋め込みの比較 [全文訳有]

Comparing Euclidean and Hyperbolic Embeddings on the WordNet Nouns Hypernymy Graph ( http://arxiv.org/abs/2109.07488v1 )

ライセンス: CC BY 4.0
Sameer Bansal, Adrian Benton(参考訳) nickel and kiela (2017) は poincare ball に木ノードを埋め込む新しい方法を示し、これらの双曲埋め込みは wordnet nouns hypernymy tree のような大きな階層構造を持つグラフへの埋め込みノードでのユークリッド埋め込みよりもはるかに効果的であることを示唆している。 これは特に低次元において真である(Nickel and Kiela, 2017 Table 1)。 本研究では,wordnet nouns hypernymyグラフの埋め込みと再構成に関する実験を再現する。 彼らが報告したものとは対照的に、少なくとも50次元を許せば、ユークリッドの埋め込みはこの木とポインケアの埋め込みを表現できる。 極低次元環境における双曲的埋め込みの性能を考えると,これは作業の意義を損なうものではない。 しかしながら、これらの研究の広範な影響を踏まえ、我々はユークリッドと双曲的埋め込みの更新とより正確な比較を行うことを目標としている。

Nickel and Kiela (2017) present a new method for embedding tree nodes in the Poincare ball, and suggest that these hyperbolic embeddings are far more effective than Euclidean embeddings at embedding nodes in large, hierarchically structured graphs like the WordNet nouns hypernymy tree. This is especially true in low dimensions (Nickel and Kiela, 2017, Table 1). In this work, we seek to reproduce their experiments on embedding and reconstructing the WordNet nouns hypernymy graph. Counter to what they report, we find that Euclidean embeddings are able to represent this tree at least as well as Poincare embeddings, when allowed at least 50 dimensions. We note that this does not diminish the significance of their work given the impressive performance of hyperbolic embeddings in very low-dimensional settings. However, given the wide influence of their work, our aim here is to present an updated and more accurate comparison between the Euclidean and hyperbolic embeddings.
翻訳日:2021-09-18 09:50:28 公開日:2021-09-15
# (参考訳) Sign-MAML:SignSGDによるモデル非依存メタラーニング [全文訳有]

Sign-MAML: Efficient Model-Agnostic Meta-Learning by SignSGD ( http://arxiv.org/abs/2109.07497v1 )

ライセンス: CC BY 4.0
Chen Fan, Parikshit Ram, Sijia Liu(参考訳) モデルに依存しないメタラーニング(MAML)のための新しい計算効率の高い1次アルゴリズムを提案する。 鍵となる有効化技術は、MAMLを双方向最適化(BLO)問題として解釈し、符号ベースのSGD(signSGD)をBLOの下位最適化として利用することである。 我々は,SGDを指向したBLOのレンズを用いてMAMLが,学習したメタモデルの1次勾配のみを必要とする交互最適化スキームを自然に生成することを示す。 結果のMAMLアルゴリズムをSign-MAMLと呼ぶ。 従来の one-order MAML (FO-MAML) アルゴリズムと比較して、Sign-MAML はメタトレーニング中に 2-order derivatives が存在しないという仮定を課さないため理論的に基礎を置いている。 実際には,Sign-MAMLはFO-MAMLよりも多くの画像分類タスクで優れており,MAMLと比較して,分類精度と計算効率のトレードオフがはるかに良好であることを示す。

We propose a new computationally-effi cient first-order algorithm for Model-Agnostic Meta-Learning (MAML). The key enabling technique is to interpret MAML as a bilevel optimization (BLO) problem and leverage the sign-based SGD(signSGD) as a lower-level optimizer of BLO. We show that MAML, through the lens of signSGD-oriented BLO, naturally yields an alternating optimization scheme that just requires first-order gradients of a learned meta-model. We term the resulting MAML algorithm Sign-MAML. Compared to the conventional first-order MAML (FO-MAML) algorithm, Sign-MAML is theoretically-ground ed as it does not impose any assumption on the absence of second-order derivatives during meta training. In practice, we show that Sign-MAML outperforms FO-MAML in various few-shot image classification tasks, and compared to MAML, it achieves a much more graceful tradeoff between classification accuracy and computation efficiency.
翻訳日:2021-09-18 09:44:19 公開日:2021-09-15
# (参考訳) 非分散型医用画像に対するFederated Contrastive Learning [全文訳有]

Federated Contrastive Learning for Decentralized Unlabeled Medical Images ( http://arxiv.org/abs/2109.07504v1 )

ライセンス: CC BY 4.0
Nanqing Dong and Irina Voiculescu(参考訳) コンピュータビジョンにおけるラベル効率のよいパラダイムは、ラベルのないデータに対する自己教師付きコントラストプリトレーニングと、少数のラベルによる微調整に基づいている。 臨床領域における連合コンピューティング環境の実用化と医用画像の学習は、具体的な課題である。 本稿ではFedMoCoを提案する。FedMoCoは、分散化された非ラベル医療データを効率的に活用する、堅牢なFCLフレームワークである。 fedmocoには2つの新しいモジュールがある:メタデータ転送、ノード間の統計データ拡張モジュール、自己適応アグリゲーション、表現的類似性分析に基づくアグリゲーションモジュール。 私たちの知る限りでは、これは医療画像に関する最初のfcl作業です。 実験の結果,FedMoCoは,フェデラルなフェデレーション学習フレームワークであるFedAvgを一貫して上回り,下流タスクの有意義な表現を抽出できることがわかった。 さらに、FedMoCoは、新型コロナウイルス検出などの下流タスクに必要なラベル付きデータを大幅に削減し、適切なパフォーマンスを達成することができることを示す。

A label-efficient paradigm in computer vision is based on self-supervised contrastive pre-training on unlabeled data followed by fine-tuning with a small number of labels. Making practical use of a federated computing environment in the clinical domain and learning on medical images poses specific challenges. In this work, we propose FedMoCo, a robust federated contrastive learning (FCL) framework, which makes efficient use of decentralized unlabeled medical data. FedMoCo has two novel modules: metadata transfer, an inter-node statistical data augmentation module, and self-adaptive aggregation, an aggregation module based on representational similarity analysis. To the best of our knowledge, this is the first FCL work on medical images. Our experiments show that FedMoCo can consistently outperform FedAvg, a seminal federated learning framework, in extracting meaningful representations for downstream tasks. We further show that FedMoCo can substantially reduce the amount of labeled data required in a downstream task, such as COVID-19 detection, to achieve a reasonable performance.
翻訳日:2021-09-18 09:32:58 公開日:2021-09-15
# (参考訳) スキーマ駆動プロンプトを用いた言語モデルによる対話状態追跡 [全文訳有]

Dialogue State Tracking with a Language Model using Schema-Driven Prompting ( http://arxiv.org/abs/2109.07506v1 )

ライセンス: CC BY 4.0
Chia-Hsuan Lee, Hao Cheng, Mari Ostendorf(参考訳) タスク指向の会話システムは、しばしば、事前に定義されたスロットの値を埋めることを含むユーザの意図を表現するために、対話状態トラッキングを使用する。 多くのアプローチが提案されており、特殊目的分類器を備えたタスク固有のアーキテクチャを用いることが多い。 近年、事前学習された言語モデルに基づくより一般的なアーキテクチャを用いて良い結果が得られている。 本稿では,スキーマ駆動プロンプトを用いて,カテゴリと非カテゴリの両方のスロットに使用されるタスク認識履歴エンコーディングを提供する,言語モデリングアプローチの新たなバリエーションを紹介する。 ドメイン内知識の自然発生源であるスキーマ記述のプロンプトを増強することにより、パフォーマンスをさらに向上させる。 我々の純生成システムはMultiWOZ 2.2の最先端性能を実現し、MultiWOZ 2.1とM2Mの2つのベンチマークで競合性能を達成する。 データとコードはhttps://github.com/c hiahsuan156/dst-as-p romptingで入手できる。

Task-oriented conversational systems often use dialogue state tracking to represent the user's intentions, which involves filling in values of pre-defined slots. Many approaches have been proposed, often using task-specific architectures with special-purpose classifiers. Recently, good results have been obtained using more general architectures based on pretrained language models. Here, we introduce a new variation of the language modeling approach that uses schema-driven prompting to provide task-aware history encoding that is used for both categorical and non-categorical slots. We further improve performance by augmenting the prompting with schema descriptions, a naturally occurring source of in-domain knowledge. Our purely generative system achieves state-of-the-art performance on MultiWOZ 2.2 and achieves competitive performance on two other benchmarks: MultiWOZ 2.1 and M2M. The data and code will be available at https://github.com/c hiahsuan156/DST-as-P rompting.
翻訳日:2021-09-18 09:21:52 公開日:2021-09-15
# (参考訳) 視覚知覚分析のための雑音ラベルの集約と再定義の学習 [全文訳有]

Learning to Aggregate and Refine Noisy Labels for Visual Sentiment Analysis ( http://arxiv.org/abs/2109.07509v1 )

ライセンス: CC BY 4.0
Wei Zhu, Zihe Zheng, Haitian Zheng, Hanjia Lyu, Jiebo Luo(参考訳) 近年、視覚的感情分析が注目されている。 しかしながら、データセットの品質は、感情ラベルがクラウドソーシングであり、主観的であり、ミスを起こしやすいため、懸念される。 これは深層ニューラルネットワークを含むデータ駆動モデルに深刻な脅威をもたらし、ノイズの多い感情ラベルでサンプルを過度に適合させるように訓練された場合、テストケースの一般化を損なう。 近年,雑音ラベルによる学習の進展に触発されて,頑健な視覚的感情分析を行うための頑健な学習手法を提案する。 提案手法は, 学習中にノイズラベルを集約・フィルタリングするために外部メモリに依存するため, モデルによるノイズケースのオーバーフィットを防止できる。 メモリは対応するラベルを持つプロトタイプで構成されており、どちらもオンラインで更新することができる。 公開データセットを用いたラベルノイズを用いた視覚的感情分析のベンチマークを構築した。 提案手法の有効性を総合的に示すベンチマーク設定実験を行った。

Visual sentiment analysis has received increasing attention in recent years. However, the quality of the dataset is a concern because the sentiment labels are crowd-sourcing, subjective, and prone to mistakes. This poses a severe threat to the data-driven models including the deep neural networks which would generalize poorly on the testing cases if they are trained to over-fit the samples with noisy sentiment labels. Inspired by the recent progress on learning with noisy labels, we propose a robust learning method to perform robust visual sentiment analysis. Our method relies on an external memory to aggregate and filter noisy labels during training and thus can prevent the model from overfitting the noisy cases. The memory is composed of the prototypes with corresponding labels, both of which can be updated online. We establish a benchmark for visual sentiment analysis with label noise using publicly available datasets. The experiment results of the proposed benchmark settings comprehensively show the effectiveness of our method.
翻訳日:2021-09-18 09:02:40 公開日:2021-09-15
# (参考訳) 長い列における逐次規則の有用なコンパクト集合の発見 [全文訳有]

Discovering Useful Compact Sets of Sequential Rules in a Long Sequence ( http://arxiv.org/abs/2109.07519v1 )

ライセンス: CC BY 4.0
Erwan Bourrand and Luis Gal\'arraga and Esther Galbrun and Elisa Fromont and Alexandre Termier(参考訳) シンボリックイベントの長いシーケンスの基盤となる生成プロセスを理解することに興味があります。 そこで本研究では,小規模かつ有意義なルールをマイニングするアルゴリズムであるCOSSUを提案する。 ルールは、コンパクトさを優先し、シーケンスのための新しいルールベースのエンコーディング方式に依存するmdlにインスパイアされた基準を用いて選択される。 評価の結果,COSSUは長いシーケンスから関連した順序規則の集合を検索できることがわかった。 このようなルールは、次の要素予測と分類のタスクの競争精度を示す解釈可能なモデルを構成する。

We are interested in understanding the underlying generation process for long sequences of symbolic events. To do so, we propose COSSU, an algorithm to mine small and meaningful sets of sequential rules. The rules are selected using an MDL-inspired criterion that favors compactness and relies on a novel rule-based encoding scheme for sequences. Our evaluation shows that COSSU can successfully retrieve relevant sets of closed sequential rules from a long sequence. Such rules constitute an interpretable model that exhibits competitive accuracy for the tasks of next-element prediction and classification.
翻訳日:2021-09-18 08:52:08 公開日:2021-09-15
# (参考訳) 因果メディエーターとしてのテキスト:言語的側面による社会集団の差別化処理の因果推定に関する研究 [全文訳有]

Text as Causal Mediators: Research Design for Causal Estimates of Differential Treatment of Social Groups via Language Aspects ( http://arxiv.org/abs/2109.07542v1 )

ライセンス: CC BY 4.0
Katherine A. Keith, Douglas Rice, and Brendan O'Connor(参考訳) 対人関係を理解するために観察された言語を用いることは、高い意思決定において重要である。 そこで本研究では,観察的(非実験的)データのための因果研究設計を提案し,言語を因果媒介者とする話者の反応に対する社会的グループ信号(人種や性別など)の自然な直接的・間接的影響を推定する。 合衆国最高裁判所の口頭弁論において、弁護人の性別が判事の割り込みに与える影響に関する理論的ケーススタディを通じて、この枠組みの約束と課題を説明する。 また,多成分からなる性や言語などの因果変数を概念化し,運用する課題についても論じるとともに,会話環境における言語仲介者間の時間的依存などの技術的なオープン課題を明らかにした。

Using observed language to understand interpersonal interactions is important in high-stakes decision making. We propose a causal research design for observational (non-experimental) data to estimate the natural direct and indirect effects of social group signals (e.g. race or gender) on speakers' responses with separate aspects of language as causal mediators. We illustrate the promises and challenges of this framework via a theoretical case study of the effect of an advocate's gender on interruptions from justices during U.S. Supreme Court oral arguments. We also discuss challenges conceptualizing and operationalizing causal variables such as gender and language that comprise of many components, and we articulate technical open challenges such as temporal dependence between language mediators in conversational settings.
翻訳日:2021-09-18 08:35:44 公開日:2021-09-15
# (参考訳) RaWaNet: グラフ上のランダムウォークによるグラフニューラルネットワーク入力の強化 [全文訳有]

RaWaNet: Enriching Graph Neural Network Input via Random Walks on Graphs ( http://arxiv.org/abs/2109.07555v1 )

ライセンス: CC BY 4.0
Anahita Iravanizad, Edgar Ivan Sanchez Medina, Martin Stoll(参考訳) 近年、グラフニューラルネットワーク(GNN)の人気が高まっており、グラフで表されるデータに対して非常に有望な結果を示している。 GNNアーキテクチャの大部分は、異なる予測タスクに使用するグラフの隠れたより深い表現をよりよく抽出する、新しい畳み込み層やプール層の開発に基づいて設計されている。 これらのレイヤへの入力は、主にグラフの3つのデフォルト記述子、nodeは$(x)$、adjacency matrixは$(a)$、edgeは$(w)$(可能であれば)である。 ネットワークへのより豊かな入力を提供するため、3つの選択された長さに基づくグラフのランダムウォークデータ処理を提案する。 すなわち、(正規の)長さ 1 と 2 のウォークと長さ $\gamma \in (0,1)$ の分歩により、グラフ上の異なる局所的および大域的ダイナミクスを捉える。 また、各ランダムウォークの定常分布を計算し、最初のノード機能($x$)のスケーリング係数として使用する。 このように、各グラフに対して、ネットワークは複数の隣接行列を受信し、ノードの特徴に対する個々の重み付けを行う。 本手法は,処理ノードの特徴をネットワークに渡すことで,様々な分子データセット上でテストを行い,複数の分類と回帰タスクを行う。 興味深いことに、分子グラフ学習に大きく活用されているエッジ機能を使用しない手法は、浅いネットワークをよく知られた深いGNNよりも優れている。

In recent years, graph neural networks (GNNs) have gained increasing popularity and have shown very promising results for data that are represented by graphs. The majority of GNN architectures are designed based on developing new convolutional and/or pooling layers that better extract the hidden and deeper representations of the graphs to be used for different prediction tasks. The inputs to these layers are mainly the three default descriptors of a graph, node features $(X)$, adjacency matrix $(A)$, and edge features $(W)$ (if available). To provide a more enriched input to the network, we propose a random walk data processing of the graphs based on three selected lengths. Namely, (regular) walks of length 1 and 2, and a fractional walk of length $\gamma \in (0,1)$, in order to capture the different local and global dynamics on the graphs. We also calculate the stationary distribution of each random walk, which is then used as a scaling factor for the initial node features ($X$). This way, for each graph, the network receives multiple adjacency matrices along with their individual weighting for the node features. We test our method on various molecular datasets by passing the processed node features to the network in order to perform several classification and regression tasks. Interestingly, our method, not using edge features which are heavily exploited in molecular graph learning, let a shallow network outperform well known deep GNNs.
翻訳日:2021-09-18 08:19:53 公開日:2021-09-15
# (参考訳) 因果図を用いた単位選択 [全文訳有]

Unit Selection with Causal Diagram ( http://arxiv.org/abs/2109.07556v1 )

ライセンス: CC BY 4.0
Ang Li and Judea Pearl(参考訳) 単位選択問題(unit selection problem)は、望ましい行動様式を示す可能性が最も高い集団を特定することを目的としている。 実験データと観測データの組み合わせを用いて、LiとPearlは、与えられた特性を持つ個人を選択することで得られる「便益関数」に関する厳密な境界を導出した。 本稿では,これらの境界を,因果モデルという形で構造的情報が得られる場合に,かなり狭めることができることを示す。 特定のグラフィカルな基準が成立すると仮定された場合,観測データと実験データを用いて利益関数を推定する問題に対処する。

The unit selection problem aims to identify a set of individuals who are most likely to exhibit a desired mode of behavior, for example, selecting individuals who would respond one way if encouraged and a different way if not encouraged. Using a combination of experimental and observational data, Li and Pearl derived tight bounds on the "benefit function" - the payoff/cost associated with selecting an individual with given characteristics. This paper shows that these bounds can be narrowed significantly (enough to change decisions) when structural information is available in the form of a causal model. We address the problem of estimating the benefit function using observational and experimental data when specific graphical criteria are assumed to hold.
翻訳日:2021-09-18 08:06:31 公開日:2021-09-15
# (参考訳) counternet:偽認識予測のエンドツーエンドトレーニング [全文訳有]

CounterNet: End-to-End Training of Counterfactual Aware Predictions ( http://arxiv.org/abs/2109.07557v1 )

ライセンス: CC BY 4.0
Hangzhi Guo, Thanh Hong Nguyen, Amulya Yadav(参考訳) 本稿では、予測モデルトレーニングとカウンターファクト(cf)説明生成を単一のエンドツーエンドパイプラインに統合した、新しいエンドツーエンド学習フレームワークであるcounternetを提案する。 対実的な説明は、MLモデルの予測を事前定義された出力に変換するインスタンスの特徴値に対する最小限の変更を見つけようとする。 事前のcf説明手法は、各入力インスタンスの個別の時間的最適化問題を解決してcfの例を見つけ、またモデル予測と説明の間の目的の不一致に苦しむため、cf説明の品質に重大な欠点が生じる。 一方、CounterNetは、予測と説明の両方を同じフレームワークに統合し、予測モデルとともにCFサンプル生成を1回だけ最適化することができる。 本稿では,カウンタネットのネットワークを効果的に訓練するための新しいバックプロパゲーション手法を提案する。 最後に,複数の実世界のデータセットについて広範な実験を行う。 その結果、counternetは高品質な予測を生成し、既存の最先端のベースラインよりもはるかに高速に新しい入力インスタンスに対して対応するcfサンプル(有効性が高い)を生成することがわかった。

This work presents CounterNet, a novel end-to-end learning framework which integrates the predictive model training and counterfactual (CF) explanation generation into a single end-to-end pipeline. Counterfactual explanations attempt to find the smallest modification to the feature values of an instance that changes the prediction of the ML model to a predefined output. Prior CF explanation techniques rely on solving separate time-intensive optimization problems for every single input instance to find CF examples, and also suffer from the misalignment of objectives between model predictions and explanations, which leads to significant shortcomings in the quality of CF explanations. CounterNet, on the other hand, integrates both prediction and explanation in the same framework, which enables the optimization of the CF example generation only once together with the predictive model. We propose a novel variant of back-propagation which can help in effectively training CounterNet's network. Finally, we conduct extensive experiments on multiple real-world datasets. Our results show that CounterNet generates high-quality predictions, and corresponding CF examples (with high validity) for any new input instance significantly faster than existing state-of-the-art baselines.
翻訳日:2021-09-18 07:06:32 公開日:2021-09-15
# (参考訳) ハイブリッドICP [全文訳有]

Hybrid ICP ( http://arxiv.org/abs/2109.07559v1 )

ライセンス: CC BY 4.0
Kamil Dreczkowski and Edward Johns(参考訳) ICPアルゴリズムは通常、データアソシエーション手法の固定選択とエラーメトリクスの固定選択を含む。 本稿では、オブジェクトのライブイメージと現在のICP推定値に基づいて、データアソシエーション法とエラーメトリクスの両方を動的に最適化する、新しく柔軟なICP変種であるHybrid ICPを提案する。 オブジェクトポーズ推定に使用する場合,ハイブリッドICPは他のICP変種よりも精度が高く,ノイズに対して頑健であることを示す。 また、ICPを移動カメラで順次適用するための設定についても検討し、各ICP推定精度とICP推定回数とのトレードオフを一定時間内に検討する。

ICP algorithms typically involve a fixed choice of data association method and a fixed choice of error metric. In this paper, we propose Hybrid ICP, a novel and flexible ICP variant which dynamically optimises both the data association method and error metric based on the live image of an object and the current ICP estimate. We show that when used for object pose estimation, Hybrid ICP is more accurate and more robust to noise than other commonly used ICP variants. We also consider the setting where ICP is applied sequentially with a moving camera, and we study the trade-off between the accuracy of each ICP estimate and the number of ICP estimates available within a fixed amount of time.
翻訳日:2021-09-18 06:47:45 公開日:2021-09-15
# (参考訳) エージェントの多感的予測のためのフレームワーク [全文訳有]

A Framework for Multisensory Foresight for Embodied Agents ( http://arxiv.org/abs/2109.07561v1 )

ライセンス: CC BY 4.0
Xiaohui Chen, Ramtin Hosseini, Karen Panetta, Jivko Sinapov(参考訳) 将来の感覚状態を予測することは、ロボット、ドローン、自動運転車などの学習エージェントにとって重要である。 本稿では,複数の感覚モーダルを探索行動と組み合わせ,この問題に対処するための予測ニューラルネットワークアーキテクチャを提案する。 既存のアプローチのほとんどは、大きく手動で注釈付けされたデータセットに依存している。 対照的に、この教師なしの方法は、将来の視覚フレームを予測するためにマルチモーダル知覚を用いる。 その結果、提案モデルはより包括的であり、環境の時空間ダイナミクスをよりよく捉えることができ、より正確な視覚フレーム予測に繋がる。 我々のフレームワークのもう1つの目新しさは、未来の触覚、音声、触覚信号を予測するためのサブネットワークの使用です。 このフレームワークは、大規模なオブジェクトに対して9つの動作を複数回実行するヒューマノイドロボット上で、4つの感覚モーダル(ビジョン、触覚、オーディオ、触覚)を含むデータセットでテストされ、検証された。 視覚情報は支配的モダリティであるが、追加の非視覚モダリティを利用することで予測の精度が向上する。

Predicting future sensory states is crucial for learning agents such as robots, drones, and autonomous vehicles. In this paper, we couple multiple sensory modalities with exploratory actions and propose a predictive neural network architecture to address this problem. Most existing approaches rely on large, manually annotated datasets, or only use visual data as a single modality. In contrast, the unsupervised method presented here uses multi-modal perceptions for predicting future visual frames. As a result, the proposed model is more comprehensive and can better capture the spatio-temporal dynamics of the environment, leading to more accurate visual frame prediction. The other novelty of our framework is the use of sub-networks dedicated to anticipating future haptic, audio, and tactile signals. The framework was tested and validated with a dataset containing 4 sensory modalities (vision, haptic, audio, and tactile) on a humanoid robot performing 9 behaviors multiple times on a large set of objects. While the visual information is the dominant modality, utilizing the additional non-visual modalities improves the accuracy of predictions.
翻訳日:2021-09-18 06:32:19 公開日:2021-09-15
# (参考訳) 強化学習によるワーファリン量の推定 [全文訳有]

Estimation of Warfarin Dosage with Reinforcement Learning ( http://arxiv.org/abs/2109.07564v1 )

ライセンス: CC BY 4.0
Arpita Vats(参考訳) 本稿では, 患者に対するWarfarinの適切な投与量をモデル化するためにReinforcement Learningを用いて試み, まず, 35mg/週投与量の固定モデルと, 患者データに依存する線形モデルについて検討した。 私たちはlinucbのバンディットを実装し、後悔と不正確なパーセンテージに基づいてパフォーマンスを改善しました。 linucb banditに加えて、オンラインの教師付き学習と報酬の再構成を実験し、パフォーマンスを高めました。 以上の結果から,医師が適切な服用量を決定するのに多武器のバンディットと人工知能を使うことが期待できる。

In this paper, it has attempted to use Reinforcement learning to model the proper dosage of Warfarin for patients.The paper first examines two baselines: a fixed model of 35 mg/week dosages and a linear model that relies on patient data. We implemented a LinUCB bandit that improved performance measured on regret and percent incorrect. On top of the LinUCB bandit, we experimented with online supervised learning and reward reshaping to boost performance. Our results clearly beat the baselines and show the promise of using multi-armed bandits and artificial intelligence to aid physicians in deciding proper dosages.
翻訳日:2021-09-18 06:18:16 公開日:2021-09-15
# (参考訳) TransProteus CGIデータセットを用いた透明容器内の材料・液体・物体の3次元形状・マスク・特性の予測 [全文訳有]

Predicting 3D shapes, masks, and properties of materials, liquids, and objects inside transparent containers, using the TransProteus CGI dataset ( http://arxiv.org/abs/2109.07577v1 )

ライセンス: CC BY 4.0
Sagi Eppel, Haoping Xu, Yi Ru Wang, Alan Aspuru-Guzik(参考訳) 画像のソースやカメラパラメータを事前に知ることなく, 透明容器内の物質, 液体, 物体の3次元構造, マスク, 特性を予測するためのデータセットであるTransProteusを提案する。 透明容器における材料操作は多くの分野において不可欠であり、視覚に大きく依存する。 この作業は、透明なコンテナ内の液体と固体の50万の画像からなる、新しい手続き的に生成されたデータセットを提供する。 画像アノテーションには、3Dモデル、材料特性(色/透明/粗さ...)、容器とその内容のセグメンテーションマスクが含まれている。 データセットの合成 (CGI) 部分は, 13kの異なる物体, 500の異なる環境 (HDRI) と1450の材料テクスチャ (PBR) をシミュレートした液体と手続き的に生成された容器を用いて手続き的に生成した。 さらに,透明容器内の物体を104枚の実世界画像として,容器とその内容の深さマップを提供する。 XYZマップとして画像から3次元モデルを予測するカメラ非依存の手法を提案する。 これにより、トレーニングされたネットは、画像ソースを事前に知ることなく、XYZ座標を1ピクセルあたりの地図として3Dモデルを予測できる。 トレーニング損失を計算するために,絶対XYZ座標の代わりに3次元モデル内の点の対間距離を用いる。 これにより損失関数変換は不変となる。 これを使って、1つの画像から血管とその内容の3dモデルを予測する。 最後に, 1枚の画像を用いて, 容器内容物と表面の材料特性を推定するネットを実演する。

We present TransProteus, a dataset, and methods for predicting the 3D structure, masks, and properties of materials, liquids, and objects inside transparent vessels from a single image without prior knowledge of the image source and camera parameters. Manipulating materials in transparent containers is essential in many fields and depends heavily on vision. This work supplies a new procedurally generated dataset consisting of 50k images of liquids and solid objects inside transparent containers. The image annotations include 3D models, material properties (color/transparency/ roughness...), and segmentation masks for the vessel and its content. The synthetic (CGI) part of the dataset was procedurally generated using 13k different objects, 500 different environments (HDRI), and 1450 material textures (PBR) combined with simulated liquids and procedurally generated vessels. In addition, we supply 104 real-world images of objects inside transparent vessels with depth maps of both the vessel and its content. We propose a camera agnostic method that predicts 3D models from an image as an XYZ map. This allows the trained net to predict the 3D model as a map with XYZ coordinates per pixel without prior knowledge of the image source. To calculate the training loss, we use the distance between pairs of points inside the 3D model instead of the absolute XYZ coordinates. This makes the loss function translation invariant. We use this to predict 3D models of vessels and their content from a single image. Finally, we demonstrate a net that uses a single image to predict the material properties of the vessel content and surface.
翻訳日:2021-09-18 06:10:40 公開日:2021-09-15
# (参考訳) シーケンス型トランスポーターネットワークを用いたマルチタスク学習 [全文訳有]

Multi-Task Learning with Sequence-Conditioned Transporter Networks ( http://arxiv.org/abs/2109.07578v1 )

ライセンス: CC BY 4.0
Michael H. Lim, Andy Zeng, Brian Ichter, Maryam Bandari, Erwin Coumans, Claire Tomlin, Stefan Schaal, Aleksandra Faust(参考訳) 複数の操作タスクを解くロボットの開発には、幅広い産業的応用がある。 学習ベースのアプローチは柔軟性と一般化性を楽しむが、このような構成課題を解決するためにこれらのアプローチをスケールすることは依然として課題である。 本研究では,シーケンスコンディショニングと重み付けサンプリングのレンズを通して,マルチタスク学習の解決を目指す。 まず,構成タスクに特化したベンチマークスイートであるMultiRavensを提案し,産業タスクにインスパイアされたタスクモジュールによるカスタムタスクの組み合わせの定義と,視覚に基づく学習・計画手法の難しさを実証する。 第2に,目的条件付きトランスポーターネットワークをシーケンスコンディショニングと重み付けサンプリングにより拡張し,マルチタスクの長大地平線の問題を効率的に解くことができる,ビジョンベースのエンド・ツー・エンドシステムアーキテクチャであるシーケンシャルコンディショルドトランスポーターネットワークを提案する。 また,重み付きサンプリングを用いたマルチタスク学習により,個々のタスクにおける学習性能とエージェント性能が大幅に向上することが示唆された。

Enabling robots to solve multiple manipulation tasks has a wide range of industrial applications. While learning-based approaches enjoy flexibility and generalizability, scaling these approaches to solve such compositional tasks remains a challenge. In this work, we aim to solve multi-task learning through the lens of sequence-conditionin g and weighted sampling. First, we propose a new suite of benchmark specifically aimed at compositional tasks, MultiRavens, which allows defining custom task combinations through task modules that are inspired by industrial tasks and exemplify the difficulties in vision-based learning and planning methods. Second, we propose a vision-based end-to-end system architecture, Sequence-Conditioned Transporter Networks, which augments Goal-Conditioned Transporter Networks with sequence-conditionin g and weighted sampling and can efficiently learn to solve multi-task long horizon problems. Our analysis suggests that not only the new framework significantly improves pick-and-place performance on novel 10 multi-task benchmark problems, but also the multi-task learning with weighted sampling can vastly improve learning and agent performances on individual tasks.
翻訳日:2021-09-18 05:55:33 公開日:2021-09-15
# (参考訳) ドメイン適応のためのデータ選択と微調整の相補性について [全文訳有]

On the Complementarity of Data Selection and Fine Tuning for Domain Adaptation ( http://arxiv.org/abs/2109.07591v1 )

ライセンス: CC BY 4.0
Dan Iter and David Grangier(参考訳) ニューラルネットワークのドメイン適応は通常、事前トレーニング、選択されたデータトレーニング、そして微調整の3つのトレーニングフェーズに依存している。 データ選択は、ターゲットドメインデータの小さなサンプルに依存して識別された事前トレーニングデータに基づいてトレーニングすることで、ターゲットドメインの一般化を改善する。 本稿では,言語モデルと機械翻訳におけるデータ選択の利点について検討する。 本実験では, 微調整による選択の相補性を評価し, 実用的推薦を行う。 (i)選択データは、微調整領域に類似しなければならないが、微調整の相補効果を損なうほどではない。 (II) 速いが限られた進歩のために小さなデータを選択するか、遅いが長い進行のために多くのデータを選択するかのトレードオフがある。 (iii) データ選択は、事前訓練中に早期に適用することができ、長時間事前訓練セッションに匹敵する性能向上が図られる。 (iv) ドメイン分類器からのデータ選択は、しばしば一般的なコントラストデータ選択法よりも効果的である。

Domain adaptation of neural networks commonly relies on three training phases: pretraining, selected data training and then fine tuning. Data selection improves target domain generalization by training further on pretraining data identified by relying on a small sample of target domain data. This work examines the benefit of data selection for language modeling and machine translation. Our experiments assess the complementarity of selection with fine tuning and result in practical recommendations: (i) selected data must be similar to the fine-tuning domain but not so much as to erode the complementary effect of fine-tuning; (ii) there is a trade-off between selecting little data for fast but limited progress or much data for slow but long lasting progress; (iii) data selection can be applied early during pretraining, with performance gains comparable to long pretraining session; (iv) data selection from domain classifiers is often more effective than the popular contrastive data selection method.
翻訳日:2021-09-18 05:33:43 公開日:2021-09-15
# (参考訳) 監視機械学習を用いた最新のサイバーセキュリティソリューション [全文訳有]

Modern Cybersecurity Solution using Supervised Machine Learning ( http://arxiv.org/abs/2109.07593v1 )

ライセンス: CC BY 4.0
Mustafa Sakhai, Maciej Wielgosz(参考訳) サイバーセキュリティは不可欠であり、攻撃は急速に拡大し、検出が難しくなっている。 従来のファイアウォールと侵入検知システムは広く使われて推奨されているが、新しい攻撃、ゼロデイ攻撃、設定されたルールにマッチしないトラフィックパターンを検出できない。 したがって、機械学習(ML)はサイバーセキュリティにおける効率的かつコスト削減のソリューションである。 データ分析を適用した後、netflowデータセットを使用して特徴を抽出する。 そして、これらの特徴を互いに比較するために選択プロセスを適用した。 我々の実験は、機械学習アルゴリズムがBotトラフィック、Malwareトラフィック、バックグラウンドトラフィックをいかに効率的に検出できるかに焦点を当てている。 6.5%のボットフロー、1.57%のノーマルフロー、0.18%のCommand&Control(C&C)フロー、91.7%のバックグラウンドフロー、合計2,753,884のフローを持つデータセットから0.903の精度値を得ることができた。 その結果,偽陰性は少なく,偽陽性は少ない。

Cybersecurity is essential, and attacks are rapidly growing and getting more challenging to detect. The traditional Firewall and Intrusion Detection system, even though it is widely used and recommended but it fails to detect new attacks, zero-day attacks, and traffic patterns that do not match with any configured rules. Therefore, Machine Learning (ML) can be an efficient and cost-reduced solution in cybersecurity. We used Netflow datasets to extract features after applying data analysis. Then, a selection process has been applied to compare these features with one another. Our experiments focus on how efficient machine learning algorithms can detect Bot traffic, Malware traffic, and background traffic. We managed to get 0.903 precision value from a dataset that has 6.5% Bot flows, 1.57% Normal flows, 0.18% Command&Control (C&C) flows, and 91.7% background flows, from 2,753,884 total flows. The results show low false-negative with few false-positive detections.
翻訳日:2021-09-18 05:16:58 公開日:2021-09-15
# (参考訳) ファウショット画像分類のためのパートナー支援学習 [全文訳有]

Partner-Assisted Learning for Few-Shot Image Classification ( http://arxiv.org/abs/2109.07607v1 )

ライセンス: CC BY 4.0
Jiawei Ma, Hanchen Xie, Guangxing Han, Shih-Fu Chang, Aram Galstyan, Wael Abd-Almageed(参考訳) 人間の視覚能力を模倣し、徹底的な人間の注釈を必要とせずに効果的なモデルを学ぶために、わずかなショット学習が研究されている。 適応のためのメタ学習のアイデアが、数少ない学習方法を支配しているが、機能抽出器のトレーニングは依然として課題である。 本稿では,いくつかのラベル付きサンプルから各新規クラスのプロトタイプを推定できるように,要素表現を得るためのトレーニング戦略の設計に着目する。 まず,パートナーエンコーダをペアワイズ類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整合させ,分類性能を最大化しながらメインエンコーダを訓練するパートナ支援学習(pal)を提案する。 ログレベルとフィーチャーレベルの2つのアライメント制約を個別に設計する。 少数のタスク毎にプロトタイプの分類を行う。 提案手法は,4つのベンチマークにおいて常に最先端の手法より優れる。 PALの詳細なアブレーション研究は、トレーニングに関わる各コンポーネントの選択を正当化するために提供される。

Few-shot Learning has been studied to mimic human visual capabilities and learn effective models without the need of exhaustive human annotation. Even though the idea of meta-learning for adaptation has dominated the few-shot learning methods, how to train a feature extractor is still a challenge. In this paper, we focus on the design of training strategy to obtain an elemental representation such that the prototype of each novel class can be estimated from a few labeled samples. We propose a two-stage training scheme, Partner-Assisted Learning (PAL), which first trains a partner encoder to model pair-wise similarities and extract features serving as soft-anchors, and then trains a main encoder by aligning its outputs with soft-anchors while attempting to maximize classification performance. Two alignment constraints from logit-level and feature-level are designed individually. For each few-shot task, we perform prototype classification. Our method consistently outperforms the state-of-the-art method on four benchmarks. Detailed ablation studies of PAL are provided to justify the selection of each component involved in training.
翻訳日:2021-09-18 05:06:13 公開日:2021-09-15
# (参考訳) 進化するデータストリームにおけるオンザフライエンサンブルプルーニング [全文訳有]

On-the-Fly Ensemble Pruning in Evolving Data Streams ( http://arxiv.org/abs/2109.07611v1 )

ライセンス: CC BY 4.0
Sanem Elbasi, Alican B\"uy\"uk\c{c}ak{\i}r, Hamed Bonab and Fazli Can(参考訳) アンサンブルプルーニング(英: Ensemble pruning)とは、アンサンブルからコンポーネント分類器のサブセットを選択するプロセスであり、ストレージと計算コストを削減しつつ、少なくとも元のアンサンブルと同等に動作し、データストリームにおけるプルーニングは探索されていない領域である。 ストリーム上で実行されるアンサンブルコンポーネントの分析と、冗長コンポーネントから有用な分類器を区別する必要がある。 本論文では,複数クラスデータストリーム分類のためのオンザフライアンサンブルprun-ing手法であるccrpを提案する。ccrpは,クラス毎のランク付けの不均衡を意識した融合によって実現される。ccrpは,結果のprunedアンサンブルが対象クラス毎に最もパフォーマンスの高い分類器を含むことを目標とし,クラス不均衡のef-fectsを削減する。 実世界のデータストリームと合成データストリームに関する実験により,CCRPを統合したエンサンブルが,平均的メモリ消費量を20%から90%削減し,連続的に性能向上を図った。 最後に,本提案手法を,アンサンブル重みに基づくプルーニングスキームと基本階数融合法との比較により検証した。

Ensemble pruning is the process of selecting a subset of componentclassifiers from an ensemble which performs at least as well as theoriginal ensemble while reducing storage and computational costs.Ensemble pruning in data streams is a largely unexplored area ofresearch. It requires analysis of ensemble components as they arerunning on the stream, and differentiation of useful classifiers fromredundant ones. We present CCRP, an on-the-fly ensemble prun-ing method for multi-class data stream classification empoweredby an imbalance-aware fusion of class-wise component rankings.CCRP aims that the resulting pruned ensemble contains the bestperforming classifier for each target class and hence, reduces the ef-fects of class imbalance. The conducted experiments on real-worldand synthetic data streams demonstrate that different types of en-sembles that integrate CCRP as their pruning scheme consistentlyyield on par or superior performance with 20% to 90% less averagememory consumption. Lastly, we validate the proposed pruningscheme by comparing our approach against pruning schemes basedon ensemble weights and basic rank fusion methods.
翻訳日:2021-09-18 04:49:04 公開日:2021-09-15
# (参考訳) BacHMMachine: 4部バロック合唱曲のアルゴリズム調和のための解釈可能かつスケーラブルなモデル [全文訳有]

BacHMMachine: An Interpretable and Scalable Model for Algorithmic Harmonization for Four-part Baroque Chorales ( http://arxiv.org/abs/2109.07623v1 )

ライセンス: CC BY 4.0
Yunyao Zhu, Stephen Hahn, Simon Mak, Yue Jiang, Cynthia Rudin(参考訳) アルゴリズム的調和 - 旋律的線に基づく楽曲の自動調和 - は、音楽理論家とコンピュータ科学者の両方から多くの関心を集めている困難な問題である。 特に興味のあるジャンルはj・s・バッハの4部構成のバロック調弦楽団である。 アルゴリズム的コラール調和法は一般にブラックボックスの「データ駆動」アプローチを採用しており、音楽理論の原理を明示的に統合するのではなく、大量のコラールデータで訓練された複雑な学習モデルに依存している。 そこで我々は,音楽合成原理に導かれた「理論駆動」フレームワークと,このフレームワークにおける構成特徴を学習するための「データ駆動」モデルを用いる,bachmmachineと呼ばれる新しい調和モデルを提案する。 名前の通り、BacHMMachineは鍵と和音の遷移に基づく新しい隠れマルコフモデルを使用し、鍵変調と和音の進行を与えられた旋律線から学習するための確率的枠組みを提供する。 これは創造的だが音楽的にコヒーレントなコラール調和を発生させることを可能にし、構成原理の統合は計算の負担を大幅に削減し、最先端のアルゴリズム的調和法に比べて解釈性を高める、より単純なモデルを可能にする。 本研究では,BacHMMachineを既存手法と比較した総合実験およびチューリング試験により,この改善を実証する。

Algorithmic harmonization - the automated harmonization of a musical piece given its melodic line - is a challenging problem that has garnered much interest from both music theorists and computer scientists. One genre of particular interest is the four-part Baroque chorales of J.S. Bach. Methods for algorithmic chorale harmonization typically adopt a black-box, "data-driven" approach: they do not explicitly integrate principles from music theory but rely on a complex learning model trained with a large amount of chorale data. We propose instead a new harmonization model, called BacHMMachine, which employs a "theory-driven" framework guided by music composition principles, along with a "data-driven" model for learning compositional features within this framework. As its name suggests, BacHMMachine uses a novel Hidden Markov Model based on key and chord transitions, providing a probabilistic framework for learning key modulations and chordal progressions from a given melodic line. This allows for the generation of creative, yet musically coherent chorale harmonizations; integrating compositional principles allows for a much simpler model that results in vast decreases in computational burden and greater interpretability compared to state-of-the-art algorithmic harmonization methods, at no penalty to quality of harmonization or musicality. We demonstrate this improvement via comprehensive experiments and Turing tests comparing BacHMMachine to existing methods.
翻訳日:2021-09-18 04:41:00 公開日:2021-09-15
# DeepMetis: 突然変異スコアを高めるためのディープラーニングテストセットの拡張

DeepMetis: Augmenting a Deep Learning Test Set to Increase its Mutation Score ( http://arxiv.org/abs/2109.07514v1 )

ライセンス: Link先を確認
Vincenzo Riccio, Nargiz Humbatova, Gunel Jahangirova, Paolo Tonella(参考訳) ディープラーニング(DL)コンポーネントは、画像や自然言語処理のような複雑なタスクを実行する必要があるソフトウェアシステムに日常的に統合される。 このようなシステムをテストするために使用されるテストデータの妥当性は、実際のdl障害をシミュレートする人工的に注入された障害(変異)を露出する能力によって評価できる。 本稿では,dl変異の検出能力を高めるために,既存のテストセットを増強するために使用できる新しいテスト入力を自動的に生成する手法について述べる。 DeepMetisは検索ベースの入力生成戦略を実装している。 トレーニングの非決定性と突然変異過程を考慮するため、我々の適合機能はテスト中のdlモデルの複数のインスタンスを含む。 実験の結果,<tool</to>は与えられたテストセットの増強に有効であり,変異体を平均63%検出する能力を高めた。 アウトアウト実験では、拡張テストセットが未確認のミュータントを露出し、未検出の障害の発生をシミュレートできることが示されている。

Deep Learning (DL) components are routinely integrated into software systems that need to perform complex tasks such as image or natural language processing. The adequacy of the test data used to test such systems can be assessed by their ability to expose artificially injected faults (mutations) that simulate real DL faults. In this paper, we describe an approach to automatically generate new test inputs that can be used to augment the existing test set so that its capability to detect DL mutations increases. Our tool DeepMetis implements a search based input generation strategy. To account for the non-determinism of the training and the mutation processes, our fitness function involves multiple instances of the DL model under test. Experimental results show that \tool is effective at augmenting the given test set, increasing its capability to detect mutants by 63% on average. A leave-one-out experiment shows that the augmented test set is capable of exposing unseen mutants, which simulate the occurrence of yet undetected faults.
翻訳日:2021-09-17 16:31:49 公開日:2021-09-15
# 皮膚病理学者のコンセンサスを基盤とする黒色腫標本のトリアージが可能な病理深層学習システム

A Pathology Deep Learning System Capable of Triage of Melanoma Specimens Utilizing Dermatopathologist Consensus as Ground Truth ( http://arxiv.org/abs/2109.07554v1 )

ライセンス: Link先を確認
Sivaramakrishnan Sankarapandian, Saul Kohn, Vaughn Spurrier, Sean Grullon, Rajath E. Soans, Kameswari D. Ayyagari, Ramachandra V. Chamarthi, Kiran Motaparthi, Jason B. Lee, Wonwoo Shon, Michael Bonham, and Julianna D. Ianni(参考訳) 悪性黒色腫は他のいくつかの皮膚癌よりも稀に発症するが,診断に至らなかった場合,長期生存率は極めて低い。 悪性黒色腫と良性メラノサイトーシス病変の鑑別は,病理組織学的に高い不一致率で診断が困難である。 pathology labsがワークフローでメラノーマ症例の分類と優先順位付けを可能にするツールは、挑戦的なケースを優先順位付けし、それらを適切なサブスペシャリストに直接ルーティングすることで、ターンアラウンド時間を改善する。 われわれは,デジタル化全スライド画像(WSI)標本の階層的分類を,メラノーマや重度異形成性腫瘍を呈する「メラノキシー検査」標本の分類を含む形態的特徴で定義した6つのクラスに分類する。 対象は, 単一の実験室(基準実験室)の7,685枚の画像で, これまでにコンパイルされたメラノサイト標本としては最大であり, 2つの検証室の5,099枚の画像で試験を行った。 ROC曲線 (AUC) では, 基準実験室で0.93, 第1検証室で0.95, 第2検証室で0.82の分類が得られた。 pdlsはメラノサイトーシスの被疑者に対して高い感度で自動的に皮膚標本の分類とトリアージが可能であり、病理医はすべてのメラノーマ標本に対処するためにケースロードの30%から60%しか必要としない。

Although melanoma occurs more rarely than several other skin cancers, patients' long term survival rate is extremely low if the diagnosis is missed. Diagnosis is complicated by a high discordance rate among pathologists when distinguishing between melanoma and benign melanocytic lesions. A tool that allows pathology labs to sort and prioritize melanoma cases in their workflow could improve turnaround time by prioritizing challenging cases and routing them directly to the appropriate subspecialist. We present a pathology deep learning system (PDLS) that performs hierarchical classification of digitized whole slide image (WSI) specimens into six classes defined by their morphological characteristics, including classification of "Melanocytic Suspect" specimens likely representing melanoma or severe dysplastic nevi. We trained the system on 7,685 images from a single lab (the reference lab), including the the largest set of triple-concordant melanocytic specimens compiled to date, and tested the system on 5,099 images from two distinct validation labs. We achieved Area Underneath the ROC Curve (AUC) values of 0.93 classifying Melanocytic Suspect specimens on the reference lab, 0.95 on the first validation lab, and 0.82 on the second validation lab. We demonstrate that the PDLS is capable of automatically sorting and triaging skin specimens with high sensitivity to Melanocytic Suspect cases and that a pathologist would only need between 30% and 60% of the caseload to address all melanoma specimens.
翻訳日:2021-09-17 16:30:42 公開日:2021-09-15
# 操作コンテキストにおけるニューラルアーキテクチャ探索--リモートセンシングケーススタディ

Neural Architecture Search in operational context: a remote sensing case-study ( http://arxiv.org/abs/2109.08028v1 )

ライセンス: Link先を確認
Anthony Cazasnoves, Pierre-Antoine Ganaye, K\'evin Sanchis, Tugdual Ceillier(参考訳) 近年、ディープラーニングは、自動運転など業界における重要なイノベーションを後押しする基盤となるツールとなっている。 優れたパフォーマンスを達成するためには、あるアプリケーションで使用されるニューラルネットワークアーキテクチャを慎重に選択する必要がある。 これらのアーキテクチャはしばしば手作りであり、従って人間のバイアスや準最適選択が生じる。 neural architecture search(nas)は、ネットワークアーキテクチャとその重み付けを共同で最適化することで、そのようなリスクを軽減するために導入されたフレームワークである。 その斬新さにもかかわらず、意味的イメージセグメンテーションのような重要な結果の複雑なタスクに適用された。 本稿では,衛星画像に対する関心対象のセマンティックセグメンテーション(セマンティックセグメンテーション)という課題に対処する能力を評価することを目的とする。 NASフレームワークの設計は簡単ではなく、ハードウェアの制約に強く依存する。 そこで我々はNASアプローチの選択を動機付け、それに対応する実装の詳細を提供する。 また、このような事例研究を行うための新しいアイデアも提示する。

Deep learning has become in recent years a cornerstone tool fueling key innovations in the industry, such as autonomous driving. To attain good performances, the neural network architecture used for a given application must be chosen with care. These architectures are often handcrafted and therefore prone to human biases and sub-optimal selection. Neural Architecture Search (NAS) is a framework introduced to mitigate such risks by jointly optimizing the network architectures and its weights. Albeit its novelty, it was applied on complex tasks with significant results - e.g. semantic image segmentation. In this technical paper, we aim to evaluate its ability to tackle a challenging operational task: semantic segmentation of objects of interest in satellite imagery. Designing a NAS framework is not trivial and has strong dependencies to hardware constraints. We therefore motivate our NAS approach selection and provide corresponding implementation details. We also present novel ideas to carry out other such use-case studies.
翻訳日:2021-09-17 16:28:53 公開日:2021-09-15
# 車両経路問題に対する強化学習法における短量子回路

Short Quantum Circuits in Reinforcement Learning Policies for the Vehicle Routing Problem ( http://arxiv.org/abs/2109.07498v1 )

ライセンス: Link先を確認
Fabio Sanches, Sean Weinberg, Takanori Ide, Kazumitsu Kamiya(参考訳) 量子コンピューティングと機械学習は共生の可能性がある。 しかし、現在のデバイスからのハードウェアの制限に加えて、量子回路が現在の機械学習タスクに有効に組み込む前に対処しなければならない基本的な問題がまだ残っている。 強化学習に使用される注意モデルの文脈において,このような統合のための新しい戦略を述べる。 注意機構を実装するエージェントは、まずグラフ上のノードをエンコードし、次に経路が選択されるまでノードを順次デコードすることで、組合せルーティングの問題にうまく適用されている。 従来のアテンションヘッド層の代わりに、性能を維持しながら簡単な量子回路を使用できることを示す。 本手法は,各ノードのキーおよびクエリベクトルを,測定前に絡み合う量子状態に置き換えることで,[1]で使用されるネットワークを修飾する。 結果として得られるハイブリッド古典量子エージェントは、その性能が従来の古典的アプローチと競合する車両ルーティング問題という文脈でテストされる。 我々はこのモデルを,強化学習における量子コンピューティングの役割に関するさらなる研究の道筋として,スケールアップ可能なプロトタイプと捉えている。

Quantum computing and machine learning have potential for symbiosis. However, in addition to the hardware limitations from current devices, there are still basic issues that must be addressed before quantum circuits can usefully incorporate with current machine learning tasks. We report a new strategy for such an integration in the context of attention models used for reinforcement learning. Agents that implement attention mechanisms have successfully been applied to certain cases of combinatorial routing problems by first encoding nodes on a graph and then sequentially decoding nodes until a route is selected. We demonstrate that simple quantum circuits can used in place of classical attention head layers while maintaining performance. Our method modifies the networks used in [1] by replacing key and query vectors for every node with quantum states that are entangled before being measured. The resulting hybrid classical-quantum agent is tested in the context of vehicle routing problems where its performance is competitive with the original classical approach. We regard our model as a prototype that can be scaled up and as an avenue for further study on the role of quantum computing in reinforcement learning.
翻訳日:2021-09-17 16:28:40 公開日:2021-09-15
# 『デートには向かない』:評論を会話勧告システムに転換する

"It doesn't look good for a date": Transforming Critiques into Preferences for Conversational Recommendation Systems ( http://arxiv.org/abs/2109.07576v1 )

ライセンス: Link先を確認
Victor S. Bursztyn, Jennifer Healey, Nedim Lipka, Eunyee Koh, Doug Downey, Larry Birnbaum(参考訳) 良いレコメンデーションを決定するための会話は、本質的に反復的です。 人々はしばしば現在の推奨に対する批判(例えば「日付には良く見えない」など)の観点で自分の好みを表現し、その好みを推測するにはある程度の常識を必要とする。 本稿では,より優れた推薦に関するレビュー(例えば「ロマンチックなディナーに完全」など)を取得するために,ユーザの批判を肯定的な好み(例えば「よりロマンチック」)に転換する方法を提案する。 我々は、数ショット設定で大きなニューラルネットワークモデル(lm)を活用して、批判から参照への変換を行い、レコメンデーションを取得するための2つのメソッドをテストします。 このアプローチをレストランドメインでインスタンス化し,レストラン批判の新しいデータセットを用いて評価する。 アブレーション研究において,批判から参照への変換の活用がレコメンデーションを改善させ,この改善を説明する一般的な事例が少なくとも3つ存在することを示した。

Conversations aimed at determining good recommendations are iterative in nature. People often express their preferences in terms of a critique of the current recommendation (e.g., "It doesn't look good for a date"), requiring some degree of common sense for a preference to be inferred. In this work, we present a method for transforming a user critique into a positive preference (e.g., "I prefer more romantic") in order to retrieve reviews pertaining to potentially better recommendations (e.g., "Perfect for a romantic dinner"). We leverage a large neural language model (LM) in a few-shot setting to perform critique-to-preferen ce transformation, and we test two methods for retrieving recommendations: one that matches embeddings, and another that fine-tunes an LM for the task. We instantiate this approach in the restaurant domain and evaluate it using a new dataset of restaurant critiques. In an ablation study, we show that utilizing critique-to-preferen ce transformation improves recommendations, and that there are at least three general cases that explain this improved performance.
翻訳日:2021-09-17 14:16:45 公開日:2021-09-15
# 多変量臨床時系列のための解釈可能な再帰的ニューラルネットワーク

Interpretable Additive Recurrent Neural Networks For Multivariate Clinical Time Series ( http://arxiv.org/abs/2109.07602v1 )

ライセンス: Link先を確認
Asif Rahman, Yale Chang, Jonathan Rubin(参考訳) リカレントニューラルネットワーク(RNN)を用いた時系列モデルは精度が高いが、機能相互作用、時間的相互作用、非線形変換の結果、残念ながら解釈が困難である。 モデルの予測を検証し信頼するために、彼らが学んだ関係について洞察を提供するモデルを構築する必要があるヘルスケアのような領域では、解釈可能性が重要である。 ユーザが個々の入力機能の貢献を理解できる正確な時系列モデルが欲しい。 本稿では,モデル内の変数間の関係を加法的に強制することで,モデルの複雑性と精度のバランスをとるInterpretable-RNN(I- RNN)を提案する。 相互作用はRNNの隠れ状態間で制限され、最終段階で追加的に結合される。 I-RNNは、時間内に不均一にサンプリングされ、非同期に取得され、データが欠落している臨床時系列の特徴を特に捉えている。 重要なことは、隠れ状態のアクティベーションは予測目標と相関する特徴係数を表し、個々の入力特徴と結果のグローバルな関係を捉える危険曲線として視覚化することができる。 病院内死亡率予測のためのphysionet 2012 challengeデータセットのi-rnnモデルと,集中治療室における血行動態の介入を予測する実世界臨床判断支援タスクの評価を行った。 I-RNNは、手作業で訓練された決定木のような非常に知的なモデルに匹敵する、グローバルかつ局所的な特徴の重要性の形で説明を提供する。 I-RNNは、最先端の崩壊ベースおよび補間ベースの反復時系列モデルに匹敵する精度を保ちながら、理解できないままである。 実世界の臨床データセットにおける実験結果は、正確性と解釈可能性の間にはトレードオフがあるという神話を反論する。

Time series models with recurrent neural networks (RNNs) can have high accuracy but are unfortunately difficult to interpret as a result of feature-interactions , temporal-interaction s, and non-linear transformations. Interpretability is important in domains like healthcare where constructing models that provide insight into the relationships they have learned are required to validate and trust model predictions. We want accurate time series models where users can understand the contribution of individual input features. We present the Interpretable-RNN (I-RNN) that balances model complexity and accuracy by forcing the relationship between variables in the model to be additive. Interactions are restricted between hidden states of the RNN and additively combined at the final step. I-RNN specifically captures the unique characteristics of clinical time series, which are unevenly sampled in time, asynchronously acquired, and have missing data. Importantly, the hidden state activations represent feature coefficients that correlate with the prediction target and can be visualized as risk curves that capture the global relationship between individual input features and the outcome. We evaluate the I-RNN model on the Physionet 2012 Challenge dataset to predict in-hospital mortality, and on a real-world clinical decision support task: predicting hemodynamic interventions in the intensive care unit. I-RNN provides explanations in the form of global and local feature importances comparable to highly intelligible models like decision trees trained on hand-engineered features while significantly outperforming them. I-RNN remains intelligible while providing accuracy comparable to state-of-the-art decay-based and interpolation-based recurrent time series models. The experimental results on real-world clinical datasets refute the myth that there is a tradeoff between accuracy and interpretability.
翻訳日:2021-09-17 14:13:33 公開日:2021-09-15
# チューニング問題における非スムースベイズ最適化

Non-smooth Bayesian Optimization in Tuning Problems ( http://arxiv.org/abs/2109.07563v1 )

ライセンス: Link先を確認
Hengrui Luo, James W. Demmel, Younghyun Cho, Xiaoye S. Li, Yang Liu(参考訳) 代理モデルの構築は、未知のブラックボックス関数を学習しようとする場合の一般的なアプローチである。 ベイズ最適化は、関数から引き出された逐次的なサンプルに基づいてサロゲートモデルを構築し、最適点を見つけるためのフレームワークを提供する。 大規模で複雑な"ブラックボックス"アプリケーションコードのパフォーマンスを最適化するためのアルゴリズムパラメータのチューニングは、ブラックボックス関数のオプティマを見つけることを目的とした、特に重要なアプリケーションである。 ベイズ最適化フレームワーク内では、ガウス過程モデルが滑らかまたは連続的なサンプルパスを生成する。 しかし、チューニング問題におけるブラックボックス関数はしばしば非スムースである。 この難しいチューニング問題は、通常ブラックボックス関数から限られたシーケンスサンプルを持つという事実によって悪化する。 そこで我々は, クラスタ化ガウス過程 (cGP) と呼ばれる新しい加法的ガウス過程モデルを提案し, 加法的成分はクラスタリングによって誘導される。 実験例では,反復実験の90%まで性能が向上することを確認した。 このサロゲートモデルを用いることで、ブラックボックス関数の非スムース性を捉えることができる。 このモデルを構築するためのアルゴリズムに加えて、このモデルをいくつかの人工および実アプリケーションに適用して評価する。

Building surrogate models is one common approach when we attempt to learn unknown black-box functions. Bayesian optimization provides a framework which allows us to build surrogate models based on sequential samples drawn from the function and find the optimum. Tuning algorithmic parameters to optimize the performance of large, complicated "black-box" application codes is a specific important application, which aims at finding the optima of black-box functions. Within the Bayesian optimization framework, the Gaussian process model produces smooth or continuous sample paths. However, the black-box function in the tuning problem is often non-smooth. This difficult tuning problem is worsened by the fact that we usually have limited sequential samples from the black-box function. Motivated by these issues encountered in tuning, we propose a novel additive Gaussian process model called clustered Gaussian process (cGP), where the additive components are induced by clustering. In the examples we studied, the performance can be improved by as much as 90% among repetitive experiments. By using this surrogate model, we want to capture the non-smoothness of the black-box function. In addition to an algorithm for constructing this model, we also apply the model to several artificial and real applications to evaluate it.
翻訳日:2021-09-17 14:12:09 公開日:2021-09-15
# 腎機能画像のためのDCE-MR画像再構成における正規化の学習

Learning the Regularization in DCE-MR Image Reconstruction for Functional Imaging of Kidneys ( http://arxiv.org/abs/2109.07548v1 )

ライセンス: Link先を確認
Aziz Ko\c{c}anao\u{g}ullar{\i}, Cemre Ariyurek, Onur Afacan, Sila Kurugol(参考訳) Kidney DCE-MRIは、腎臓解剖の質的評価と、TKモデルパラメータの推定による腎臓機能の定量的評価の両方を目的としている。 TKモデルパラメータの正確な推定には、高時間分解能の動脈入力関数(AIF)の正確な測定が必要である。 加速撮像は高時間分解能を達成するために使用され、再構成画像のアンダーサンプリングアーティファクトを生成する。 圧縮センシング(CS)法は様々な再構成オプションを提供する。 最も一般的には、時間差の空間性は、アーティファクトを減らすために正規化するために奨励される。 CS法における正規化の増大は、周囲のアーティファクトを除去するだけでなく、信号の時間的過度な平滑化によってパラメータ推定精度が低下する。 本研究では,機能的画像マーカーの精度を低下させることなく,MRIアンダーサンプリングアーティファクトを低減するために,単一画像訓練深部ニューラルネットワークを提案する。 最適化におけるペナルティ項を正則化するのではなく,低次元表現から画像を生成することにより正則化を促進する。 本書では,低次元入力設計の動機と解説を行う。 CS再建に対するアプローチと複数正規化重みの比較を行った。 提案したアプローチは,機能解析に最適化されたCS再構成を用いて推定した基底真理マーカーと高い相関を示す腎臓バイオマーカーである。 同時に,提案手法では,復元した画像のアーティファクトを削減できる。

Kidney DCE-MRI aims at both qualitative assessment of kidney anatomy and quantitative assessment of kidney function by estimating the tracer kinetic (TK) model parameters. Accurate estimation of TK model parameters requires an accurate measurement of the arterial input function (AIF) with high temporal resolution. Accelerated imaging is used to achieve high temporal resolution, which yields under-sampling artifacts in the reconstructed images. Compressed sensing (CS) methods offer a variety of reconstruction options. Most commonly, sparsity of temporal differences is encouraged for regularization to reduce artifacts. Increasing regularization in CS methods removes the ambient artifacts but also over-smooths the signal temporally which reduces the parameter estimation accuracy. In this work, we propose a single image trained deep neural network to reduce MRI under-sampling artifacts without reducing the accuracy of functional imaging markers. Instead of regularizing with a penalty term in optimization, we promote regularization by generating images from a lower dimensional representation. In this manuscript we motivate and explain the lower dimensional input design. We compare our approach to CS reconstructions with multiple regularization weights. Proposed approach results in kidney biomarkers that are highly correlated with the ground truth markers estimated using the CS reconstruction which was optimized for functional analysis. At the same time, the proposed approach reduces the artifacts in the reconstructed images.
翻訳日:2021-09-17 14:10:52 公開日:2021-09-15
# 結合・縮小型rnn-tデコーダ

Tied & Reduced RNN-T Decoder ( http://arxiv.org/abs/2109.07513v1 )

ライセンス: Link先を確認
Rami Botros (1), Tara N. Sainath (1), Robert David (1), Emmanuel Guzman (1), Wei Li (1), Yanzhang He (1) ((1) Google Inc. USA)(参考訳) Recurrent Neural Network-Transducer (RNN-T) モデルに関する以前の研究は、いくつかの条件下では、認識精度をほとんど、あるいは全く損なうことなく予測ネットワークを単純化できることを示した(arXiv:2003.07705 [eess.AS], [2], arXiv:2012.06749 [cs.CL])。 これは、以前のラベルのコンテキストサイズを制限したり、LSTMの代わりにレイヤにシンプルなアーキテクチャを使うことによって行われる。 このような変更のメリットには、モデルサイズの減少、推論の高速化、消費電力の削減などがある。 本研究では,認識性能を低下させることなく,RNN-Tデコーダ(予測ネットワーク+ジョイントネットワーク)の小型化と高速化を図る。 予測ネットワークは入力埋め込みの単純な重み付け平均化を行い、その重み付け行列をジョイントネットワークの出力層(arxiv:1611.01462 [cs.lg] で一般的に使用される重み付け)と共有する。 このシンプルな設計は、編集ベースの最小ベイズリスク(EMBR)トレーニングと併用することで、ワードエラー率(WER)に影響を与えることなく、RNN-Tデコーダを23Mパラメータから2Mに削減する。

Previous works on the Recurrent Neural Network-Transducer (RNN-T) models have shown that, under some conditions, it is possible to simplify its prediction network with little or no loss in recognition accuracy (arXiv:2003.07705 [eess.AS], [2], arXiv:2012.06749 [cs.CL]). This is done by limiting the context size of previous labels and/or using a simpler architecture for its layers instead of LSTMs. The benefits of such changes include reduction in model size, faster inference and power savings, which are all useful for on-device applications. In this work, we study ways to make the RNN-T decoder (prediction network + joint network) smaller and faster without degradation in recognition performance. Our prediction network performs a simple weighted averaging of the input embeddings, and shares its embedding matrix weights with the joint network's output layer (a.k.a. weight tying, commonly used in language modeling arXiv:1611.01462 [cs.LG]). This simple design, when used in conjunction with additional Edit-based Minimum Bayes Risk (EMBR) training, reduces the RNN-T Decoder from 23M parameters to just 2M, without affecting word-error rate (WER).
翻訳日:2021-09-17 14:08:53 公開日:2021-09-15
# CNNベースのエッジAIアクセラレータのためのカラムストリーミングベースの畳み込みエンジンとマッピングアルゴリズム

A Column Streaming-Based Convolution Engine and Mapping Algorithm for CNN-based Edge AI accelerators ( http://arxiv.org/abs/2109.07601v1 )

ライセンス: Link先を確認
Weison Lin and Tughrul Arslan(参考訳) エッジAIアクセラレーターは、無人航空機(UAV)、画像認識センサー、ウェアラブルデバイス、ロボティクス、リモートセンシング衛星などの分野における顧客の近距離応用のソリューションとして浮上している。 これらのアプリケーションは、性能目標を満たすだけでなく、移動性や限られた電力源のために、厳しいエリアと電力制約を満たす必要がある。 その結果、エッジaiアクセラレータにおける様々なcnnアルゴリズムの適用可能性の観点から、柔軟性のために設計された処理要素の列セットを含むカラムストリーミングベースの畳み込みエンジンが提案されている。 商用化されたcnnアクセラレータと比較すると、このカラムストリーミングベースの畳み込みエンジンは、227 x 227の機能マップをゼロパディングペナルティを避けるために同様の実行サイクルを必要とすることが明らかになった。

Edge AI accelerators have been emerging as a solution for near customers' applications in areas such as unmanned aerial vehicles (UAVs), image recognition sensors, wearable devices, robotics, and remote sensing satellites. These applications not only require meeting performance targets but also meeting strict area and power constraints due to their portable mobility feature and limited power sources. As a result, a column streaming-based convolution engine has been proposed in this paper that includes column sets of processing elements design for flexibility in terms of the applicability for different CNN algorithms in edge AI accelerators. Comparing to a commercialized CNN accelerator, the key results reveal that the column streaming-based convolution engine requires similar execution cycles for processing a 227 x 227 feature map with avoiding zero-padding penalties.
翻訳日:2021-09-17 14:05:00 公開日:2021-09-15
# Sparse Tagsets における Marginal Calibration を用いたモデルの頭とタオルの作成

Making Heads and Tails of Models with Marginal Calibration for Sparse Tagsets ( http://arxiv.org/abs/2109.07494v1 )

ライセンス: Link先を確認
Michael Kranzlein, Nelson F. Liu, Nathan Schneider(参考訳) 確率モデルの振る舞いを解釈するには、モデルのキャリブレーション(信頼度スコアを生成する程度)を測定するのが有用である。 スパースタグセットを用いたタグ付けモデルのキャリブレーションのオープンな問題に対処し、そのようなモデルにおけるキャリブレーション誤差(CE)の測定と低減のための戦略を推奨する。 提案手法は,既存の2つのタガーのマージン分布におけるキャリブレーション誤差を低減できることを示す。 さらに,異なる周波数帯域のキャリブレーション誤差を測定する方法として,タグ周波数グループ化(tfg)を提案する。 さらに、各グループを再校正することで、タグ周波数スペクトル間の校正誤差をより公平に低減することができる。

For interpreting the behavior of a probabilistic model, it is useful to measure a model's calibration--the extent to which it produces reliable confidence scores. We address the open problem of calibration for tagging models with sparse tagsets, and recommend strategies to measure and reduce calibration error (CE) in such models. We show that several post-hoc recalibration techniques all reduce calibration error across the marginal distribution for two existing sequence taggers. Moreover, we propose tag frequency grouping (TFG) as a way to measure calibration error in different frequency bands. Further, recalibrating each group separately promotes a more equitable reduction of calibration error across the tag frequency spectrum.
翻訳日:2021-09-17 14:04:44 公開日:2021-09-15
# CON TaiNER:コントラスト学習によるエンティティ認識

CONTaiNER: Few-Shot Named Entity Recognition via Contrastive Learning ( http://arxiv.org/abs/2109.07589v1 )

ライセンス: Link先を確認
Sarkar Snigdha Sarathi Das, Arzoo Katiyar, Rebecca J. Passonneau, Rui Zhang(参考訳) 少数ショット設定のエンティティ認識(ner)は、低リソースドメインのエンティティタグ付けに必須である。 既存のアプローチは、ソースドメインからクラス固有の意味的特徴と中間表現のみを学ぶ。 これは対象領域を認識できない一般化に影響を与え、結果として準最適性能をもたらす。 そこで本研究では,Few-Shot NERのトークン間分布距離を最適化するコントラスト学習手法であるCon TaiNERを提案する。 クラス固有の属性を最適化する代わりに、Con TaiNERはガウス分布の埋め込みに基づいてトークンカテゴリを区別する一般化された目的を最適化する。 これにより、訓練領域から生じる過度な問題を軽減することができる。 従来のテスト領域 (OntoNotes, CoNLL'03, WNUT '17, GUM) と新しい大規模Few-Shot NERデータセット (Few-NERD) での実験を行ったところ, CON TaiNER は従来の手法を平均して3%-13%の絶対F1ポイントで上回り, 従来手法では達成できなかった性能の傾向を示した。

Named Entity Recognition (NER) in Few-Shot setting is imperative for entity tagging in low resource domains. Existing approaches only learn class-specific semantic features and intermediate representations from source domains. This affects generalizability to unseen target domains, resulting in suboptimal performances. To this end, we present CONTaiNER, a novel contrastive learning technique that optimizes the inter-token distribution distance for Few-Shot NER. Instead of optimizing class-specific attributes, CONTaiNER optimizes a generalized objective of differentiating between token categories based on their Gaussian-distributed embeddings. This effectively alleviates overfitting issues originating from training domains. Our experiments in several traditional test domains (OntoNotes, CoNLL'03, WNUT '17, GUM) and a new large scale Few-Shot NER dataset (Few-NERD) demonstrate that on average, CONTaiNER outperforms previous methods by 3%-13% absolute F1 points while showing consistent performance trends, even in challenging scenarios where previous approaches could not achieve appreciable performance.
翻訳日:2021-09-17 14:04:32 公開日:2021-09-15
# 多言語翻訳分類における特徴工学と特徴学習の比較

Comparing Feature-Engineering and Feature-Learning Approaches for Multilingual Translationese Classification ( http://arxiv.org/abs/2109.07604v1 )

ライセンス: Link先を確認
Daria Pylypenko, Kwabena Amponsah-Kaakyire, Koel Dutta Chowdhury, Josef van Genabith, Cristina Espa\~na-Bonet(参考訳) 伝統的な手作りの言語に変形した特徴は、翻訳されたテキストとオリジナルの翻訳されていないテキストを区別するためにしばしば用いられてきた。 対照的に、これまで手動のフィーチャーエンジニアリングのないニューラルアーキテクチャは、このタスクのためにあまり研究されていない。 この作品では、 (i)従来の特徴工学的アプローチと特徴学習的アプローチを比較して (II)手作りの特徴がニューラルモデルの予測のばらつきをいかにうまく説明するかを調べるために、ニューラルアーキテクチャを解析する。 トレーニング済みのニューラルワード埋め込みと、モノリンガルと多言語の両方でエンドツーエンドのニューラルアーキテクチャを使用して、機能エンジニアリングベースのSVM分類器と比較する。 私たちはそれを示します (i) 神経アーキテクチャは他のアプローチを20以上の精度で上回り、bertベースのモデルは単言語と多言語の両方で最高の性能を発揮する。 (ii) 個々の手作り翻訳機能は, ニューラルモデル予測と相関するが, 特徴量分析により, ニューラルアーキテクチャや古典アーキテクチャにおいて最も重要な特徴が異なることが分かる。 (iii)多言語実験は,言語間の翻訳普遍性の実証的証拠を提供する。

Traditional hand-crafted linguistically-infor med features have often been used for distinguishing between translated and original non-translated texts. By contrast, to date, neural architectures without manual feature engineering have been less explored for this task. In this work, we (i) compare the traditional feature-engineering- based approach to the feature-learning-bas ed one and (ii) analyse the neural architectures in order to investigate how well the hand-crafted features explain the variance in the neural models' predictions. We use pre-trained neural word embeddings, as well as several end-to-end neural architectures in both monolingual and multilingual settings and compare them to feature-engineering- based SVM classifiers. We show that (i) neural architectures outperform other approaches by more than 20 accuracy points, with the BERT-based model performing the best in both the monolingual and multilingual settings; (ii) while many individual hand-crafted translationese features correlate with neural model predictions, feature importance analysis shows that the most important features for neural and classical architectures differ; and (iii) our multilingual experiments provide empirical evidence for translationese universals across languages.
翻訳日:2021-09-17 14:04:07 公開日:2021-09-15
# ポーズトランスフォーマー(potr) : 非自己回帰トランスフォーマーによる人間の動き予測

Pose Transformers (POTR): Human Motion Prediction with Non-Autoregressive Transformers ( http://arxiv.org/abs/2109.07531v1 )

ライセンス: Link先を確認
Angel Mart\'inez-Gonz\'alez, Michael Villamizar, Jean-Marc Odobez(参考訳) 非自己回帰的人間の運動予測にトランスフォーマーアーキテクチャを活用することを提案する。 本手法では,クエリシーケンスから要素を並列にデコードする。 このように、我々のアプローチは計算集約性が低く、シーケンス内の長期要素へのエラー蓄積を避ける可能性がある。 その文脈では、私たちの貢献は4倍です。 (i)人間の運動予測をシーケンス・ツー・シーケンス問題とし、ポーズのシーケンスを並列に推測する非自己回帰変圧器を提案する。 (ii)入力シーケンスの要素を予め生成したクエリシーケンスから3次元ポーズのシーケンスをデコードすることを提案する。 (iii)エンコーダメモリからスケルトンベースのアクティビティ分類を行うことにより、アクティビティの特定が予測を改善することを期待する。 (iv)その単純さにもかかわらず、我々のアプローチは2つの公開データセットで競争力のある結果を得るが、長期的な予測よりも短期的な予測の方が驚くほど高い。

We propose to leverage Transformer architectures for non-autoregressive human motion prediction. Our approach decodes elements in parallel from a query sequence, instead of conditioning on previous predictions such as instate-of-the-art RNN-based approaches. In such a way our approach is less computational intensive and potentially avoids error accumulation to long term elements in the sequence. In that context, our contributions are fourfold: (i) we frame human motion prediction as a sequence-to-sequence problem and propose a non-autoregressive Transformer to infer the sequences of poses in parallel; (ii) we propose to decode sequences of 3D poses from a query sequence generated in advance with elements from the input sequence;(iii) we propose to perform skeleton-based activity classification from the encoder memory, in the hope that identifying the activity can improve predictions;(iv) we show that despite its simplicity, our approach achieves competitive results in two public datasets, although surprisingly more for short term predictions rather than for long term ones.
翻訳日:2021-09-17 14:00:13 公開日:2021-09-15
# RAFT-Stereo:ステレオマッチングのためのマルチレベルリカレントフィールド変換

RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching ( http://arxiv.org/abs/2109.07547v1 )

ライセンス: Link先を確認
Lahav Lipson, Zachary Teed, Jia Deng(参考訳) RAFT-Stereoは,光学フローネットワークRAFTをベースとした修正ステレオの新しい深層アーキテクチャである。 画像間でより効率的に情報を伝達する多レベル畳み込みGRUを導入する。 RAFT-Stereoの修正版は正確なリアルタイム推論を行うことができる。 raft-stereo は middlebury leaderboard で第1位にランクインし、1px error の次のベストメソッドを29%上回り、eth3d two-view stereo ベンチマークで公表された全作品を上回った。 コードはhttps://github.com/p rinceton-vl/RAFT-Ste reoで入手できる。

We introduce RAFT-Stereo, a new deep architecture for rectified stereo based on the optical flow network RAFT. We introduce multi-level convolutional GRUs, which more efficiently propagate information across the image. A modified version of RAFT-Stereo can perform accurate real-time inference. RAFT-stereo ranks first on the Middlebury leaderboard, outperforming the next best method on 1px error by 29% and outperforms all published work on the ETH3D two-view stereo benchmark. Code is available at https://github.com/p rinceton-vl/RAFT-Ste reo.
翻訳日:2021-09-17 13:59:57 公開日:2021-09-15
# ucp-net: セグメンテーションのための非構造化輪郭点

UCP-Net: Unstructured Contour Points for Instance Segmentation ( http://arxiv.org/abs/2109.07592v1 )

ライセンス: Link先を確認
Camille Dupont, Yanis Ouakrim and Quoc Cuong Pham(参考訳) インタラクティブセグメンテーションの目的は、ユーザがセグメンテーションマスクをできるだけ早く正確に作成できるようにすることである。 相互作用は単純で直感的であり、良好なセグメンテーションマスクを生成するために必要な相互作用の数は可能な限り少なくなければならない。 本稿では,初期セグメンテーションとセグメンテーション改善のための,制約のない輪郭クリックに基づくインタラクティブセグメンテーションの新たなアプローチを提案する。 本手法は, 一般的なセグメンテーションデータセット(COCO MVal, SBD, バークレー)の最先端手法に比べて, 精度の高いセグメンテーションマスク(IoU > 85%)を生成する。

The goal of interactive segmentation is to assist users in producing segmentation masks as fast and as accurately as possible. Interactions have to be simple and intuitive and the number of interactions required to produce a satisfactory segmentation mask should be as low as possible. In this paper, we propose a novel approach to interactive segmentation based on unconstrained contour clicks for initial segmentation and segmentation refinement. Our method is class-agnostic and produces accurate segmentation masks (IoU > 85%) for a lower number of user interactions than state-of-the-art methods on popular segmentation datasets (COCO MVal, SBD and Berkeley).
翻訳日:2021-09-17 13:59:47 公開日:2021-09-15
# インフルエンサーによる急進的右バイラルツイートの理解

An influencer-based approach to understanding radical right viral tweets ( http://arxiv.org/abs/2109.07588v1 )

ライセンス: Link先を確認
Laila Sprejer, Helen Margetts, Kleber Oliveira, David O'Sullivan, Bertie Vidgen(参考訳) 急進的な右派インフルエンサーはソーシャルメディアを使って、高度に分裂的で破壊的で反民主的なメッセージを広める。 このようなコンテンツが生み出す課題の評価と対処は、オンラインスペースがオープンで安全でアクセスしやすいままであることを保証する上で極めて重要である。 これまでの研究は、ウイルスに感染する過激な右コンテンツに関連する要因を理解することにはほとんど注意を払わなかった。 我々は、35の急進的右インフルエンサーのコンテンツ、エンゲージメント、フォロワーシップに関する洞察を提供する新しいデータセットROTを用いてこの問題を調査する。 5万以上のオリジナルエントリと4000万以上のリツイート、引用、返信、コメントが含まれる。 我々はマルチレベルモデルを用いて、各インフルエンサーにネストされたツイートのエンゲージメントを測定する。 インフルエンサーレベルの構造を考慮することが重要であり、インフルエンサーが持つフォロワーの数、コンテンツの種類(オリジナル投稿、引用、返信)、コンテンツの長さと毒性、インフルエンサーがリツイートを要求するかどうかなど、インフルエンサーとコンテンツレベルの要素の両方の重要性を示す証拠となる。 他の研究者がrotを利用できるようにしています。

Radical right influencers routinely use social media to spread highly divisive, disruptive and anti-democratic messages. Assessing and countering the challenge that such content poses is crucial for ensuring that online spaces remain open, safe and accessible. Previous work has paid little attention to understanding factors associated with radical right content that goes viral. We investigate this issue with a new dataset ROT which provides insight into the content, engagement and followership of a set of 35 radical right influencers. It includes over 50,000 original entries and over 40 million retweets, quotes, replies and mentions. We use a multilevel model to measure engagement with tweets, which are nested in each influencer. We show that it is crucial to account for the influencer-level structure, and find evidence of the importance of both influencer- and content-level factors, including the number of followers each influencer has, the type of content (original posts, quotes and replies), the length and toxicity of content, and whether influencers request retweets. We make ROT available for other researchers to use.
翻訳日:2021-09-17 13:55:20 公開日:2021-09-15
# 一般化XGBoost法

Generalized XGBoost Method ( http://arxiv.org/abs/2109.07473v1 )

ライセンス: Link先を確認
Yang Guang(参考訳) XGBoost法には多くの利点があり、特にビッグデータの統計解析に適しているが、損失関数は凸関数に限定されている。 多くの特定のアプリケーションでは、非凸損失関数が好ましい。 本稿では,より弱い損失関数条件と,凸損失関数と非凸損失関数を含むより一般的な損失関数を含む一般化xgboost法を提案する。 さらに、この一般化されたXGBoost法は、より一般化されたXGBoost法を形成するために多変量損失関数に拡張される。 この方法は多変量正規化ツリーブースティング法であり、予測変数に適合するパラメトリック確率分布のほとんどにおいて、複数のパラメータをモデル化することができる。 一方、関連するアルゴリズムと非生命保険価格のいくつかの例が与えられる。

The XGBoost method has many advantages and is especially suitable for statistical analysis of big data, but its loss function is limited to convex functions. In many specific applications, a nonconvex loss function would be preferable. In this paper, we propose a generalized XGBoost method, which requires weaker loss function condition and involves more general loss functions, including convex loss functions and some non-convex loss functions. Furthermore, this generalized XGBoost method is extended to multivariate loss function to form a more generalized XGBoost method. This method is a multivariate regularized tree boosting method, which can model multiple parameters in most of the frequently-used parametric probability distributions to be fitted by predictor variables. Meanwhile, the related algorithms and some examples in non-life insurance pricing are given.
翻訳日:2021-09-17 13:54:18 公開日:2021-09-15
# ゼロショット言語間画像検索とタグ付けに向けて

Towards Zero-shot Cross-lingual Image Retrieval and Tagging ( http://arxiv.org/abs/2109.07622v1 )

ライセンス: Link先を確認
Pranav Aggarwal, Ritiz Tambi, Ajinkya Kale(参考訳) マルチモーダル言語とビジョン問題に対する最近の関心が高まっている。 言語面では、ほとんどのモデルは主に英語に焦点を合わせており、多くのマルチモーダルデータセットは単言語である。 このギャップをゼロショットアプローチで橋渡しし,テキスト側での言語間事前学習を用いてマルチモーダル表現を学習する。 本稿では,単言語学習データセット上でトレーニングを行うが,ゼロショットのクロスリンガルモデルで使用することが可能な言語間画像検索モデルを構築するための,単純かつ実用的な手法を提案する。 また,異なるテキストを相互にプッシュすることで,テキスト埋め込みクラスタを強化できる新たな目的関数を導入する。 評価のために,クラウドソーシングプラットフォームを用いて収集した7言語で新たに1Kの多言語MSCOCO2014キャプションテストデータセット(XTD10)を導入する。 私たちはこれを、言語間のゼロショットモデルパフォーマンスのテストセットとして使用しています。 また、多言語画像タグ付けのような下流タスクに対して、ゼロショット方式で言語間モデルをいかに使用できるかを実証する。 XTD10データセットは、https://github.com/a dobe-research/Cross- lingual-Test-Dataset -XTD10で公開されている。

There has been a recent spike in interest in multi-modal Language and Vision problems. On the language side, most of these models primarily focus on English since most multi-modal datasets are monolingual. We try to bridge this gap with a zero-shot approach for learning multi-modal representations using cross-lingual pre-training on the text side. We present a simple yet practical approach for building a cross-lingual image retrieval model which trains on a monolingual training dataset but can be used in a zero-shot cross-lingual fashion during inference. We also introduce a new objective function which tightens the text embedding clusters by pushing dissimilar texts away from each other. For evaluation, we introduce a new 1K multi-lingual MSCOCO2014 caption test dataset (XTD10) in 7 languages that we collected using a crowdsourcing platform. We use this as the test set for zero-shot model performance across languages. We also demonstrate how a cross-lingual model can be used for downstream tasks like multi-lingual image tagging in a zero shot manner. XTD10 dataset is made publicly available here: https://github.com/a dobe-research/Cross- lingual-Test-Dataset -XTD10.
翻訳日:2021-09-17 13:54:07 公開日:2021-09-15
# (参考訳) オーバー・ザ・エア最適化の基本限界:アナログスキームは最適か? [全文訳有]

Fundamental limits of over-the-air optimization: Are analog schemes optimal? ( http://arxiv.org/abs/2109.05222v2 )

ライセンス: CC BY 4.0
Shubham K Jha, Prathamesh Mayekar, Himanshu Tyagi(参考訳) 符号付き勾配が分散$\sigma^2$の付加ガウス雑音チャネルに送られるような$d-$次元空間上での空対最適化を考える。 符号語は平均電力制約$P$を満たすため、信号対雑音比(SNR)は$P/\sigma^2$となる。 オーバー・ザ・エア最適化のための収束率の境界を導出する。 最初の結果は収束率の低い値であり、任意のコードが約$\sqrt{d/\log(1+\mathtt{SNR})}$で収束率を遅くしなければならないことを示す。 次に、勾配の線形関数が送られる$analog$$coding$と呼ばれる一般的なスキームのクラスを考える。 単純なスケールの伝達アナログ符号化方式は、$\sqrt{d(1+1/\mathtt{SNR})}$で収束速度を遅くすることを示した。 これは、前の下界を低いSNRの定数要素に一致させ、低いSNRでスケールされた送信方式を最適にする。 しかし,この遅延は任意のアナログ符号化方式に必要であることを示す。 特に、アナログ符号に対する$\sqrt{d}$の係数による収束の減速は、SNRが無限大の傾向にあるときでも残っている。 注目すべきは、$Amplitude$$Shift$$K eying$を使用し、ほぼすべてのSNRにおける最適収束率を達成する単純な量子化・変調スキームを示すことである。

We consider over-the-air convex optimization on a $d-$dimensional space where coded gradients are sent over an additive Gaussian noise channel with variance $\sigma^2$. The codewords satisfy an average power constraint $P$, resulting in the signal-to-noise ratio (SNR) of $P/\sigma^2$. We derive bounds for the convergence rates for over-the-air optimization. Our first result is a lower bound for the convergence rate showing that any code must slowdown the convergence rate by a factor of roughly $\sqrt{d/\log(1+\mathtt{SNR})}$. Next, we consider a popular class of schemes called $analog$ $coding$, where a linear function of the gradient is sent. We show that a simple scaled transmission analog coding scheme results in a slowdown in convergence rate by a factor of $\sqrt{d(1+1/\mathtt{SNR})}$. This matches the previous lower bound up to constant factors for low SNR, making the scaled transmission scheme optimal at low SNR. However, we show that this slowdown is necessary for any analog coding scheme. In particular, a slowdown in convergence by a factor of $\sqrt{d}$ for analog coding remains even when SNR tends to infinity. Remarkably, we present a simple quantize-and-modulat e scheme that uses $Amplitude$ $Shift$ $Keying$ and almost attains the optimal convergence rate at all SNRs.
翻訳日:2021-09-17 13:46:29 公開日:2021-09-15
# 単語レベルの品質評価のためのレベンシュテイントレーニング

Levenshtein Training for Word-level Quality Estimation ( http://arxiv.org/abs/2109.05611v2 )

ライセンス: Link先を確認
Shuoyang Ding, Marcin Junczys-Dowmunt, Matt Post, Philipp Koehn(参考訳) 本稿では,単語レベルの品質推定を行うためにLevenshtein Transformerを使用する新しい手法を提案する。 Levenshtein Transformerは、反復的な方法でデコードを実行するように訓練され、Levenshtein Transformerは明示的な監督なしに後処理を学ぶことができる。 翻訳タスクと単語レベルのQEタスクのミスマッチをさらに最小化するために,拡張データと人間の後編集データの両方に対する2段階のトランスファー学習手順を提案する。 また,サブワードレベルの微調整や推論と互換性のある参照ラベルを構築するためのヒューリスティックスを提案する。 WMT 2020 QE共有タスクデータセットの結果,提案手法はデータ制約条件下でのデータ効率と非制約条件下での競合性能に優れていた。

We propose a novel scheme to use the Levenshtein Transformer to perform the task of word-level quality estimation. A Levenshtein Transformer is a natural fit for this task: trained to perform decoding in an iterative manner, a Levenshtein Transformer can learn to post-edit without explicit supervision. To further minimize the mismatch between the translation task and the word-level QE task, we propose a two-stage transfer learning procedure on both augmented data and human post-editing data. We also propose heuristics to construct reference labels that are compatible with subword-level finetuning and inference. Results on WMT 2020 QE shared task dataset show that our proposed method has superior data efficiency under the data-constrained setting and competitive performance under the unconstrained setting.
翻訳日:2021-09-17 10:44:43 公開日:2021-09-15
# (参考訳) アベンジャーズ・アンサンブル! オーサシップ難読化の転送性の向上 [全文訳有]

Avengers Ensemble! Improving Transferability of Authorship Obfuscation ( http://arxiv.org/abs/2109.07028v1 )

ライセンス: CC BY 4.0
Muhammad Haroon, Muhammad Fareed Zaffar, Padmini Srinivasan, Zubair Shafiq(参考訳) スティロメトリのアプローチは現実世界の著者の帰属に非常に効果的であることが示されている。 著者の帰属によって引き起こされるプライバシーの脅威を軽減するため、研究者は匿名文書の著者の身元を隠蔽することを目的とした自動著者難読化アプローチを提案した。 最近の研究は、意味を保ちながら帰属を避けるために帰属分類器へのブラックボックスアクセスに依存する著者の難読化アプローチに焦点を当てている。 しかし, 現実的な脅威モデルの下では, 敵の帰属分類器が内部で使用されるものと異なる場合でも, これらの難読化アプローチがうまく機能することが重要である。 残念ながら、既存のオーサシップ難読化アプローチは、目に見えない帰属分類器にうまく移行しない。 本稿では,トランスファー可能なオーサシップ難読化のためのアンサンブルに基づくアプローチを提案する。 本実験により,複数のベースアトリビューション分類器に基づくアンサンブルアトリビューション分類器を回避できれば,異なるアトリビューション分類器に移行する可能性が高まることが示された。 分析の結果,決定バウンダリを本質的に平均することで,各ベース属性分類器からの知識を組み合わせることにより,伝達性が向上することが示された。

Stylometric approaches have been shown to be quite effective for real-world authorship attribution. To mitigate the privacy threat posed by authorship attribution, researchers have proposed automated authorship obfuscation approaches that aim to conceal the stylometric artefacts that give away the identity of an anonymous document's author. Recent work has focused on authorship obfuscation approaches that rely on black-box access to an attribution classifier to evade attribution while preserving semantics. However, to be useful under a realistic threat model, it is important that these obfuscation approaches work well even when the adversary's attribution classifier is different from the one used internally by the obfuscator. Unfortunately, existing authorship obfuscation approaches do not transfer well to unseen attribution classifiers. In this paper, we propose an ensemble-based approach for transferable authorship obfuscation. Our experiments show that if an obfuscator can evade an ensemble attribution classifier, which is based on multiple base attribution classifiers, it is more likely to transfer to different attribution classifiers. Our analysis shows that ensemble-based authorship obfuscation achieves better transferability because it combines the knowledge from each of the base attribution classifiers by essentially averaging their decision boundaries.
翻訳日:2021-09-17 03:15:56 公開日:2021-09-15
# (参考訳) 多言語応答提案のための条件付き生成マッチングモデル [全文訳有]

A Conditional Generative Matching Model for Multi-lingual Reply Suggestion ( http://arxiv.org/abs/2109.07046v1 )

ライセンス: CC BY 4.0
Budhaditya Deb, Guoqing Zheng, Milad Shokouhi, Ahmed Hassan Awadallah(参考訳) 複数の言語に対応可能な多言語自動応答提案(RS)モデルについて検討する。 多言語モデルは、しばしば、言語間のモデル容量と厳しいデータ分散によって挑戦される。 先行研究は主に単言語モデルに焦点をあてるが、多言語rsから発生する課題に対処するために、変分オートエンコーダフレームワーク内で最適化された条件付き生成マッチングモデル(cgm)を提案する。 CGMは、表現的なメッセージ条件前処理、多言語データ表現の強化のための混合密度、言語識別のための遅延アライメント、多言語RSのトレーニングのための効果的な変分最適化技術を用いる。 この拡張により、関連する競合ベースライン(ROUGEスコア)を平均10倍以上、低リソース言語では16倍以上のパフォーマンスが得られる。 CGMはまた、多言語データの表現における表現性を示す多様性(80 %)の顕著な改善を示している。

We study the problem of multilingual automated reply suggestions (RS) model serving many languages simultaneously. Multilingual models are often challenged by model capacity and severe data distribution skew across languages. While prior works largely focus on monolingual models, we propose Conditional Generative Matching models (CGM), optimized within a Variational Autoencoder framework to address challenges arising from multi-lingual RS. CGM does so with expressive message conditional priors, mixture densities to enhance multi-lingual data representation, latent alignment for language discrimination, and effective variational optimization techniques for training multi-lingual RS. The enhancements result in performance that exceed competitive baselines in relevance (ROUGE score) by more than 10\% on average, and 16\% for low resource languages. CGM also shows remarkable improvements in diversity (80\%) illustrating its expressiveness in representation of multi-lingual data.
翻訳日:2021-09-17 02:59:22 公開日:2021-09-15
# (参考訳) Reward, Policy, Advantage Feedback 下での可視性トレースを用いたHuman-in-the-Loop Policy-Gradientアルゴリズムの収束性 [全文訳有]

Convergence of a Human-in-the-Loop Policy-Gradient Algorithm With Eligibility Trace Under Reward, Policy, and Advantage Feedback ( http://arxiv.org/abs/2109.07054v1 )

ライセンス: CC BY 4.0
Ishaan Shah, David Halpern, Kavosh Asadi and Michael L. Littman(参考訳) 流動型人間-エージェントコミュニケーションは,人間-ループ間強化学習の将来に不可欠である。 エージェントは、重要な経験を持つ前に、人間のトレーナーからのフィードバックに適切に応答する必要がある。 したがって、学習エージェントは、訓練者が提供しそうな様々なフィードバックスキームによく対応することが重要である。 この研究は、3種類のフィードバック・ポリシー・フィードバック、報酬・フィードバック、利点・フィードバックの下で、Convergent Actor-Critic by Humans(COACH)アルゴリズムを分析します。 これら3つのフィードバックタイプに対して、COACHは準最適に振る舞うことができる。 提案するCOACHの変種であるエピソディックCOACH(E-COACH)は,これら3つの型に対して収束を証明している。 当社のCOACH変種と他の強化学習アルゴリズムであるQ-learningとTAMERを比較した。

Fluid human-agent communication is essential for the future of human-in-the-loop reinforcement learning. An agent must respond appropriately to feedback from its human trainer even before they have significant experience working together. Therefore, it is important that learning agents respond well to various feedback schemes human trainers are likely to provide. This work analyzes the COnvergent Actor-Critic by Humans (COACH) algorithm under three different types of feedback-policy feedback, reward feedback, and advantage feedback. For these three feedback types, we find that COACH can behave sub-optimally. We propose a variant of COACH, episodic COACH (E-COACH), which we prove converges for all three types. We compare our COACH variant with two other reinforcement-learni ng algorithms: Q-learning and TAMER.
翻訳日:2021-09-17 02:34:23 公開日:2021-09-15
# (参考訳) Q-contextsを用いた単語埋め込みの高速抽出 [全文訳有]

Fast Extraction of Word Embedding from Q-contexts ( http://arxiv.org/abs/2109.07084v1 )

ライセンス: CC BY 4.0
Junsheng Kong, Weizhao Li, Zeyi Liu, Ben Liao, Jiezhong Qiu, Chang-Yu Hsieh, Yi Cai and Shengyu Zhang(参考訳) 単語埋め込みの概念は自然言語処理(NLP)において基本的な役割を果たす。 しかし、非常に大規模な語彙に対する事前学習語埋め込みは、既存のほとんどの手法では計算的に困難である。 本研究は,コーパス全体(および単語との相互情報)に典型的な文脈(Q-contexts)のごく一部で,無視可能な誤りを伴う高品質な単語埋め込みを構築することができることを示す。 文脈と単語間の相互情報はサンプル状態として正規に符号化することができ、Q-コンテキストを高速に構築することができる。 さらに、これらの典型的な文脈から直接単語埋め込みを抽出できる効率的かつ効果的なWEQ手法を提案する。 実用的なシナリオでは、アルゴリズムは確立されたメソッドよりも11$sim$13 高速で動作します。 行列分解, word2vec, GloVeand fasttext などのよく知られた手法と比較することにより,本手法が様々な下流 NLP タスクにおいて同等の性能を達成し,その一方で,これらのベースラインに対する実行時間とリソースの優位性を維持していることを示す。

The notion of word embedding plays a fundamental role in natural language processing (NLP). However, pre-training word embedding for very large-scale vocabulary is computationally challenging for most existing methods. In this work, we show that with merely a small fraction of contexts (Q-contexts)which are typical in the whole corpus (and their mutual information with words), one can construct high-quality word embedding with negligible errors. Mutual information between contexts and words can be encoded canonically as a sampling state, thus, Q-contexts can be fast constructed. Furthermore, we present an efficient and effective WEQ method, which is capable of extracting word embedding directly from these typical contexts. In practical scenarios, our algorithm runs 11$\sim$13 times faster than well-established methods. By comparing with well-known methods such as matrix factorization, word2vec, GloVeand fasttext, we demonstrate that our method achieves comparable performance on a variety of downstream NLP tasks, and in the meanwhile maintains run-time and resource advantages over all these baselines.
翻訳日:2021-09-17 02:21:41 公開日:2021-09-15
# (参考訳) 画像デハジング用ハイブリッド局所グローバル変圧器 [全文訳有]

Hybrid Local-Global Transformer for Image Dehazing ( http://arxiv.org/abs/2109.07100v1 )

ライセンス: CC BY 4.0
Dong Zhao, Jia Li, Hongyu Li, and Long Xu(参考訳) 近年、ViT(Vision Transformer)は、高レベルかつ低レベルな視覚タスクにおいて顕著な性能を示している。 本稿では,単一画像デハジングのためのハイブリッド・ローカル・グローバル・ビジョントランスフォーマ(hylog-vit)という新しいvitアーキテクチャを提案する。 HyLoG-ViTブロックは、ローカルなViTパスとグローバルなViTパスという2つのパスで構成される。 ハイブリッド機能は畳み込み層を介して融合される。 その結果、HyLoG-ViTは計算複雑性を低減し、ネットワークの局所性を導入する。 そして、HyLoG-ViTブロックをデハジングネットワークに組み込んで、本質的な画像分解と画像デハジングを共同で学習する。 具体的には、1つの共有エンコーダと3つのデコーダから構成され、反射率予測、シェーディング予測、ヘイズフリー画像生成を行う。 反射率とシェーディング予測のタスクは、ヘイズフリー画像生成の補完的特徴として機能する有意義な中間特徴を生み出すことができる。 補足的特徴を効果的に集約するために,画像デハージングに有用な特徴を選択するための補完的特徴選択モジュール(CFSM)を提案する。 提案する変圧器型デハジングネットワークは,cnnsによるデハジングモデルと同等,あるいはそれ以上の性能を達成可能であることが,均一,非均一,夜間デハジングタスクに関する広範な実験により明らかになった。

Recently, the Vision Transformer (ViT) has shown impressive performance on high-level and low-level vision tasks. In this paper, we propose a new ViT architecture, named Hybrid Local-Global Vision Transformer (HyLoG-ViT), for single image dehazing. The HyLoG-ViT block consists of two paths, the local ViT path and the global ViT path, which are used to capture local and global dependencies. The hybrid features are fused via convolution layers. As a result, the HyLoG-ViT reduces the computational complexity and introduces locality in the networks. Then, the HyLoG-ViT blocks are incorporated within our dehazing networks, which jointly learn the intrinsic image decomposition and image dehazing. Specifically, the network consists of one shared encoder and three decoders for reflectance prediction, shading prediction, and haze-free image generation. The tasks of reflectance and shading prediction can produce meaningful intermediate features that can serve as complementary features for haze-free image generation. To effectively aggregate the complementary features, we propose a complementary features selection module (CFSM) to select the useful ones for image dehazing. Extensive experiments on homogeneous, non-homogeneous, and nighttime dehazing tasks reveal that our proposed Transformer-based dehazing network can achieve comparable or even better performance than CNNs-based dehazing models.
翻訳日:2021-09-17 02:02:20 公開日:2021-09-15
# (参考訳) WIP:マシンラーニングを用いた電子カルテ分析による医療事故予測:転倒予測 [全文訳有]

WIP: Medical Incident Prediction Through Analysis of Electronic Medical Records Using Machine Lerning: Fall Prediction ( http://arxiv.org/abs/2109.07106v1 )

ライセンス: CC BY 4.0
Atsushi Yanagisawa, Chintaka Premachandra, Hiruharu Kawanaka, Atsushi Inoue, Takeo Hata, Eiichiro Ueda(参考訳) 本稿では,医学的インシデント予測に関する予備研究と,機械学習を用いた転倒リスク予測について報告する。 大阪医薬大学病院の電子医療記録(EMR)の特定のサブセットからのみ、機械学習のデータを生成する。 その結果,(1)機械学習アルゴリズムの比較,(2)不均衡の処理,(3)転倒事故予測への説明変数の寄与の検証などの3つの実験を行った結果,説明変数の探索が最も効果的であることが判明した。

This paper reports our preliminary work on medical incident prediction in general, and fall risk prediction in specific, using machine learning. Data for the machine learning are generated only from the particular subset of the electronic medical records (EMR) at Osaka Medical and Pharmaceutical University Hospital. As a result of conducting three experiments such as (1) machine learning algorithm comparison, (2) handling imbalance, and (3) investigation of explanatory variable contribution to the fall incident prediction, we find the investigation of explanatory variables the most effective.
翻訳日:2021-09-17 01:45:14 公開日:2021-09-15
# (参考訳) ユーザは何を望んでいるのか? 階層的対話政策最適化のための情報ゲイン [全文訳有]

What Does The User Want? Information Gain for Hierarchical Dialogue Policy Optimisation ( http://arxiv.org/abs/2109.07129v1 )

ライセンス: CC BY 4.0
Christian Geishauser, Songbo Hu, Hsien-chin Lin, Nurul Lubis, Michael Heck, Shutong Feng, Carel van Niekerk, Milica Ga\v{s}i\'c(参考訳) タスク指向対話システムの対話管理コンポーネントは通常、強化学習(RL)によって最適化される。 RLによる最適化は、サンプルの非効率性と不安定性に非常に敏感である。 Feudal Dialogue Managementと呼ばれる階層的なアプローチは、アクション空間を分解することで、より効率的な学習へと進む。 しかし、対話の最後にのみ与えられる報酬のため、依然として不安定な状態にある。 この問題に対処するための情報ゲインに基づく本質的な報酬の利用を提案する。 提案する報酬は,不確実性を解消するか,必要に応じてユーザに問い合わせるアクションを優先する。 ポリシーは、タスク指向の会話に不可欠な側面である、ユーザの要求を効率的に取り出す方法を学ぶことができる。 FeudalGainと呼ばれる我々のアルゴリズムは、PyDialフレームワークのほとんどの環境で最先端の結果を達成し、より複雑なアプローチよりも優れています。 シミュレーション実験と人間実験により,本アルゴリズムのサンプル効率と安定性を確認した。

The dialogue management component of a task-oriented dialogue system is typically optimised via reinforcement learning (RL). Optimisation via RL is highly susceptible to sample inefficiency and instability. The hierarchical approach called Feudal Dialogue Management takes a step towards more efficient learning by decomposing the action space. However, it still suffers from instability due to the reward only being provided at the end of the dialogue. We propose the usage of an intrinsic reward based on information gain to address this issue. Our proposed reward favours actions that resolve uncertainty or query the user whenever necessary. It enables the policy to learn how to retrieve the users' needs efficiently, which is an integral aspect in every task-oriented conversation. Our algorithm, which we call FeudalGain, achieves state-of-the-art results in most environments of the PyDial framework, outperforming much more complex approaches. We confirm the sample efficiency and stability of our algorithm through experiments in simulation and a human trial.
翻訳日:2021-09-17 01:35:52 公開日:2021-09-15
# (参考訳) 並列制約駆動帰納論理プログラミング [全文訳有]

Parallel Constraint-Driven Inductive Logic Programming ( http://arxiv.org/abs/2109.07132v1 )

ライセンス: CC BY 4.0
Andrew Cropper, Oghenejokpeme Orhobor, Cristian Dinu, Rolf Morel(参考訳) マルチコアマシンはユビキタスです。 しかし、ほとんどのインダクティブ論理プログラミング(ILP)アプローチは単一のコアしか使用せず、スケーラビリティを著しく制限している。 この制限に対処するため,制約駆動型ILPに基づく並列手法を導入し,その目的は仮説空間を制限するために制約を蓄積することである。 2つの領域(プログラム合成と帰納的汎用ゲームプレイ)に関する実験は、そのことを示す。 i) 並列化は学習時間を著しく短縮し、 (ii) 労働者のコミュニケーション(すなわち制約を共有する)は、優れたパフォーマンスのために重要である。

Multi-core machines are ubiquitous. However, most inductive logic programming (ILP) approaches use only a single core, which severely limits their scalability. To address this limitation, we introduce parallel techniques based on constraint-driven ILP where the goal is to accumulate constraints to restrict the hypothesis space. Our experiments on two domains (program synthesis and inductive general game playing) show that (i) parallelisation can substantially reduce learning times, and (ii) worker communication (i.e. sharing constraints) is important for good performance.
翻訳日:2021-09-17 01:19:23 公開日:2021-09-15
# (参考訳) 量子テンソルネットワークを用いたパッチベース医用画像分割 [全文訳有]

Patch-based medical image segmentation using Quantum Tensor Networks ( http://arxiv.org/abs/2109.07138v1 )

ライセンス: CC BY 4.0
Raghavendra Selvan, Erik B Dam, S{\o}ren Alexander Flensborg, Jens Petersen(参考訳) テンソルネットワークは高次元テンソルの高次テンソルのネットワークへの効率的な分解である。 量子多体系の絡み合いのモデル化に最も一般的に用いられており、最近では教師付き機械学習の応用が増加している。 本研究では,テンソルネットワークを用いた教師付きセグメンテーションで画像セグメンテーションを定式化する。 重要なアイデアは、画像パッチのピクセルを指数関数的に高次元の特徴空間に持ち上げ、線形決定超平面を用いて入力画素を前景と背景クラスに分類することである。 高次元線形モデル自体は、行列積状態(MPS)テンソルネットワークを用いて近似される。 重み付きテンソルネットワークモデルにより,MPSは重み付き画像パッチ間で重み共有される。 提案モデルの性能を3つの2次元および1つの3次元バイオメディカルイメージングデータセットで評価した。 提案するテンソルネットワークセグメンテーションモデルの性能を,関連するベースライン手法と比較した。 2次元実験では, テンソルネットワークモデルにより, 基準法と比較して競争性能が向上し, 資源効率が向上した。

Tensor networks are efficient factorisations of high dimensional tensors into a network of lower order tensors. They have been most commonly used to model entanglement in quantum many-body systems and more recently are witnessing increased applications in supervised machine learning. In this work, we formulate image segmentation in a supervised setting with tensor networks. The key idea is to first lift the pixels in image patches to exponentially high dimensional feature spaces and using a linear decision hyper-plane to classify the input pixels into foreground and background classes. The high dimensional linear model itself is approximated using the matrix product state (MPS) tensor network. The MPS is weight-shared between the non-overlapping image patches resulting in our strided tensor network model. The performance of the proposed model is evaluated on three 2D- and one 3D- biomedical imaging datasets. The performance of the proposed tensor network segmentation model is compared with relevant baseline methods. In the 2D experiments, the tensor network model yeilds competitive performance compared to the baseline methods while being more resource efficient.
翻訳日:2021-09-17 01:07:44 公開日:2021-09-15
# (参考訳) グラスボックス機能を超えて:不確実性定量化によるニューラルマシン翻訳の品質推定 [全文訳有]

Beyond Glass-Box Features: Uncertainty Quantification Enhanced Quality Estimation for Neural Machine Translation ( http://arxiv.org/abs/2109.07141v1 )

ライセンス: CC BY 4.0
Ke Wang, Yangbin Shi, Jiayi Wang, Yuqi Zhang, Yu Zhao and Xiaolin Zheng(参考訳) 機械翻訳(MT)の適用においては品質評価(QE)が重要な役割を果たす。 伝統的に、QEシステムは、ブラックボックスMTシステムからの原文と翻訳を入力として受け入れる。 近年、翻訳の副産物として、翻訳の由来であるmtシステムのモデルとトレーニングデータの情報からqeが恩恵を受けていることを示す研究がいくつかあり、これを「ガラス箱qe」と呼ぶ。 本稿では、一般に「ガラス箱QE」の定義を「黒箱」と「ガラス箱」の両方で不確実な定量化に拡張し、これらから導出される特徴を設計し、QEの性能向上のための新たな試行を図った。 本研究では,不確実性定量化の特徴工学を事前学習された言語間モデルに融合し,翻訳品質を予測する枠組みを提案する。 実験の結果,WMT 2020 QE共有タスクのデータセット上での最先端性能が得られた。

Quality Estimation (QE) plays an essential role in applications of Machine Translation (MT). Traditionally, a QE system accepts the original source text and translation from a black-box MT system as input. Recently, a few studies indicate that as a by-product of translation, QE benefits from the model and training data's information of the MT system where the translations come from, and it is called the "glass-box QE". In this paper, we extend the definition of "glass-box QE" generally to uncertainty quantification with both "black-box" and "glass-box" approaches and design several features deduced from them to blaze a new trial in improving QE's performance. We propose a framework to fuse the feature engineering of uncertainty quantification into a pre-trained cross-lingual language model to predict the translation quality. Experiment results show that our method achieves state-of-the-art performances on the datasets of WMT 2020 QE shared task.
翻訳日:2021-09-17 00:47:31 公開日:2021-09-15
# (参考訳) ヨーロッパの詩の意味論は保守的な力によって形成される:アクセント詩における詩的メーターと意味の関係 [全文訳有]

Semantics of European poetry is shaped by conservative forces: The relationship between poetic meter and meaning in accentual-syllabic verse ( http://arxiv.org/abs/2109.07148v1 )

ライセンス: CC BY-SA 4.0
Artjoms \v{S}e\c{l}a, Petr Plech\'a\v{c}, Alie Lassche(参考訳) 近年の文化分析と芸術、文学、フィルムの大規模計算研究は、芸術作品の特徴の長期的変化が徐々に起こることを示している。 これらの結果は、創造的な領域を形成する保守的な力は過小評価される可能性を示唆している。 この目的のために、チェコ語、ドイツ語、ロシア語のコレクションを用いて、1819世紀のヨーロッパ文学における詩的メーターと意味論の永続的な関連性を示す最初の大規模な公式な証拠を提供する。 本研究は,15万詩の抽象的な意味的特徴を用いたクラスタリング実験を通じて,この関係を追跡する。 トピックモデリングの助けを借りて,個々の詩の意味的特徴を推測する。 テキストはまた、一般化性を高め、単語の頻度分布のばらばらさを減らすために、コレクション全体で語彙的に単純化された。 トピックだけでも各観測言語におけるメートルの認識が可能であり、同じメートルのサンプル(中間調整ランダム指数 0.48 から 1)の非常に堅牢なクラスタリングから見ることができる。 さらに, 形態と意味の関連性の強さは時間とともに低下する傾向を示した。 これは、18世紀から19世紀にかけての審美的な慣習の変化を反映しているかもしれない。 この衰退にもかかわらず、過去または未来からメーターのセマンティクスを認識することは可能であり、これは意味論的伝統の継続を示唆し、言語間の条件の歴史的変動を明らかにしている。 本稿では、何世紀にもわたって言語でしばしば複製される異なるメートル法形式が、詩における長期的な意味的慣性を維持することを主張する。 以上の結果から,文化進化のペースと形に影響を及ぼす文化項目の形式的特徴が果たす役割を強調した。

Recent advances in cultural analytics and large-scale computational studies of art, literature and film often show that long-term change in the features of artistic works happens gradually. These findings suggest that conservative forces that shape creative domains might be underestimated. To this end, we provide the first large-scale formal evidence of the persistent association between poetic meter and semantics in 18-19th European literatures, using Czech, German and Russian collections with additional data from English poetry and early modern Dutch songs. Our study traces this association through a series of clustering experiments using the abstracted semantic features of 150,000 poems. With the aid of topic modeling we infer semantic features for individual poems. Texts were also lexically simplified across collections to increase generalizability and decrease the sparseness of word frequency distributions. Topics alone enable recognition of the meters in each observed language, as may be seen from highly robust clustering of same-meter samples (median Adjusted Rand Index between 0.48 and 1). In addition, this study shows that the strength of the association between form and meaning tends to decrease over time. This may reflect a shift in aesthetic conventions between the 18th and 19th centuries as individual innovation was increasingly favored in literature. Despite this decline, it remains possible to recognize semantics of the meters from past or future, which suggests the continuity of semantic traditions while also revealing the historical variability of conditions across languages. This paper argues that distinct metrical forms, which are often copied in a language over centuries, also maintain long-term semantic inertia in poetry. Our findings, thus, highlight the role of the formal features of cultural items in influencing the pace and shape of cultural evolution.
翻訳日:2021-09-17 00:31:36 公開日:2021-09-15
# (参考訳) ニューラルネットワークを用いた地形マッピングにおけるオクルージョンの解法 [全文訳有]

Solving Occlusion in Terrain Mapping with Neural Networks ( http://arxiv.org/abs/2109.07150v1 )

ライセンス: CC BY 4.0
Maximilian St\"olzle, Takahiro Miki, Levin Gerdes, Martin Azkarate, and Marco Hutter(参考訳) 正確な地形地図は自律ロボットの認識を高め、安全かつ最適な経路計画を可能にする。 岩石や地形は、しばしばオクルージョンを生成し、デジタル標高マップ(DEM)に欠落した標高情報をもたらす。 現在、拡散やパッチマッチングに基づく従来の塗装技術は、自律移動ロボットによって不完全なDEMを埋めるために使われている。 これらの手法では高レベルな地形特性や視線の幾何学的制約を人間が直感的に利用して遮蔽領域を予測することはできない。 本稿では,DEMの隠蔽領域をニューラルネットワークで再構築することを提案する。 本研究は,実世界データ上で地中情報を必要とせずに学習できる自己教師付き学習手法を提案する。 本研究では,実ロボット上に構築した不完全高度マップに人工咬合を付加し,レイキャスティングを行う。 まず,合成データの教師あり学習手法を評価し,実世界のデータセットに移行した。 これらの実世界のデータセットは、足のついたロボットで構造化された地形と非構造的な地形の自律的な探査中に記録された。 人工地形と実世界のデータセットの両方において,teleaおよびnavier-stokesのベースライン手法に比べて著しく改善した。 私たちのニューラルネットワークは、自律的な地上ロボットに適したサンプリングレートで、CPUとGPUの両方でリアルタイムで実行できます。

Accurate and complete terrain maps enhance the awareness of autonomous robots and enable safe and optimal path planning. Rocks and topography often create occlusions and lead to missing elevation information in the Digital Elevation Map (DEM). Currently, mostly traditional inpainting techniques based on diffusion or patch-matching are used by autonomous mobile robots to fill-in incomplete DEMs. These methods cannot leverage the high-level terrain characteristics and the geometric constraints of line of sight we humans use intuitively to predict occluded areas. We propose to use neural networks to reconstruct the occluded areas in DEMs. We introduce a self-supervised learning approach capable of training on real-world data without a need for ground-truth information. We accomplish this by adding artificial occlusion to the incomplete elevation maps constructed on a real robot by performing ray casting. We first evaluate a supervised learning approach on synthetic data for which we have the full ground-truth available and subsequently move to several real-world datasets. These real-world datasets were recorded during autonomous exploration of both structured and unstructured terrain with a legged robot, and additionally in a planetary scenario on Lunar analogue terrain. We state a significant improvement compared to the Telea and Navier-Stokes baseline methods both on synthetic terrain and for the real-world datasets. Our neural network is able to run in real-time on both CPU and GPU with suitable sampling rates for autonomous ground robots.
翻訳日:2021-09-17 00:03:10 公開日:2021-09-15
# (参考訳) フーリエ畳み込みによるレゾリューションロバスト大型マスク [全文訳有]

Resolution-robust Large Mask Inpainting with Fourier Convolutions ( http://arxiv.org/abs/2109.07161v1 )

ライセンス: CC BY 4.0
Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, Victor Lempitsky(参考訳) 現代の画像インペインティングシステムは、重要な進歩にもかかわらず、しばしば大きな欠落領域、複雑な幾何学的構造、高解像度画像に苦しむ。 その主な原因の1つは、塗装ネットワークと損失関数の両方において、効果的な受容野が欠如していることである。 この問題を軽減するために,大型マスク塗装 (LaMa) と呼ばれる新しい手法を提案する。 LaMaはベースです 一 高速フーリエ畳み込みを利用した新しい塗布網の建築であって、画像の広い受容領域を有するもの 二 高い受容領域知覚損失、及び 三 大型の訓練用マスクで、最初の二つの部品の可能性を解き放つこと。 当社のインペインティングネットワークは,データセット全体の最先端を改善し,周期構造完了などの困難なシナリオにおいても優れたパフォーマンスを実現しています。 我々のモデルは、列車時よりも高い解像度に驚くほどよく一般化し、競合するベースラインよりも低いパラメータと計算コストでこれを達成します。 コードはhttps://github.com/s aic-mdal/lamaで入手できる。

Modern image inpainting systems, despite the significant progress, often struggle with large missing areas, complex geometric structures, and high-resolution images. We find that one of the main reasons for that is the lack of an effective receptive field in both the inpainting network and the loss function. To alleviate this issue, we propose a new method called large mask inpainting (LaMa). LaMa is based on i) a new inpainting network architecture that uses fast Fourier convolutions, which have the image-wide receptive field; ii) a high receptive field perceptual loss; and iii) large training masks, which unlocks the potential of the first two components. Our inpainting network improves the state-of-the-art across a range of datasets and achieves excellent performance even in challenging scenarios, e.g. completion of periodic structures. Our model generalizes surprisingly well to resolutions that are higher than those seen at train time, and achieves this at lower parameter&compute costs than the competitive baselines. The code is available at https://github.com/s aic-mdal/lama.
翻訳日:2021-09-16 23:43:24 公開日:2021-09-15
# (参考訳) 離散変分オートエンコーダを用いた自然言語生成因子の分散化 [全文訳有]

Disentangling Generative Factors in Natural Language with Discrete Variational Autoencoders ( http://arxiv.org/abs/2109.07169v1 )

ライセンス: CC BY 4.0
Giangiacomo Mercatali, Andr\'e Freitas(参考訳) 不整合表現を学習する能力は、潜在言語的特徴の制御を可能にするため、NLPシステムを解釈するための大きなステップである。 分離に対するほとんどのアプローチは、画像とテキストの両方の連続変数に依存している。 我々は、画像データセットに適しているにもかかわらず、連続変数はテキストデータの特徴をモデル化するのに理想的ではないかもしれないと主張する。 本稿では,言語特徴を離散変数としてモデル化し,変数間の独立性を促進できる変分自動符号化手法を提案する。 提案モデルは,テキストスタイル転送下流アプリケーションと同様に,複数の質的,定量的指標において,連続的および離散的なベースラインを上回っている。

The ability of learning disentangled representations represents a major step for interpretable NLP systems as it allows latent linguistic features to be controlled. Most approaches to disentanglement rely on continuous variables, both for images and text. We argue that despite being suitable for image datasets, continuous variables may not be ideal to model features of textual data, due to the fact that most generative factors in text are discrete. We propose a Variational Autoencoder based method which models language features as discrete variables and encourages independence between variables for learning disentangled representations. The proposed model outperforms continuous and discrete baselines on several qualitative and quantitative benchmarks for disentanglement as well as on a text style transfer downstream application.
翻訳日:2021-09-16 23:24:40 公開日:2021-09-15
# (参考訳) パワーホークス・ディリクレプロセス:柔軟な時間前処理によるテキストクラスタリング [全文訳有]

Powered Hawkes-Dirichlet Process: Challenging Textual Clustering using a Flexible Temporal Prior ( http://arxiv.org/abs/2109.07170v1 )

ライセンス: CC BY 4.0
Ga\"el Poux-M\'edard, Julien Velcin, Sabine Loudcher(参考訳) 文書のテキスト内容とその発行日は相互に交わされる。 例えば、トピックに関するニュース記事の発行は、背景となる時間的ダイナミクスに従って、同様の問題に関する以前の出版の影響を受けている。 しかし、テキスト情報がほとんど情報を伝える場合や、時間的ダイナミクスの公開が難しい場合、意味のある情報を検索することは困難である。 さらに、文書のテキスト内容は、その時間的ダイナミクスと必ずしも関連付けられていない。 我々は,その内容と公開時間に応じて文書のクラスタを作成する柔軟な方法,Powered Dirichlet-Hawkes Process (PDHP) を開発した。 時間情報やテキストの内容が弱い場合、pdhpは最先端モデルよりも優れた結果が得られることを示す。 pdhpはまた、テクストコンテンツとテンポラリダイナミクスが常に完全に相関しているという仮説を緩和する。 PDHPは、テキストクラスタ、時間クラスタ、あるいは両者の混合を、それらがそうでないときに高い精度で取得することができる。 PDHPはディリクレ・ホークス・プロセス (DHP) やユニフォーム・プロセス (UP) といった従来の作業の一般化を実証する。 最後に,pdhp が dhp と up で引き起こした変化を reddit データを用いた実世界アプリケーションで紹介する。

The textual content of a document and its publication date are intertwined. For example, the publication of a news article on a topic is influenced by previous publications on similar issues, according to underlying temporal dynamics. However, it can be challenging to retrieve meaningful information when textual information conveys little information or when temporal dynamics are hard to unveil. Furthermore, the textual content of a document is not always linked to its temporal dynamics. We develop a flexible method to create clusters of textual documents according to both their content and publication time, the Powered Dirichlet-Hawkes process (PDHP). We show PDHP yields significantly better results than state-of-the-art models when temporal information or textual content is weakly informative. The PDHP also alleviates the hypothesis that textual content and temporal dynamics are always perfectly correlated. PDHP allows retrieving textual clusters, temporal clusters, or a mixture of both with high accuracy when they are not. We demonstrate that PDHP generalizes previous work --such as the Dirichlet-Hawkes process (DHP) and Uniform process (UP). Finally, we illustrate the changes induced by PDHP over DHP and UP in a real-world application using Reddit data.
翻訳日:2021-09-16 23:10:26 公開日:2021-09-15
# (参考訳) BioASQ9bにおけるFactoid Question Answeringのためのトランスフォーマーベース言語モデル [全文訳有]

Transformer-based Language Models for Factoid Question Answering at BioASQ9b ( http://arxiv.org/abs/2109.07185v1 )

ライセンス: CC BY 4.0
Urvashi Khanna and Diego Moll\'a(参考訳) 本稿では,生物医学的質問応答の課題であるbioasqタスク9bフェーズbにおける実験と参加システムについて述べる。 我々は, 理想的な答えを見つけることに注力し, トランスフォーマー型言語モデルにおけるマルチタスクの微調整と段階的凍結技術について検討した。 実のところ、ALBERTベースのシステムはテストバッチ1で1位、テストバッチ2で4位である。 我々のDistilBERTシステムは、ALBERTよりもパラメータが81%少ないにもかかわらず、テストバッチ4、5でALBERTの変種よりも優れていた。 しかし,標準的な微調整に比べ,段階的な凍結がモデルの精度に有意な影響を与えなかった。

In this work, we describe our experiments and participating systems in the BioASQ Task 9b Phase B challenge of biomedical question answering. We have focused on finding the ideal answers and investigated multi-task fine-tuning and gradual unfreezing techniques on transformer-based language models. For factoid questions, our ALBERT-based systems ranked first in test batch 1 and fourth in test batch 2. Our DistilBERT systems outperformed the ALBERT variants in test batches 4 and 5 despite having 81% fewer parameters than ALBERT. However, we observed that gradual unfreezing had no significant impact on the model's accuracy compared to standard fine-tuning.
翻訳日:2021-09-16 22:51:52 公開日:2021-09-15
# (参考訳) 行動と計画を学ぶための目標言語(対帰納的バイアス) [全文訳有]

Target Languages (vs. Inductive Biases) for Learning to Act and Plan ( http://arxiv.org/abs/2109.07195v1 )

ライセンス: CC BY 4.0
Hector Geffner(参考訳) 最近のAIのブレークスルーは、深層学習と深層強化学習の驚くべき力を示している。 しかし、これらの発展は特定のタスクに結びついており、分布外一般化の進歩は制限されている。 これらの制限は適切な帰納バイアスを組み込むことで克服できると仮定されるが、帰納バイアス自体の概念は曖昧にされ、意味のあるガイダンスを提供しない。 本稿では、ニューラルネットワークにおけるバイアスから表現が生まれるのではなく、既知のセマンティクスを持つ特定のターゲット言語で学習される、異なる学習アプローチを明確に述べる。 基本概念は、一階述語論理の断片から確率的構造的因果モデルまで幅広い言語で表現が符号化された主流aiにおいて暗黙的である。 課題は、伝統的に手作業で作られた表現であるデータから学ぶことだ。 一般化は言語の意味論の結果である。 論文と講演の目的は、これらのアイデアを明確化し、対象言語の設計が不可欠である広い文脈に配置し、それらを行動と計画の学習の文脈で説明することである。 このために、一般的な議論の後、アクションの学習表現、一般的なポリシー、一般的な分解について検討する。 このような場合、学習は組合せ最適化問題として定式化されるが、深層学習技術の使用を妨げるものは何もない。 実際、既知のセマンティクスを持つ言語上の表現の学習は、何を学習すべきかを説明する一方で、ニューラルネットによる表現の学習は、表現の学習方法の補完的な説明を提供する。 課題と機会は、両者を団結させることです。

Recent breakthroughs in AI have shown the remarkable power of deep learning and deep reinforcement learning. These developments, however, have been tied to specific tasks, and progress in out-of-distribution generalization has been limited. While it is assumed that these limitations can be overcome by incorporating suitable inductive biases, the notion of inductive biases itself is often left vague and does not provide meaningful guidance. In the paper, I articulate a different learning approach where representations do not emerge from biases in a neural architecture but are learned over a given target language with a known semantics. The basic ideas are implicit in mainstream AI where representations have been encoded in languages ranging from fragments of first-order logic to probabilistic structural causal models. The challenge is to learn from data, the representations that have traditionally been crafted by hand. Generalization is then a result of the semantics of the language. The goals of the paper and talk are to make these ideas explicit, to place them in a broader context where the design of the target language is crucial, and to illustrate them in the context of learning to act and plan. For this, after a general discussion, I consider learning representations of actions, general policies, and general decompositions. In these cases, learning is formulated as a combinatorial optimization problem but nothing prevents the use deep learning techniques instead. Indeed, learning representations over languages with a known semantics provides an account of what is to be learned, while learning representations with neural nets provides a complementary account of how representations can be learned. The challenge and the opportunity is to bring the two together.
翻訳日:2021-09-16 22:37:40 公開日:2021-09-15
# (参考訳) Misurata sub-dialectにおける歌の感性分析 -アラビア語サブ-dialectにおける感性検出 [全文訳有]

Sentiment Analysis in Poems in Misurata Sub-dialect -- A Sentiment Detection in an Arabic Sub-dialect ( http://arxiv.org/abs/2109.07203v1 )

ライセンス: CC BY 4.0
Azza Abugharsa(参考訳) この数十年間、アラビア語の自然言語処理のための資源の大幅な増加と発展がみられた。 これには、現代標準アラビア語(MSA)と異なるアラビア語方言のアラビア語発話からアラビア言語知覚分析(ALSA)を探索するタスクが含まれる。 本研究は,リビアのミシュラタで話されているミシュラタ・アラビア方言の詩の感情を検出することに焦点を当てた。 データセットから感情を検出するために使用されるツールは、SklearnとMazajak sentiment tool 1.1である。 Logistic Regression, Random Forest, Naive Bayes (NB) と Support Vector Machines (SVM) は Sklearn で、Convolutional Neural Network (CNN) は Mazajak で実装されている。 その結果、従来の分類器は、ディープラーニング技術を含むアルゴリズムに基づいて構築されたMazajakに比べて精度が高いことがわかった。 これらの多行テキストにおける感情に寄与する側面、例えば比喩のような比喩的言語の使用を調査するために、アラビア語の副方言詩を分析するためにさらなる研究が提案されている。

Over the recent decades, there has been a significant increase and development of resources for Arabic natural language processing. This includes the task of exploring Arabic Language Sentiment Analysis (ALSA) from Arabic utterances in both Modern Standard Arabic (MSA) and different Arabic dialects. This study focuses on detecting sentiment in poems written in Misurata Arabic sub-dialect spoken in Misurata, Libya. The tools used to detect sentiment from the dataset are Sklearn as well as Mazajak sentiment tool 1. Logistic Regression, Random Forest, Naive Bayes (NB), and Support Vector Machines (SVM) classifiers are used with Sklearn, while the Convolutional Neural Network (CNN) is implemented with Mazajak. The results show that the traditional classifiers score a higher level of accuracy as compared to Mazajak which is built on an algorithm that includes deep learning techniques. More research is suggested to analyze Arabic sub-dialect poetry in order to investigate the aspects that contribute to sentiments in these multi-line texts; for example, the use of figurative language such as metaphors.
翻訳日:2021-09-16 22:21:53 公開日:2021-09-15
# (参考訳) オープンリレーション抽出のための関係指向クラスタリング手法 [全文訳有]

A Relation-Oriented Clustering Method for Open Relation Extraction ( http://arxiv.org/abs/2109.07205v1 )

ライセンス: CC BY 4.0
Jun Zhao, Tao Gui, Qi Zhang, and Yaqian Zhou(参考訳) クラスタリングに基づく非教師付き関係発見法は,オープンリレーション抽出(openre)の重要な手法の一つである。 しかし、高次元ベクトルは複雑な言語情報をエンコードできるため、派生したクラスタが関係意味クラスと明示的に一致できないという問題を引き起こす。 本研究では,関係指向クラスタリングモデルを提案し,それを用いてラベルなしデータの新たな関係を同定する。 具体的には、モデルが関係データのクラスタ化を学べるように、あらかじめ定義された関係のラベル付きデータを利用して関係指向表現を学習する。 同じ関係を持つインスタンス間の距離を最小化するために、インスタンスを対応する関係センタロイドに向けて集めてクラスタ構造を形成し、学習した表現がクラスタフレンドリになるようにします。 事前定義されたクラスにおけるクラスタリングバイアスを低減するため、ラベル付きデータとラベルなしデータの両方で共同目的を最小化することにより、モデルを最適化する。 実験の結果,従来のSOTA法と比較して,2つのデータセットで誤差率を29.2%,15.7%削減できることがわかった。

The clustering-based unsupervised relation discovery method has gradually become one of the important methods of open relation extraction (OpenRE). However, high-dimensional vectors can encode complex linguistic information which leads to the problem that the derived clusters cannot explicitly align with the relational semantic classes. In this work, we propose a relation-oriented clustering model and use it to identify the novel relations in the unlabeled data. Specifically, to enable the model to learn to cluster relational data, our method leverages the readily available labeled data of pre-defined relations to learn a relation-oriented representation. We minimize distance between the instance with same relation by gathering the instances towards their corresponding relation centroids to form a cluster structure, so that the learned representation is cluster-friendly. To reduce the clustering bias on predefined classes, we optimize the model by minimizing a joint objective on both labeled and unlabeled data. Experimental results show that our method reduces the error rate by 29.2% and 15.7%, on two datasets respectively, compared with current SOTA methods.
翻訳日:2021-09-16 22:06:09 公開日:2021-09-15
# (参考訳) 空間変調ODMのための機械学習パラダイムに基づくチャネル推定 [全文訳有]

Channel Estimation Based on Machine Learning Paradigm for Spatial Modulation OFDM ( http://arxiv.org/abs/2109.07208v1 )

ライセンス: CC BY 4.0
Ahmed M. Badi, Taissir Y. Elganimi, Osama A. S. Alkishriwo, and Nadia Adem(参考訳) 本稿では,dnn(deep neural network)とsm-ofdm(spatial modulation-orthogona l frequency division multiplexing)技術を統合し,レイリーフェージングチャネル上でのエンドツーエンドデータ検出を行う。 提案システムは受信したシンボルを直接復調し,チャネル推定を暗黙的に行う。 また,本システムにはアンサンブルネットワークも提案されている。 シミュレーションの結果,提案手法はパイロットオーバヘッドとサイクリックプレフィックス(CP)の低減に際し,複雑なチャネル条件の学習と調整が可能なため,従来の手法に比べて大きな優位性を有することがわかった。 最後に,アンサンブルネットワークにより提案手法の一般化が促進され,性能も若干改善された。

In this paper, deep neural network (DNN) is integrated with spatial modulation-orthogona l frequency division multiplexing (SM-OFDM) technique for end-to-end data detection over Rayleigh fading channel. This proposed system directly demodulates the received symbols, leaving the channel estimation done only implicitly. Furthermore, an ensemble network is also proposed for this system. Simulation results show that the proposed DNN detection scheme has a significant advantage over classical methods when the pilot overhead and cyclic prefix (CP) are reduced, owing to its ability to learn and adjust to complicated channel conditions. Finally, the ensemble network is shown to improve the generalization of the proposed scheme, while also showing a slight improvement in its performance.
翻訳日:2021-09-16 21:50:46 公開日:2021-09-15
# (参考訳) E}fficient{BERT}: ウォームアップ知識蒸留による多層パーセプトロンのプログレッシブ検索 [全文訳有]

{E}fficient{BERT}: Progressively Searching Multilayer Perceptron via Warm-up Knowledge Distillation ( http://arxiv.org/abs/2109.07222v1 )

ライセンス: CC BY 4.0
Chenhe Dong, Guangrun Wang, Hang Xu, Jiefeng Peng, Xiaozhe Ren, Xiaodan Liang(参考訳) 事前学習された言語モデルは様々なnlpタスクで顕著な結果を示している。 それにもかかわらず、その大きなサイズと推論速度が遅いため、エッジデバイスにデプロイするのは困難である。 本稿では、BERTにおけるフィードフォワードネットワーク(FFN)の改善は、FFNの計算コストがMHAの2$\sim$3倍であることから、マルチヘッドアテンション(MHA)の改善よりも高い利得が得られるという批判的な洞察を得る。 したがって,よりコンパクトなBERTでは,従来のMHAに注目する作業とは対照的に,効率的なFFNの設計に重点を置いている。 FFNは、BERT最適化に不可欠な多層パーセプトロン(MLP)から構成されるため、さらに高度なMLPに向けて徹底的な探索空間を設計し、効率的なBERTアーキテクチャを探索するための粗大な機構を実行する。 さらに,モデル転送可能性の向上と探索の促進を目的として,探索段階ごとに新しいウォームアップ知識蒸留戦略を採用する。 検索したEfficientBERTは6.9$\times$小さく、4.4$\times$はBERT$\rm_{BASE}$より高速で、GLUEおよびSQuADベンチマーク上での競合性能を持つ。 具体的には、EfficientBERTは、GLUE \emph{test}で平均スコア77.7、MobileBERT$\rm_{TINY}$より0.7、SQuAD v1.1/v2.0 \emph{dev}で85.3/74.5、TinyBERT$_4$でも3.2/2.7に達する。 コードはhttps://github.com/c heneydon/ efficient-bertでリリースされる。

Pre-trained language models have shown remarkable results on various NLP tasks. Nevertheless, due to their bulky size and slow inference speed, it is hard to deploy them on edge devices. In this paper, we have a critical insight that improving the feed-forward network (FFN) in BERT has a higher gain than improving the multi-head attention (MHA) since the computational cost of FFN is 2$\sim$3 times larger than MHA. Hence, to compact BERT, we are devoted to designing efficient FFN as opposed to previous works that pay attention to MHA. Since FFN comprises a multilayer perceptron (MLP) that is essential in BERT optimization, we further design a thorough search space towards an advanced MLP and perform a coarse-to-fine mechanism to search for an efficient BERT architecture. Moreover, to accelerate searching and enhance model transferability, we employ a novel warm-up knowledge distillation strategy at each search stage. Extensive experiments show our searched EfficientBERT is 6.9$\times$ smaller and 4.4$\times$ faster than BERT$\rm_{BASE}$, and has competitive performances on GLUE and SQuAD Benchmarks. Concretely, EfficientBERT attains a 77.7 average score on GLUE \emph{test}, 0.7 higher than MobileBERT$\rm_{TINY}$, and achieves an 85.3/74.5 F1 score on SQuAD v1.1/v2.0 \emph{dev}, 3.2/2.7 higher than TinyBERT$_4$ even without data augmentation. The code is released at https://github.com/c heneydon/efficient-b ert.
翻訳日:2021-09-16 21:44:27 公開日:2021-09-15
# (参考訳) 歌詞はどれくらい重要か? 抑うつリスクのある個人に対する叙情的単純性選好の分析 [全文訳有]

How Much do Lyrics Matter? Analysing Lyrical Simplicity Preferences for Individuals At Risk of Depression ( http://arxiv.org/abs/2109.07227v1 )

ライセンス: CC BY 4.0
Jaidev Shriram, Sreeharsha Paruchuri and Vinoo Alluri(参考訳) 音楽は影響を受け、時には感情的な状態を反映する。 この影響の鍵となるのは、トラックの音響特性とともに歌詞と意味である。 近年の研究では、これらの音響特性の分析に焦点が当てられ、うつ病に苦しむ人は、主に低原子価と低エネルギーの音楽を消費していることが示されている。 しかし、そのような個人のオンライン音楽消費に関して、歌詞コンテンツ嗜好についてはまだ研究されていない。 本研究は,テキストの圧縮性と絶対的情報量として測定された歌詞の単純さを,うつ病リスクのある個人の嗜好と関連づけて検討する。 541 last.fmユーザーの6ヶ月のリスニング履歴を用いて、(リスクのない)ユーザーのうつ病のリスク(リスク)と分類されたユーザーの歌詞的単純さの傾向を比較した。 その結果,at-riskの個人は平均して情報量が多い曲(低圧縮性)を好むことが明らかとなった。 さらに,At-Riskの個人は聴取履歴の絶対情報コンテンツの多様性も高いことがわかった。 抑うつに関連する音楽習慣と自然発生するオンライン音楽リスニング行動との関連について,既存の社会心理学的研究室による研究から考察する。

Music affects and in some cases reflects one's emotional state. Key to this influence is lyrics and their meaning in conjunction with the acoustic properties of the track. Recent work has focused on analysing these acoustic properties and showing that individuals prone to depression primarily consume low valence and low energy music. However, no studies yet have explored lyrical content preferences in relation to online music consumption of such individuals. In the current study, we examine lyrical simplicity, measured as the Compressibility and Absolute Information Content of the text, associated with preferences of individuals at risk for depression. Using the six-month listening history of 541 Last.fm users, we compare lyrical simplicity trends for users grouped as being at risk (At-Risk) of depression from those that are not (No-Risk). Our findings reveal that At-Risk individuals prefer songs with greater information content (lower Compressibility) on average, especially for songs characterised as Sad. Furthermore, we found that At-Risk individuals also have greater variability of Absolute Information Content across their listening history. We discuss the results in light of existing socio-psychological lab-based research on music habits associated with depression and their relevance to naturally occurring online music listening behaviour.
翻訳日:2021-09-16 21:24:34 公開日:2021-09-15
# (参考訳) IoT行動に影響を与えるIoT(Internet of Behavior, IoB)と説明可能なAIシステム [全文訳有]

Internet of Behavior (IoB) and Explainable AI Systems for Influencing IoT Behavior ( http://arxiv.org/abs/2109.07239v1 )

ライセンス: CC BY 4.0
Haya Elayan and Moayad Aloqaily and Mohsen Guizani(参考訳) パンデミックや自然災害は人々の行動を変え、あらゆる生活に多大な影響を与えてきた。 それぞれの時代に利用可能な技術によって、政府、組織、企業はこれらの技術を使って個人の行動を追跡し、制御し、影響を与えてきた。 今日、IoT(Internet of Things)、クラウドコンピューティング、人工知能(AI)の使用により、IoTの振る舞いを変化させることで、ユーザの動作を追跡し、変更することが容易になった。 この記事では、IoT行動の変更プロセスにおける信頼性と明確なエクスペリエンスを提供し、最終的にはユーザの行動を改善するための、行動のインターネット(IoB)の概念と、説明可能なAI(XAI)技術との統合を紹介し、議論する。 そこで,利用者の消費行動に影響を与え,消費電力とコストを削減しようとする電力消費のユースケースにおいて,iobとxaiに基づくシステムを提案する。 その結果、200時間にわたる原消費と比較すると、522.2kwのアクティブ電力が減少した。 また、同期間の総電力コストは95.04ユーロであった。 さらに、グローバルアクティブパワーの低下は、正相関による電力強度を減少させる。

Pandemics and natural disasters over the years have changed the behavior of people, which has had a tremendous impact on all life aspects. With the technologies available in each era, governments, organizations, and companies have used these technologies to track, control, and influence the behavior of individuals for a benefit. Nowadays, the use of the Internet of Things (IoT), cloud computing, and artificial intelligence (AI) have made it easier to track and change the behavior of users through changing IoT behavior. This article introduces and discusses the concept of the Internet of Behavior (IoB) and its integration with Explainable AI (XAI) techniques to provide trusted and evident experience in the process of changing IoT behavior to ultimately improving users' behavior. Therefore, a system based on IoB and XAI has been proposed in a use case scenario of electrical power consumption that aims to influence user consuming behavior to reduce power consumption and cost. The scenario results showed a decrease of 522.2 kW of active power when compared to original consumption over a 200-hours period. It also showed a total power cost saving of 95.04 Euro for the same period. Moreover, decreasing the global active power will reduce the power intensity through the positive correlation.
翻訳日:2021-09-16 21:12:07 公開日:2021-09-15
# (参考訳) 機械翻訳品質評価のための回帰アンサンブル [全文訳有]

Regressive Ensemble for Machine Translation Quality Evaluation ( http://arxiv.org/abs/2109.07242v1 )

ライセンス: CC BY 4.0
Michal \v{S}tef\'anik and V\'it Novotn\'y and Petr Sojka(参考訳) 本研究は,一組の新規かつ確立されたメトリクスに基づいて機械翻訳品質を評価するための単純な回帰アンサンブルを導入する。 我々は,WMT 2021 MetricsワークショップのエキスパートベースのMQMスコアと相関してアンサンブルを評価する。 モノリンガルおよびゼロショットのクロスリンガル設定では、単一のメトリクスよりも大幅にパフォーマンスが向上しています。 言語横断的な設定では、アンサンブルアプローチが目に見えない言語に適用可能であることも示している。 さらに,一般に使用されているBLEUとMETEORの指標を一貫して上回り,アンサンブルの性能を大幅に向上させる強力な参照フリーベースラインを同定する。

This work introduces a simple regressive ensemble for evaluating machine translation quality based on a set of novel and established metrics. We evaluate the ensemble using a correlation to expert-based MQM scores of the WMT 2021 Metrics workshop. In both monolingual and zero-shot cross-lingual settings, we show a significant performance improvement over single metrics. In the cross-lingual settings, we also demonstrate that an ensemble approach is well-applicable to unseen languages. Furthermore, we identify a strong reference-free baseline that consistently outperforms the commonly-used BLEU and METEOR measures and significantly improves our ensemble's performance.
翻訳日:2021-09-16 21:01:06 公開日:2021-09-15
# (参考訳) トランスファーコンテクスト埋め込みによる臨床情報抽出の促進 [全文訳有]

Enhancing Clinical Information Extraction with Transferred Contextual Embeddings ( http://arxiv.org/abs/2109.07243v1 )

ライセンス: CC BY-SA 4.0
Zimin Wan, Chenchen Xu, Hanna Suominen(参考訳) トランスフォーマ(bert)モデルからの双方向エンコーダ表現は多くの自然言語処理(nlp)タスクで最先端のパフォーマンスを達成している。 しかし、バイオメディカルや臨床NLPの応用などにおいて、対象ドメインがトレーニング前のコーパスから移行する際の有効性の研究に限定的な研究が貢献している。 本稿では,病院情報抽出(ie)タスクを広く研究し,その性能をトランスファー学習環境下で分析した。 私たちのアプリケーションは、既存のieモデルと比べ、明確なマージンで新しい最先端の結果になりました。 特に,この看護ハンドオーバデータセットでは,我々のモデルによるマクロ平均f1スコアは0.438であり,これまでの最良深層学習モデルでは0.416であった。 その結果,BERTをベースとした事前学習モデルは,温和な条件下で適切な微調整プロセスで健康関連文書に転送可能であることがわかった。

The Bidirectional Encoder Representations from Transformers (BERT) model has achieved the state-of-the-art performance for many natural language processing (NLP) tasks. Yet, limited research has been contributed to studying its effectiveness when the target domain is shifted from the pre-training corpora, for example, for biomedical or clinical NLP applications. In this paper, we applied it to a widely studied a hospital information extraction (IE) task and analyzed its performance under the transfer learning setting. Our application became the new state-of-the-art result by a clear margin, compared with a range of existing IE models. Specifically, on this nursing handover data set, the macro-average F1 score from our model was 0.438, whilst the previous best deep learning models had 0.416. In conclusion, we showed that BERT based pre-training models can be transferred to health-related documents under mild conditions and with a proper fine-tuning process.
翻訳日:2021-09-16 20:49:45 公開日:2021-09-15
# (参考訳) NRサイドリンクによるセルネットワークにおけるセンシングと通信の統合 [全文訳有]

Integrating Sensing and Communication in Cellular Networks via NR Sidelink ( http://arxiv.org/abs/2109.07253v1 )

ライセンス: CC BY 4.0
Dariush Salami, Ramin Hasibi, Stefano Savazzi, Tom Michoel, and Stephan Sigg(参考訳) 受信電磁信号における運動・環境パターンの解析・解釈であるrfセンシングは,10年以上にわたって活発に研究されてきた。 電磁信号は、セルラー通信システムを通じて全能化されているため、RFセンシングは、スマートホーム、小売、ローカライゼーション、ジェスチャー認識、侵入検知などの応用において、普遍的なセンシングメカニズムとなる可能性がある。 具体的には、既存のセルラーネットワークのインストールは、通信とセンシングの両方に使用することができる。 このようなコミュニケーションと感覚の収束は、将来の通信ネットワークのために想定される。 我々は5gセル通信システムにおいてデバイスイニシアティブでフレキシブルなセンシングを実現するためのnr-sidelink直接デバイス間通信の利用を提案する。 本稿では,その角度と回転依存性の側面リンクに基づくrfセンシングに関する共通問題について検討する。 特に、回転不変量を達成するmmwave点雲データの変換や、そのような回転不変量入力に基づく分散処理について、角度や距離の異なるデバイスで論じる。 分散データを処理するために,データの時空間的特徴を捉えるグラフベースのエンコーダを提案し,多角学習のための4つのアプローチを提案する。 これらのアプローチは、新たに記録された15名の被験者からなるデータセットで比較され、8つの角度から21のジェスチャーが記録される。

RF-sensing, the analysis and interpretation of movement or environment-induced patterns in received electromagnetic signals, has been actively investigated for more than a decade. Since electromagnetic signals, through cellular communication systems, are omnipresent, RF sensing has the potential to become a universal sensing mechanism with applications in smart home, retail, localization, gesture recognition, intrusion detection, etc. Specifically, existing cellular network installations might be dual-used for both communication and sensing. Such communications and sensing convergence is envisioned for future communication networks. We propose the use of NR-sidelink direct device-to-device communication to achieve device-initiated,fle xible sensing capabilities in beyond 5G cellular communication systems. In this article, we specifically investigate a common issue related to sidelink-based RF-sensing, which is its angle and rotation dependence. In particular, we discuss transformations of mmWave point-cloud data which achieve rotational invariance, as well as distributed processing based on such rotational invariant inputs, at angle and distance diverse devices. To process the distributed data, we propose a graph based encoder to capture spatio-temporal features of the data and propose four approaches for multi-angle learning. The approaches are compared on a newly recorded and openly available dataset comprising 15 subjects, performing 21 gestures which are recorded from 8 angles.
翻訳日:2021-09-16 20:40:34 公開日:2021-09-15
# (参考訳) 不均質環境における分子特性のフェデレート学習 [全文訳有]

Federated Learning of Molecular Properties in a Heterogeneous Setting ( http://arxiv.org/abs/2109.07258v1 )

ライセンス: CC BY 4.0
Wei Zhu, Andrew White, Jiebo Luo(参考訳) 化学研究は、実験を行うための高い材料と計算コストを持っている。 このように、機関は化学データの価値を考慮し、機械学習のための大規模な公開データセットを構築する努力はほとんどない。 もう一つの課題は、異なる直観が異なる分子のクラスに興味を持ち、従来の分散トレーニングでは簡単に結合できない異種データを生成することである。 本稿では,これらの課題に対処するために,フェデレート不均質分子学習を導入する。 連合学習により、エンドユーザは、孤立したクライアントに分散したトレーニングデータを保存しながら、グローバルなモデルを協調的に構築できる。 関連研究の欠如により、我々は最初にフェデレーテッドヘテロジニアスベンチマークであるFedChemをシミュレートした。 fedchemは、既存のデータセット上で足場分割と潜在ディリクレ割り当てを共同で実行する。 FedChemの研究では、異種分子を扱う際に大きな学習課題が生じることを示した。 次に,この問題を緩和する手法,すなわちインスタンス重み付けによるフェデレーション学習(flit)を提案する。 FLITは、不確実なサンプルの性能を向上させることにより、異種クライアント間のローカルトレーニングを調整できる。 新しいベンチマークfeedchemを用いた包括的実験により,この手法が他のフェデレート学習方式よりも優れていることを検証した。 FedChemは、化学におけるAI改善のための新しいタイプのコラボレーションを可能にする必要がある。

Chemistry research has both high material and computational costs to conduct experiments. Institutions thus consider chemical data to be valuable and there have been few efforts to construct large public datasets for machine learning. Another challenge is that different intuitions are interested in different classes of molecules, creating heterogeneous data that cannot be easily joined by conventional distributed training. In this work, we introduce federated heterogeneous molecular learning to address these challenges. Federated learning allows end-users to build a global model collaboratively while preserving the training data distributed over isolated clients. Due to the lack of related research, we first simulate a federated heterogeneous benchmark called FedChem. FedChem is constructed by jointly performing scaffold splitting and Latent Dirichlet Allocation on existing datasets. Our results on FedChem show that significant learning challenges arise when working with heterogeneous molecules. We then propose a method to alleviate the problem, namely Federated Learning by Instance reweighTing (FLIT). FLIT can align the local training across heterogeneous clients by improving the performance for uncertain samples. Comprehensive experiments conducted on our new benchmark FedChem validate the advantages of this method over other federated learning schemes. FedChem should enable a new type of collaboration for improving AI in chemistry that mitigates concerns about valuable chemical data.
翻訳日:2021-09-16 20:15:53 公開日:2021-09-15
# (参考訳) NBcoded:リソース制限デバイスのためのEncoderとNaive Bayesモデルに基づくネットワーク攻撃分類器 [全文訳有]

NBcoded: network attack classifiers based on Encoder and Naive Bayes model for resource limited devices ( http://arxiv.org/abs/2109.07273v1 )

ライセンス: CC BY 4.0
Lander Segurola-Gil, Francesco Zola, Xabier Echeberria-Barrio and Raul Orduna-Urrutia(参考訳) 近年,サイバーセキュリティの関連性が高まり,攻撃や侵入の検出が重要なタスクに転換されている。 実際、システム、アプリケーション、あるいはネットワークの小さな侵害は、企業に大きなダメージを与える可能性がある。 しかし、この攻撃検出が人工知能パラダイムに遭遇すると、計算やメモリ使用に関して高いリソース要求を必要とする高品質の分類器を使って対処できる。 この状況は、攻撃分類器が限られたリソースデバイスで使用される必要がある場合や、IoTデバイスや産業システムで発生するようなデバイスのパフォーマンスを過負荷にすることなく、大きな影響を与える。 この問題を克服するために、nbcodedという新しい光攻撃分類ツールが提案されている。 NBcodedは、エンコーダのノイズの多いデータ特性と低リソースの除去と、ネイブベイズ分類器が取得したタイミング消費を組み合わせたパイプラインで動作する。 この研究は、3つの異なるナイーブベイズ確率分布仮定(gaussian, complement, bernoulli)に基づいて3つのnbcoded実装を比較する。 次に、最高のNBcodedは、Multilayer PerceptronやRandom Forestのようなアート分類器の状態と比較される。 我々の実装は、トレーニング時間とディスク使用量の影響を、たとえ他の2つよりも精度とF1スコア(約2%)が優れているとしても、最高のモデルであることが示されています。

In the recent years, cybersecurity has gained high relevance, converting the detection of attacks or intrusions into a key task. In fact, a small breach in a system, application, or network, can cause huge damage for the companies. However, when this attack detection encounters the Artificial Intelligence paradigm, it can be addressed using high-quality classifiers which often need high resource demands in terms of computation or memory usage. This situation has a high impact when the attack classifiers need to be used with limited resourced devices or without overloading the performance of the devices, as it happens for example in IoT devices, or in industrial systems. For overcoming this issue, NBcoded, a novel light attack classification tool is proposed in this work. NBcoded works in a pipeline combining the removal of noisy data properties of the encoders with the low resources and timing consuming obtained by the Naive Bayes classifier. This work compares three different NBcoded implementations based on three different Naive Bayes likelihood distribution assumptions (Gaussian, Complement and Bernoulli). Then, the best NBcoded is compared with state of the art classifiers like Multilayer Perceptron and Random Forest. Our implementation shows to be the best model reducing the impact of training time and disk usage, even if it is outperformed by the other two in terms of Accuracy and F1-score (~ 2%).
翻訳日:2021-09-16 19:59:17 公開日:2021-09-15
# (参考訳) DROMO: オフラインモデルに基づく政策最適化の分散ロバスト化

DROMO: Distributionally Robust Offline Model-based Policy Optimization ( http://arxiv.org/abs/2109.07275v1 )

ライセンス: CC BY 4.0
Ruizhen Liu, Dazhi Zhong, Zhicong Chen(参考訳) モデルベース制御によるオフライン強化学習の問題点について考察し,その課題は,経験リプレイからダイナミクスモデルを学び,学習モデルの下で悲観主義指向エージェントを得ることである。 現在のモデルベースの制約には明確な不確実性ペナルティと暗黙の保守的正規化が含まれており、これは分配外状態-作用対のQ値を押し下げ、分配外状態-作用対を下げる。 前者が依存する不確実性推定は、複雑な力学に対して緩やかに校正できるが、後者は若干改善されている。 不確実性定量化を伴わない正規化の基本的な考え方を拡張するために,分散的ロバストな最適化のアイデアを活用した分散的ロバストなオフラインモデルに基づくポリシー最適化(dromo)を提案する。 理論的には,提案手法は基本的方針評価の下位境界を最適化し,既存の政策勾配アルゴリズムに組み込むことができる。 また,dromoの線形および非線形インスタンス化の理論特性も解析した。

We consider the problem of offline reinforcement learning with model-based control, whose goal is to learn a dynamics model from the experience replay and obtain a pessimism-oriented agent under the learned model. Current model-based constraint includes explicit uncertainty penalty and implicit conservative regularization that pushes Q-values of out-of-distribution state-action pairs down and the in-distribution up. While the uncertainty estimation, on which the former relies on, can be loosely calibrated for complex dynamics, the latter performs slightly better. To extend the basic idea of regularization without uncertainty quantification, we propose distributionally robust offline model-based policy optimization (DROMO), which leverages the ideas in distributionally robust optimization to penalize a broader range of out-of-distribution state-action pairs beyond the standard empirical out-of-distribution Q-value minimization. We theoretically show that our method optimizes a lower bound on the ground-truth policy evaluation, and it can be incorporated into any existing policy gradient algorithms. We also analyze the theoretical properties of DROMO's linear and non-linear instantiations.
翻訳日:2021-09-16 19:47:02 公開日:2021-09-15
# (参考訳) 局所的および大域的文脈の協調モデリングによる教師なしキーフレーズ抽出 [全文訳有]

Unsupervised Keyphrase Extraction by Jointly Modeling Local and Global Context ( http://arxiv.org/abs/2109.07293v1 )

ライセンス: CC BY 4.0
Xinnian Liang and Shuangzhi Wu and Mu Li and Zhoujun Li(参考訳) 埋め込みベースのメソッドはunsupervised keyphrase extraction (uke)タスクで広く使われている。 一般に、これらの手法は、フレーズ埋め込みと文書埋め込みの類似性を単純に計算するが、より効果的な UKE モデルのために異なる文脈を捉えるには不十分である。 本稿では,地域とグローバルのコンテキストを共同でモデル化するUKEの新しい手法を提案する。 グローバルな視点から、遷移埋め込みに基づくモデルのように、あるフレーズとベクトル空間のドキュメント全体の類似性を計算する。 局所的視点の観点では,まず句を頂点とし,エッジが頂点間の類似性を示す文書に基づいてグラフ構造を構築する。 そこで本研究では,グラフ構造に基づく局所的サルエント情報をキャプチャする新しい集中性計算手法を提案する。 最後に、グローバルコンテキストとローカルコンテキストのモデリングをランキングのために組み合わせます。 Inspec, DUC 2001, SemEval 2010の3つの公開ベンチマークでモデルを評価し, 既存の最先端モデルと比較した。 その結果,我々のモデルは,ドメインや長さの異なる入力文書を一般化しながら,ほとんどのモデルよりも優れていた。 追加のアブレーション研究により、局所情報とグローバル情報の両方が教師なしキーフレーズ抽出タスクに不可欠であることが示されている。

Embedding based methods are widely used for unsupervised keyphrase extraction (UKE) tasks. Generally, these methods simply calculate similarities between phrase embeddings and document embedding, which is insufficient to capture different context for a more effective UKE model. In this paper, we propose a novel method for UKE, where local and global contexts are jointly modeled. From a global view, we calculate the similarity between a certain phrase and the whole document in the vector space as transitional embedding based models do. In terms of the local view, we first build a graph structure based on the document where phrases are regarded as vertices and the edges are similarities between vertices. Then, we proposed a new centrality computation method to capture local salient information based on the graph structure. Finally, we further combine the modeling of global and local context for ranking. We evaluate our models on three public benchmarks (Inspec, DUC 2001, SemEval 2010) and compare with existing state-of-the-art models. The results show that our model outperforms most models while generalizing better on input documents with different domains and length. Additional ablation study shows that both the local and global information is crucial for unsupervised keyphrase extraction tasks.
翻訳日:2021-09-16 19:45:53 公開日:2021-09-15
# (参考訳) 視覚言語モデルがシーンを見る「見る」とは何か [全文訳有]

What Vision-Language Models `See' when they See Scenes ( http://arxiv.org/abs/2109.07301v1 )

ライセンス: CC BY 4.0
Michele Cafagna, Kees van Deemter and Albert Gatt(参考訳) 画像は、それらが含むオブジェクトや、それらがインスタンス化するシーンや場所のタイプによって記述することができる。 本稿では,事前学習されたビジョンモデルと言語モデルが,両タイプの記述と画像との整合性について述べる。 VisualBERT、LXMERT、CLIPの3つの最先端モデルを比較した。 私たちはそれを見つけ (i)V&Lモデルは、事前訓練中に得られる様式的バイアスに影響を受けやすい。 (ii) CLIP はオブジェクトレベルの記述とシーンレベルの記述の両方で一貫して機能する。 後続のアブレーション研究は、CLIPが視覚的モダリティのオブジェクトレベル情報を用いてシーンレベルのテキスト記述と整合していることを示している。

Images can be described in terms of the objects they contain, or in terms of the types of scene or place that they instantiate. In this paper we address to what extent pretrained Vision and Language models can learn to align descriptions of both types with images. We compare 3 state-of-the-art models, VisualBERT, LXMERT and CLIP. We find that (i) V&L models are susceptible to stylistic biases acquired during pretraining; (ii) only CLIP performs consistently well on both object- and scene-level descriptions. A follow-up ablation study shows that CLIP uses object-level information in the visual modality to align with scene-level textual descriptions.
翻訳日:2021-09-16 19:34:43 公開日:2021-09-15
# (参考訳) MD-CSDNetwork:ディープフェイク検出のためのマルチドメインクロスステッチネットワーク [全文訳有]

MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake Detection ( http://arxiv.org/abs/2109.07311v1 )

ライセンス: CC BY 4.0
Aayushi Agarwal, Akshay Agarwal, Sayan Sinha, Mayank Vatsa, Richa Singh(参考訳) ソーシャルプラットフォーム上で超現実的メディアを作成・拡散する容易さの急速な進歩は、汎用的なディープフェイク検出技術の開発を緊急に要求する。 現在のディープフェイク生成法は、偽画像やビデオの周波数スペクトルに識別的アーティファクトを残すことが観察されている。 本稿では,この観察に触発されて,空間領域と周波数領域の特徴を組み合わせて,<textit{deepfakes} を分類するための共有識別表現を探索する,md-csdnetworkと呼ばれる新しい手法を提案する。 MD-CSDNetworkは、空間情報と周波数情報をそれぞれ持つ2つの並列分岐を持つ、新しいクロススティッチネットワークである。 我々は、これらのマルチドメイン入力データストリームを関連する監視信号とみなすことができると仮定する。 両方のブランチの監督により、パフォーマンスと一般化が向上する。 さらに、クロススティッチ接続の概念は、2つのブランチの間に挿入され、他のドメインからドメイン固有表現と共有表現の最適な組み合わせを学習するために使われる。 一般的なベンチマークデータセットであるfaceforeniscs++ for forgery分類に関する広範な実験が行われた。 Celeb-DFデータセットとDeepfake Detection Datasetのクロスデータベース評価のための最先端手法を用いて、FaceForensics++データセットの操作タイプと同等の結果を報告した。

The rapid progress in the ease of creating and spreading ultra-realistic media over social platforms calls for an urgent need to develop a generalizable deepfake detection technique. It has been observed that current deepfake generation methods leave discriminative artifacts in the frequency spectrum of fake images and videos. Inspired by this observation, in this paper, we present a novel approach, termed as MD-CSDNetwork, for combining the features in the spatial and frequency domains to mine a shared discriminative representation for classifying \textit{deepfakes}. MD-CSDNetwork is a novel cross-stitched network with two parallel branches carrying the spatial and frequency information, respectively. We hypothesize that these multi-domain input data streams can be considered as related supervisory signals. The supervision from both branches ensures better performance and generalization. Further, the concept of cross-stitch connections is utilized where they are inserted between the two branches to learn an optimal combination of domain-specific and shared representations from other domains automatically. Extensive experiments are conducted on the popular benchmark dataset namely FaceForeniscs++ for forgery classification. We report improvements over all the manipulation types in FaceForensics++ dataset and comparable results with state-of-the-art methods for cross-database evaluation on the Celeb-DF dataset and the Deepfake Detection Dataset.
翻訳日:2021-09-16 19:18:41 公開日:2021-09-15
# (参考訳) 分散フリーコンテキスト動的価格設定

Distribution-free Contextual Dynamic Pricing ( http://arxiv.org/abs/2109.07340v1 )

ライセンス: CC BY 4.0
Yiyun Luo and Will Wei Sun and and Yufeng Liu(参考訳) context dynamic pricingは、顧客とのシーケンシャルなインタラクションに基づいてパーソナライズされた価格を設定することを目的としている。 各期間に、製品を購入することに興味のある顧客がプラットフォームにやってくる。 製品に対する顧客の評価は、製品や顧客機能を含むコンテキストの線形関数と、無作為な市場のノイズである。 売り手は顧客の真のバリュエーションを観察しないが、文脈情報と歴史的なバイナリ購入フィードバックを活用することでバリュエーションを学ぶ必要がある。 既存のモデルは通常、ランダムノイズ分布の完全または部分的な知識を仮定する。 本稿では,未知のランダムノイズを伴う文脈的動的価格を評価モデルで検討する。 我々の流通自由価格政策は、コンテキスト関数と市場ノイズの両方を同時に学習する。 提案手法の重要な要素は、市場ノイズの探索と現在の知識の活用のバランスをとるために、改良された線形上層信頼度境界アルゴリズムが提案される、新しい摂動線形バンディットフレームワークである。 我々は,線形バンディットフレームワークにおいて,当社のポリシーの上限と下限の一致を定式化し,検討した価格問題に拘束された下限の後悔を証明した。 最後に,シミュレーションと実生活のオートローアンデータセットに関するポリシーの優れた性能を示す。

Contextual dynamic pricing aims to set personalized prices based on sequential interactions with customers. At each time period, a customer who is interested in purchasing a product comes to the platform. The customer's valuation for the product is a linear function of contexts, including product and customer features, plus some random market noise. The seller does not observe the customer's true valuation, but instead needs to learn the valuation by leveraging contextual information and historical binary purchase feedbacks. Existing models typically assume full or partial knowledge of the random noise distribution. In this paper, we consider contextual dynamic pricing with unknown random noise in the valuation model. Our distribution-free pricing policy learns both the contextual function and the market noise simultaneously. A key ingredient of our method is a novel perturbed linear bandit framework, where a modified linear upper confidence bound algorithm is proposed to balance the exploration of market noise and the exploitation of the current knowledge for better pricing. We establish the regret upper bound and a matching lower bound of our policy in the perturbed linear bandit framework and prove a sub-linear regret bound in the considered pricing problem. Finally, we demonstrate the superior performance of our policy on simulations and a real-life auto-loan dataset.
翻訳日:2021-09-16 19:05:35 公開日:2021-09-15
# (参考訳) mi{\dh}eindのwmt 2021の提出 [全文訳有]

Mi{\dh}eind's WMT 2021 submission ( http://arxiv.org/abs/2109.07343v1 )

ライセンス: CC BY 4.0
Haukur Barri S\'imonarson, V\'esteinn Sn{\ae}bjarnarson, P\'etur Orri Ragnarsson, Haukur P\'all J\'onsson and Vilhj\'almur {\TH}orsteinsson(参考訳) 我々は2021年のwmtニュース翻訳タスクの英語$\to$icelandic とアイスランド語$\to$ english の部分集合に対する mi{\dh}eind の提出について述べる。 トランスフォーマーベースモデルは並列データの変換のために訓練され、反復的にバックトランスレーションを生成する。 事前訓練されたmBART-25モデルは、最後のバックトランスレーションの繰り返しと同様に、並列データを用いた翻訳に適合する。 この適応事前学習モデルを用いて、逆翻訳を再現し、適応モデルのトレーニングを継続する。

We present Mi{\dh}eind's submission for the English$\to$Icelandi c and Icelandic$\to$Englis h subsets of the 2021 WMT news translation task. Transformer-base models are trained for translation on parallel data to generate backtranslations iteratively. A pretrained mBART-25 model is then adapted for translation using parallel data as well as the last backtranslation iteration. This adapted pretrained model is then used to re-generate backtranslations, and the training of the adapted model is continued.
翻訳日:2021-09-16 19:02:37 公開日:2021-09-15
# (参考訳) 地震データにおけるランダムノイズ抑圧のための自己教師ネットワークの可能性 [全文訳有]

The potential of self-supervised networks for random noise suppression in seismic data ( http://arxiv.org/abs/2109.07344v1 )

ライセンス: CC BY 4.0
Claire Birnie, Matteo Ravasi, Tariq Alkhalifah, Sixiu Liu(参考訳) 騒音抑制は地震処理ワークフローにおいて不可欠なステップである。 このノイズの一部は、特にランドデータセットでランダムノイズとして表現される。 近年、ニューラルネットワークは、監視された方法で地震データをノイズ化するのに成功している。 しかし、教師あり学習には、トレーニング用にノイズの多いクリーンなデータペアを持つという、しばしば達成不可能な要件が伴う。 盲点ネットワークを用いて、周囲の雑音サンプルを用いて中央サンプルのノイズフリー値を推定する自己監督手順として、デノナイジングタスクを再定義する。 ノイズがサンプル間で統計的に独立であるという仮定に基づいて、ネットワークはランダム性のためにサンプルのノイズ成分を予測するのに苦労し、信号成分は時空間的コヒーレンシーのために正確に予測される。 合成例として、ブラインド・スポット・ネットワークは、信号に最小限のダメージを与えるランダムノイズによって汚染された地震データの効率的なデノイザーであることが示され、インバージョンのような画像領域とダウンザラインタスクの改善が提供される。 本研究の結論として,提案手法をフィールドデータに適用し,FXデコンボリューションとCurvelet変換の2つのランダムな復調手法と比較した。 盲点ネットワークがランダムノイズの効率的な抑制要因であることを実証することにより、地震探査における自己教師あり学習の活用の始まりにすぎないと信じている。

Noise suppression is an essential step in any seismic processing workflow. A portion of this noise, particularly in land datasets, presents itself as random noise. In recent years, neural networks have been successfully used to denoise seismic data in a supervised fashion. However, supervised learning always comes with the often unachievable requirement of having noisy-clean data pairs for training. Using blind-spot networks, we redefine the denoising task as a self-supervised procedure where the network uses the surrounding noisy samples to estimate the noise-free value of a central sample. Based on the assumption that noise is statistically independent between samples, the network struggles to predict the noise component of the sample due to its randomnicity, whilst the signal component is accurately predicted due to its spatio-temporal coherency. Illustrated on synthetic examples, the blind-spot network is shown to be an efficient denoiser of seismic data contaminated by random noise with minimal damage to the signal; therefore, providing improvements in both the image domain and down-the-line tasks, such as inversion. To conclude the study, the suggested approach is applied to field data and the results are compared with two commonly used random denoising techniques: FX-deconvolution and Curvelet transform. By demonstrating that blind-spot networks are an efficient suppressor of random noise, we believe this is just the beginning of utilising self-supervised learning in seismic applications.
翻訳日:2021-09-16 18:56:37 公開日:2021-09-15
# (参考訳) ELITR ECAコーパス [全文訳有]

The ELITR ECA Corpus ( http://arxiv.org/abs/2109.07351v1 )

ライセンス: CC BY 4.0
Philip Williams and Barry Haddow(参考訳) 欧州監査裁判所の出版物から派生した多言語コーパスであるelitr ecaコーパスを提案する。 自動翻訳とbleualignを用いて,506種類の翻訳方向の並列文対を識別する。 264k文書対と41.9M文対からなるコーパスである。

We present the ELITR ECA corpus, a multilingual corpus derived from publications of the European Court of Auditors. We use automatic translation together with Bleualign to identify parallel sentence pairs in all 506 translation directions. The result is a corpus comprising 264k document pairs and 41.9M sentence pairs.
翻訳日:2021-09-16 18:41:10 公開日:2021-09-15
# (参考訳) モジュラーニューラル常微分方程式 [全文訳有]

Modular Neural Ordinary Differential Equations ( http://arxiv.org/abs/2109.07359v1 )

ライセンス: CC0 1.0
Max Zhu, Prof. P Lio, Jacob Moss(参考訳) 物理学の法則は、何世紀にもわたって dif-ferential equation で書かれてきた。 neural ordinary differenten-tial equation(ノード)は、これらの微分方程式をデータセットから学習できる新しい機械学習アーキテクチャである。 これらは、Lagrangian Neural Net-works(LNN)とSecond Order Neural Differential Equations(SONODE)という形式での古典力学シミュレーションに適用されている。 しかし、それらは運動の最も一般的な方程式を表現できないか、解釈不可能である。 本稿では,各力成分を別々のモジュールで学習するモジュール型ニューラルネットワークodeを提案する。 これらのモデルに物理的な事前情報を組み込む方法を示す。 多くの実験を通じて、これらの結果がより優れたパフォーマンスをもたらし、より解釈しやすく、モジュール性によって柔軟性が増すことを実証した。

The laws of physics have been written in the language of dif-ferential equations for centuries. Neural Ordinary Differen-tial Equations (NODEs) are a new machine learning architecture which allows these differential equations to be learned from a dataset. These have been applied to classical dynamics simulations in the form of Lagrangian Neural Net-works (LNNs) and Second Order Neural Differential Equations (SONODEs). However, they either cannot represent the most general equations of motion or lack interpretability. In this paper, we propose Modular Neural ODEs, where each force component is learned with separate modules. We show how physical priors can be easily incorporated into these models. Through a number of experiments, we demonstrate these result in better performance, are more interpretable, and add flexibility due to their modularity.
翻訳日:2021-09-16 18:36:03 公開日:2021-09-15
# (参考訳) インクリメンタルトランスフォーマーに向けて:インクリメンタルnluのためのトランスフォーマーモデルの実証分析 [全文訳有]

Towards Incremental Transformers: An Empirical Analysis of Transformer Models for Incremental NLU ( http://arxiv.org/abs/2109.07364v1 )

ライセンス: CC BY 4.0
Patrick Kahardipraja, Brielen Madureira, David Schlangen(参考訳) インクリメンタルな処理により、対話システムは部分的な入力に基づいて応答することができる。 現在人気のTransformerアーキテクチャは本質的にシーケンス全体を処理し、時間の概念を抽象化している。 最近の作業では、再起動と増分を繰り返すことでトランスフォーマーを不規則なモデルに繰り返し適用し、より長い入力プレフィックスで部分出力を生成しようとする試みが行われている。 しかし、このアプローチは計算コストが高く、長いシーケンスでは効率的にスケールしない。 並行して、リニア変圧器(lt)のように再帰機構を持つ変圧器をより効率的にするための取り組みを目撃する。 本研究では,インクリメンタルNLUにおけるLTの有効性について検討する。 本結果から,再帰型LTモデルでは,非インクリメンタル(フルシーケンス)の品質を犠牲にしつつ,再帰型LTモデルでは,通常のTransformerやLTに比べてインクリメンタルな性能と推論速度が向上していることがわかった。 結果にコミットする前に適切なコンテキストを待つようにモデルをトレーニングすることで、パフォーマンス低下を軽減でき、入力プレフィックスによるトレーニングは正しい部分アウトプットを提供するのに有用であることを示す。

Incremental processing allows interactive systems to respond based on partial inputs, which is a desirable property e.g. in dialogue agents. The currently popular Transformer architecture inherently processes sequences as a whole, abstracting away the notion of time. Recent work attempts to apply Transformers incrementally via restart-incrementali ty by repeatedly feeding, to an unchanged model, increasingly longer input prefixes to produce partial outputs. However, this approach is computationally costly and does not scale efficiently for long sequences. In parallel, we witness efforts to make Transformers more efficient, e.g. the Linear Transformer (LT) with a recurrence mechanism. In this work, we examine the feasibility of LT for incremental NLU in English. Our results show that the recurrent LT model has better incremental performance and faster inference speed compared to the standard Transformer and LT with restart-incrementali ty, at the cost of part of the non-incremental (full sequence) quality. We show that the performance drop can be mitigated by training the model to wait for right context before committing to an output and that training with input prefixes is beneficial for delivering correct partial outputs.
翻訳日:2021-09-16 18:19:32 公開日:2021-09-15
# (参考訳) 直接・スパース変形追跡 [全文訳有]

Direct and Sparse Deformable Tracking ( http://arxiv.org/abs/2109.07370v1 )

ライセンス: CC BY 4.0
Jose Lamarca, Juan J. Gomez Rodriguez, Juan D. Tardos and J.M.M. Montiel(参考訳) 変形可能なモノクロSLAMアルゴリズムは、未知の変形可能な環境でのカメラのローカライゼーションを回復する。 現在のアプローチでは、テンプレートベースの変形可能なトラッキングを使用して、カメラのポーズとマップの変形を回復する。 これらのテンプレートベースの方法は、基盤となるグローバル変形モデルを使用する。 本稿では,各点の局所的変形モデルを用いた新しい変形可能なカメラトラッキング手法を提案する。 各マップポイントは、他のマップポイントとは独立に動く単一のテクスチャ付きサーフェルとして定義される。 直接測光誤差コスト関数により、明示的な大域的変形モデルなしで、サーベイルの位置と向きを追跡することができる。 実験では,提案手法の有効性を検証し,実験室が制御した実験と非等方的変形を行う物体内シナリオにおいて,局所変形モデルにより地図の標的変形をより正確に,頑健に推定する。

Deformable Monocular SLAM algorithms recover the localization of a camera in an unknown deformable environment. Current approaches use a template-based deformable tracking to recover the camera pose and the deformation of the map. These template-based methods use an underlying global deformation model. In this paper, we introduce a novel deformable camera tracking method with a local deformation model for each point. Each map point is defined as a single textured surfel that moves independently of the other map points. Thanks to a direct photometric error cost function, we can track the position and orientation of the surfel without an explicit global deformation model. In our experiments, we validate the proposed system and observe that our local deformation model estimates more accurately and robustly the targeted deformations of the map in both laboratory-controlle d experiments and in-body scenarios undergoing non-isometric deformations, with changing topology or discontinuities.
翻訳日:2021-09-16 17:58:26 公開日:2021-09-15
# (参考訳) 自己学習でシームズネットワークをロバストに説明 [全文訳有]

Self-learn to Explain Siamese Networks Robustly ( http://arxiv.org/abs/2109.07371v1 )

ライセンス: CC BY 4.0
Chao Chen, Yifan Shen, Guixiang Ma, Xiangnan Kong, Srinivas Rangarajan, Xi Zhang, Sihong Xie(参考訳) 2つのオブジェクトを比較するための学習は、デジタル法医学、顔認識、ブレインネットワーク分析など、特にラベル付きデータの不足や不均衡といったアプリケーションで必須です。 これらのアプリケーションは、高い意思決定を行い、公平さや透明性といった社会的な価値を伴うため、学習したモデルを説明することが重要です。 本研究の目的は,学習中に広く用いられているシャムネットワーク(sn)のポストホックな説明を比較検討することである。 1つの入力インスタンスを持つアーキテクチャとは対照的に、SNにおける比較対象の追加による勾配に基づく説明の不安定性を特徴付ける。 本稿では,自己学習を用いたラベルなしデータから大域的不分散を導出し,特定のクエリ参照ペアに適した局所的説明の安定性を促進する最適化フレームワークを提案する。 最適化問題は、制約付き最適化のための勾配降下度(GDA)や、KL偏差正規化非制約最適化のためのSGDを用いて、収束証明(特にシームズアーキテクチャによる目的関数が非凸である場合)を用いて解くことができる。 神経科学と化学工学のグラフデータおよびグラフデータに関する定量的研究は、このフレームワークが自己学習した不変性を尊重し、説明の忠実さと単純さを強く最適化していることを示している。 さらに,gdaの収束を実験的に実証する。

Learning to compare two objects are essential in applications, such as digital forensics, face recognition, and brain network analysis, especially when labeled data is scarce and imbalanced. As these applications make high-stake decisions and involve societal values like fairness and transparency, it is critical to explain the learned models. We aim to study post-hoc explanations of Siamese networks (SN) widely used in learning to compare. We characterize the instability of gradient-based explanations due to the additional compared object in SN, in contrast to architectures with a single input instance. We propose an optimization framework that derives global invariance from unlabeled data using self-learning to promote the stability of local explanations tailored for specific query-reference pairs. The optimization problems can be solved using gradient descent-ascent (GDA) for constrained optimization, or SGD for KL-divergence regularized unconstrained optimization, with convergence proofs, especially when the objective functions are nonconvex due to the Siamese architecture. Quantitative results and case studies on tabular and graph data from neuroscience and chemical engineering show that the framework respects the self-learned invariance while robustly optimizing the faithfulness and simplicity of the explanation. We further demonstrate the convergence of GDA experimentally.
翻訳日:2021-09-16 17:43:49 公開日:2021-09-15
# (参考訳) 話題転送可能なテーブル質問応答 [全文訳有]

Topic Transferable Table Question Answering ( http://arxiv.org/abs/2109.07377v1 )

ライセンス: CC BY 4.0
Saneem Ahmed Chemmengath, Vishwajeet Kumar, Samarth Bharadwaj, Jaydeep Sen, Mustafa Canim, Soumen Chakrabarti, Alfio Gliozzo, Karthik Sankaranarayanan(参考訳) 弱教師付きテーブル質問回答(TableQA)モデルは、事前学習されたBERT変換器を用いて質問とテーブルを共同で符号化し、質問のための構造化クエリを生成することにより、最先端のパフォーマンスを実現している。 しかし、実際の設定では、TableQA システムは BERT の事前学習コーパスとは全く異なるトピックと単語の分布を持つテーブルコーパス上に展開される。 本研究は, WikiSQL と WikiTableQuestions のデータセットをベースとして, 5つの異なるトピックグループからなるトレインデフテスト分割からなる新しい課題ベンチマーク WikiSQL-TS と WikiTQ-TS を設計することで, 実践的なトピックシフトシナリオをシミュレートする。 大規模オープンドメインのテキストを事前学習しているにもかかわらず、モデルの性能は未認識のトピックで評価すると著しく低下する。 これに対し,T3QA(Topic Transferable Table Question Answering)は,(1)トピック固有の語彙をBERTに注入する,(2)トピック固有のトレーニングデータを生成することに焦点を当てた,新たなテキストからテキストへのトランスフォーマー生成(T5,GPT2)ベースの自然言語質問生成パイプライン,(3)論理形式再帰という,テーブルQAの実用的な適応フレームワークを提案する。 トピックシフトベンチマークのベースラインとして,t3qaが適度に適しています。 当社のトピック分割ベンチマークは,実用的なデプロイメントに適した堅牢なTableQAソリューションにつながると思います。

Weakly-supervised table question-answering(T ableQA) models have achieved state-of-art performance by using pre-trained BERT transformer to jointly encoding a question and a table to produce structured query for the question. However, in practical settings TableQA systems are deployed over table corpora having topic and word distributions quite distinct from BERT's pretraining corpus. In this work we simulate the practical topic shift scenario by designing novel challenge benchmarks WikiSQL-TS and WikiTQ-TS, consisting of train-dev-test splits in five distinct topic groups, based on the popular WikiSQL and WikiTableQuestions datasets. We empirically show that, despite pre-training on large open-domain text, performance of models degrades significantly when they are evaluated on unseen topics. In response, we propose T3QA (Topic Transferable Table Question Answering) a pragmatic adaptation framework for TableQA comprising of: (1) topic-specific vocabulary injection into BERT, (2) a novel text-to-text transformer generator (such as T5, GPT2) based natural language question generation pipeline focused on generating topic specific training data, and (3) a logical form reranker. We show that T3QA provides a reasonably good baseline for our topic shift benchmarks. We believe our topic split benchmarks will lead to robust TableQA solutions that are better suited for practical deployment.
翻訳日:2021-09-16 17:22:37 公開日:2021-09-15
# (参考訳) ranknas: ペアワイズランキングによる効率的なニューラルネットワーク検索 [全文訳有]

RankNAS: Efficient Neural Architecture Search by Pairwise Ranking ( http://arxiv.org/abs/2109.07383v1 )

ライセンス: CC BY 4.0
Chi Hu, Chenglong Wang, Xiangnan Ma, Xia Meng, Yinqiao Li, Tong Xiao, Jingbo Zhu, Changliang Li(参考訳) 本稿では,課題をランキング問題として定式化することにより,ニューラルネットワーク探索(nas)の効率問題に対処する。 以前の手法では、アーキテクチャの正確なパフォーマンスを推定するために多くのトレーニング例を必要としていたが、実際の目標は「良い」候補と「悪い」候補の区別を見つけることである。 ここでは、パフォーマンス予測に頼らない。 代わりに,ペアランキングを用いたパフォーマンスランキング手法(RankNAS)を提案する。 より少ないトレーニング例を使って、効率的なアーキテクチャ検索を可能にする。 さらに,探索空間を創り出し,より有望な候補に集中するためのアーキテクチャ選択手法を開発した。 機械翻訳と言語モデリングタスクに関する大規模な実験により、RangNASは最先端のNASシステムよりも桁違いに高速で高性能なアーキテクチャを設計できることが示された。

This paper addresses the efficiency challenge of Neural Architecture Search (NAS) by formulating the task as a ranking problem. Previous methods require numerous training examples to estimate the accurate performance of architectures, although the actual goal is to find the distinction between "good" and "bad" candidates. Here we do not resort to performance predictors. Instead, we propose a performance ranking method (RankNAS) via pairwise ranking. It enables efficient architecture search using much fewer training examples. Moreover, we develop an architecture selection method to prune the search space and concentrate on more promising candidates. Extensive experiments on machine translation and language modeling tasks show that RankNAS can design high-performance architectures while being orders of magnitude faster than state-of-the-art NAS systems.
翻訳日:2021-09-16 17:05:28 公開日:2021-09-15
# (参考訳) MELTにおける変圧器とのマッチング [全文訳有]

Matching with Transformers in MELT ( http://arxiv.org/abs/2109.07401v1 )

ライセンス: CC BY 4.0
Sven Hertling, Jan Portisch, Heiko Paulheim(参考訳) オントロジーと知識グラフの自動マッチングのための最も強力な信号の1つは、概念のテキスト記述である。 一般的に適用される方法(文字やトークンベースの比較など)は比較的単純であり、したがってテキストの実際の意味を捉えない。 トランスフォーマーベースの言語モデルの増加に伴い、意味に基づくテキスト比較(語彙的特徴ではなく)が可能となる。 本稿では,オントロジマッチングタスクを分類問題としてモデル化し,トランスフォーマーモデルに基づくアプローチを提案する。 また,オントロジーや知識グラフマッチングに適したMELTフレームワークの実装も容易である。 変換器ベースのフィルタは,高リコールアライメントが与えられた場合の正しい対応を選択するのに役立ち,簡単なアライメント後処理ですでに良好な結果が得られることを示す。

One of the strongest signals for automated matching of ontologies and knowledge graphs are the textual descriptions of the concepts. The methods that are typically applied (such as character- or token-based comparisons) are relatively simple, and therefore do not capture the actual meaning of the texts. With the rise of transformer-based language models, text comparison based on meaning (rather than lexical features) is possible. In this paper, we model the ontology matching task as classification problem and present approaches based on transformer models. We further provide an easy to use implementation in the MELT framework which is suited for ontology and knowledge graph matching. We show that a transformer-based filter helps to choose the correct correspondences given a high-recall alignment and already achieves a good result with simple alignment post-processing methods.
翻訳日:2021-09-16 16:49:48 公開日:2021-09-15
# (参考訳) BERTはロバスト! テキスト分類における同義語対応事例の1例 [全文訳有]

BERT is Robust! A Case Against Synonym-Based Adversarial Examples in Text Classification ( http://arxiv.org/abs/2109.07403v1 )

ライセンス: CC BY 4.0
Jens Hauser, Zhao Meng, Dami\'an Pascual, Roger Wattenhofer(参考訳) ディープニューラルネットワークは、自然言語処理をstormに取り入れている。 これは多くのタスクにまたがって驚くべき改善をもたらしたが、同時に新たな研究分野を開始し、これらのニューラルネットワークを攻撃することによって堅牢性に疑問を投げかけた。 本稿では,BERTに対する4つの単語置換に基づく攻撃について検討する。 個人単語置換の人間による評価と確率論的分析を組み合わせることで、分析された攻撃の96%から99%が意味論を保存していないことを示す。 さらに,本研究は,効率的なデータ拡張手順を導入し,トレーニング中に攻撃に類似したデータを含めることで,多くの逆例を防止できることを示す。 追加の処理ステップは、最先端攻撃の成功率を5%以下にする。 最後に、単語置換の制約に関するより合理的なしきい値を調べることで、BERTは攻撃の研究が示唆するよりもはるかに堅牢である、と結論付ける。

Deep Neural Networks have taken Natural Language Processing by storm. While this led to incredible improvements across many tasks, it also initiated a new research field, questioning the robustness of these neural networks by attacking them. In this paper, we investigate four word substitution-based attacks on BERT. We combine a human evaluation of individual word substitutions and a probabilistic analysis to show that between 96% and 99% of the analyzed attacks do not preserve semantics, indicating that their success is mainly based on feeding poor data to the model. To further confirm that, we introduce an efficient data augmentation procedure and show that many adversarial examples can be prevented by including data similar to the attacks during training. An additional post-processing step reduces the success rates of state-of-the-art attacks below 5%. Finally, by looking at more reasonable thresholds on constraints for word substitutions, we conclude that BERT is a lot more robust than research on attacks suggests.
翻訳日:2021-09-16 16:39:23 公開日:2021-09-15
# (参考訳) CAMul: マルチビュー時系列予測の校正と精度 [全文訳有]

CAMul: Calibrated and Accurate Multi-view Time-Series Forecasting ( http://arxiv.org/abs/2109.07438v1 )

ライセンス: CC BY 4.0
Harshavardhan Kamarthi, Lingkai Kong, Alexander Rodr\'iguez, Chao Zhang, B. Aditya Prakash(参考訳) 確率的時系列予測は、多くの領域にわたる信頼できる意思決定を可能にする。 ほとんどの予測問題には、複数のモダリティと構造を含む多様なデータ源がある。 十分な校正と正確な予測のために、これらのデータソースから情報を活用することだけでなく、不確実性も重要な課題である。 マルチモーダル学習と予測に関するこれまでのほとんどの作業は、要約や結合の単純な方法によって、各データビューから中間表現を単純に集約し、各データビューに対する不確実性を明示的にモデル化するものではない。 本稿では,多様なデータソースから表現や不確実性を学習できる汎用確率的多視点予測フレームワークCAMulを提案する。 各データビューからの知識と不確実性を動的コンテキスト特有の方法で統合し、適切に調整された予測分布をモデル化するために有用なビューをより重要視する。 我々はCAMulを様々なソースとモダリティを持つ複数のドメインに使用し、CAMulが他の最先端確率予測モデルよりも精度とキャリブレーションが25倍高いことを示す。

Probabilistic time-series forecasting enables reliable decision making across many domains. Most forecasting problems have diverse sources of data containing multiple modalities and structures. Leveraging information as well as uncertainty from these data sources for well-calibrated and accurate forecasts is an important challenging problem. Most previous work on multi-modal learning and forecasting simply aggregate intermediate representations from each data view by simple methods of summation or concatenation and do not explicitly model uncertainty for each data-view. We propose a general probabilistic multi-view forecasting framework CAMul, that can learn representations and uncertainty from diverse data sources. It integrates the knowledge and uncertainty from each data view in a dynamic context-specific manner assigning more importance to useful views to model a well-calibrated forecast distribution. We use CAMul for multiple domains with varied sources and modalities and show that CAMul outperforms other state-of-art probabilistic forecasting models by over 25\% in accuracy and calibration.
翻訳日:2021-09-16 16:25:45 公開日:2021-09-15
# (参考訳) WikiGUM:12世代で暗号化されたエンティティリンク [全文訳有]

WikiGUM: Exhaustive Entity Linking for Wikification in 12 Genres ( http://arxiv.org/abs/2109.07449v1 )

ライセンス: CC BY 4.0
Jessica Lin, Amir Zeldes(参考訳) エンティティリンクに関する以前の研究は、ウィキペディアのデータ、すなわちウィキフィケーション(wikification)でよく見られる、ネストのない固有な名前付きエンティティ参照をターゲットにしたリソースに焦点を当ててきた。 本稿では, WikiGUMについて, 名前のない, プロノミナルな言及を含む, 名前付きエンティティの言及をすべて網羅した, 完全精巧なデータセットを提示し, 評価する。 このデータセットは12種類のテキストと音声のジャンルをカバーしており、そのほとんどはエンティティリンクに含まれておらず、事前学習されたsomaシステムによるパフォーマンスが低下している。 同じデータに対するさまざまなアノテーションが利用可能になったことで、コンテキスト内のエンティティに関するさらなる研究が可能になる。

Previous work on Entity Linking has focused on resources targeting non-nested proper named entity mentions, often in data from Wikipedia, i.e. Wikification. In this paper, we present and evaluate WikiGUM, a fully wikified dataset, covering all mentions of named entities, including their non-named and pronominal mentions, as well as mentions nested within other mentions. The dataset covers a broad range of 12 written and spoken genres, most of which have not been included in Entity Linking efforts to date, leading to poor performance by a pretrained SOTA system in our evaluation. The availability of a variety of other annotations for the same data also enables further research on entities in context.
翻訳日:2021-09-16 16:02:04 公開日:2021-09-15
# (参考訳) 視覚表現のコントラスト学習のためのdeep bregman divergence [全文訳有]

Deep Bregman Divergence for Contrastive Learning of Visual Representations ( http://arxiv.org/abs/2109.07455v1 )

ライセンス: CC BY 4.0
Mina Rezaei, Farzin Soleymani, Bernd Bischl, Shekoofeh Azizi(参考訳) ディープブレグマンダイバージェンス(deep bregman divergence)は、ユークリッド距離を超えて分布上のダイバージェンスを捉えることができるニューラルネットワークを用いてデータポイントのダイバージェンスを測定する。 本稿では,視覚表現のコントラスト学習のためのディープブレグマン・ダイバージェンスを提案し,関数ブレグマン・ダイバージェンスに基づく追加ネットワークの訓練により,自己教師付き学習におけるコントラスト損失の増大を目指す。 単一点間の相違のみに基づく従来のコントラスト学習法とは対照的に,本フレームワークは学習表現の質を向上させる分布間の相違を捉えることができる。 提案手法は,従来のコントラスト損失と発散損失を組み合わせることで,複数の分類や対象検出タスクやデータセットにおける自己教師あり・半教師あり学習のベースラインおよびほとんどの手法に勝る。 このメソッドのソースコードとすべての実験は補足的に利用できる。

Deep Bregman divergence measures divergence of data points using neural networks which is beyond Euclidean distance and capable of capturing divergence over distributions. In this paper, we propose deep Bregman divergences for contrastive learning of visual representation and we aim to enhance contrastive loss used in self-supervised learning by training additional networks based on functional Bregman divergence. In contrast to the conventional contrastive learning methods which are solely based on divergences between single points, our framework can capture the divergence between distributions which improves the quality of learned representation. By combining conventional contrastive loss with the proposed divergence loss, our method outperforms baseline and most of previous methods for self-supervised and semi-supervised learning on multiple classifications and object detection tasks and datasets. The source code of the method and of all the experiments are available at supplementary.
翻訳日:2021-09-16 15:52:29 公開日:2021-09-15
# (参考訳) コントラスト評価における最小ペアの限界について [全文訳有]

On the Limits of Minimal Pairs in Contrastive Evaluation ( http://arxiv.org/abs/2109.07465v1 )

ライセンス: CC BY 4.0
Jannis Vamvas and Rico Sennrich(参考訳) 最小文ペアは言語モデルの振る舞いを分析するために頻繁に使用される。 対照的なペアのモデル挙動は、モデル挙動を概して予測するものであるとしばしば仮定される。 第一に、テストされた仮説は、比較的な評価が偽陽性につながることを実験が示しているので、十分に動機づけられるべきである。 第2に,評価時間とデプロイメント時間の分布的不一致を最小限に抑えるようなテストデータを選択する必要がある。 デプロイ時のデコーディングを適切に近似するために、人間による参照ではなく、マシン生成したテキストに基づいて最小のペアを作成することを推奨する。 本稿では,このレコメンデーションを実装した英語-ドイツ語 MT のコントラスト評価スイートを提案する。

Minimal sentence pairs are frequently used to analyze the behavior of language models. It is often assumed that model behavior on contrastive pairs is predictive of model behavior at large. We argue that two conditions are necessary for this assumption to hold: First, a tested hypothesis should be well-motivated, since experiments show that contrastive evaluation can lead to false positives. Secondly, test data should be chosen such as to minimize distributional discrepancy between evaluation time and deployment time. For a good approximation of deployment-time decoding, we recommend that minimal pairs are created based on machine-generated text, as opposed to human-written references. We present a contrastive evaluation suite for English-German MT that implements this recommendation.
翻訳日:2021-09-16 15:33:58 公開日:2021-09-15
# 言語モデルのデトックス化の課題

Challenges in Detoxifying Language Models ( http://arxiv.org/abs/2109.07445v1 )

ライセンス: Link先を確認
Johannes Welbl, Amelia Glaese, Jonathan Uesato, Sumanth Dathathri, John Mellor, Lisa Anne Hendricks, Kirsty Anderson, Pushmeet Kohli, Ben Coppin, Po-Sen Huang(参考訳) 大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。 安全性の観点から生成したテキストの品質を計測し保証することは、実世界におけるLMの展開に不可欠であり、このために、先行研究はしばしばLM毒性の自動評価に頼っている。 我々はこのアプローチを批判的に議論し, 自動評価と人間評価の両方に関していくつかの毒性緩和戦略を評価し, モデルバイアスとlm品質の観点から毒性緩和の結果を分析する。 基本的な介入戦略は、RealToxicityPromptsデータセット上で確立された自動メトリクスを効果的に最適化することができるが、これは、疎化されたグループに関するテキストと方言の両方に対するLMカバレッジを減らすコストが伴う。 さらに,強い毒性低減介入後の自動毒性スコアには,人手がしばしば一致しない傾向がみられ,lm毒性の慎重な評価に関わるニュアンスがさらに強調された。

Large language models (LM) generate remarkably fluent text and can be efficiently adapted across NLP tasks. Measuring and guaranteeing the quality of generated text in terms of safety is imperative for deploying LMs in the real world; to this end, prior work often relies on automatic evaluation of LM toxicity. We critically discuss this approach, evaluate several toxicity mitigation strategies with respect to both automatic and human evaluation, and analyze consequences of toxicity mitigation in terms of model bias and LM quality. We demonstrate that while basic intervention strategies can effectively optimize previously established automatic metrics on the RealToxicityPrompts dataset, this comes at the cost of reduced LM coverage for both texts about, and dialects of, marginalized groups. Additionally, we find that human raters often disagree with high automatic toxicity scores after strong toxicity reduction interventions -- highlighting further the nuances involved in careful evaluation of LM toxicity.
翻訳日:2021-09-16 15:21:28 公開日:2021-09-15
# 文の書き換えと順序変更による文書レベルのパラフレーズ生成

Towards Document-Level Paraphrase Generation with Sentence Rewriting and Reordering ( http://arxiv.org/abs/2109.07095v1 )

ライセンス: Link先を確認
Zhe Lin, Yitao Cai and Xiaojun Wan(参考訳) パラフレーズ生成は自然言語処理において重要なタスクである。 以前の研究は文レベルのパラフレーズ生成に重点を置いているが、ドキュメントレベルのパラフレーズ生成は無視している。 本稿では,文書レベルのパラフレーズ生成のタスクを初めて検討し,文の書き換えと順序変更を考慮し,文間多様性に着目した。 本稿では,グラフ gru を利用してコヒーレンス関係グラフを符号化し,各文のコヒーレンス認識表現を得るコーパス(coherence relationship guided paraphrase generation)を提案する。 訓練用擬似文書レベルのパラフレーズデータセットを作成する。 自動評価の結果、CoRPGはBERTSスコアと多様性スコアでいくつかの強力なベースラインモデルを上回っている。 ヒトの評価はまた、より多様性と意味的保存を伴う文書パラファーゼを生成できることを示した。

Paraphrase generation is an important task in natural language processing. Previous works focus on sentence-level paraphrase generation, while ignoring document-level paraphrase generation, which is a more challenging and valuable task. In this paper, we explore the task of document-level paraphrase generation for the first time and focus on the inter-sentence diversity by considering sentence rewriting and reordering. We propose CoRPG (Coherence Relationship guided Paraphrase Generation), which leverages graph GRU to encode the coherence relationship graph and get the coherence-aware representation for each sentence, which can be used for re-arranging the multiple (possibly modified) input sentences. We create a pseudo document-level paraphrase dataset for training CoRPG. Automatic evaluation results show CoRPG outperforms several strong baseline models on the BERTScore and diversity scores. Human evaluation also shows our model can generate document paraphrase with more diversity and semantic preservation.
翻訳日:2021-09-16 15:20:30 公開日:2021-09-15
# マルチホップ依存トリガーに基づく低リソース名前付きエンティティ認識

Low-Resource Named Entity Recognition Based on Multi-hop Dependency Trigger ( http://arxiv.org/abs/2109.07118v1 )

ライセンス: Link先を確認
Jiangxu Wu(参考訳) 本稿では,マルチホップ依存トリガに基づく低リソースなエンティティ認識(NER)において,シンプルかつ効果的なアプローチを提案する。 依存性トリガは、コンテキスト文の依存関係グラフ内のエンティティに対するサルエントノードを参照する。 我々の主な観察は、文中の実体の位置や種類を認識する上で重要な役割を果たすトリガーが存在することである。 これまでの研究ではトリガーの手動ラベリングを使用してきた。 私たちの主な貢献は、自動アノテートトリガに構文パーサを使うことです。 2つの英語データセット(CONLL 2003 と BC5CDR)の実験により、提案手法は以前のトリガーベース NER モデルに匹敵することを示した。

This paper presents a simple and effective approach in low-resource named entity recognition (NER) based on multi-hop dependency trigger. Dependency trigger refer to salient nodes relative to a entity in the dependency graph of a context sentence. Our main observation is that there often exists trigger which play an important role to recognize the location and type of entity in sentence. Previous research has used manual labelling of trigger. Our main contribution is to propose use a syntactic parser to automatically annotate trigger. Experiments on two English datasets (CONLL 2003 and BC5CDR) show that the proposed method is comparable to the previous trigger-based NER model.
翻訳日:2021-09-16 15:20:12 公開日:2021-09-15
# シンボル出現のためのマルチエージェントマルチモーダル分類:対人的クロスモーダル推論による創発的コミュニケーション

Multiagent Multimodal Categorization for Symbol Emergence: Emergent Communication via Interpersonal Cross-modal Inference ( http://arxiv.org/abs/2109.07194v1 )

ライセンス: Link先を確認
Yoshinobu Hagiwara, Kazuma Furukawa, Akira Taniguchi, and Tadahiro Taniguchi(参考訳) 本稿では,創発的コミュニケーションを実現するマルチエージェントマルチモーダル分類の計算モデルについて述べる。 命名ゲームを行う2つの感覚の異なるエージェントからなるシンボル出現システムにおいて,この計算モデルが次の機能を再現できるかどうかを明らかにする。 1)個々の学習およびエージェント間のセミオティックコミュニケーションを通じてエージェントによって形成される知覚カテゴリと対応する符号からなる共有語彙システムを形成する機能。 2) 各エージェントの感覚的モダリティが欠落している場合でも,他のエージェントとのセミオティックコミュニケーションを通じて,エージェントの分類精度を向上させる。 (3) エージェントは、他のエージェントから採取された記号に基づいて、クロスモーダル推論と同様に、未観測の感覚情報を推論する機能。 2つのジリクレ混合物(dms)を統合することにより得られる積分的確率的生成モデルから導出する対人的マルチモーダルジリクレ混合物(inter-mdm)を提案する。 マルコフ連鎖モンテカルロアルゴリズムは創発的通信を実現する。 実験の結果,Inter-MDMはエージェント間のサインを適切に共有し,マルチモーダルカテゴリを形成することができることがわかった。 創発的コミュニケーションは,いくつかの感覚的モダリティが欠如している場合でも,分類精度を向上させる。 インターMDMにより、エージェントは共有サインに基づいて観測されていない情報を予測できる。

This paper describes a computational model of multiagent multimodal categorization that realizes emergent communication. We clarify whether the computational model can reproduce the following functions in a symbol emergence system, comprising two agents with different sensory modalities playing a naming game. (1) Function for forming a shared lexical system that comprises perceptual categories and corresponding signs, formed by agents through individual learning and semiotic communication between agents. (2) Function to improve the categorization accuracy in an agent via semiotic communication with another agent, even when some sensory modalities of each agent are missing. (3) Function that an agent infers unobserved sensory information based on a sign sampled from another agent in the same manner as cross-modal inference. We propose an interpersonal multimodal Dirichlet mixture (Inter-MDM), which is derived by dividing an integrative probabilistic generative model, which is obtained by integrating two Dirichlet mixtures (DMs). The Markov chain Monte Carlo algorithm realizes emergent communication. The experimental results demonstrated that Inter-MDM enables agents to form multimodal categories and appropriately share signs between agents. It is shown that emergent communication improves categorization accuracy, even when some sensory modalities are missing. Inter-MDM enables an agent to predict unobserved information based on a shared sign.
翻訳日:2021-09-16 15:20:02 公開日:2021-09-15
# 不均衡データセットの対話音声感情分類

Dialog speech sentiment classification for imbalanced datasets ( http://arxiv.org/abs/2109.07228v1 )

ライセンス: Link先を確認
Sergis Nicolaou, Lambros Mavrides, Georgina Tryfou, Kyriakos Tolias, Konstantinos Panousis, Sotirios Chatzis, Sergios Theodoridis(参考訳) 音声は人間の感情を表現する最も一般的な方法であり、感情分析はこれらの感情の極性を特定するために自然言語処理や計算アルゴリズムなどのツールを使用する。 この領域は過去20年間に大きく進歩してきたが、さまざまな種類のデータセットで表される感情を効果的に検出する作業は、依然として難しい課題である。 本稿では,短対話発話の単一・二モーダル分析を用いて,感情検出に寄与する主要な要因,特に表現不足クラスにおいて,感情成分を含まないデータセットについて考察する。 さらに、学習率スケジューラと異なる監視基準を用いて、SWITCHBOARDの不均衡感情データセットの最先端結果を提供するアーキテクチャを提案する。

Speech is the most common way humans express their feelings, and sentiment analysis is the use of tools such as natural language processing and computational algorithms to identify the polarity of these feelings. Even though this field has seen tremendous advancements in the last two decades, the task of effectively detecting under represented sentiments in different kinds of datasets is still a challenging task. In this paper, we use single and bi-modal analysis of short dialog utterances and gain insights on the main factors that aid in sentiment detection, particularly in the underrepresented classes, in datasets with and without inherent sentiment component. Furthermore, we propose an architecture which uses a learning rate scheduler and different monitoring criteria and provides state-of-the-art results for the SWITCHBOARD imbalanced sentiment dataset.
翻訳日:2021-09-16 15:19:40 公開日:2021-09-15
# 状況エンティティ分類のための判別および生成トランスベースモデル

Discriminative and Generative Transformer-based Models For Situation Entity Classification ( http://arxiv.org/abs/2109.07434v1 )

ライセンス: Link先を確認
Mehdi Rezaee, Kasra Darvish, Gaoussou Youssouf Kebe, Francis Ferraro(参考訳) 利用可能なトレーニングデータ量に応じて状況エンティティ(se)分類タスクを再検討する。 本研究では,Transformerベースの変分オートエンコーダを用いて文を低次元の潜在空間に符号化し,テキストを生成してSE分類器を学習する。 テストセットとクロスジェネア評価は、トレーニングデータが豊富である場合、提案モデルが従来の差別的最先端モデルよりも改善可能であることを示している。 しかし,ラベルごとに4インスタンス) の非常に小さなセットに直面した場合, 生成RNN法はトランスフォーマよりも優れていた。 本研究は,SEとセマンティック予測タスク,低ラベルトレーニング体制に関する今後の取り組みに関するガイダンスを提供する。

We re-examine the situation entity (SE) classification task with varying amounts of available training data. We exploit a Transformer-based variational autoencoder to encode sentences into a lower dimensional latent space, which is used to generate the text and learn a SE classifier. Test set and cross-genre evaluations show that when training data is plentiful, the proposed model can improve over the previous discriminative state-of-the-art models. Our approach performs disproportionately better with smaller amounts of training data, but when faced with extremely small sets (4 instances per label), generative RNN methods outperform transformers. Our work provides guidance for future efforts on SE and semantic prediction tasks, and low-label training regimes.
翻訳日:2021-09-16 15:19:28 公開日:2021-09-15
# 機械はコーディングマニュアルを読めますか? --コード理解のためのより良い言語モデルを構築するためのベンチマーク

Can Machines Read Coding Manuals Yet? -- A Benchmark for Building Better Language Models for Code Understanding ( http://arxiv.org/abs/2109.07452v1 )

ライセンス: Link先を確認
Ibrahim Abdelaziz, Julian Dolby, Jamie McCusker, and Kavitha Srinivas(参考訳) コード理解は人工知能の重要な応用である。 コードを理解する基本的な側面は、コードに関するテキストを理解することである。 事前訓練された言語モデル(例えばBERT)は様々なNLPタスクの一般的なアプローチであり、自然言語理解のためのモデルの開発を支援するためにGLUEのような様々なベンチマークがある。 しかし、そのようなモデルがコードに関するテキスト的アーティファクトに対してどのように機能するかは、ほとんど分かっておらず、そのような評価のために下流タスクの体系的なセットを知らない。 本稿では、フォーラム投稿における質問に対する最良の回答の予測、関連するフォーラム投稿の検索、クラスドキュメントからの階層化に関連するクラス予測といったタスクに基づいて、コード理解を評価する一連のベンチマーク(BLANCA - LANguage Model on Coding Artifacts ベンチマーク)を導出する。 我々は,これらのタスクにおける現状の言語モデルの性能を評価し,微調整による各タスクの大幅な改善を示す。 また、BLANCAタスクによるマルチタスクトレーニングは、コード理解のためのより良い言語モデル構築に役立つことを示す。

Code understanding is an increasingly important application of Artificial Intelligence. A fundamental aspect of understanding code is understanding text about code, e.g., documentation and forum discussions. Pre-trained language models (e.g., BERT) are a popular approach for various NLP tasks, and there are now a variety of benchmarks, such as GLUE, to help improve the development of such models for natural language understanding. However, little is known about how well such models work on textual artifacts about code, and we are unaware of any systematic set of downstream tasks for such an evaluation. In this paper, we derive a set of benchmarks (BLANCA - Benchmarks for LANguage models on Coding Artifacts) that assess code understanding based on tasks such as predicting the best answer to a question in a forum post, finding related forum posts, or predicting classes related in a hierarchy from class documentation. We evaluate the performance of current state-of-the-art language models on these tasks and show that there is a significant improvement on each task from fine tuning. We also show that multi-task training over BLANCA tasks helps build better language models for code understanding.
翻訳日:2021-09-16 15:19:15 公開日:2021-09-15
# FCA:多視点物理対向攻撃のための3次元フルカバー車両カモフラージュ学習

FCA: Learning a 3D Full-coverage Vehicle Camouflage for Multi-view Physical Adversarial Attack ( http://arxiv.org/abs/2109.07193v1 )

ライセンス: Link先を確認
DonghuaWang, Tingsong Jiang, Jialiang Sun, Weien Zhou, Xiaoya Zhang, Zhiqiang Gong, Wen Yao and Xiaoqian Chen(参考訳) 物体検出における物理的敵対攻撃が注目されている。 しかし、以前の作品のほとんどは、車両の表面の平面部分のみを覆う個々の敵パッチを生成して検出器から物体を隠すことに焦点を当てており、多視点、長距離、部分的に遮蔽された物体の物理的シナリオでは検出器を攻撃できない。 デジタルアタックと物理的アタックのギャップを埋めるために、フル3D車両表面を利用して、検知器を騙す堅牢なフルカバーカモフラージュアタック(FCA)を提案する。 具体的には、まず全車両表面上の非平面カモフラージュテクスチャをレンダリングする。 実世界の環境条件を模倣するために、レンダリングされた迷彩車両をフォトリアリスティックなシナリオに転送する変換関数を導入する。 最後に,迷彩テクスチャを最適化する効率的な損失関数を設計する。 実験により、完全なカモフラージュ攻撃は、様々なテストケースにおいて最先端の手法よりも優れるだけでなく、異なる環境、車両、物体検出器に一般化できることが示されている。

Physical adversarial attacks in object detection have attracted increasing attention. However, most previous works focus on hiding the objects from the detector by generating an individual adversarial patch, which only covers the planar part of the vehicle's surface and fails to attack the detector in physical scenarios for multi-view, long-distance and partially occluded objects. To bridge the gap between digital attacks and physical attacks, we exploit the full 3D vehicle surface to propose a robust Full-coverage Camouflage Attack (FCA) to fool detectors. Specifically, we first try rendering the non-planar camouflage texture over the full vehicle surface. To mimic the real-world environment conditions, we then introduce a transformation function to transfer the rendered camouflaged vehicle into a photo-realistic scenario. Finally, we design an efficient loss function to optimize the camouflage texture. Experiments show that the full-coverage camouflage attack can not only outperform state-of-the-art methods under various test cases but also generalize to different environments, vehicles, and object detectors.
翻訳日:2021-09-16 15:18:23 公開日:2021-09-15
# ノイズ・セマンティック誘導対向ネットワークを用いた二相顔年齢同時翻訳フレームワーク

A Unified Framework for Biphasic Facial Age Translation with Noisy-Semantic Guided Generative Adversarial Networks ( http://arxiv.org/abs/2109.07373v1 )

ライセンス: Link先を確認
Muyi Sun, Jian Wang, Yunfan Liu, Qi Li, Zhenan Sun(参考訳) 二相性顔面年齢変換は、任意の年齢における入力顔の出現を予測することを目的としている。 顔の年齢の翻訳は、年齢を越えた顔の認識と様々なエンターテイメントの応用に実用的価値があることから、過去10年間にかなりの研究の注目を集めてきた。 しかし、既存の手法のほとんどは、人間の顔構造や個々の顔成分の年齢変化パターンに関わらず、全体像間の年齢変化をモデル化している。 したがって、意味的監督の欠如は、生成した顔の非忠実さを詳細に引き起こすことになる。 そこで本研究では,ノイズ・セマンティック誘導型生成対向ネットワークを用いた二相性顔面年齢変換の統一フレームワークを提案する。 構造的には, 個々の顔部に対して下記の注入操作を行うために, クラスアウェアな騒がしいセマンティクスレイアウトをソフト潜在マップに投影する。 特に、ProjectionNetとConstraintNetという2つのサブネットワークを紹介します。 ProjectionNetはノイズマップを用いた低レベル構造意味情報を導入し、ソフト潜在マップを生成する。 制約ネットはソフト潜在度マップを制約するために高レベルな空間的特徴を分断し、ソフト潜在度マップに年齢関連コンテキストを内包する。 特に注意機構はConstraintNetで機能障害に使用される。 一方,ネットワークの強力なマッピング能力を発掘するために,学習手順に2種類の学習戦略,教師付き自己駆動生成,教師なし条件駆動型サイクル一貫性生成を組み込んだ。 その結果,MORPHおよびCACDデータセットを用いた広範囲な実験により,最先端の性能を実現する手法の顕著な性能を示すことができた。

Biphasic facial age translation aims at predicting the appearance of the input face at any age. Facial age translation has received considerable research attention in the last decade due to its practical value in cross-age face recognition and various entertainment applications. However, most existing methods model age changes between holistic images, regardless of the human face structure and the age-changing patterns of individual facial components. Consequently, the lack of semantic supervision will cause infidelity of generated faces in detail. To this end, we propose a unified framework for biphasic facial age translation with noisy-semantic guided generative adversarial networks. Structurally, we project the class-aware noisy semantic layouts to soft latent maps for the following injection operation on the individual facial parts. In particular, we introduce two sub-networks, ProjectionNet and ConstraintNet. ProjectionNet introduces the low-level structural semantic information with noise map and produces soft latent maps. ConstraintNet disentangles the high-level spatial features to constrain the soft latent maps, which endows more age-related context into the soft latent maps. Specifically, attention mechanism is employed in ConstraintNet for feature disentanglement. Meanwhile, in order to mine the strongest mapping ability of the network, we embed two types of learning strategies in the training procedure, supervised self-driven generation and unsupervised condition-driven cycle-consistent generation. As a result, extensive experiments conducted on MORPH and CACD datasets demonstrate the prominent ability of our proposed method which achieves state-of-the-art performance.
翻訳日:2021-09-16 15:18:03 公開日:2021-09-15
# 注意:データからテキストへのNLGのためのセマンティックな注意ガイドによるデコーディング

Attention Is Indeed All You Need: Semantically Attention-Guided Decoding for Data-to-Text NLG ( http://arxiv.org/abs/2109.07043v1 )

ライセンス: Link先を確認
Juraj Juraska and Marilyn Walker(参考訳) ニューラルモデルは、データ-テキスト言語生成に採用されて以来、通常、入力に提供されるすべての情報を確実に参照するテキストを生成する能力がないため、その意味的正確性を改善するために、外在的なコンポーネントに依存してきた。 本稿では,エンコーダ・デコーダモデルのクロスアテンションから解釈可能な情報を抽出し,どの属性が生成テキストに言及しているかを推測する手法を提案する。 T5 と BART を用いたこの復号化手法を用いて,生成した出力のセマンティックエラーを劇的に低減する3つのデータセットについて,最先端の品質を維持しながら示す。

Ever since neural models were adopted in data-to-text language generation, they have invariably been reliant on extrinsic components to improve their semantic accuracy, because the models normally do not exhibit the ability to generate text that reliably mentions all of the information provided in the input. In this paper, we propose a novel decoding method that extracts interpretable information from encoder-decoder models' cross-attention, and uses it to infer which attributes are mentioned in the generated text, which is subsequently used to rescore beam hypotheses. Using this decoding method with T5 and BART, we show on three datasets its ability to dramatically reduce semantic errors in the generated outputs, while maintaining their state-of-the-art quality.
翻訳日:2021-09-16 15:17:37 公開日:2021-09-15
# 異なる教師による自己学習

Self-Training with Differentiable Teacher ( http://arxiv.org/abs/2109.07049v1 )

ライセンス: Link先を確認
Simiao Zuo, Yue Yu, Chen Liang, Haoming Jiang, Siawpeng Er, Chao Zhang, Tuo Zhao, Hongyuan Zha(参考訳) 自己学習は、様々な半教師付きおよび弱教師付き学習タスクで大きな成功を収める。 この方法は、教師が擬似ラベルを生成し、生徒が予測を行う教師学生の枠組みとして解釈できる。 2つのモデルは交互に更新される。 しかし、このような単純な更新ルールはトレーニングの不安定性につながる。 これは、教師のわずかな変化が生徒に大きな変化をもたらす可能性があるためである。 この問題に対処するために、教師学生をStackelbergゲームとして扱う、差別化可能な自己学習の略である {\ours} を提案する。 このゲームでは、リーダーは常に従者よりも有利な立場にある。 セルフトレーニングでは、生徒は予測パフォーマンスに寄与し、教師は擬似ラベルを生成してトレーニングプロセスを制御する。 そこで我々は,学生を指導者として,教師を追随者として扱う。 リーダーは、微分可能な擬似ラベルと微分可能なサンプルウェイトを含む従者の戦略を認めることでその利点を享受する。 その結果、リーダーとフォロワーの相互作用は、フォロワーの戦略を区別して得られるスタックルバーグ勾配によって効果的に捕捉できる。 半教師付きおよび弱教師付き分類と名前付きエンティティ認識タスクの実験結果から,本モデルが既存のアプローチを大きなマージンで上回っていることが示された。

Self-training achieves enormous success in various semi-supervised and weakly-supervised learning tasks. The method can be interpreted as a teacher-student framework, where the teacher generates pseudo-labels, and the student makes predictions. The two models are updated alternatingly. However, such a straightforward alternating update rule leads to training instability. This is because a small change in the teacher may result in a significant change in the student. To address this issue, we propose {\ours}, short for differentiable self-training, that treats teacher-student as a Stackelberg game. In this game, a leader is always in a more advantageous position than a follower. In self-training, the student contributes to the prediction performance, and the teacher controls the training process by generating pseudo-labels. Therefore, we treat the student as the leader and the teacher as the follower. The leader procures its advantage by acknowledging the follower's strategy, which involves differentiable pseudo-labels and differentiable sample weights. Consequently, the leader-follower interaction can be effectively captured via Stackelberg gradient, obtained by differentiating the follower's strategy. Experimental results on semi- and weakly-supervised classification and named entity recognition tasks show that our model outperforms existing approaches by large margins.
翻訳日:2021-09-16 15:17:24 公開日:2021-09-15
# 混合における局所線形制約緩和のための逆混合政策

Adversarial Mixing Policy for Relaxing Locally Linear Constraints in Mixup ( http://arxiv.org/abs/2109.07177v1 )

ライセンス: Link先を確認
Guang Liu, Yuzhao Mao, Hailong Huang, Weiguo Gao, Xuan Li(参考訳) Mixupは、最近のディープ分類ネットワークのレギュレータである。 ニューラルネットワークをサンプルのペアとそのラベルの凸結合でトレーニングすることで、モデルの入力空間に局所的な線形制約を課す。 しかし、そのような厳密な線形制約は、しばしば正規化の効果を低下させる不適合をもたらす。 リソースが極端に限られているとき、この問題はますます深刻になっている。 これらの問題に対処するため,ミン・マックス・ラッドの定式化によって組織された Adversarial Mixing Policy (AMP) を提案し,Mixup における局所線形制約を緩和する。 具体的には、AMPは例ではなく混合係数に小さな逆摂動を加える。 したがって、合成例と合成ラベルの間にわずかに非線形性が注入される。 これらのデータをトレーニングすることで、ディープネットワークはさらに正規化され、予測エラー率を低下させる。 5つのテキスト分類ベンチマークと5つのバックボーンモデルの実験により、我々の手法は、特に低リソース条件(最大17.5%)において、大きなマージン(最大31.3%)でミックスアップ変種よりもエラー率を減少させることを示した。

Mixup is a recent regularizer for current deep classification networks. Through training a neural network on convex combinations of pairs of examples and their labels, it imposes locally linear constraints on the model's input space. However, such strict linear constraints often lead to under-fitting which degrades the effects of regularization. Noticeably, this issue is getting more serious when the resource is extremely limited. To address these issues, we propose the Adversarial Mixing Policy (AMP), organized in a min-max-rand formulation, to relax the Locally Linear Constraints in Mixup. Specifically, AMP adds a small adversarial perturbation to the mixing coefficients rather than the examples. Thus, slight non-linearity is injected in-between the synthetic examples and synthetic labels. By training on these data, the deep networks are further regularized, and thus achieve a lower predictive error rate. Experiments on five text classification benchmarks and five backbone models have empirically shown that our methods reduce the error rate over Mixup variants in a significant margin (up to 31.3%), especially in low-resource conditions (up to 17.5%).
翻訳日:2021-09-16 15:17:07 公開日:2021-09-15
# 整数の数学的性質の学習

Learning Mathematical Properties of Integers ( http://arxiv.org/abs/2109.07230v1 )

ライセンス: Link先を確認
Maria Ryskina, Kevin Knight(参考訳) 高次元ベクトル空間における単語の埋め込みは、多くの自然言語応用において有益であることが証明されている。 本研究では, 数学的な応用に有用な概念を, 同様に訓練された整数の埋め込みが捉えることができるかどうかを考察する。 数理知識のための整数埋め込みを探索し、数理推論の一連のタスクに適用し、数理シーケンスデータから表現を学習することにより、英語のテキストコーパスから学習した数値埋め込みを大幅に改善できることを示す。

Embedding words in high-dimensional vector spaces has proven valuable in many natural language applications. In this work, we investigate whether similarly-trained embeddings of integers can capture concepts that are useful for mathematical applications. We probe the integer embeddings for mathematical knowledge, apply them to a set of numerical reasoning tasks, and show that by learning the representations from mathematical sequence data, we can substantially improve over number embeddings learned from English text corpora.
翻訳日:2021-09-16 15:16:48 公開日:2021-09-15
# フローチャート接地タスク指向ダイアログのエンドツーエンド学習

End-to-End Learning of Flowchart Grounded Task-Oriented Dialogs ( http://arxiv.org/abs/2109.07263v1 )

ライセンス: Link先を確認
Dinesh Raghu, Shantanu Agarwal, Sachindra Joshi and Mausam(参考訳) 本稿では,タスク指向ダイアログ(TOD)のエンドツーエンド学習における新たな問題を提案する。 このようなダイアログは、会話中にエージェントが従うべきドメイン固有のフローチャートに基礎を置いている。 我々のタスクは、明示的なアノテーションを使わずにフローチャートへの発話を根拠にすること、ユーザが明確化の質問をするときに追加のマニュアルページを参照すること、テスト時に目に見えないフローチャートに従う能力など、ニューラルTODの新たな技術的課題を明らかにする。 12種類のトラブルシューティングフローチャートに基づく2,738のダイアログからなるデータセット(FloDial)をリリースする。 また,対話エージェントを学習するために,検索型生成アーキテクチャを用いたニューラルモデルであるflonetを設計した。 我々の実験では、FloNetは目に見えないフローチャートへのゼロショット転送が可能であり、将来の研究の基盤となる。

We propose a novel problem within end-to-end learning of task-oriented dialogs (TOD), in which the dialog system mimics a troubleshooting agent who helps a user by diagnosing their problem (e.g., car not starting). Such dialogs are grounded in domain-specific flowcharts, which the agent is supposed to follow during the conversation. Our task exposes novel technical challenges for neural TOD, such as grounding an utterance to the flowchart without explicit annotation, referring to additional manual pages when user asks a clarification question, and ability to follow unseen flowcharts at test time. We release a dataset (FloDial) consisting of 2,738 dialogs grounded on 12 different troubleshooting flowcharts. We also design a neural model, FloNet, which uses a retrieval-augmented generation architecture to train the dialog agent. Our experiments find that FloNet can do zero-shot transfer to unseen flowcharts, and sets a strong baseline for future research.
翻訳日:2021-09-16 15:16:41 公開日:2021-09-15
# 単言語モデルの言語間伝達

Cross-lingual Transfer of Monolingual Models ( http://arxiv.org/abs/2109.07348v1 )

ライセンス: Link先を確認
Evangelia Gogoulou, Ariel Ekgren, Tim Isbister, Magnus Sahlgren(参考訳) 多言語モデルを用いたゼロショット言語間学習の最近の研究は、共通語彙と共同事前学習が言語間一般化の鍵であるという以前の仮説を偽っている。 この進歩に触発されて,ドメイン適応に基づく単言語モデルの言語間移動手法を提案する。 4つの異なる言語から英語への変換の効果について検討する。 グルーを用いた実験の結果,トランスファーモデルが母国英語モデルよりも母国英語モデルに勝っていることがわかった。 トランスファー前後の表現にエンコードされた英語の言語知識を検索すると、意味情報はソース言語から保持され、構文情報はトランスファー中に学習される。 さらに、ソース言語タスクにおけるトランスファーモデルの評価結果から、トランスファー後のソースドメインのパフォーマンスが低下していることが分かる。

Recent studies in zero-shot cross-lingual learning using multilingual models have falsified the previous hypothesis that shared vocabulary and joint pre-training are the keys to cross-lingual generalization. Inspired by this advancement, we introduce a cross-lingual transfer method for monolingual models based on domain adaptation. We study the effects of such transfer from four different languages to English. Our experimental results on GLUE show that the transferred models outperform the native English model independently of the source language. After probing the English linguistic knowledge encoded in the representations before and after transfer, we find that semantic information is retained from the source language, while syntactic information is learned during transfer. Additionally, the results of evaluating the transferred models in source language tasks reveal that their performance in the source domain deteriorates after transfer.
翻訳日:2021-09-16 15:16:21 公開日:2021-09-15
# エンドツーエンドタスク指向ダイアログにおける制約に基づく知識ベース蒸留

Constraint based Knowledge Base Distillation in End-to-End Task Oriented Dialogs ( http://arxiv.org/abs/2109.07396v1 )

ライセンス: Link先を確認
Dinesh Raghu, Atishya Jain, Mausam and Sachindra Joshi(参考訳) End-to-Endタスク指向対話システムは、対話履歴と付随する知識ベース(KB)に基づいて応答を生成する。 発話に最も関係のあるKBエンティティを推測することは、応答生成に不可欠である。 既存の技術状態は、無関係のKB情報をソフトにフィルタリングすることで、大きなKBにスケールする。 本稿では,(1) KBレコードにおけるn-ary構造を尊重して関連情報を識別する一対の類似度に基づくフィルタからなる新しいフィルタリング手法を提案する。 そして、(2)文脈的に無関係なkb情報の分離に役立つ補助的損失。 また、既存のエンティティF1メトリックの正当性問題を修正するための新しいメトリック-マルチセットエンティティF1を提案する。 3つの公開タスク指向ダイアログデータセットの実験結果から,提案手法が既存の最先端モデルより優れていることが示された。

End-to-End task-oriented dialogue systems generate responses based on dialog history and an accompanying knowledge base (KB). Inferring those KB entities that are most relevant for an utterance is crucial for response generation. Existing state of the art scales to large KBs by softly filtering over irrelevant KB information. In this paper, we propose a novel filtering technique that consists of (1) a pairwise similarity based filter that identifies relevant information by respecting the n-ary structure in a KB record. and, (2) an auxiliary loss that helps in separating contextually unrelated KB information. We also propose a new metric -- multiset entity F1 which fixes a correctness issue in the existing entity F1 metric. Experimental results on three publicly available task-oriented dialog datasets show that our proposed approach outperforms existing state-of-the-art models.
翻訳日:2021-09-16 15:16:07 公開日:2021-09-15
# SupCL-Seq: 下流最適化シーケンス表現のためのコントラスト学習

SupCL-Seq: Supervised Contrastive Learning for Downstream Optimized Sequence Representations ( http://arxiv.org/abs/2109.07424v1 )

ライセンス: Link先を確認
Hooman Sedghamiz, Shivam Raval, Enrico Santus, Tuka Alhanai, Mohammad Ghassemi(参考訳) コントラスト学習はコンピュータビジョンにおいて効果的なトレーニング戦略であることが証明されているが、自然言語処理(nlp)は、最近になって、シーケンス表現を改善するためにマスク言語モデリング(mlm)の代替として採用した。 本稿では,コンピュータビジョンからNLPにおけるシーケンス表現の最適化まで,教師付きコントラスト学習を拡張したSupCL-Seqを提案する。 標準的なTransformerアーキテクチャでは,各表現(アンカー)に対してドロップアウトマスクの確率を変更することで,拡張されたビューを生成する。 次に、教師付きコントラスト損失を利用して、類似のサンプル(例えば、アンカーとその修正されたビュー)をまとめ、他のクラスに属するサンプルを分解するシステムの能力を最大化する。 その単純さにもかかわらず、SupCLSeqは、標準のBERTbaseと比較してGLUEベンチマーク上の多くのシーケンス分類タスクにおいて、CoLAの6%の絶対的な改善、MRPCの5.4%、RTEの4.7%、STSBの2.6%を含む大きな増加につながっている。 また, 自己教師付き対照学習表現, 特に非意味的タスクにおいて, 一貫性のある成果を示す。 最後に、これらのゲインは単に増大によるものではなく、下流最適化シーケンス表現によるものであることを示す。 コード: https://github.com/h ooman650/supcl-seq

While contrastive learning is proven to be an effective training strategy in computer vision, Natural Language Processing (NLP) is only recently adopting it as a self-supervised alternative to Masked Language Modeling (MLM) for improving sequence representations. This paper introduces SupCL-Seq, which extends the supervised contrastive learning from computer vision to the optimization of sequence representations in NLP. By altering the dropout mask probability in standard Transformer architectures, for every representation (anchor), we generate augmented altered views. A supervised contrastive loss is then utilized to maximize the system's capability of pulling together similar samples (e.g., anchors and their altered views) and pushing apart the samples belonging to the other classes. Despite its simplicity, SupCLSeq leads to large gains in many sequence classification tasks on the GLUE benchmark compared to a standard BERTbase, including 6% absolute improvement on CoLA, 5.4% on MRPC, 4.7% on RTE and 2.6% on STSB. We also show consistent gains over self supervised contrastively learned representations, especially in non-semantic tasks. Finally we show that these gains are not solely due to augmentation, but rather to a downstream optimized sequence representation. Code: https://github.com/h ooman650/SupCL-Seq
翻訳日:2021-09-16 15:15:54 公開日:2021-09-15
# 事前トレーニングするべきか? 代替案としてのエンド・タスク・アウェア・トレーニングの議論

Should We Be Pre-training? An Argument for End-task Aware Training as an Alternative ( http://arxiv.org/abs/2109.07437v1 )

ライセンス: Link先を確認
Lucio M. Dery, Paul Michel, Ameet Talwalkar and Graham Neubig(参考訳) 事前トレーニングでは、下流タスクのデータに基づいて微調整される前に、豊富なデータで補助目的にモデルが訓練される。 一般に、事前訓練のステップは、エンドタスクが事前に分かっている場合でも、モデルを微調整するタスクについて、ほとんど、あるいは全く直接知識に依存しない。 私たちの仕事は、エンドタスクに依存しない事前トレーニングのこの現状に挑戦します。 まず,2つの領域から分離した3つの低リソースnlpタスクにおいて,エンドタスクと補助目的のマルチタスクが,グルランガンら(2020)のタスク非依存で継続するプレトレーニングパラダイムよりも,ダウンストリームタスクのパフォーマンスが有意に向上することを示す。 次に,マルチタスク重みのセットを学習するオンラインメタラーニングアルゴリズムを導入し,複数の補助目標間のバランスを改善し,エンドタスクのパフォーマンスとデータ効率をさらに向上させる。

Pre-training, where models are trained on an auxiliary objective with abundant data before being fine-tuned on data from the downstream task, is now the dominant paradigm in NLP. In general, the pre-training step relies on little to no direct knowledge of the task on which the model will be fine-tuned, even when the end-task is known in advance. Our work challenges this status-quo of end-task agnostic pre-training. First, on three different low-resource NLP tasks from two domains, we demonstrate that multi-tasking the end-task and auxiliary objectives results in significantly better downstream task performance than the widely-used task-agnostic continued pre-training paradigm of Gururangan et al. (2020). We next introduce an online meta-learning algorithm that learns a set of multi-task weights to better balance among our multiple auxiliary objectives, achieving further improvements on end task performance and data efficiency.
翻訳日:2021-09-16 15:15:27 公開日:2021-09-15
# 翻訳にコンテキストはいつ必要か? データ駆動多言語探索

When Does Translation Require Context? A Data-driven, Multilingual Exploration ( http://arxiv.org/abs/2109.07446v1 )

ライセンス: Link先を確認
Kayo Yin, Patrick Fernandes, Andr\'e F. T. Martins, Graham Neubig(参考訳) 談話現象の適切な処理は機械翻訳の質(mt)に大きく寄与するが、一般的な翻訳品質指標では適切に捉えられていない。 文脈認識型MTにおける最近の研究は、評価中にこれらの現象の小さなセットを目標にしようとしている。 本稿では,従来研究されてきた現象の難易度を確認するとともに,文脈を体系的に要求する翻訳を識別する新しい指標であるP-CXMIを提案する。 そこで我々は,これらの現象を14種類の異なる言語ペアに分類し,文脈認識MTの評価に使用するMuDAベンチマークを開発した。現状の文脈認識MTモデルでは,文脈非依存モデルよりも限界的な改善が見出され,現在のモデルではこれらの曖昧さを効果的に扱えないことが示唆されている。 我々はMT研究コミュニティを招待するためにコードとデータを公開し、現在見過ごされている談話現象や言語に関する文脈対応翻訳への取り組みを強化する。

Although proper handling of discourse phenomena significantly contributes to the quality of machine translation (MT), common translation quality metrics do not adequately capture them. Recent works in context-aware MT attempt to target a small set of these phenomena during evaluation. In this paper, we propose a new metric, P-CXMI, which allows us to identify translations that require context systematically and confirm the difficulty of previously studied phenomena as well as uncover new ones that have not been addressed in previous work. We then develop the Multilingual Discourse-Aware (MuDA) benchmark, a series of taggers for these phenomena in 14 different language pairs, which we use to evaluate context-aware MT. We find that state-of-the-art context-aware MT models find marginal improvements over context-agnostic models on our benchmark, which suggests current models do not handle these ambiguities effectively. We release code and data to invite the MT research community to increase efforts on context-aware translation on discourse phenomena and languages that are currently overlooked.
翻訳日:2021-09-16 15:15:09 公開日:2021-09-15
# テキスト表現の比較:理論駆動アプローチ

Comparing Text Representations: A Theory-Driven Approach ( http://arxiv.org/abs/2109.07458v1 )

ライセンス: Link先を確認
Gregory Yauney, David Mimno(参考訳) 現代のNLPの進歩の多くは、マスキング言語モデル(MLM)の文脈埋め込みのような学習表現から来ており、課題問題を単純な分類タスクに変換する。 しかし、どのようにしてこの効果を定量化し説明するのか? 我々は,テキストデータセットの特徴に適合する計算学習理論からの一般的なツールを適応させ,表現とタスクの互換性を評価する方法を提案する。 多くのタスクは単純なback-of-words(BOW)表現で簡単に解けるが、BOWは難しい自然言語推論タスクでは不十分である。 そのようなタスクに対して、BOWは実ラベルとランダムラベルを区別できないが、事前訓練されたMLM表現は実ラベルとランダムラベルの72倍の差を示す。 この方法は、分類ベースのNLPタスクの難易度を調整し、初期化やハイパーパラメータに敏感な経験的評価を必要としない表現の比較を可能にする。 この方法は、データセット内のパターンと、それらのパターンと特定のラベルのアライメントに関する新しい視点を提供する。

Much of the progress in contemporary NLP has come from learning representations, such as masked language model (MLM) contextual embeddings, that turn challenging problems into simple classification tasks. But how do we quantify and explain this effect? We adapt general tools from computational learning theory to fit the specific characteristics of text datasets and present a method to evaluate the compatibility between representations and tasks. Even though many tasks can be easily solved with simple bag-of-words (BOW) representations, BOW does poorly on hard natural language inference tasks. For one such task we find that BOW cannot distinguish between real and randomized labelings, while pre-trained MLM representations show 72x greater distinction between real and random labelings than BOW. This method provides a calibrated, quantitative measure of the difficulty of a classification-based NLP task, enabling comparisons between representations without requiring empirical evaluations that may be sensitive to initializations and hyperparameters. The method provides a fresh perspective on the patterns in a dataset and the alignment of those patterns with specific labels.
翻訳日:2021-09-16 15:14:50 公開日:2021-09-15
# 分析結果の有意義性に関する意思決定的アプローチの比較

Comparing decision mining approaches with regard to the meaningfulness of their results ( http://arxiv.org/abs/2109.07335v1 )

ライセンス: Link先を確認
Beate Scheibel, Stefanie Rinderle-Ma(参考訳) 決定と基礎となるルールは、実行時のプロセス実行、すなわちプロセスデータの値に基づいて別のブランチでプロセスインスタンスをルーティングするために不可欠である。 決定規則は、例えば、年齢 > 40 のような一元的なデータ条件と、2つ以上の変数間の関係が関係している二項データ条件、例えば temperature1 < temperature2 と、医療画像の一部を指すより複雑な条件から構成されることができる。 decision discoveryは、プロセスイベントログから意思決定ルールを自動的に導出することを目的としている。 既存のアプローチでは、unaryやバイナリデータ条件の発見に重点を置いている。 発見された決定ルールは、通常、正確さを用いて評価されるが、その意味と意味性には関係しないが、これは検証とその後の決定ルールの実装/適応に不可欠である。 そこで,本研究では,既存の2つの方法と新たに記述された1つのアプローチの3つの決定マイニング手法を比較し,その意義について述べる。 比較のために,実世界のBPIC 2017/2020ログと実世界のBPIC 2017/2020ログを合成した。 発見規則は、その意味と有意義性に関して議論される。

Decisions and the underlying rules are indispensable for driving process execution during runtime, i.e., for routing process instances at alternative branches based on the values of process data. Decision rules can comprise unary data conditions, e.g., age > 40, binary data conditions where the relation between two or more variables is relevant, e.g. temperature1 < temperature2, and more complex conditions that refer to, for example, parts of a medical image. Decision discovery aims at automatically deriving decision rules from process event logs. Existing approaches focus on the discovery of unary, or in some instances binary data conditions. The discovered decision rules are usually evaluated using accuracy, but not with regards to their semantics and meaningfulness, although this is crucial for validation and the subsequent implementation/adapt ation of the decision rules. Hence, this paper compares three decision mining approaches, i.e., two existing ones and one newly described approach, with respect to the meaningfulness of their results. For comparison, we use one synthetic data set for a realistic manufacturing case and the two real-world BPIC 2017/2020 logs. The discovered rules are discussed with regards to their semantics and meaningfulness.
翻訳日:2021-09-16 15:13:37 公開日:2021-09-15
# F-CAM:ガイドパラメトリックアップスケーリングによる全分解能CAM

F-CAM: Full Resolution CAM via Guided Parametric Upscaling ( http://arxiv.org/abs/2109.07069v1 )

ライセンス: Link先を確認
Soufiane Belharbi, Aydin Sarraf, Marco Pedersoli, Ismail Ben Ayed, Luke McCaffrey, Eric Granger(参考訳) クラスアクティベーションマッピング(cam)メソッドは、最近、弱い教師付きオブジェクトローカライゼーション(wsol)タスクに多くの注目を集め、完全に注釈付き画像データセットをトレーニングすることなくcnnの可視化と解釈を可能にした。 CAMメソッドは通常、ResNet50のような既製のCNNバックボーンに統合される。 コンボリューションとダウンサンプリング/プール操作により、これらのバックボーンは最大32のダウンスケーリング係数を持つ低分解能CAMを生成し、正確なローカライゼーションを難しくする。 補間はフルサイズのcamを復元するために必要であるが、オブジェクトの統計的性質を考慮せず、一貫性のない境界と不正確な局在を持つアクティベーションに繋がる。 代替として、正確なフル解像度CAM(F-CAM)を構築することができるCAMのパラメトリックアップスケーリング法を提案する。 特に,より正確なCAMを生成するために,任意のCNN分類器に接続可能なトレーニング可能な復号化アーキテクチャを提案する。 オリジナルの(解像度の低い)CAMが与えられた場合、デコーダを微調整するためにフォアグラウンドと背景画素をランダムにサンプリングする。 画像統計学やサイズ制約といった他の先例も、オブジェクト境界を拡張して洗練すると考えられる。 CUB-200-2011およびOpenImagesデータセットの3つのCNNバックボーンと6つのWSOLベースラインを用いた大規模な実験により、我々のF-CAM法はCAMのローカライゼーション精度を大幅に向上することが示された。 F-CAMの性能は最先端のWSOL法と競合するが、推論時に計算資源を少なくする。

Class Activation Mapping (CAM) methods have recently gained much attention for weakly-supervised object localization (WSOL) tasks, allowing for CNN visualization and interpretation without training on fully annotated image datasets. CAM methods are typically integrated within off-the-shelf CNN backbones, such as ResNet50. Due to convolution and downsampling/pooling operations, these backbones yield low resolution CAMs with a down-scaling factor of up to 32, making accurate localization more difficult. Interpolation is required to restore a full size CAMs, but without considering the statistical properties of the objects, leading to activations with inconsistent boundaries and inaccurate localizations. As an alternative, we introduce a generic method for parametric upscaling of CAMs that allows constructing accurate full resolution CAMs (F-CAMs). In particular, we propose a trainable decoding architecture that can be connected to any CNN classifier to produce more accurate CAMs. Given an original (low resolution) CAM, foreground and background pixels are randomly sampled for fine-tuning the decoder. Additional priors such as image statistics, and size constraints are also considered to expand and refine object boundaries. Extensive experiments using three CNN backbones and six WSOL baselines on the CUB-200-2011 and OpenImages datasets, indicate that our F-CAM method yields a significant improvement in CAM localization accuracy. F-CAM performance is competitive with state-of-art WSOL methods, yet it requires fewer computational resources during inference.
翻訳日:2021-09-16 15:12:52 公開日:2021-09-15
# マルチデコーダU-Netを用いた医用画像分割の不確かさ定量化

Uncertainty Quantification in Medical Image Segmentation with Multi-decoder U-Net ( http://arxiv.org/abs/2109.07045v1 )

ライセンス: Link先を確認
Yanwu Yang, Xutao Guo, Yiwei Pan, Pengcheng Shi, Haiyan Lv, Ting Ma(参考訳) 正確な医用画像分割は診断と分析に不可欠である。 しかし、キャリブレーションされた不確実性推定のないモデルは下流分析の誤差を招き、ロバスト性は低い。 測定の不確かさを推定することは、確かなインフォームドな結論を得るのに不可欠である。 特に、曖昧な領域を正確に予測し、モデルと放射線技師の両方の境界に焦点を合わせることは困難であり、複数のアノテーションで合意に達することはさらに困難である。 本研究では,これらの領域における不確実性について検討し,解剖学的構造を持つ重要な情報を導入し,セグメンテーション性能と同じくらい重要である。 本稿では,複数のアノテーションを用いたセグメンテーション性能を教師あり学習方法で測定し,画像表現を同一エンコーダで符号化し,各アノテーションを参照するセグメンテーションを複数のデコーダで推定する,複数のデコーダを用いたu-netアーキテクチャを提案する。 それでも、異なる枝間のギャップを埋めるためのクロスロス関数が提案されている。 提案アーキテクチャはエンドツーエンドでトレーニングされ、予測の不確実性推定を改善することができる。 このモデルは、MICCAI-QUBIQ 2020チャレンジでランキングされた統合トレーニングモデルと比較して、より少ないパラメータで同等のパフォーマンスを達成する。

Accurate medical image segmentation is crucial for diagnosis and analysis. However, the models without calibrated uncertainty estimates might lead to errors in downstream analysis and exhibit low levels of robustness. Estimating the uncertainty in the measurement is vital to making definite, informed conclusions. Especially, it is difficult to make accurate predictions on ambiguous areas and focus boundaries for both models and radiologists, even harder to reach a consensus with multiple annotations. In this work, the uncertainty under these areas is studied, which introduces significant information with anatomical structure and is as important as segmentation performance. We exploit the medical image segmentation uncertainty quantification by measuring segmentation performance with multiple annotations in a supervised learning manner and propose a U-Net based architecture with multiple decoders, where the image representation is encoded with the same encoder, and segmentation referring to each annotation is estimated with multiple decoders. Nevertheless, a cross-loss function is proposed for bridging the gap between different branches. The proposed architecture is trained in an end-to-end manner and able to improve predictive uncertainty estimates. The model achieves comparable performance with fewer parameters to the integrated training model that ranked the runner-up in the MICCAI-QUBIQ 2020 challenge.
翻訳日:2021-09-16 15:12:24 公開日:2021-09-15
# Lie Algebra Convolutional Networkによる自動対称性探索

Automatic Symmetry Discovery with Lie Algebra Convolutional Network ( http://arxiv.org/abs/2109.07103v1 )

ライセンス: Link先を確認
Nima Dehmamy, Robin Walters, Yanchen Liu, Dashun Wang, Rose Yu(参考訳) 既存の連続群に対する同変ニューラルネットワークは離散化や群表現を必要とする。 これらのアプローチはすべて群パラメトリゼーションの詳細な知識を必要とし、全く新しい対称性を学べない。 我々のモデルでは、リー代数畳み込みネットワーク(L-conv)はポテンシャル対称性を学習することができ、群の離散化を必要としない。 l-conv は任意の群同変アーキテクチャを構成するためのビルディングブロックとして機能する。 本稿では,cnnとグラフ畳み込みネットワークとの関連性について論じ,l-convとして表現できる。 また,単一のl-conv層に対するmse損失を導出し,物理学で用いられるラグランジアンとの深い関係を見出した。 逆に、L-conv は科学機械学習のためのより一般的な同変 ans\atze の提案に使用できる。

Existing equivariant neural networks for continuous groups require discretization or group representations. All these approaches require detailed knowledge of the group parametrization and cannot learn entirely new symmetries. We propose to work with the Lie algebra (infinitesimal generators) instead of the Lie group.Our model, the Lie algebra convolutional network (L-conv) can learn potential symmetries and does not require discretization of the group. We show that L-conv can serve as a building block to construct any group equivariant architecture. We discuss how CNNs and Graph Convolutional Networks are related to and can be expressed as L-conv with appropriate groups. We also derive the MSE loss for a single L-conv layer and find a deep relation with Lagrangians used in physics, with some of the physics aiding in defining generalization and symmetries in the loss landscape. Conversely, L-conv could be used to propose more general equivariant ans\"atze for scientific machine learning.
翻訳日:2021-09-16 15:11:07 公開日:2021-09-15
# 深層学習に基づく予後予測に対する普遍的敵意攻撃

Universal Adversarial Attack on Deep Learning Based Prognostics ( http://arxiv.org/abs/2109.07142v1 )

ライセンス: Link先を確認
Arghya Basak, Pradeep Rathore, Sri Harsha Nistala, Sagar Srinivas, Venkataramana Runkana(参考訳) ディープラーニングベースの時系列モデルは、プロセス制御と最適化、資産モニタリング、診断、予測メンテナンスのために、エンジニアリングと製造産業で広く利用されている。 これらのモデルは、産業機器の残りの有用寿命(rul)の予測に大きな改善が見られたが、敵対的攻撃に固有の脆弱性が生じた。 これらの攻撃は容易に利用でき、重要な産業機器の破滅的な失敗につながる可能性がある。 一般に、入力データのインスタンスごとに異なる逆摂動が計算される。 しかし、高い計算要求と入力データへの干渉のないアクセスの欠如により、攻撃者がリアルタイムに達成することは困難である。 そこで本論文では,ユール回帰に基づくrul予測モデルに対して,特別な非知覚雑音である普遍的逆摂動の概念を提案する。 攻撃者は、入力データへの連続的なアクセスと、敵の摂動の反復計算が同じ前提条件ではないため、リアルタイム攻撃に普遍的な摂動を利用することができる。 我々は、nasaのターボファンエンジンデータセットを用いて、普遍的な敵意攻撃の効果を評価する。 入力データの任意のインスタンスに普遍的逆摂動を加えると、モデルが予測した出力の誤差が増加することを示す。 私たちの知る限りでは、私たちは時系列回帰モデルに対する普遍的な逆摂動の影響を初めて研究しました。 さらに, 摂動強度の変動がRUL予測モデルに与える影響を実証し, 対角攻撃の摂動強度の増加に伴いモデル精度が低下することを示した。 また、普遍的対向摂動は異なるモデル間で伝達可能であることを示す。

Deep learning-based time series models are being extensively utilized in engineering and manufacturing industries for process control and optimization, asset monitoring, diagnostic and predictive maintenance. These models have shown great improvement in the prediction of the remaining useful life (RUL) of industrial equipment but suffer from inherent vulnerability to adversarial attacks. These attacks can be easily exploited and can lead to catastrophic failure of critical industrial equipment. In general, different adversarial perturbations are computed for each instance of the input data. This is, however, difficult for the attacker to achieve in real time due to higher computational requirement and lack of uninterrupted access to the input data. Hence, we present the concept of universal adversarial perturbation, a special imperceptible noise to fool regression based RUL prediction models. Attackers can easily utilize universal adversarial perturbations for real-time attack since continuous access to input data and repetitive computation of adversarial perturbations are not a prerequisite for the same. We evaluate the effect of universal adversarial attacks using NASA turbofan engine dataset. We show that addition of universal adversarial perturbation to any instance of the input data increases error in the output predicted by the model. To the best of our knowledge, we are the first to study the effect of the universal adversarial perturbation on time series regression models. We further demonstrate the effect of varying the strength of perturbations on RUL prediction models and found that model accuracy decreases with the increase in perturbation strength of the universal adversarial attack. We also showcase that universal adversarial perturbation can be transferred across different models.
翻訳日:2021-09-16 15:10:51 公開日:2021-09-15
# ミューリモーダル感情認識のための階層グラフとの融合

Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition ( http://arxiv.org/abs/2109.07149v1 )

ライセンス: Link先を確認
Shuyun Tang, Zhaojie Luo, Guoshun Nan, Yuichiro Yoshikawa, Ishiguro Hiroshi(参考訳) テキスト, 音声, 視覚的手がかりを含む, 豊富なマルチモーダル入力に基づく自動感情認識(AER)は, 感情知能マシンの開発に不可欠である。 複雑なモダリティ関係は、AERにとって有効であることが証明されているが、以前の研究は、感情分類のためのマルチモーダル表現を学ぶための単純な特徴を持つ様々な融合機構に大きく依存していたため、まだ未解明である。 本稿では,特徴融合過程におけるモーダリティ依存性を考慮し,より情報に富んだマルチモーダル表現を学習する階層型融合グラフ畳み込みネットワーク(HFGCN)モデルを提案する。 具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。 2次元valence-arousal(va)部分空間に感情状態を投影することにより,提案手法の解釈可能性を検証する。 実験の結果,より正確なAERモデルの有効性が示され,IEMOCAPとMELDの2つの公開データセットに対して最先端の結果が得られた。

Automatic emotion recognition (AER) based on enriched multimodal inputs, including text, speech, and visual clues, is crucial in the development of emotionally intelligent machines. Although complex modality relationships have been proven effective for AER, they are still largely underexplored because previous works predominantly relied on various fusion mechanisms with simply concatenated features to learn multimodal representations for emotion classification. This paper proposes a novel hierarchical fusion graph convolutional network (HFGCN) model that learns more informative multimodal representations by considering the modality dependencies during the feature fusion procedure. Specifically, the proposed model fuses multimodality inputs using a two-stage graph construction approach and encodes the modality dependencies into the conversation representation. We verified the interpretable capabilities of the proposed method by projecting the emotional states to a 2D valence-arousal (VA) subspace. Extensive experiments showed the effectiveness of our proposed model for more accurate AER, which yielded state-of-the-art results on two public datasets, IEMOCAP and MELD.
翻訳日:2021-09-16 15:10:28 公開日:2021-09-15
# ストリーミングデータに対する確率近似アルゴリズムの非漸近解析

Non-Asymptotic Analysis of Stochastic Approximation Algorithms for Streaming Data ( http://arxiv.org/abs/2109.07117v1 )

ライセンス: Link先を確認
Antoine Godichon-Baggioni (LPSM (UMR\_8001)), Nicklas Werge (LPSM (UMR\_8001)), Olivier Wintenberger (LPSM (UMR\_8001))(参考訳) 連続的に発生する高周波データストリームに動機づけられ、リアルタイム学習がますます重要になっている。 これらのデータストリームは、ストリームが時間とともに変化する可能性がある特性で順次処理されるべきである。 このストリーミング環境では,確率近似問題と呼ばれる勾配の偏りのない推定により,凸目標を最小化する手法を提案する。 本手法は,従来の反復法のみをパラメータ推定として用いるため,計算上有利な確率近似アルゴリズムに依拠する。 この推論は、古典的条件下での最適統計効率を保証する反復平均化を含む。 非漸近解析により,期待したデータストリームに応じて学習率を選択することにより,収束が加速することが示された。 平均推定値は任意のデータストリームレートに最適かつ堅牢に収束することを示す。 さらに、大規模な機械学習に有利な特定のパターンでデータを処理することで、ノイズ低減を実現することができる。 これらの理論結果は様々なデータストリームに対して示され,提案手法の有効性を示す。

Motivated by the high-frequency data streams continuously generated, real-time learning is becoming increasingly important. These data streams should be processed sequentially with the property that the stream may change over time. In this streaming setting, we propose techniques for minimizing a convex objective through unbiased estimates of its gradients, commonly referred to as stochastic approximation problems. Our methods rely on stochastic approximation algorithms due to their computationally advantage as they only use the previous iterate as a parameter estimate. The reasoning includes iterate averaging that guarantees optimal statistical efficiency under classical conditions. Our non-asymptotic analysis shows accelerated convergence by selecting the learning rate according to the expected data streams. We show that the average estimate converges optimally and robustly to any data stream rate. In addition, noise reduction can be achieved by processing the data in a specific pattern, which is advantageous for large-scale machine learning. These theoretical results are illustrated for various data streams, showing the effectiveness of the proposed algorithms.
翻訳日:2021-09-16 15:10:08 公開日:2021-09-15
# 多変数ガウス多様体に対するKL-発散を用いた共役前駆体の構築

How to use KL-divergence to construct conjugate priors, with well-defined non-informative limits, for the multivariate Gaussian ( http://arxiv.org/abs/2109.07384v1 )

ライセンス: Link先を確認
Niko Br\"ummer(参考訳) ウィッシュアート分布は、平均が知られているときの多変量ガウス確率の精度の前の標準共役であり、また平均が未知であるときの通常のウィッシュアートも用いられる。 しかし、これらの分布のハイパーパラメータに値を割り当てる方法はあまり明確ではない。 特に、これらの分布の非インフォーマルな極限を形成する場合、ウィッシュアートの形状(あるいは自由度)パラメータは注意して扱う必要がある。 擬似数として形を直接解釈してゼロにする直感的な解法は、いくつかの著者が提案したように、形状パラメータの制限に違反している。 Wishart と normal-Wishart の共役前駆体を構築するためのエネルギー関数として多変量ガウス多様体間のスケールした KL 分割を利用する方法を示す。 情報プリエントとして使用される場合、これらの分布のサルエント特徴はモードであり、klスケーリング係数は擬似数として機能する。 スケール係数はゼロの極限まで下げることができ、ウィッシュアート形状パラメータの制約に違反しない非インフォーマティブな事前値を形成することができる。 この極限は、後続モードがガウス確率パラメータの最大推定値と同一であるという意味では非形式的である。

The Wishart distribution is the standard conjugate prior for the precision of the multivariate Gaussian likelihood, when the mean is known -- while the normal-Wishart can be used when the mean is also unknown. It is however not so obvious how to assign values to the hyperparameters of these distributions. In particular, when forming non-informative limits of these distributions, the shape (or degrees of freedom) parameter of the Wishart must be handled with care. The intuitive solution of directly interpreting the shape as a pseudocount and letting it go to zero, as proposed by some authors, violates the restrictions on the shape parameter. We show how to use the scaled KL-divergence between multivariate Gaussians as an energy function to construct Wishart and normal-Wishart conjugate priors. When used as informative priors, the salient feature of these distributions is the mode, while the KL scaling factor serves as the pseudocount. The scale factor can be taken down to the limit at zero, to form non-informative priors that do not violate the restrictions on the Wishart shape parameter. This limit is non-informative in the sense that the posterior mode is identical to the maximum likelihood estimate of the Gaussian likelihood parameters.
翻訳日:2021-09-16 15:09:55 公開日:2021-09-15
# DeFungi:顕微鏡真菌画像の直接組織学的検討

DeFungi: Direct Mycological Examination of Microscopic Fungi Images ( http://arxiv.org/abs/2109.07322v1 )

ライセンス: Link先を確認
Camilo Javier Pineda Sopo, Farshid Hajati, Soheila Gheisari(参考訳) 伝統的に、ヒトの真菌感染症の診断と治療は、菌類学者として知られる専門の実験室科学者による対面の相談や検査に大きく依存している。 新型コロナウイルス(COVID-19)パンデミックで流行した最近の粘菌症など、多くの場合、顕微鏡で生検やサンプルを直接検査することにより、組織診断の初期段階において患者に安全な初期治療を提案できる。 深層学習モデルを用いたコンピュータ支援診断システムを訓練し, 後期の菌学的診断に用いた。 ただし、初期の文献には言及されていない。 コロンビアの菌学研究所は、この研究の発展に使用される画像に寄付した。 彼らは手作業で5つのクラスに分類され、専門的な支援を受けた。 イメージは後に収集され、最終データセットを生成するために自動コードルーチンでパッチが当てられた。 本稿では,2種類の深層学習手法と3種類の畳み込みニューラルネットワークモデル,vgg16,inception v3,resnet50を用いて5種類の菌類を分類した。 第1のアプローチでは、スクラッチからトレーニングされたモデルの分類性能をベンチマークし、第2のアプローチでは、ImageNetデータセットに基づいて事前トレーニングされたモデルを使用して分類性能をベンチマークする。 5つのクラスデータセットでk-foldクロスバリデーションテストを使用することで、スクラッチからトレーニングした最良のパフォーマンスモデルがインセプションv3で、73.2%の精度を示した。 また、転送学習を用いた最高の性能モデルはVGG16レポート85.04%であった。 2つのアプローチによって提供される統計は、分類性能を改善するために将来の研究作業を奨励する最初の参照点となる。 さらに、構築されたデータセットは、将来の研究を促進するためにkaggleとgithubで公開されている。

Traditionally, diagnosis and treatment of fungal infections in humans depend heavily on face-to-face consultations or examinations made by specialized laboratory scientists known as mycologists. In many cases, such as the recent mucormycosis spread in the COVID-19 pandemic, an initial treatment can be safely suggested to the patient during the earliest stage of the mycological diagnostic process by performing a direct examination of biopsies or samples through a microscope. Computer-aided diagnosis systems using deep learning models have been trained and used for the late mycological diagnostic stages. However, there are no reference literature works made for the early stages. A mycological laboratory in Colombia donated the images used for the development of this research work. They were manually labelled into five classes and curated with a subject matter expert assistance. The images were later cropped and patched with automated code routines to produce the final dataset. This paper presents experimental results classifying five fungi types using two different deep learning approaches and three different convolutional neural network models, VGG16, Inception V3, and ResNet50. The first approach benchmarks the classification performance for the models trained from scratch, while the second approach benchmarks the classification performance using pre-trained models based on the ImageNet dataset. Using k-fold cross-validation testing on the 5-class dataset, the best performing model trained from scratch was Inception V3, reporting 73.2% accuracy. Also, the best performing model using transfer learning was VGG16 reporting 85.04%. The statistics provided by the two approaches create an initial point of reference to encourage future research works to improve classification performance. Furthermore, the dataset built is published in Kaggle and GitHub to foster future research.
翻訳日:2021-09-16 15:09:32 公開日:2021-09-15
# 環境不確実性を考慮した進化的強化学習ダイナミクス

Evolutionary Reinforcement Learning Dynamics with Irreducible Environmental Uncertainty ( http://arxiv.org/abs/2109.07259v1 )

ライセンス: Link先を確認
Wolfram Barfuss and Richard P. Mann(参考訳) 本研究は, エージェントが環境の現状について絶対的に不確実である進化的強化学習ダイナミクスを導出し, 提示する。 エージェント・環境システムの異なるクラス間のダイナミクスを評価し,既約環境の不確実性が学習結果の迅速化,学習過程の安定化,社会的ジレンマの克服につながることを見出した。 しかし、予想通り、部分的可観測性は、例えば破滅的なリミットサイクルの形で、学習結果の悪化を引き起こす可能性があることもわかりました。 完全に観察可能なエージェントと比較して、既約な環境不確実性を持つ学習は、最良の学習結果を得るためには、より多くの探索と将来の報酬への重みをしばしば必要とします。 さらに,部分的可観測性によって引き起こされる様々な動的効果,例えば,報酬レジームと学習ダイナミクスの高速かつ遅い方向への分離の間の学習プロセスの臨界的なスローダウンを見出した。 提示されたダイナミクスは、環境不確実性の進化的影響を体系的に研究する生物学、社会科学、機械学習の研究者にとって実践的なツールである。

In this work we derive and present evolutionary reinforcement learning dynamics in which the agents are irreducibly uncertain about the current state of the environment. We evaluate the dynamics across different classes of partially observable agent-environment systems and find that irreducible environmental uncertainty can lead to better learning outcomes faster, stabilize the learning process and overcome social dilemmas. However, as expected, we do also find that partial observability may cause worse learning outcomes, for example, in the form of a catastrophic limit cycle. Compared to fully observant agents, learning with irreducible environmental uncertainty often requires more exploration and less weight on future rewards to obtain the best learning outcomes. Furthermore, we find a range of dynamical effects induced by partial observability, e.g., a critical slowing down of the learning processes between reward regimes and the separation of the learning dynamics into fast and slow directions. The presented dynamics are a practical tool for researchers in biology, social science and machine learning to systematically investigate the evolutionary effects of environmental uncertainty.
翻訳日:2021-09-16 15:09:04 公開日:2021-09-15
# ARCH:キャッシングによる効率の良い対向正規化トレーニング

ARCH: Efficient Adversarial Regularized Training with Caching ( http://arxiv.org/abs/2109.07048v1 )

ライセンス: Link先を確認
Simiao Zuo, Chen Liang, Haoming Jiang, Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen, Tuo Zhao(参考訳) 逆正規化は多くの自然言語処理タスクにおけるモデルの一般化を改善することができる。 しかし、従来の手法は、各エポックに各サンプルの摂動を生成する必要があるため、計算コストが高い。 本稿では,複数のエポック毎に摂動を発生・キャッシュする,新たな逆正則化手法 ARCH (adversarial regularization with cache) を提案する。 すべての摂動をキャッシュすることでメモリ使用の懸念が生じるため、この問題に対処するためにK-nearestの隣人ベースの戦略を採用しています。 この戦略は、追加のトレーニング時間を導入することなく、少量の摂動をキャッシュするだけで済む。 提案するニューラルマシン翻訳と自然言語理解タスクについて,提案手法を評価した。 archは計算の負担を大幅に軽減する(従来の手法と比較して計算時間の最大70%を節約する)。 さらに驚くべきことに、確率勾配の分散を減少させることで、ARCHは(ほとんどのタスクにおいて)顕著に優れたモデル一般化を生成する。 私たちのコードは公開されています。

Adversarial regularization can improve model generalization in many natural language processing tasks. However, conventional approaches are computationally expensive since they need to generate a perturbation for each sample in each epoch. We propose a new adversarial regularization method ARCH (adversarial regularization with caching), where perturbations are generated and cached once every several epochs. As caching all the perturbations imposes memory usage concerns, we adopt a K-nearest neighbors-based strategy to tackle this issue. The strategy only requires caching a small amount of perturbations, without introducing additional training time. We evaluate our proposed method on a set of neural machine translation and natural language understanding tasks. We observe that ARCH significantly eases the computational burden (saves up to 70\% of computational time in comparison with conventional approaches). More surprisingly, by reducing the variance of stochastic gradients, ARCH produces a notably better (in most of the tasks) or comparable model generalization. Our code is publicly available.
翻訳日:2021-09-16 15:07:48 公開日:2021-09-15
# 次のフレーズ予測によるテキスト自動補完の改善

Improving Text Auto-Completion with Next Phrase Prediction ( http://arxiv.org/abs/2109.07067v1 )

ライセンス: Link先を確認
Dong-Ho Lee, Zhiqiang Hu and Roy Ka-Wei Lee(参考訳) GPT-2のような言語モデルは、テキスト自動補完タスクのための構文的音声文の構築においてよく機能している。 しかし、そのようなモデルは特定の記述領域(例えば医学)に適応するためにかなりの訓練を要することが多い。 本稿では,テキスト自動補完タスクにおける事前学習言語モデルの性能を向上し,特定のドメインに迅速に適応するための中間訓練戦略を提案する。 提案手法は,新しい自己教師付き学習目標であるnext phrase prediction (npp) を含む。これは言語モデルに拡張されたフレーズで部分的クエリを完了させ,最終的にモデルのテキストの自動補完性能を向上させる。 予備実験により,電子メールおよび学術書き込みドメインの自動補完において,本手法がベースラインを上回ることができることを示した。

Language models such as GPT-2 have performed well on constructing syntactically sound sentences for text auto-completion task. However, such models often require considerable training effort to adapt to specific writing domains (e.g., medical). In this paper, we propose an intermediate training strategy to enhance pre-trained language models' performance in the text auto-completion task and fastly adapt them to specific domains. Our strategy includes a novel self-supervised training objective called Next Phrase Prediction (NPP), which encourages a language model to complete the partial query with enriched phrases and eventually improve the model's text auto-completion performance. Preliminary experiments have shown that our approach is able to outperform the baselines in auto-completion for email and academic writing domains.
翻訳日:2021-09-16 15:07:31 公開日:2021-09-15
# 変圧器に基づく語彙制約付き見出し生成

Transformer-based Lexically Constrained Headline Generation ( http://arxiv.org/abs/2109.07080v1 )

ライセンス: Link先を確認
Kosuke Yamada, Yuta Hitomi, Hideaki Tamori, Ryohei Sasano, Naoaki Okazaki, Kentaro Inui, Koichi Takeda(参考訳) 本稿では,生成した見出しに企業名や製品名などの特定のフレーズを含める必要がある,自動見出し生成手法の変種について検討する。 トランスベースモデルを用いた以前の方法は、エンコーダに所定の句に対応する追加情報を与えることで、与えられた句を含む見出しを生成する。 しかし、これらの方法は必ずしも生成した見出しにフレーズを含めることはできない。 そこで,従来のrnnベースのトークンシーケンス生成手法に触発されて,高品質な見出しに与えられたフレーズを含めることを保証した,簡易なトランスフォーマー方式を提案する。 また,トランスの制御可能な生成順序を利用した新たなヘッドライン生成戦略も検討する。 日本語ニュースコーパスを用いた実験により,提案手法は生成した見出しに単語を含めることが保証されており,従来のトランスフォーマー方式に匹敵するROUGEスコアが得られることが示された。 また,我々の世代戦略が従来の戦略よりも優れていることを示す。

This paper explores a variant of automatic headline generation methods, where a generated headline is required to include a given phrase such as a company or a product name. Previous methods using Transformer-based models generate a headline including a given phrase by providing the encoder with additional information corresponding to the given phrase. However, these methods cannot always include the phrase in the generated headline. Inspired by previous RNN-based methods generating token sequences in backward and forward directions from the given phrase, we propose a simple Transformer-based method that guarantees to include the given phrase in the high-quality generated headline. We also consider a new headline generation strategy that takes advantage of the controllable generation order of Transformer. Our experiments with the Japanese News Corpus demonstrate that our methods, which are guaranteed to include the phrase in the generated headline, achieve ROUGE scores comparable to previous Transformer-based methods. We also show that our generation strategy performs better than previous strategies.
翻訳日:2021-09-16 15:07:16 公開日:2021-09-15
# エッジ探索タスクはqaモデルに言語知識を明らかにすることができるか?

Can Edge Probing Tasks Reveal Linguistic Knowledge in QA Models? ( http://arxiv.org/abs/2109.07102v1 )

ライセンス: Link先を確認
Sagnik Ray Choudhury, Nikita Bhutani, Isabelle Augenstein(参考訳) 文法的知識(例えば、トークンのスピーチの一部を理解する能力)が大規模な事前学習言語モデル(LM)にエンコードされているかを理解するために、多くの努力がなされている。 これは `edge probing' (ep) テストによって行われる: lm のトークン表現である \textit{only} を使ってスパンの文法的特性を予測する単純な ml モデル。 しかし、ほとんどのNLPアプリケーションは \finetuned\ LMs を使っている。 ここでは、 LM が \finetuned である場合、EP テストによって測定された言語情報の符号化は変更されるか? 複数の質問応答(QA)データセットで実験を行うことで、EPテストの結果は、微調整されたQAモデルが正常に動作した場合や、モデルが間違った相関関係を学習せざるを得ない場合に大きく変化しない。 しかし、EPタスクデータセットの批判的分析により、EPモデルは予測を行うために急激な相関に依存する可能性があることが明らかになった。 これは、もし \finetuning\がそのような知識のエンコーディングを変更したとしても、EPテストはそれを測定できないかもしれないことを示している。

There have been many efforts to try to understand what grammatical knowledge (e.g., ability to understand the part of speech of a token) is encoded in large pre-trained language models (LM). This is done through `Edge Probing' (EP) tests: simple ML models that predict the grammatical properties of a span (whether it has a particular part of speech) using \textit{only} the LM's token representations. However, most NLP applications use \finetuned\ LMs. Here, we ask: if a LM is \finetuned, does the encoding of linguistic information in it change, as measured by EP tests? Conducting experiments on multiple question-answering (QA) datasets, we answer that question negatively: the EP test results do not change significantly when the fine-tuned QA model performs well or in adversarial situations where the model is forced to learn wrong correlations. However, a critical analysis of the EP task datasets reveals that EP models may rely on spurious correlations to make predictions. This indicates even if \finetuning\ changes the encoding of such knowledge, the EP tests might fail to measure it.
翻訳日:2021-09-16 15:07:01 公開日:2021-09-15
# 深層文脈言語モデルの普遍性について

On the Universality of Deep COntextual Language Models ( http://arxiv.org/abs/2109.07140v1 )

ライセンス: Link先を確認
Shaily Bhatt, Poonam Goyal, Sandipan Dandapat, Monojit Choudhury, Sunayana Sitaram(参考訳) ELMOやBERTなどの深層文脈言語モデル(LM)は、単一モデルを事前学習し、タスク固有の微調整を行うことによって、複数のタスクを迅速にスケールできる能力によって、自然言語処理のランドスケープを支配している。 さらに、XLM-RやmBERTのようなマルチ言語バージョンは、ゼロショットのクロスランガル転送において有望な結果をもたらし、多くの未使用およびアンダーリソース言語でのNLPアプリケーションを可能にする可能性がある。 この最初の成功により、事前訓練されたモデルは、さまざまなタスク、ドメイン、言語間の出発点として 'Universal Language Models' として使用されている。 この研究は、「普遍性」の概念を探求し、普遍モデルがスケールできる7つの次元、すなわち、等しく、あるいは合理的に機能し、多様な設定で有用であるように識別する。 これらの次元にわたるモデルパフォーマンスをサポートする現在の理論的および経験的な結果と、現在の制限に対処するのに役立つ拡張の概要を概説する。 本調査を通じて,大規模文脈言語モデルの能力と限界を理解する基盤を構築し,これらのLMを多様なアプリケーション,ユーザ,言語現象に包括的かつ公平にするための今後の研究のギャップと方向性を明らかにする。

Deep Contextual Language Models (LMs) like ELMO, BERT, and their successors dominate the landscape of Natural Language Processing due to their ability to scale across multiple tasks rapidly by pre-training a single model, followed by task-specific fine-tuning. Furthermore, multilingual versions of such models like XLM-R and mBERT have given promising results in zero-shot cross-lingual transfer, potentially enabling NLP applications in many under-served and under-resourced languages. Due to this initial success, pre-trained models are being used as `Universal Language Models' as the starting point across diverse tasks, domains, and languages. This work explores the notion of `Universality' by identifying seven dimensions across which a universal model should be able to scale, that is, perform equally well or reasonably well, to be useful across diverse settings. We outline the current theoretical and empirical results that support model performance across these dimensions, along with extensions that may help address some of their current limitations. Through this survey, we lay the foundation for understanding the capabilities and limitations of massive contextual language models and help discern research gaps and directions for future work to make these LMs inclusive and fair to diverse applications, users, and linguistic phenomena.
翻訳日:2021-09-16 15:06:41 公開日:2021-09-15
# マスキング言語モデルの解析における残差および正規化層の導入

Incorporating Residual and Normalization Layers into Analysis of Masked Language Models ( http://arxiv.org/abs/2109.07152v1 )

ライセンス: Link先を確認
Goro Kobayashi, Tatsuki Kuribayashi, Sho Yokoi, Kentaro Inui(参考訳) トランスフォーマーアーキテクチャは自然言語処理の分野で広く普及している。 Transformerベースのモデルを解釈するために、その注意パターンを広範囲に分析した。 しかし、Transformerアーキテクチャはマルチヘッドアテンションで構成されているだけでなく、他のコンポーネントもTransformerのプログレッシブパフォーマンスに貢献している。 本研究では,注意パターンのみから注意ブロック全体,すなわちマルチヘッド注意,残留接続,層正規化まで,トランスフォーマーの解析範囲を広げた。 トランスフォーマーをベースとしたマスキング言語モデルの解析により,トークンとトークンの相互作用が従来想定されていた中間表現にほとんど影響を与えないことが分かる。 これらの結果は、既存のレポートの直感的な説明を提供する。例えば、学習した注意パターンを捨てることは、パフォーマンスに悪影響を及ぼさない傾向がある。 私たちの実験のコードは公開されています。

Transformer architecture has become ubiquitous in the natural language processing field. To interpret the Transformer-based models, their attention patterns have been extensively analyzed. However, the Transformer architecture is not only composed of the multi-head attention; other components can also contribute to Transformers' progressive performance. In this study, we extended the scope of the analysis of Transformers from solely the attention patterns to the whole attention block, i.e., multi-head attention, residual connection, and layer normalization. Our analysis of Transformer-based masked language models shows that the token-to-token interaction performed via attention has less impact on the intermediate representations than previously assumed. These results provide new intuitive explanations of existing reports; for example, discarding the learned attention patterns tends not to adversely affect the performance. The codes of our experiments are publicly available.
翻訳日:2021-09-16 15:06:18 公開日:2021-09-15
# 言語モデルはバイオメディカル知識ベースになれるか?

Can Language Models be Biomedical Knowledge Bases? ( http://arxiv.org/abs/2109.07154v1 )

ライセンス: Link先を確認
Mujeen Sung, Jinhyuk Lee, Sean Yi, Minji Jeon, Sungdong Kim, Jaewoo Kang(参考訳) 様々な自然言語処理(NLP)タスクの解決において,事前学習型言語モデル(LM)が普及している。 lmsが持つ知識と、その知識をいかに抽出し、lmsを知識ベース(kbs)として扱うかについて、関心が高まっている。 一般領域でのLMの探索には多くの研究がなされているが、これらの強力なLMがドメイン固有のKBとして利用できるかどうかについては注目されていない。 この目的のために,バイオメディカルLMを探索するためのバイオメディカル事実知識3倍の49Kのバイオメディカル知識からなるBioLAMAベンチマークを作成する。 近年提案された生物医学的手法により,生物医学的知識の検索において,最大18.51%のAcc@5が得られることがわかった。 課題の難しさを考えると,これは有望なことと思われるが,我々の詳細な分析では,ほとんどの予測は対象のないプロンプトテンプレートと高い相関関係があることが判明している。 バイオラマが生体医学的事実調査の難解な指標になることを願っている。

Pre-trained language models (LMs) have become ubiquitous in solving various natural language processing (NLP) tasks. There has been increasing interest in what knowledge these LMs contain and how we can extract that knowledge, treating LMs as knowledge bases (KBs). While there has been much work on probing LMs in the general domain, there has been little attention to whether these powerful LMs can be used as domain-specific KBs. To this end, we create the BioLAMA benchmark, which is comprised of 49K biomedical factual knowledge triples for probing biomedical LMs. We find that biomedical LMs with recently proposed probing methods can achieve up to 18.51% Acc@5 on retrieving biomedical knowledge. Although this seems promising given the task difficulty, our detailed analyses reveal that most predictions are highly correlated with prompt templates without any subjects, hence producing similar results on each relation and hindering their capabilities to be used as domain-specific KBs. We hope that BioLAMA can serve as a challenging benchmark for biomedical factual probing.
翻訳日:2021-09-16 15:06:05 公開日:2021-09-15
# sweat: 異なるコーパスのトピックの分極をスコアする

SWEAT: Scoring Polarization of Topics across Different Corpora ( http://arxiv.org/abs/2109.07231v1 )

ライセンス: Link先を確認
Federico Bianchi, Marco Marelli, Paolo Nicoli, Matteo Palmonari(参考訳) コーパス間の視点の違いを理解することは、計算社会科学の基本的な課題である。 本稿では,2つの分布表現にまたがる局所的単語セットの相対分極を計算するための新しい統計的尺度であるsliced word embedded association test (sweat)を提案する。 この目的のために、SWEATは2つの異なる極を表すために、反対の原子価を持つと考えられる2つの追加の単語セットを使用する。 提案手法を検証し,本手法の有用性を示すケーススタディを示す。

Understanding differences of viewpoints across corpora is a fundamental task for computational social sciences. In this paper, we propose the Sliced Word Embedding Association Test (SWEAT), a novel statistical measure to compute the relative polarization of a topical wordset across two distributional representations. To this end, SWEAT uses two additional wordsets, deemed to have opposite valence, to represent two different poles. We validate our approach and illustrate a case study to show the usefulness of the introduced measure.
翻訳日:2021-09-16 15:05:44 公開日:2021-09-15
# ベースラインの不合理な有効性:法的テキスト分類におけるSVMの議論

The Unreasonable Effectiveness of the Baseline: Discussing SVMs in Legal Text Classification ( http://arxiv.org/abs/2109.07234v1 )

ライセンス: Link先を確認
Benjamin Clavi\'e and Marc Alphonsus(参考訳) 我々は、法律自然言語処理における進歩に関する議論に引き続き貢献する興味深い傾向を強調したい。 近年,ほとんどの法的テキスト分類タスクは,BERTのような大規模学習モデルにシフトしている。 本稿では,サポートベクタマシン分類器に基づく従来型アプローチが,ディープラーニングモデルと競合する性能に達することを示す。 また,ベースライン上での特定BERTモデルを用いた誤差低減は,一般的な言語タスクと比較して法域において顕著に小さいことを強調した。 今後の議論を支援するための仮説を議論する。

We aim to highlight an interesting trend to contribute to the ongoing debate around advances within legal Natural Language Processing. Recently, the focus for most legal text classification tasks has shifted towards large pre-trained deep learning models such as BERT. In this paper, we show that a more traditional approach based on Support Vector Machine classifiers reaches competitive performance with deep learning models. We also highlight that error reduction obtained by using specialised BERT-based models over baselines is noticeably smaller in the legal domain when compared to general language tasks. We discuss some hypotheses for these results to support future discussions.
翻訳日:2021-09-16 15:05:35 公開日:2021-09-15
# 予測否定手がかりのスコープ分解:2段階ニューラルネットワークによるアプローチ

Scope resolution of predicted negation cues: A two-step neural network-based approach ( http://arxiv.org/abs/2109.07264v1 )

ライセンス: Link先を確認
Daan de Jong(参考訳) ニューラルネットワークに基づく手法は、否定的スコープ解決の最先端技術である。 しかし、しばしば、手がかり情報が完全に正確であるという非現実的な仮定を用いる。 この仮定が成り立つとしても、最先端の機械学習手法によるエンジニアリング機能への依存は残る。 本研究は,2段階の否定解法を用いて,双方向長短期記憶法がキュー検出にも有効か,不正確なキュー予測がスコープ分解性能にどのように影響するかを検証した。 その結果, 本手法は否定検出には適さないことが示唆された。 スコープ解像度性能は、条件付きランダムフィールド層や後処理アルゴリズムによる拡張と比較して、反復層のみを持つモデルの不正確な情報に対して最も堅牢である。 我々は、深層学習の否定検出への応用と、不完全な情報がスコープ解決に与える影響について、さらなる研究を提唱する。

Neural network-based methods are the state of the art in negation scope resolution. However, they often use the unrealistic assumption that cue information is completely accurate. Even if this assumption holds, there remains a dependency on engineered features from state-of-the-art machine learning methods. The current study adopted a two-step negation resolving apporach to assess whether a Bidirectional Long Short-Term Memory-based method can be used for cue detection as well, and how inaccurate cue predictions would affect the scope resolution performance. Results suggest that this method is not suitable for negation detection. Scope resolution performance is most robust against inaccurate information for models with a recurrent layer only, compared to extensions with a Conditional Random Fields layer or a post-processing algorithm. We advocate for more research into the application of deep learning on negation detection and the effect of imperfect information on scope resolution.
翻訳日:2021-09-16 15:05:26 公開日:2021-09-15
# シーケンス長はドメインである:トランスフォーマーモデルにおける長さに基づくオーバーフィッティング

Sequence Length is a Domain: Length-based Overfitting in Transformer Models ( http://arxiv.org/abs/2109.07276v1 )

ライセンス: Link先を確認
Du\v{s}an Vari\v{s} and Ond\v{r}ej Bojar(参考訳) トランスフォーマーベースのシーケンス・ツー・シーケンスアーキテクチャは、多くのNLPタスクで最先端の結果を達成する一方で、トレーニング中に過度な適合に悩まされる可能性がある。 実際には、これは通常、正規化法(例えば、ドロップアウト、l2-正規化)を適用するか、大量のトレーニングデータを提供することで対処される。 さらにTransformerや他のアーキテクチャは、非常に長いシーケンスを生成するのに苦労することが知られている。 例えば、機械翻訳では、前回のフレーズベースの翻訳アプローチ(Koehn and Knowles, 2017)と比較して、ニューラルネットワークシステムは非常に長いシーケンスでより良く動作する。 本報告では,トレーニングデータの長さ分布と検証データとのミスマッチとニューラルネットワークがトレーニングデータに過剰に適合する傾向との相関が問題となる可能性を示唆する。 トレーニングデータ中の長さ分布から分岐する長さ列に直面すると,トランスフォーマーモデルの性能が著しく低下する,単純な文字列編集タスクと機械翻訳タスクを実証する。 また,実測結果の低下は,入力列の長さではなく,モデルがトレーニング中に見た長さに対応する仮説長によるものであることを示した。

Transformer-based sequence-to-sequence architectures, while achieving state-of-the-art results on a large number of NLP tasks, can still suffer from overfitting during training. In practice, this is usually countered either by applying regularization methods (e.g. dropout, L2-regularization) or by providing huge amounts of training data. Additionally, Transformer and other architectures are known to struggle when generating very long sequences. For example, in machine translation, the neural-based systems perform worse on very long sequences when compared to the preceding phrase-based translation approaches (Koehn and Knowles, 2017). We present results which suggest that the issue might also be in the mismatch between the length distributions of the training and validation data combined with the aforementioned tendency of the neural networks to overfit to the training data. We demonstrate on a simple string editing task and a machine translation task that the Transformer model performance drops significantly when facing sequences of length diverging from the length distribution in the training data. Additionally, we show that the observed drop in performance is due to the hypothesis length corresponding to the lengths seen by the model during training rather than the length of the input sequence.
翻訳日:2021-09-16 15:05:14 公開日:2021-09-15
# 言語間言語モデル事前学習のための大語彙容量の割り当て

Allocating Large Vocabulary Capacity for Cross-lingual Language Model Pre-training ( http://arxiv.org/abs/2109.07306v1 )

ライセンス: Link先を確認
Bo Zheng, Li Dong, Shaohan Huang, Saksham Singhal, Wanxiang Che, Ting Liu, Xia Song, Furu Wei(参考訳) 単言語モデルと比較して、言語間モデルは通常、すべての言語を適切に表現するためにより表現力のある語彙を必要とする。 最近の言語間言語モデルでは語彙の容量が限られているため,多くの言語が不足していることがわかった。 そこで本研究では,各言語の語彙能力を決定するアルゴリズムであるVoCapを提案する。 しかし,語彙サイズの増大は,事前学習速度を著しく低下させる。 この問題に対処するために,k-NNに基づくターゲットサンプリングを提案し,コストの高いソフトマックスを高速化する。 実験の結果,VoCapで学習した多言語語彙は言語間言語モデルの事前学習に有効であることがわかった。 さらに、k-nnベースのターゲットサンプリングは語彙サイズを増加させる副作用を軽減し、同等の性能を達成し、事前学習速度を高速化する。 コードと事前訓練された多言語語彙はhttps://github.com/b ozheng-hit/VoCapXLMで入手できる。

Compared to monolingual models, cross-lingual models usually require a more expressive vocabulary to represent all languages adequately. We find that many languages are under-represented in recent cross-lingual language models due to the limited vocabulary capacity. To this end, we propose an algorithm VoCap to determine the desired vocabulary capacity of each language. However, increasing the vocabulary size significantly slows down the pre-training speed. In order to address the issues, we propose k-NN-based target sampling to accelerate the expensive softmax. Our experiments show that the multilingual vocabulary learned with VoCap benefits cross-lingual language model pre-training. Moreover, k-NN-based target sampling mitigates the side-effects of increasing the vocabulary size while achieving comparable performance and faster pre-training speed. The code and the pretrained multilingual vocabularies are available at https://github.com/b ozheng-hit/VoCapXLM.
翻訳日:2021-09-16 15:04:54 公開日:2021-09-15
# ドイツ憎悪者コミュニティ調査のためのtelegram用乱用言語分類フレームワークの導入

Introducing an Abusive Language Classification Framework for Telegram to Investigate the German Hater Community ( http://arxiv.org/abs/2109.07346v1 )

ライセンス: Link先を確認
Maximilian Wich, Adrian Gorniak, Tobias Eder, Daniel Bartmann, Burak Enes \c{C}akici, Georg Groh(参考訳) 従来のソーシャルメディアプラットフォームでは、ヘイトスピーチやその他の乱用言語(デプラットフォーム)を配布するアクターが増えているため、これらのアクターは、ユーザーのコンテンツを穏健にしない代替プラットフォームに移行する。 ドイツの憎しみコミュニティに関係のあるプラットフォームとして、Telegramがある。 本研究の目的は,広義の枠組みを開発することである。 (i)ドイツの電文メッセージに対する乱用言語分類モデルと (ii)テレグラムチャンネルの憎悪の分類モデル まず、他のプラットフォームからの投稿を含む既存の乱用言語データセットを使用して分類モデルを構築します。 チャネル分類モデルのために,トピックモデルからのチャネル固有のコンテンツ情報をソーシャルグラフと組み合わせ,チャネルの憎悪度を予測する手法を開発した。 さらに,ドイツのテレグラムにおける憎悪コミュニティの発展に関する洞察に富んだ結果とともに,これら2つのヘイトスピーチ検出手法を補完する。 さらに,ソーシャルメディアプラットフォームのためのスケーラブルなネットワーク分析のためのヘイトスピーチ研究コミュニティに提案手法を提案する。 本研究のさらなるアウトプットとして,1,149件のTelegramメッセージを含むアノテート乱用言語データセットを作成した。

Since traditional social media platforms ban more and more actors that distribute hate speech or other forms of abusive language (deplatforming), these actors migrate to alternative platforms that do not moderate the users' content. One known platform that is relevant for the German hater community is Telegram, for which there have only been made limited research efforts so far. The goal of this study is to develop a broad framework that consists of (i) an abusive language classification model for German Telegram messages and (ii) a classification model for the hatefulness of Telegram channels. For the first part, we employ existing abusive language datasets containing posts from other platforms to build our classification models. For the channel classification model, we develop a method that combines channel specific content information coming from a topic model with a social graph to predict the hatefulness of channels. Furthermore, we complement these two approaches for hate speech detection with insightful results on the evolution of the hater community on Telegram in Germany. Moreover, we propose methods to the hate speech research community for scalable network analyses for social media platforms. As an additional output of the study, we release an annotated abusive language dataset containing 1,149 annotated Telegram messages.
翻訳日:2021-09-16 15:04:42 公開日:2021-09-15
# モービー・ディック」はクジラか鳥ですか。 音声翻訳における名前付きエンティティと用語

Is "moby dick" a Whale or a Bird? Named Entities and Terminology in Speech Translation ( http://arxiv.org/abs/2109.07439v1 )

ライセンス: Link先を確認
Marco Gaido, Susana Rodr\'iguez, Matteo Negri, Luisa Bentivogli and Marco Turchi(参考訳) 自動翻訳システムは稀な単語に苦しむことが知られている。 これらのうち、名前付きエンティティ(nes)とドメイン固有の用語は、翻訳の誤りが深刻な意味の歪みを引き起こす可能性があるため、重要である。 その重要性にもかかわらず、以前の音声翻訳(ST)研究はそれらを無視してきた。 このギャップを埋めるために 一 NEと用語の翻訳における最先端STシステムの挙動に関する最初の系統的分析及び 二 欧州議会の演説にnes及び用語を注釈した新しいベンチマークであるneuroparl-stをリリースすること。 我々のベンチマーク(en->es/fr/it)による3つの言語方向に関する実験では、STシステムは75-80%の用語と65-70%のNEを正しく翻訳し、人名に対して非常に低い性能(37-40%)を示す。

Automatic translation systems are known to struggle with rare words. Among these, named entities (NEs) and domain-specific terms are crucial, since errors in their translation can lead to severe meaning distortions. Despite their importance, previous speech translation (ST) studies have neglected them, also due to the dearth of publicly available resources tailored to their specific evaluation. To fill this gap, we i) present the first systematic analysis of the behavior of state-of-the-art ST systems in translating NEs and terminology, and ii) release NEuRoparl-ST, a novel benchmark built from European Parliament speeches annotated with NEs and terminology. Our experiments on the three language directions covered by our benchmark (en->es/fr/it) show that ST systems correctly translate 75-80% of terms and 65-70% of NEs, with very low performance (37-40%) on person names.
翻訳日:2021-09-16 15:04:25 公開日:2021-09-15
# 適応トークン化による言語モデルの効率的なドメイン適応

Efficient Domain Adaptation of Language Models via Adaptive Tokenization ( http://arxiv.org/abs/2109.07460v1 )

ライセンス: Link先を確認
Vin Sachidananda and Jason S. Kessler and Yi-an Lai(参考訳) BERTやRoBERTaといった大規模データセットでトレーニングされたコンテキスト埋め込みベースの言語モデルは、幅広いタスクにわたって強力なパフォーマンスを提供し、現代のNLPではユビキタスである。 これらのモデルを、事前訓練されたドメインと異なる領域のデータを含むタスクで微調整することは、最適以下のパフォーマンスをもたらすことが観察されている。 最近の研究は、新しいドメインに事前学習された言語モデルを適用するためのアプローチを探っている。 本稿では,事前学習した言語モデルを新しいドメインに変換するための代替手法を提案する。 ドメイン固有のサブワードシーケンスは,ベースおよびドメイン固有のコーパスの条件付きトークン分布の分岐から直接的に決定できることを示す。 4つの異なるドメインからのデータセットでは、事前トレーニングされたRoBERTaモデルの適応トークン化により、ドメイン固有の事前トレーニングのパフォーマンスメリットの97%が提供される。 当社のアプローチは,tokenizer拡張を使用する他のアプローチよりも,モデルが小さく,トレーニングや推論時間の短縮を実現しています。 適応トークン化は10k個の新しいドメイン固有トークンの導入により,実験においてモデルパラメータが6%増加する一方,64個のvCPUを用いたアプローチは,8個のTPU上でのドメイン固有コーパス上での言語モデルの事前学習よりも72倍高速である。

Contextual embedding-based language models trained on large data sets, such as BERT and RoBERTa, provide strong performance across a wide range of tasks and are ubiquitous in modern NLP. It has been observed that fine-tuning these models on tasks involving data from domains different from that on which they were pretrained can lead to suboptimal performance. Recent work has explored approaches to adapt pretrained language models to new domains by incorporating additional pretraining using domain-specific corpora and task data. We propose an alternative approach for transferring pretrained language models to new domains by adapting their tokenizers. We show that domain-specific subword sequences can be efficiently determined directly from divergences in the conditional token distributions of the base and domain-specific corpora. In datasets from four disparate domains, we find adaptive tokenization on a pretrained RoBERTa model provides >97% of the performance benefits of domain specific pretraining. Our approach produces smaller models and less training and inference time than other approaches using tokenizer augmentation. While adaptive tokenization incurs a 6% increase in model parameters in our experimentation, due to the introduction of 10k new domain-specific tokens, our approach, using 64 vCPUs, is 72x faster than further pretraining the language model on domain-specific corpora on 8 TPUs.
翻訳日:2021-09-16 15:04:07 公開日:2021-09-15
# AnnIE: 完全なオープン情報抽出ベンチマークを構築するためのアノテーションプラットフォーム

AnnIE: An Annotation Platform for Constructing Complete Open Information Extraction Benchmark ( http://arxiv.org/abs/2109.07464v1 )

ライセンス: Link先を確認
Niklas Friedrich, Kiril Gashteovski, Mingying Yu, Bhushan Kotnis, Carolin Lawrence, Mathias Niepert, Goran Glava\v{s}(参考訳) オープン情報抽出(OIE)は、関係の形で文から事実を抽出し、それに対応する議論をスキーマフリーで行うタスクである。 OIEシステムの本質的な性能は、既存のOIEベンチマークの不完全性のため測定が難しい: 基底真理抽出は、文から抽出できる同じ事実のすべての許容面実現をグループ化しない。 OIEシステムの性能をより現実的に測定するには、入力文から完全な事実(すなわち、同じ事実の全ての許容面実現のクラスタ)を手動でアノテートする必要がある。 我々は,このような難易度の高いアノテーションタスクを支援するインタラクティブなアノテーションプラットフォームAnnIEを提案し,完全なファクト指向OIE評価ベンチマークの作成をサポートする。 AnnIEは、異なるユースケースシナリオ(例えば、異なる種類の事実をカバーするベンチマーク)をサポートするためにモジュール化され、柔軟である。 私たちはAnnIEを使って2つの完全なOIEベンチマークを構築しています。 最後に、AnnIEで作成した完全なベンチマークに基づいて複数のOIEシステムを評価する。 以上の結果から,既存の不完全ベンチマークは過度に寛大であり,OIEシステムは以前報告したほど堅牢ではないことが示唆された。 非制限ライセンスでAnnIEを公開しています。

Open Information Extraction (OIE) is the task of extracting facts from sentences in the form of relations and their corresponding arguments in schema-free manner. Intrinsic performance of OIE systems is difficult to measure due to the incompleteness of existing OIE benchmarks: the ground truth extractions do not group all acceptable surface realizations of the same fact that can be extracted from a sentence. To measure performance of OIE systems more realistically, it is necessary to manually annotate complete facts (i.e., clusters of all acceptable surface realizations of the same fact) from input sentences. We propose AnnIE: an interactive annotation platform that facilitates such challenging annotation tasks and supports creation of complete fact-oriented OIE evaluation benchmarks. AnnIE is modular and flexible in order to support different use case scenarios (i.e., benchmarks covering different types of facts). We use AnnIE to build two complete OIE benchmarks: one with verb-mediated facts and another with facts encompassing named entities. Finally, we evaluate several OIE systems on our complete benchmarks created with AnnIE. Our results suggest that existing incomplete benchmarks are overly lenient, and that OIE systems are not as robust as previously reported. We publicly release AnnIE under non-restrictive license.
翻訳日:2021-09-16 15:03:44 公開日:2021-09-15
# マルコフ決定過程のステートエイリアスによる人的実行エラーを考慮に入れた合成法

Synthesizing Policies That Account For Human Execution Errors Caused By StateAliasing In Markov Decision Processes ( http://arxiv.org/abs/2109.07436v1 )

ライセンス: Link先を確認
Sriram Gopalakrishnan, Mudit Verma, Subbarao Kambhampati(参考訳) 人間が実行するポリシーが与えられると、状態を特定する上で不確実性がある場合、po-icyの実行エラーや実行時の逸脱が発生する可能性がある。 したがって、人間が実行するためのアルゴリズムは、その計算にこれらの効果を考慮すべきである。 最適なmdpポリシーは、(人間のエージェントのために)(おそらく)、より少ないエラーで実行される他のポリシーよりもはるかに悪い。 本稿では,マルコフ決定プロセス(MDP)によってモデル化された設定で機能する人間エージェントの計算ポリシーにおいて,誤った実行と前処理遅延の問題を考察する。 我々は, 状態の不確実性による非政治的行為様不動(デレイ)の可能性と, 政治的実行誤差の可能性をモデル化する枠組みを提案する。 続いてヒルクライミングアルゴリズムが、これらのエラーを考慮に入れた適切なポリシーを探索する。 次に、分岐と有界なアルゴリズムでバイヒルクライミングの最良のポリシーを使い、最適ポリシーを見つけます。 我々はグリッドワールドドメインで実験結果を示し、2つのアルゴリズムの性能を解析し、また、状態認識下での人間による仮定ポリシーの実行が許容可能かどうかを検証した。

When humans are given a policy to execute, there can be pol-icy execution errors and deviations in execution if there is un-certainty in identifying a state. So an algorithm that computesa policy for a human to execute ought to consider these effectsin its computations. An optimal MDP policy that is poorly ex-ecuted (because of a human agent) maybe much worse thananother policy that is executed with fewer errors. In this pa-per, we consider the problems of erroneous execution and ex-ecution delay when computing policies for a human agent thatwould act in a setting modeled by a Markov Decision Process(MDP). We present a framework to model the likelihood ofpolicy execution errors and likelihood of non-policy actionslike inaction (delays) due to state uncertainty. This is followedby a hill climbing algorithm to search for good policies thataccount for these errors. We then use the best policy found byhill climbing with a branch and bound algorithm to find theoptimal policy. We show experimental results in a Gridworlddomain and analyze the performance of the two algorithms.We also present human studies that verify if our assumptionson policy execution by humans under state-aliasing are rea-sonable.
翻訳日:2021-09-16 15:03:24 公開日:2021-09-15
# PnP-DETR:変換器を用いた効率的な視覚解析を目指して

PnP-DETR: Towards Efficient Visual Analysis with Transformers ( http://arxiv.org/abs/2109.07036v1 )

ライセンス: Link先を確認
Tao Wang, Li Yuan, Yunpeng Chen, Jiashi Feng, Shuicheng Yan(参考訳) 近年、DETR~\cite{carion2020end} はトランスフォーマーを用いた視覚タスクの解法を開拓し、画像特徴写像を直接オブジェクト検出結果に変換する。 有効ではあるが、背景のような領域で冗長な計算を行うため、フル機能マップの翻訳はコストがかかる可能性がある。 本研究では,空間的冗長性を削減するという考え方を新しいpnpサンプリングモジュールにカプセル化し,その計算を空間的に適応的に割り当ててより効率的にするエンドツーエンドのpnp-detrアーキテクチャを構築する。 具体的には、PnPモジュールは画像特徴マップを微細な前景オブジェクト特徴ベクトルと、少数の粗い背景背景特徴ベクトルに抽象化する。 トランスフォーマーは、細粒度特徴空間内の情報相互作用をモデル化し、特徴を検出結果に変換する。 さらに、PnP拡張モデルは、既存の手法として複数のモデルを訓練することなく、サンプル特徴長を変化させることにより、単一モデルによる性能と計算の間の様々なトレードオフを即座に達成することができる。 これにより、さまざまな計算制約のあるさまざまなシナリオでのデプロイメントの柔軟性が向上する。 さらに、PnP モジュールの \textbf{panoptic segmentation} 上の一般化性と、最近の変換器ベース画像認識モデル {\textbf{ViT}}~\cite{dosovitskiy2020image } の一般化性を検証し、一貫した効率向上を示す。 我々は,この手法が,空間冗長性をよく観察するトランスフォーマーを用いた効率的な視覚解析のステップとなると信じている。 コードは \url{https://github.com/t wangnh/pnp-detr}で入手できる。

Recently, DETR~\cite{carion2020end} pioneered the solution of vision tasks with transformers, it directly translates the image feature map into the object detection result. Though effective, translating the full feature map can be costly due to redundant computation on some area like the background. In this work, we encapsulate the idea of reducing spatial redundancy into a novel poll and pool (PnP) sampling module, with which we build an end-to-end PnP-DETR architecture that adaptively allocates its computation spatially to be more efficient. Concretely, the PnP module abstracts the image feature map into fine foreground object feature vectors and a small number of coarse background contextual feature vectors. The transformer models information interaction within the fine-coarse feature space and translates the features into the detection result. Moreover, the PnP-augmented model can instantly achieve various desired trade-offs between performance and computation with a single model by varying the sampled feature length, without requiring to train multiple models as existing methods. Thus it offers greater flexibility for deployment in diverse scenarios with varying computation constraint. We further validate the generalizability of the PnP module on \textbf{panoptic segmentation} and the recent transformer-based image recognition model {\textbf{ViT}}~\cite{dosovitskiy2020image } and show consistent efficiency gain. We believe our method makes a step for efficient visual analysis with transformers, wherein spatial redundancy is commonly observed. Code will be available at \url{https://github.com/t wangnh/pnp-detr}.
翻訳日:2021-09-16 15:01:53 公開日:2021-09-15
# 意味合成による画像合成

Image Synthesis via Semantic Composition ( http://arxiv.org/abs/2109.07053v1 )

ライセンス: Link先を確認
Yi Wang, Lu Qi, Ying-Cong Chen, Xiangyu Zhang, Jiaya Jia(参考訳) 本稿では,その意味的レイアウトに基づいて現実的なイメージを合成する新しい手法を提案する。 類似した外観を持つ物体に対して、類似した表現を共有するという仮説が立てられている。 本手法は, 空間的変化と関連表現の両方を生じる, 外観相関による領域間の依存関係を確立する。 これらの特徴を条件付けして,(畳み込みと正規化を併用した)空間的条件付き計算により構築した動的重み付きネットワークを提案する。 意味的区別を保存すること以上に、与えられた動的ネットワークは意味的関連性を強化し、グローバルな構造と詳細合成の恩恵を受ける。 提案手法は,ベンチマーク実験により,説得力のある生成性能を質的かつ定量的に評価する。

In this paper, we present a novel approach to synthesize realistic images based on their semantic layouts. It hypothesizes that for objects with similar appearance, they share similar representation. Our method establishes dependencies between regions according to their appearance correlation, yielding both spatially variant and associated representations. Conditioning on these features, we propose a dynamic weighted network constructed by spatially conditional computation (with both convolution and normalization). More than preserving semantic distinctions, the given dynamic network strengthens semantic relevance, benefiting global structure and detail synthesis. We demonstrate that our method gives the compelling generation performance qualitatively and quantitatively with extensive experiments on benchmarks.
翻訳日:2021-09-16 15:01:24 公開日:2021-09-15
# anchor detr:transformerベースの検出器のクエリ設計

Anchor DETR: Query Design for Transformer-Based Detector ( http://arxiv.org/abs/2109.07107v1 )

ライセンス: Link先を確認
Yingming Wang, Xiangyu Zhang, Tong Yang, Jian Sun(参考訳) 本稿では,トランス型検出器のための新しい問合せ設計を提案する。 以前のtransformerベースの検出器では、オブジェクトクエリは学習した埋め込みのセットである。 しかし,各組込みは明示的な物理的意味を持たず,どこに焦点をあてるかは説明できない。 各オブジェクトクエリの予測スロットが特定のモードを持っていないため、最適化することは困難である。 言い換えれば、それぞれのオブジェクトクエリは、特定の領域に焦点を合わせません。 これらの問題を解決するため、我々のクエリ設計では、オブジェクトクエリはアンカーポイントに基づいており、CNNベースの検出器で広く使われている。 したがって、各オブジェクトクエリはアンカーポイント近くのオブジェクトにフォーカスします。 さらに、クエリ設計では、複数のオブジェクトを一つの位置で予測することで、"ひとつの領域、複数のオブジェクト"という難しさを解決することができる。 さらに,detrの標準注目値と同等あるいは優れた性能を実現しつつ,メモリコストを低減できる注意型を設計した。 クエリ設計とアテンションバリアントにより、Anchor DETRと呼ばれる提案された検出器は、10$\times$より少ないトレーニングエポックでより優れたパフォーマンスを実現し、DETRよりも高速に動作することができる。 例えば、50エポックのトレーニングにResNet50-DC5機能を使用する場合、MSCOCOデータセット上で16 FPSで44.2 APを達成した。 MSCOCOベンチマークの大規模な実験により,提案手法の有効性が証明された。 コードはhttps://github.com/m egvii-model/AnchorDE TRで入手できる。

In this paper, we propose a novel query design for the transformer-based detectors. In previous transformer-based detectors, the object queries are a set of learned embeddings. However, each learned embedding does not have an explicit physical meaning and we can not explain where it will focus on. It is difficult to optimize as the prediction slot of each object query does not have a specific mode. In other words, each object query will not focus on a specific region. To solved these problems, in our query design, object queries are based on anchor points, which are widely used in CNN-based detectors. So each object query focus on the objects near the anchor point. Moreover, our query design can predict multiple objects at one position to solve the difficulty: "one region, multiple objects". In addition, we design an attention variant, which can reduce the memory cost while achieving similar or better performance than the standard attention in DETR. Thanks to the query design and the attention variant, the proposed detector that we called Anchor DETR, can achieve better performance and run faster than the DETR with 10$\times$ fewer training epochs. For example, it achieves 44.2 AP with 16 FPS on the MSCOCO dataset when using the ResNet50-DC5 feature for training 50 epochs. Extensive experiments on the MSCOCO benchmark prove the effectiveness of the proposed methods. Code is available at https://github.com/m egvii-model/AnchorDE TR.
翻訳日:2021-09-16 15:01:15 公開日:2021-09-15
# MISSFormer:効果的な医用画像分割変換器

MISSFormer: An Effective Medical Image Segmentation Transformer ( http://arxiv.org/abs/2109.07162v1 )

ライセンス: Link先を確認
Xiaohong Huang, Zhifang Deng, Dandan Li, Xueguang Yuan(参考訳) CNNベースの手法は, 医用画像分割において顕著な結果を得たが, 畳み込み操作の局所性のため, 長距離依存を捉えられなかった。 トランスフォーマティブベースのメソッドは最近、長期依存の能力があり、有望なパフォーマンスを得られるため、ビジョンタスクで人気がある。 しかし、局所的な文脈のモデリングには欠如しているが、この問題を克服するために畳み込み層を組み込むことを試み、いくつかの改善を達成した作品もあるが、この機能は一貫性を持たず、モデルの性能を制限する階層的トランスフォーマーの自然なマルチスケールな特徴を活用できない。 本稿では,医療用画像セグメンテーションを例として,有効かつ強力な医用画像セグメンテーショントランスであるmissformerを提案する。 MISSFormerは階層型エンコーダデコーダネットワークであり、2つの魅力的な設計がある。 1) フィードフォワードネットワークは,拡張トランスフォーマーブロック(Enhanced Transformer Block)によって再設計された。 2) 拡張変換器コンテキストブリッジは拡張変換器ブロックを備えたコンテキストブリッジであり,階層変換器エンコーダが生成するマルチスケール機能の長距離依存性と局所的コンテキストをモデル化する。 この2つの設計により、ミスフォーマーは医療画像のセグメンテーションにおいてより価値のある依存関係とコンテキストをキャプチャする能力を示す。 マルチオルガンおよび心臓分節タスクの実験では,ミスフォーマの優劣,有効性,頑健性,スクラッチからトレーニングしたミスフォーマの体験結果がimagenetで事前学習した最先端の手法よりも優れており,コアデザインは他の視覚分節タスクに一般化することができる。 コードはgithubでリリースされる予定だ。

The CNN-based methods have achieved impressive results in medical image segmentation, but it failed to capture the long-range dependencies due to the inherent locality of convolution operation. Transformer-based methods are popular in vision tasks recently because of its capacity of long-range dependencies and get a promising performance. However, it lacks in modeling local context, although some works attempted to embed convolutional layer to overcome this problem and achieved some improvement, but it makes the feature inconsistent and fails to leverage the natural multi-scale features of hierarchical transformer, which limit the performance of models. In this paper, taking medical image segmentation as an example, we present MISSFormer, an effective and powerful Medical Image Segmentation tranSFormer. MISSFormer is a hierarchical encoder-decoder network and has two appealing designs: 1) A feed forward network is redesigned with the proposed Enhanced Transformer Block, which makes features aligned adaptively and enhances the long-range dependencies and local context. 2) We proposed Enhanced Transformer Context Bridge, a context bridge with the enhanced transformer block to model the long-range dependencies and local context of multi-scale features generated by our hierarchical transformer encoder. Driven by these two designs, the MISSFormer shows strong capacity to capture more valuable dependencies and context in medical image segmentation. The experiments on multi-organ and cardiac segmentation tasks demonstrate the superiority, effectiveness and robustness of our MISSFormer, the exprimental results of MISSFormer trained from scratch even outperforms state-of-the-art methods pretrained on ImageNet, and the core designs can be generalized to other visual segmentation tasks. The code will be released in Github.
翻訳日:2021-09-16 15:00:53 公開日:2021-09-15
# 野生における任意物体の3次元アノテーション

3D Annotation Of Arbitrary Objects In The Wild ( http://arxiv.org/abs/2109.07165v1 )

ライセンス: Link先を確認
Kenneth Blomqvist, Julius Hietala(参考訳) 近年、コンピュータビジョンとロボット工学の文脈において、学習に基づく様々な手法が生み出されている。 最近提案されたほとんどの方法は、従来の方法に比べて非常に大量のデータを必要とするディープラーニングに基づいている。 深層学習手法の性能は、学習したデータ分布に大きく依存しており、訓練中にロボットの実際の操作領域のデータを使用することが重要である。 したがって、ロボットを実環境にデプロイする際には、事前に構築された汎用データセットに頼ることはできず、ロボットが運用する特定の運用環境において、効率的なデータ収集とアノテーションの必要性が生じる。 課題は、そのようなデータセットを取得するコストを、新しい状況、環境、そして新しいセンサーをサポートするために、ロボットを簡単にデプロイできるポイントまで削減する方法だ。 本稿ではSLAM, 3D再構成, 3D-to-2D形状に基づくデータアノテーションパイプラインを提案する。 データ収集やアノテーションの前に、オブジェクトの正確な3Dモデルを必要とせずに、任意のオブジェクトのピクセル単位のアノテーションとともに、3Dおよび2Dバウンディングボックスを作成することができる。 本研究は, 意味的セグメンテーションと2次元境界ボックス検出の両面でのIoU(Intersection-ove r-Union, Intersection-over-Un ion)の約90%の一致を示すとともに, アノテーション処理を従来の手動アノテーションと比較して桁違いに高速化した。

Recent years have produced a variety of learning based methods in the context of computer vision and robotics. Most of the recently proposed methods are based on deep learning, which require very large amounts of data compared to traditional methods. The performance of the deep learning methods are largely dependent on the data distribution they were trained on, and it is important to use data from the robot's actual operating domain during training. Therefore, it is not possible to rely on pre-built, generic datasets when deploying robots in real environments, creating a need for efficient data collection and annotation in the specific operating conditions the robots will operate in. The challenge is then: how do we reduce the cost of obtaining such datasets to a point where we can easily deploy our robots in new conditions, environments and to support new sensors? As an answer to this question, we propose a data annotation pipeline based on SLAM, 3D reconstruction, and 3D-to-2D geometry. The pipeline allows creating 3D and 2D bounding boxes, along with per-pixel annotations of arbitrary objects without needing accurate 3D models of the objects prior to data collection and annotation. Our results showcase almost 90% Intersection-over-Un ion (IoU) agreement on both semantic segmentation and 2D bounding box detection across a variety of objects and scenes, while speeding up the annotation process by several orders of magnitude compared to traditional manual annotation.
翻訳日:2021-09-16 15:00:21 公開日:2021-09-15
# 物体検出におけるピラミッドレベルの進行的ハードケースマイニング

Progressive Hard-case Mining across Pyramid Levels in Object Detection ( http://arxiv.org/abs/2109.07217v1 )

ライセンス: Link先を確認
Binghong Wu, Yehui Yang, Dalu Yang, Junde Wu, Haifeng Huang, Lei Wang, Junwei Liu, Yanwu Xu(参考訳) 物体検出では、マルチレベル予測(FPN、YOLOなど)と再サンプリング技術(焦点損失、ATSSなど)が一段検出性能を大幅に改善した。 しかし、機能ピラミッドレベルの最適化によってパフォーマンスを改善する方法はまだ未定である。 トレーニング中、負のサンプルに対する正の比率はピラミッドのレベル (\emph{level imbalance}) によって異なり、これは現在の1段階の検出器では対処されない。 レベル不均衡の影響を仲介するために,2つのコンポーネントからなる統一多レベル最適化パラダイム(UMOP)を提案する。 1) 各ピラミッドレベルを個別のサンプルで監督する独立した分類損失 2) ピラミッドレベル全体の損失を, 余分なレベルの設定を伴わずに, 段階的なハードケース採掘損失が生じた。 UMOPをプラグアンドプレイ方式として、現代のワンステージ検出器は、トレーニングのイテレーションを減らし、計算オーバーヘッドを増やすことなく、1.5APの改善を達成できる。 ベストモデルはCOCOテストデブで55.1 APを達成した。 コードはhttps://github.com/z imoqingfeng/umopで入手できる。

In object detection, multi-level prediction (e.g., FPN, YOLO) and resampling skills (e.g., focal loss, ATSS) have drastically improved one-stage detector performance. However, how to improve the performance by optimizing the feature pyramid level-by-level remains unexplored. We find that, during training, the ratio of positive over negative samples varies across pyramid levels (\emph{level imbalance}), which is not addressed by current one-stage detectors. To mediate the influence of level imbalance, we propose a Unified Multi-level Optimization Paradigm (UMOP) consisting of two components: 1) an independent classification loss supervising each pyramid level with individual resampling considerations; 2) a progressive hard-case mining loss defining all losses across the pyramid levels without extra level-wise settings. With UMOP as a plug-and-play scheme, modern one-stage detectors can attain a ~1.5 AP improvement with fewer training iterations and no additional computation overhead. Our best model achieves 55.1 AP on COCO test-dev. Code is available at https://github.com/z imoqingfeng/UMOP.
翻訳日:2021-09-16 14:59:58 公開日:2021-09-15
# カスケード型相互情報最小化によるRGB-D残差検出

RGB-D Saliency Detection via Cascaded Mutual Information Minimization ( http://arxiv.org/abs/2109.07246v1 )

ライセンス: Link先を確認
Jing Zhang and Deng-Ping Fan and Yuchao Dai and Xin Yu and Yiran Zhong and Nick Barnes and Ling Shao(参考訳) 既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。 本稿では,RGB画像と深度データの間のマルチモーダル情報を「明示的に」モデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。 具体的には、まず、各モードの特徴を低次元特徴ベクトルにマッピングし、相互情報の最小化をレギュレータとして採用し、RGBと幾何学的特徴との冗長性を深さから低減する。 次に,ネットワークの各段階に相互情報最小化制約を課すために,多段階カスケード学習を行う。 ベンチマークRGB-Dサリエンシデータセットに関する大規模な実験は、我々のフレームワークの有効性を示している。 さらに,この分野の発展を促進するために,15,625のイメージペアと高品質なポリゴン/クリブル/オブジェクト/インスタンス/ランクレベルのアノテーションを含む,nju2kより7倍大きいデータセットをコントリビュートする。 これらのリッチなラベルに基づいて、強力なベースラインを持つ4つの新しいベンチマークを構築し、将来のモデル設計を動機付ける興味深い現象を観察します。 ソースコードとデータセットは"https://github.com/j ingzhang617/cascaded _rgbd_sod"で入手できる。

Existing RGB-D saliency detection models do not explicitly encourage RGB and depth to achieve effective multi-modal learning. In this paper, we introduce a novel multi-stage cascaded learning framework via mutual information minimization to "explicitly" model the multi-modal information between RGB image and depth data. Specifically, we first map the feature of each mode to a lower dimensional feature vector, and adopt mutual information minimization as a regularizer to reduce the redundancy between appearance features from RGB and geometric features from depth. We then perform multi-stage cascaded learning to impose the mutual information minimization constraint at every stage of the network. Extensive experiments on benchmark RGB-D saliency datasets illustrate the effectiveness of our framework. Further, to prosper the development of this field, we contribute the largest (7x larger than NJU2K) dataset, which contains 15,625 image pairs with high quality polygon-/scribble-/o bject-/instance-/ran k-level annotations. Based on these rich labels, we additionally construct four new benchmarks with strong baselines and observe some interesting phenomena, which can motivate future model design. Source code and dataset are available at "https://github.com/J ingZhang617/cascaded _rgbd_sod".
翻訳日:2021-09-16 14:59:43 公開日:2021-09-15
# 顔の表情認識のためのマルチヘッドクロス注意ネットワーク

Distract Your Attention: Multi-head Cross Attention Network for Facial Expression Recognition ( http://arxiv.org/abs/2109.07270v1 )

ライセンス: Link先を確認
Zhengyao Wen, Wenzhong Lin, Tao Wang, Ge Xu(参考訳) 本稿では,DAN(Distract your Attention Network)と呼ばれる新しい表情認識ネットワークを提案する。 本手法は2つの重要な観測結果に基づく。 まず、複数のクラスが本質的に類似した顔の外観を共有しており、その違いは微妙である。 第二に、表情は複数の顔領域を通して同時に現れ、認識には局所的な特徴間の高次相互作用を符号化する全体論的アプローチが必要である。 これらの問題に対処するため,我々は機能クラスタリングネットワーク(fcn),マルチヘッドクロスアテンションネットワーク(man),アテンションフュージョンネットワーク(afn)という3つの重要なコンポーネントを用いたdanを提案する。 FCNは、クラス分離性を最大化するために、大きなマージン学習目標を採用することで、堅牢な特徴を抽出する。 さらに、男性は複数の注意ヘッドをインスタンス化し、複数の顔領域に同時に出席し、これらの領域に注意マップを構築する。 さらに、AFNはこれらの注意を複数の場所に分散させ、注意マップを包括的なものに融合させる。 AffectNet、RAF-DB、SFEW 2.0を含む3つの公開データセットの大規模な実験により、提案手法が常に最先端の顔認識性能を実現することを確認した。 コードはhttps://github.com/y aoing/DAN.comで公開される。

We present a novel facial expression recognition network, called Distract your Attention Network (DAN). Our method is based on two key observations. Firstly, multiple classes share inherently similar underlying facial appearance, and their differences could be subtle. Secondly, facial expressions exhibit themselves through multiple facial regions simultaneously, and the recognition requires a holistic approach by encoding high-order interactions among local features. To address these issues, we propose our DAN with three key components: Feature Clustering Network (FCN), Multi-head cross Attention Network (MAN), and Attention Fusion Network (AFN). The FCN extracts robust features by adopting a large-margin learning objective to maximize class separability. In addition, the MAN instantiates a number of attention heads to simultaneously attend to multiple facial areas and build attention maps on these regions. Further, the AFN distracts these attentions to multiple locations before fusing the attention maps to a comprehensive one. Extensive experiments on three public datasets (including AffectNet, RAF-DB, and SFEW 2.0) verified that the proposed method consistently achieves state-of-the-art facial expression recognition performance. Code will be made available at https://github.com/y aoing/DAN.
翻訳日:2021-09-16 14:59:19 公開日:2021-09-15
# 一級ノベルティ検出のためのプログレッシブガンス蒸留の新展開

New Perspective on Progressive GANs Distillationfor One-class Novelty Detection ( http://arxiv.org/abs/2109.07295v1 )

ライセンス: Link先を確認
Zhiwei Zhang, Yu Dong, Hanyu Peng, Shifeng Chen(参考訳) 一級ノベルティ検出は、予測された正常なインスタンスと異なる分布を持つ異常なインスタンスを識別する。 本稿では,Encoder-Decoder-Enc oderスキーム(EDE-GAN)に基づく生成アドバーサリアルネットワークにより,最先端の性能を実現する。 fac-tors bellowは以下の目的を果たす。 1) ede-ganは, 2つの潜在ベクトル間の距離を異常スコアとして算出する。 2) バッチサイズが 1 に設定されると,モデルが最良の結果を得る。 それらの優位性を説明するため、我々は新しいGANアーキテクチャを設計し、異なるバッチサイズで性能を比較する。 さらに,実験を伴わずにモデルトレーニングに携わる潜伏空間における有益な制約がいかに有益かを示す結果が得られた。我々は,コンパクトかつ高速なモデルを学ぶために,提案した蒸留損失を通じて2つの標準GANを接続する新しい技術であるプログレッシブ・ナレッジ・蒸留(P-KDGAN)を提案する。 2段階のプログレッシブラーニングは、シングルステップアプローチよりも改良されたresultで、学生ganのパフォーマンスを継続的に強化する。 実験結果から, P-KDGANは, 24.45:1, 311.11:1, 700:1の計算率でそれぞれ2.44%, 1.77%, 1.73%向上することがわかった。

One-class novelty detection is conducted to iden-tify anomalous instances, with different distributions from theexpected normal instances. In this paper, the Generative Adver-sarial Network based on the Encoder-Decoder-Enco der scheme(EDE-GAN) achieves state-of-the-art performance. The two fac-tors bellow serve the above purpose: 1) The EDE-GAN calculatesthe distance between two latent vectors as the anomaly score,which is unlike the previous methods by utilizing the reconstruc-tion error between images. 2) The model obtains best resultswhen the batch size is set to 1. To illustrate their superiority,we design a new GAN architecture, and compareperformances according to different batch sizes. Moreover, withexperimentation leads to discovery, our result implies there is alsoevidence of just how beneficial constraint on the latent space arewhen engaging in model training.In an attempt to learn compact and fast models, we present anew technology, Progressive Knowledge Distillation with GANs(P-KDGAN), which connects two standard GANs through thedesigned distillation loss. Two-step progressive learning continu-ously augments the performance of student GANs with improvedresults over single-step approach. Our experimental results onCIFAR-10, MNIST, and FMNIST datasets illustrate that P-KDGAN improves the performance of the student GAN by2.44%, 1.77%, and 1.73% when compressing the computationat ratios of 24.45:1, 311.11:1, and 700:1, respectively.
翻訳日:2021-09-16 14:58:59 公開日:2021-09-15
# FFAVOD:ビデオオブジェクト検出のための機能融合アーキテクチャ

FFAVOD: Feature Fusion Architecture for Video Object Detection ( http://arxiv.org/abs/2109.07298v1 )

ライセンス: Link先を確認
Hughes Perreault, Guillaume-Alexandre Bilodeau, Nicolas Saunier, Maguelonne H\'eritier(参考訳) ビデオの連続フレームの間にかなりの冗長性が存在する。 物体検出器は通常、この冗長性を利用することなく、一度に1つの画像を検出する。 一方、オブジェクト検出の多くのアプリケーションは、インテリジェントトランスポーテーションシステム、高度な運転支援システム、ビデオ監視など、ビデオで動作します。 本研究の目的は,ビデオフレーム間の類似性を活かして,より優れた検出を実現することである。 本稿では,ビデオオブジェクト検出のための機能融合アーキテクチャとしてFFAVODを提案する。 まず,近接フレーム間の特徴マップをネットワークで共有可能な,新しい映像物体検出アーキテクチャを提案する。 第2に,機能マップをマージして機能マップを強化する機能融合モジュールを提案する。 提案するアーキテクチャとフュージョンモジュールを用いることで,移動道路利用者のシーケンスを含む2つの物体検出ベンチマークにおいて,3つの基本物体検出器の性能向上が期待できることを示す。 さらに,さらに性能を向上させるため,spotnet attentionモジュールの改良を提案する。 改良されたSpotNet検出器のアーキテクチャを用いて、UA-DETRAC公開ベンチマークやUAVDTデータセット上での最先端のパフォーマンスを得る。 コードはhttps://github.com/h u64/ffavodで入手できる。

A significant amount of redundancy exists between consecutive frames of a video. Object detectors typically produce detections for one image at a time, without any capabilities for taking advantage of this redundancy. Meanwhile, many applications for object detection work with videos, including intelligent transportation systems, advanced driver assistance systems and video surveillance. Our work aims at taking advantage of the similarity between video frames to produce better detections. We propose FFAVOD, standing for feature fusion architecture for video object detection. We first introduce a novel video object detection architecture that allows a network to share feature maps between nearby frames. Second, we propose a feature fusion module that learns to merge feature maps to enhance them. We show that using the proposed architecture and the fusion module can improve the performance of three base object detectors on two object detection benchmarks containing sequences of moving road users. Additionally, to further increase performance, we propose an improvement to the SpotNet attention module. Using our architecture on the improved SpotNet detector, we obtain the state-of-the-art performance on the UA-DETRAC public benchmark as well as on the UAVDT dataset. Code is available at https://github.com/h u64/FFAVOD.
翻訳日:2021-09-16 14:58:32 公開日:2021-09-15
# PointManifoldCut:ポイントクラウド用マニフォールドにおけるポイントワイド拡張

PointManifoldCut: Point-wise Augmentation in the Manifold for Point Clouds ( http://arxiv.org/abs/2109.07324v1 )

ライセンス: Link先を確認
Tianfang Zhu, Yue Guan, Anan Li(参考訳) 拡張は、大規模な公開データセットの可用性が限られているため、ポイントクラウドラーニングに役立つ。 本稿では、ユークリッド空間座標ではなく、ニューラルネットワークの埋め込み点を置き換える混合拡張手法であるPointManifoldCutを提案する。 このアプローチは、ニューラルネットワークの上位レベルが既に隣人の関係を埋め込むように訓練されており、これらの表現を混合しても、それ自身とラベルの関係を混同しないという利点がある。 これにより、代替点の適切なラベルを気にせずに、パラメータ空間を他の拡張メソッドとして定式化することができる。 提案手法は,最先端のバニラポイント・クラウド・ネットワークと組み合わせることで,ポイント・クラウドの分類とセグメンテーションにおける競合性能をもたらすことを示す。 その結果,pointmixupやpointcutmixなど,最先端のポイントクラウド拡張手法と比較して,一貫したパフォーマンス向上が得られた。 この論文のコードは、https://github.com/f un0515/pointmanifold cutで入手できる。

Augmentation can benefit point cloud learning due to the limited availability of large-scale public datasets. This paper proposes a mix-up augmentation approach, PointManifoldCut, which replaces the neural network embedded points, rather than the Euclidean space coordinates. This approach takes the advantage that points at the higher levels of the neural network are already trained to embed its neighbors relations and mixing these representation will not mingle the relation between itself and its label. This allows to regularize the parameter space as the other augmentation methods but without worrying about the proper label of the replaced points. The experiments show that our proposed approach provides a competitive performance on point cloud classification and segmentation when it is combined with the cutting-edge vanilla point cloud networks. The result shows a consistent performance boosting compared to other state-of-the-art point cloud augmentation method, such as PointMixup and PointCutMix. The code of this paper is available at: https://github.com/f un0515/PointManifold Cut.
翻訳日:2021-09-16 14:58:13 公開日:2021-09-15
# 映像における3次元ポーズ推定のための学習動的ヒューマンジョイント親和性

Learning Dynamical Human-Joint Affinity for 3D Pose Estimation in Videos ( http://arxiv.org/abs/2109.07353v1 )

ライセンス: Link先を確認
Junhao Zhang, Yali Wang, Zhipeng Zhou, Tianyu Luan, Zhe Wang, Yu Qiao(参考訳) Graph Convolution Network (GCN)は、ビデオにおける3次元人間のポーズ推定に成功している。 しかし、人間の骨格によれば、固定されたヒトの結合親和性の上に構築されることが多い。 これにより、ビデオの複雑な時空間ポーズ変動に取り組むためのGCNの適応能力が低下する可能性がある。 この問題を軽減するために,人間同士の親和性を動的に識別できる新しい動的グラフネットワーク(DG-Net)を提案し,ビデオから空間的・時間的関節関係を適応的に学習することで3次元ポーズを推定する。 従来のグラフ畳み込みと異なり, 動的空間的/時間的グラフ畳み込み(dsg/dtg)を導入することで, ヒト関節間の空間的距離/時間的動きの類似性に応じて, それぞれの映像例に対する空間的/時間的ヒューマン・ジョイント親和性を検出する。 これにより、2Dポーズを3Dポーズに持ち上げる際に、どの関節が空間的に近づいたり、あるいは一貫した動きを持っているかを効果的に理解することができる。 我々は、Human3.6M、HumanEva-I、MPI-INF-3DHPの3つの人気のあるベンチマークで大規模な実験を行い、DG-Netはより少ない入力フレームとモデルサイズで多くのSOTAアプローチより優れています。

Graph Convolution Network (GCN) has been successfully used for 3D human pose estimation in videos. However, it is often built on the fixed human-joint affinity, according to human skeleton. This may reduce adaptation capacity of GCN to tackle complex spatio-temporal pose variations in videos. To alleviate this problem, we propose a novel Dynamical Graph Network (DG-Net), which can dynamically identify human-joint affinity, and estimate 3D pose by adaptively learning spatial/temporal joint relations from videos. Different from traditional graph convolution, we introduce Dynamical Spatial/Temporal Graph convolution (DSG/DTG) to discover spatial/temporal human-joint affinity for each video exemplar, depending on spatial distance/temporal movement similarity between human joints in this video. Hence, they can effectively understand which joints are spatially closer and/or have consistent motion, for reducing depth ambiguity and/or motion uncertainty when lifting 2D pose to 3D pose. We conduct extensive experiments on three popular benchmarks, e.g., Human3.6M, HumanEva-I, and MPI-INF-3DHP, where DG-Net outperforms a number of recent SOTA approaches with fewer input frames and model size.
翻訳日:2021-09-16 14:57:55 公開日:2021-09-15
# ラベル効率のよい医用画像セグメンテーションのための半教師付きコントラスト学習

Semi-supervised Contrastive Learning for Label-efficient Medical Image Segmentation ( http://arxiv.org/abs/2109.07407v1 )

ライセンス: Link先を確認
Xinrong Hu, Dewen Zeng, Xiaowei Xu, and Yiyu Shi(参考訳) 医療画像分割タスクにおけるディープラーニング手法の成功は、トレーニングを監視するために大量のラベル付きデータに依存する。 一方,バイオメディカル画像のアノテーションにはドメイン知識が必要であり,手間がかかる。 近年,ラベルなしでも画像の潜在表現を学習する上で,コントラスト学習は大きな可能性を示している。 既存の研究は、ラベルを使わずに自己教師付きコントラスト学習に基づく事前学習フェーズと、ラベル付きデータのみの教師付き微調整フェーズを通じて、わずかなデータしかラベル付けされていないバイオメディカルイメージセグメンテーションへの応用を探求している。 本稿では,事前学習段階に限定ラベルを組み込むことにより,コントラスト学習の性能を高めることができることを示す。 そこで我々は,同じラベルの画素を埋め込み空間に集束させるために,限定されたピクセル毎のアノテーションを利用する教師付き局所コントラスト損失を提案する。 このような損失は大きな画像にコストがかかる画素単位での計算を必要とするため,この問題に対処するために,さらにダウンサンプリングとブロック分割という2つの戦略を提案する。 異なる形態の2つの生体医用画像データセットを用いた評価を行った。 ラベル付きデータの量によって、我々の手法は最先端のコントラストベース手法や他の半教師付き学習手法を一貫して上回っています。

The success of deep learning methods in medical image segmentation tasks heavily depends on a large amount of labeled data to supervise the training. On the other hand, the annotation of biomedical images requires domain knowledge and can be laborious. Recently, contrastive learning has demonstrated great potential in learning latent representation of images even without any label. Existing works have explored its application to biomedical image segmentation where only a small portion of data is labeled, through a pre-training phase based on self-supervised contrastive learning without using any labels followed by a supervised fine-tuning phase on the labeled portion of data only. In this paper, we establish that by including the limited label in formation in the pre-training phase, it is possible to boost the performance of contrastive learning. We propose a supervised local contrastive loss that leverages limited pixel-wise annotation to force pixels with the same label to gather around in the embedding space. Such loss needs pixel-wise computation which can be expensive for large images, and we further propose two strategies, downsampling and block division, to address the issue. We evaluate our methods on two public biomedical image datasets of different modalities. With different amounts of labeled data, our methods consistently outperform the state-of-the-art contrast-based methods and other semi-supervised learning techniques.
翻訳日:2021-09-16 14:57:29 公開日:2021-09-15
# 多言語バイエンコーダBERTを用いたジョブ候補のマッチング学習

Learning to Match Job Candidates Using Multilingual Bi-Encoder BERT ( http://arxiv.org/abs/2109.07157v1 )

ライセンス: Link先を確認
Dor Lavi(参考訳) この講演では、候補配置のRandstad履歴を使用して、ラベル付きCV空きペアデータセットを生成する方法について説明する。 その後、コサイン類似性ログ損失層を追加して、このデータセット上にバイエンコーダ構造を持つ多言語BERTを微調整する。 上述した課題の多くを克服する上で,この構造を用いることがいかに役立つのか,CVや空洞に適合するメンテナンス可能なスケーラブルなパイプラインを構築する上でのメリットについて説明する。 さらに、より優れた意味理解を得る方法を示し、語彙のギャップを埋めることを学ぶ。 最後に,多言語トランスフォーマーが言語間障壁の対処にどのように役立つか,そして識別を減少させるかを強調する。

In this talk, we will show how we used Randstad history of candidate placements to generate labeled CV-vacancy pairs dataset. Afterwards we fine-tune a multilingual BERT with bi encoder structure over this dataset, by adding a cosine similarity log loss layer. We will explain how using the mentioned structure helps us overcome most of the challenges described above, and how it enables us to build a maintainable and scalable pipeline to match CVs and vacancies. In addition, we show how we gain a better semantic understanding, and learn to bridge the vocabulary gap. Finally, we highlight how multilingual transformers help us handle cross language barrier and might reduce discrimination.
翻訳日:2021-09-16 14:56:50 公開日:2021-09-15
# unist: ストリーミングおよび非ストリーミング音声翻訳のための統一エンド・ツー・エンドモデル

UniST: Unified End-to-end Model for Streaming and Non-streaming Speech Translation ( http://arxiv.org/abs/2109.07368v1 )

ライセンス: Link先を確認
Qianqian Dong, Yaoming Zhu, Mingxuan Wang, Lei Li(参考訳) 本稿では,ストリーミングおよび非ストリーミング音声翻訳のためのエンドツーエンドフレームワークについて述べる。 非ストリーミング音声翻訳のトレーニングレシピは成熟しているが、ストリーミング音声翻訳のレシピはまだ構築されていない。 本研究では,学習目標,注意機構,復号化ポリシなどの基本的コンポーネントの観点から,ストリーミングおよび非ストリーミングSTをサポートする統一モデル(UniST)の開発に着目する。 最も人気のある音声からテキストへの翻訳ベンチマークデータセットである MuST-C の実験では、UniST が非ストリーミング ST に対して大幅な改善を達成し、BLEU スコアとストリーミング ST のレイテンシメトリクスが、エンドツーエンドのベースラインやカスケードモデルと比較してより優れたトレードオフを実現している。 コードと評価ツールを一般公開する予定です。

This paper presents a unified end-to-end frame-work for both streaming and non-streamingspeech translation. While the training recipes for non-streaming speech translation have been mature, the recipes for streaming speechtranslation are yet to be built. In this work, wefocus on developing a unified model (UniST) which supports streaming and non-streaming ST from the perspective of fundamental components, including training objective, attention mechanism and decoding policy. Experiments on the most popular speech-to-text translation benchmark dataset, MuST-C, show that UniST achieves significant improvement for non-streaming ST, and a better-learned trade-off for BLEU score and latency metrics for streaming ST, compared with end-to-end baselines and the cascaded models. We will make our codes and evaluation tools publicly available.
翻訳日:2021-09-16 14:56:36 公開日:2021-09-15
# 強化学習による異種電池バンクの最適サイクリング

Optimal Cycling of a Heterogenous Battery Bank via Reinforcement Learning ( http://arxiv.org/abs/2109.07137v1 )

ライセンス: Link先を確認
Vivek Deulkar and Jayakrishnan Nair(参考訳) 我々は、確率的発電と需要プロセスによって駆動される異種電池のバンクの最適充電/放電の問題を考える。 バッテリーバンクのバッテリーは、容量、ランプの制約、損失、およびサイクリングコストに関して異なる可能性がある。 目標は、長期間のバッテリーサイクルに伴う劣化コストを最小化することであり、これは正式にマルコフ決定プロセスとして実行される。 本稿では,MDPに関連付けられた値関数の構造を近似したカーネル関数のクラスを用いて,最適解を学習するための線形関数近似に基づくQ-ラーニングアルゴリズムを提案する。 提案アルゴリズムは広範なケーススタディによって検証される。

We consider the problem of optimal charging/discharging of a bank of heterogenous battery units, driven by stochastic electricity generation and demand processes. The batteries in the battery bank may differ with respect to their capacities, ramp constraints, losses, as well as cycling costs. The goal is to minimize the degradation costs associated with battery cycling in the long run; this is posed formally as a Markov decision process. We propose a linear function approximation based Q-learning algorithm for learning the optimal solution, using a specially designed class of kernel functions that approximate the structure of the value functions associated with the MDP. The proposed algorithm is validated via an extensive case study.
翻訳日:2021-09-16 14:56:20 公開日:2021-09-15
# back to basics: 交通信号制御における深い強化学習

Back to Basics: Deep Reinforcement Learning in Traffic Signal Control ( http://arxiv.org/abs/2109.07180v1 )

ライセンス: Link先を確認
Sierk Kanis, Laurens Samson, Daan Bloembergen, Tim Bakker(参考訳) 本稿では、自己学習信号に対する強化学習(RL)アプローチの基礎的前提について再検討する。 我々はrlightを提案する。rlightはロバストなパフォーマンスと未認識のトラフィックフローに対する優れた一般化を提供する。 特に,我々の主なコントリビューションは3つある: 軽量かつクラスタ対応の状態表現により性能が向上する; 黄色光の冗長なタイムステップを省略し,学習を30%高速化する; 動作空間を調査し,非周期相転移と循環相転移の相違点について考察する; MDPを再構築する。 さらに,トラフィックを隠蔽する手法の一般化に関する洞察も提供する。 実世界のhanzhou trafficデータセットを用いた評価では、rlightは最先端のルールベースおよび深層強化学習アルゴリズムよりも優れており、rlベースの方法が都市交通フローを改善する可能性を実証している。

In this paper we revisit some of the fundamental premises for a reinforcement learning (RL) approach to self-learning traffic lights. We propose RLight, a combination of choices that offers robust performance and good generalization to unseen traffic flows. In particular, our main contributions are threefold: our lightweight and cluster-aware state representation leads to improved performance; we reformulate the MDP such that it skips redundant timesteps of yellow light, speeding up learning by 30%; and we investigate the action space and provide insight into the difference in performance between acyclic and cyclic phase transitions. Additionally, we provide insights into the generalisation of the methods to unseen traffic. Evaluations using the real-world Hangzhou traffic dataset show that RLight outperforms state-of-the-art rule-based and deep reinforcement learning algorithms, demonstrating the potential of RL-based methods to improve urban traffic flows.
翻訳日:2021-09-16 14:56:10 公開日:2021-09-15
# co-embedding:プロジェクションによる2部グラフ上のコミュニティの発見

Co-Embedding: Discovering Communities on Bipartite Graphs through Projection ( http://arxiv.org/abs/2109.07135v1 )

ライセンス: Link先を確認
Ga\"elle Candel and David Naccache(参考訳) 多くのデータセットは、ユーザが見る映画やファイルに関連付けられたタグなど、2つのタイプのノードが関係によって接続される2部グラフの形式を取っている。 両部グラフの分割は、類似した性質を持つ項目のグループを識別することにより、レコメンデーションシステムの高速化や、情報検索システムのインデックスサイズ削減に利用することができる。 このようなグラフはしばしばベクトル空間モデル表現を用いてアルゴリズムによって処理され、二進ベクトルは 0 と 1 の項目を表す。 この表現の主な問題は、考慮されていない単語の同義語のような次元関係性である。 本稿では,特徴の類似性を測定するために,項目投影を用いた協調クラスタリングアルゴリズムを提案する。 我々はクラスタ検索タスクでアルゴリズムを評価した。 様々なデータセットにおいて,アルゴリズムはコヒーレントな項目を含むバランスの取れたクラスタを生成し,高い検索スコアを得た。

Many datasets take the form of a bipartite graph where two types of nodes are connected by relationships, like the movies watched by a user or the tags associated with a file. The partitioning of the bipartite graph could be used to fasten recommender systems, or reduce the information retrieval system's index size, by identifying groups of items with similar properties. This type of graph is often processed by algorithms using the Vector Space Model representation, where a binary vector represents an item with 0 and 1. The main problem with this representation is the dimension relatedness, like words' synonymity, which is not considered. This article proposes a co-clustering algorithm using items projection, allowing the measurement of features similarity. We evaluated our algorithm on a cluster retrieval task. Over various datasets, our algorithm produced well balanced clusters with coherent items in, leading to high retrieval scores on this task.
翻訳日:2021-09-16 14:55:33 公開日:2021-09-15
# 制約プログラミングと量子アニーリングによる保守を含む車両計画の最適化

Optimising Rolling Stock Planning including Maintenance with Constraint Programming and Quantum Annealing ( http://arxiv.org/abs/2109.07212v1 )

ライセンス: Link先を確認
Cristian Grozea, Ronny Hans, Matthias Koch, Christina Riehn, Armin Wolf(参考訳) 我々は,必要なメンテナンスタスクを考慮したストック最適化のための制約プログラミング(CP)と量子アニーリング(QA)アプローチを開発し,比較した。 CPにおけるこのような問題に対処するため,特定プルーニングルールを調査し,グローバル制約下で実施した。 qaアプローチでは,quadratic unconstrained binary optimization (qubo)モデルを開発した。 テストでは、Deutsche Bahnの実際のデータに基づいてデータセットを使用し、D-Waveの実際の量子コンピュータ上でQAアプローチを実行します。 古典的なコンピュータはCPアプローチの実行やQUBOモデルのタブ検索に使用されている。 両アプローチとも、物理量子アンナーの現段階において、同等な結果が得られる傾向にあり、QUBOは、列車が保守閾値距離にどれだけ近いかに基づいて、前処理でQUBOモデルを調整することで、維持制約が保持されることを常に保証していないことに注意する必要がある。

We developed and compared Constraint Programming (CP) and Quantum Annealing (QA) approaches for rolling stock optimisation considering necessary maintenance tasks. To deal with such problems in CP we investigated specialised pruning rules and implemented them in a global constraint. For the QA approach, we developed quadratic unconstrained binary optimisation (QUBO) models. For testing, we use data sets based on real data from Deutsche Bahn and run the QA approach on real quantum computers from D-Wave. Classical computers are used to run the CP approach as well as tabu search for the QUBO models. We find that both approaches tend at the current development stage of the physical quantum annealers to produce comparable results, with the caveat that QUBO does not always guarantee that the maintenance constraints hold, which we fix by adjusting the QUBO model in preprocessing, based on how close the trains are to a maintenance threshold distance.
翻訳日:2021-09-16 14:55:19 公開日:2021-09-15
# アニメーションメッシュの時間パラメータフリーディープスキニング

Temporal Parameter-free Deep Skinning of Animated Meshes ( http://arxiv.org/abs/2109.07249v1 )

ライセンス: Link先を確認
Anastasia Moutafidou, Vasileios Toulatzis and Ioannis Fudos(参考訳) コンピュータグラフィックスでは、アニメーション圧縮はアニメーションメッシュの効率的なストレージ、ストリーミング、再生に不可欠である。 これまでの研究で、頂点の幾何学的特徴に基づく頂点のクラスタリングを用いて、スキニング変換と重み付けを導出することにより、圧縮の効率的な手法が提示されてきた。 本稿では, 骨に影響を受けたクラスターに頂点を割り当て, 頂点軌跡(時空間頂点列)のペアと, 完全に整列されたアニメーション文字から引き出される重みからなる訓練セットを通して, ディープラーニングを用いて重みを導出する新しいアプローチを提案する。 得られたリニアブレンドスキン化スキームの近似誤差は, 骨数を最小にすることで, 従来手法の誤差よりも有意に低い値を示した。 さらに、変換と頂点の最適集合は、多次元変数空間におけるより良い初期位置決めのため、より少ない反復で導出される。 本手法では,メッシュアニメーションシーケンスを圧縮するプロセス全体において,ユーザによって決定あるいは調整されるパラメータは不要である。

In computer graphics, animation compression is essential for efficient storage, streaming and reproduction of animated meshes. Previous work has presented efficient techniques for compression by deriving skinning transformations and weights using clustering of vertices based on geometric features of vertices over time. In this work we present a novel approach that assigns vertices to bone-influenced clusters and derives weights using deep learning through a training set that consists of pairs of vertex trajectories (temporal vertex sequences) and the corresponding weights drawn from fully rigged animated characters. The approximation error of the resulting linear blend skinning scheme is significantly lower than the error of competent previous methods by producing at the same time a minimal number of bones. Furthermore, the optimal set of transformation and vertices is derived in fewer iterations due to the better initial positioning in the multidimensional variable space. Our method requires no parameters to be determined or tuned by the user during the entire process of compressing a mesh animation sequence.
翻訳日:2021-09-16 14:55:00 公開日:2021-09-15
# 公に検証可能なカバーセキュリティのためのMPCフレンドリーなコミット

MPC-Friendly Commitments for Publicly Verifiable Covert Security ( http://arxiv.org/abs/2109.07461v1 )

ライセンス: Link先を確認
Nitin Agrawal, James Bell, Adri\`a Gasc\'on, Matt J. Kusner(参考訳) 本稿では,二者間計算におけるコミットメントを効率的に検証する問題に対処する。 これは、パーティP1がその後のセキュアな計算で使用されるために$x$にコミットするシナリオに対処し、P1が不正ではないという保証を受けようとする別のパーティP2、すなわち、実際にセキュアな計算に入力された値である。 本研究は, P1が不正行為に遭った場合, 悪質なMPCモデルの緩和を図った, PVC(Public Verible Covert)セキュリティモデルで実施する。 我々は,PVCフレームワークに適したコミットメントスキームを構築するために,PVCのコミットメントスキームとインデックス付きハッシュ関数の概念を導入し,非常に効率的な回路となる演算回路とブール回路の両方の構成を提案する。 実用的な見地からすると、boolean回路の構成はセキュアに評価するために60\times$で、ハッシュに基づくベースラインメソッドよりも36\times$で通信を行ないます。 さらに, 提案手法は, 非線形ゲート数, コミットメント検証回路の下位境界を証明し, 必要非線形操作に関して厳密であることを示す。 最後に, 統計的セキュリティを用いて, 不正な保証を効率よく回収することのできる, セキュリティ特性を増幅する手法を提案する。

We address the problem of efficiently verifying a commitment in a two-party computation. This addresses the scenario where a party P1 commits to a value $x$ to be used in a subsequent secure computation with another party P2 that wants to receive assurance that P1 did not cheat, i.e. that $x$ was indeed the value inputted into the secure computation. Our constructions operate in the publicly verifiable covert (PVC) security model, which is a relaxation of the malicious model of MPC appropriate in settings where P1 faces a reputational harm if caught cheating. We introduce the notion of PVC commitment scheme and indexed hash functions to build commitments schemes tailored to the PVC framework, and propose constructions for both arithmetic and Boolean circuits that result in very efficient circuits. From a practical standpoint, our constructions for Boolean circuits are $60\times$ faster to evaluate securely, and use $36\times$ less communication than baseline methods based on hashing. Moreover, we show that our constructions are tight in terms of required non-linear operations, by proving lower bounds on the nonlinear gate count of commitment verification circuits. Finally, we present a technique to amplify the security properties our constructions that allows to efficiently recover malicious guarantees with statistical security.
翻訳日:2021-09-16 14:54:31 公開日:2021-09-15
# 正確でスケーラブルな機械学習ポテンシャルのための物理的にインスパイアされた分子記述子としてのガウスモーメント

Gaussian Moments as Physically Inspired Molecular Descriptors for Accurate and Scalable Machine Learning Potentials ( http://arxiv.org/abs/2109.07421v1 )

ライセンス: Link先を確認
Viktor Zaverkin and Johannes K\"astner(参考訳) 機械学習技術により、原子位置と原子電荷をほぼ絶対精度と経験的ポテンシャルの計算効率でポテンシャルエネルギー面に直接マッピングすることができる。 本研究では,フィードフォワードニューラルネットワークに基づく高次元ポテンシャルエネルギー表面構築のための機械学習手法を提案する。 ニューラルネットワークへの入力として,幾何学的モーメントから構築した拡張可能な不変な局所分子ディスクリプタを提案する。 対距離ベクトルとテンソル収縮による定式化は、グラフィカル処理ユニット(GPU)に非常に効率的な実装を可能にする。 原子種は分子記述子にコード化され、データセット内の全ての原子種の訓練のために1つのニューラルネットワークに制限される。 化学空間と構成空間の両方を表す手法の精度は、いくつかの確立された機械学習モデルの1つに匹敵することを示した。 高い精度と効率のため、提案された機械学習ポテンシャルは、例えば、分子幾何の最適化、速度定数の計算、分子動力学など、任意のタスクに使用できる。

Machine learning techniques allow a direct mapping of atomic positions and nuclear charges to the potential energy surface with almost ab-initio accuracy and the computational efficiency of empirical potentials. In this work we propose a machine learning method for constructing high-dimensional potential energy surfaces based on feed-forward neural networks. As input to the neural network we propose an extendable invariant local molecular descriptor constructed from geometric moments. Their formulation via pairwise distance vectors and tensor contractions allows a very efficient implementation on graphical processing units (GPUs). The atomic species is encoded in the molecular descriptor, which allows the restriction to one neural network for the training of all atomic species in the data set. We demonstrate that the accuracy of the developed approach in representing both chemical and configurational spaces is comparable to the one of several established machine learning models. Due to its high accuracy and efficiency, the proposed machine-learned potentials can be used for any further tasks, for example the optimization of molecular geometries, the calculation of rate constants or molecular dynamics.
翻訳日:2021-09-16 14:54:08 公開日:2021-09-15
# コンピュータ支援肺塞栓症検出のための最適アプローチ

Seeking an Optimal Approach for Computer-Aided Pulmonary Embolism Detection ( http://arxiv.org/abs/2109.07029v1 )

ライセンス: Link先を確認
Nahid Ul Islam, Shiv Gehlot, Zongwei Zhou, Michael B Gotway, Jianming Liang(参考訳) 肺塞栓症(英: lung embolism、PE)は、通常下肢静脈から発生する血栓(血栓)であり、肺の血管へ移動し、血管閉塞を引き起こし、一部の患者では死亡する。 CT肺血管造影(CTPA)で診断されることが多い。 深層学習はPEのコンピュータ支援CTPA診断(CAD)に大いに期待できる。 しかし、深層学習文学における所定のタスクに対する多くの競合する方法が存在しており、cad peシステムの開発に関して大きな混乱を引き起こしている。 この混乱に対処するため,CTPAを用いたPE診断に適用可能なディープラーニング手法を画像レベルと試験レベルで総合的に分析した。 画像レベルでは、畳み込みニューラルネットワーク(cnns)と視覚トランスフォーマーを比較し、コントラスト自己教師付き学習(ssl)と教師付き学習を比較し、さらに、スクラッチからのトレーニングと比較した転送学習の評価を行った。 試験レベルでは,従来の分類(CC)とマルチインスタンス学習(MIL)を比較した。 その結果,(1)自然画像とctスキャンの相違にもかかわらず,トランスファー学習は一貫して性能を向上させ,(2)sslによるトランスファー学習は教師付きトランスフォーマーを上回っており,(3)cnnsは良好な性能を示す視覚トランスフォーマーよりも優れており,(4)ccは驚くべきことにmilよりも優れていることがわかった。 現状と比較すると,最適なアプローチは,画像レベルと試験レベルのそれぞれ0.2\%と1.05\%のAUCゲインを提供する。

Pulmonary embolism (PE) represents a thrombus ("blood clot"), usually originating from a lower extremity vein, that travels to the blood vessels in the lung, causing vascular obstruction and in some patients, death. This disorder is commonly diagnosed using CT pulmonary angiography (CTPA). Deep learning holds great promise for the computer-aided CTPA diagnosis (CAD) of PE. However, numerous competing methods for a given task in the deep learning literature exist, causing great confusion regarding the development of a CAD PE system. To address this confusion, we present a comprehensive analysis of competing deep learning methods applicable to PE diagnosis using CTPA at the both image and exam levels. At the image level, we compare convolutional neural networks (CNNs) with vision transformers, and contrast self-supervised learning (SSL) with supervised learning, followed by an evaluation of transfer learning compared with training from scratch. At the exam level, we focus on comparing conventional classification (CC) with multiple instance learning (MIL). Our extensive experiments consistently show: (1) transfer learning consistently boosts performance despite differences between natural images and CT scans, (2) transfer learning with SSL surpasses its supervised counterparts; (3) CNNs outperform vision transformers, which otherwise show satisfactory performance; and (4) CC is, surprisingly, superior to MIL. Compared with the state of the art, our optimal approach provides an AUC gain of 0.2\% and 1.05\% for image-level and exam-level, respectively.
翻訳日:2021-09-16 14:53:26 公開日:2021-09-15
# DSOR:厳冬期のLiDAR点雲から降雪雪を除去するためのスケーラブルな統計的フィルタ

DSOR: A Scalable Statistical Filter for Removing Falling Snow from LiDAR Point Clouds in Severe Winter Weather ( http://arxiv.org/abs/2109.07078v1 )

ライセンス: Link先を確認
Akhil Kurup, Jeremy Bos(参考訳) 自動運転車が人間のドライバーを生き生きと置き換えるためには、悪天候と闘わなければならない。 降雨と雪はLiDARのリターンにノイズをもたらし、偽陽性と偽陰性の両方を検出する。 本稿では,ミシガン州アッパー半島の雪帯地域で収集された冬季運転データセット(WADS)について紹介する。 WADSは、厳しい冬の天候で収集された高密度のポイントワイドなLiDARスキャンを特徴とする最初のマルチモーダルデータセットである。 私たちはラベル付けを行い、合計26TBのLiDARおよびカメラデータのうち、7GBまたは36億以上のラベル付きLiDARポイントを利用可能にします。 また,アートスノー除雪フィルタの状態よりも高いリコール率で雪を除去または除去できる統計的pclベースのフィルタであるdynamic statistical outlier removal (dsor) filterを提案する。 さらに,DSORフィルタは,拡張性の向上をもたらす技術状況と比較して,時間的複雑性が低いことを示した。 ラベル付きデータセットとDSORフィルタはhttps://bitbucket.or g/autonomymtu/dsor_f ilterで利用可能になります。

For autonomous vehicles to viably replace human drivers they must contend with inclement weather. Falling rain and snow introduce noise in LiDAR returns resulting in both false positive and false negative object detections. In this article we introduce the Winter Adverse Driving dataSet (WADS) collected in the snow belt region of Michigan's Upper Peninsula. WADS is the first multi-modal dataset featuring dense point-wise labeled sequential LiDAR scans collected in severe winter weather; weather that would cause an experienced driver to alter their driving behavior. We have labelled and will make available over 7 GB or 3.6 billion labelled LiDAR points out of over 26 TB of total LiDAR and camera data collected. We also present the Dynamic Statistical Outlier Removal (DSOR) filter, a statistical PCL-based filter capable or removing snow with a higher recall than the state of the art snow de-noising filter while being 28\% faster. Further, the DSOR filter is shown to have a lower time complexity compared to the state of the art resulting in an improved scalability. Our labeled dataset and DSOR filter will be made available at https://bitbucket.or g/autonomymtu/dsor_f ilter
翻訳日:2021-09-16 14:52:57 公開日:2021-09-15
# ロボットオートノミーのためのナビゲーション指向シーン理解:エゴセントリック画像におけるセグメンテーションの学習

Navigation-Oriented Scene Understanding for Robotic Autonomy: Learning to Segment Driveability in Egocentric Images ( http://arxiv.org/abs/2109.07245v1 )

ライセンス: Link先を確認
Galadrielle Humblot-Renaux, Letizia Marchegiani, Thomas B. Moeslund and Rikke Gade(参考訳) この作業は、屋外ロボットナビゲーションのシーン理解に取り組み、オンボードカメラで撮影された画像のみに依存する。 従来の視覚シーン理解は、特定の記述カテゴリーに基づいて環境を解釈する。 しかし、そのような表現は、ロボットの動作を特定の領域に拘束する決定や制約を直接解釈することはできない。 そこで本研究では,ロボットの操作方法の観点で,エゴセントリック画像を直接分割し,学習問題を自律的なナビゲーションタスクに合わせることを提案する。 画像セグメンテーションネットワークを中心に,任意のシーンに適用可能な3つの駆動性レベルからなる,汎用的でスケーラブルなアフォーアンスベースの定義を提案する。 これらのレベルをソフトな順序ラベルで符号化することにより、標準の1ホットラベルよりもセグメンテーションを改善する学習におけるクラス間距離を組み込む。 また,安全クリティカルな領域に高い重要度を割り当てるナビゲーション指向の画素方向損失重み付け手法を提案する。 オフロードシーンと都市シーンにまたがる大規模パブリックイメージセグメンテーションデータセットに対するアプローチを評価する。 zero-shot cross-dataset generalization実験では、汎用の単一データセットセグメンテーションと比較して、さまざまなデータセットの混合にまたがって、我々のアフォーマンス学習手法が適用可能であることを示し、未認識環境における駆動性推定を改善した。

This work tackles scene understanding for outdoor robotic navigation, solely relying on images captured by an on-board camera. Conventional visual scene understanding interprets the environment based on specific descriptive categories. However, such a representation is not directly interpretable for decision-making and constrains robot operation to a specific domain. Thus, we propose to segment egocentric images directly in terms of how a robot can navigate in them, and tailor the learning problem to an autonomous navigation task. Building around an image segmentation network, we present a generic and scalable affordance-based definition consisting of 3 driveability levels which can be applied to arbitrary scenes. By encoding these levels with soft ordinal labels, we incorporate inter-class distances during learning which improves segmentation compared to standard one-hot labelling. In addition, we propose a navigation-oriented pixel-wise loss weighting method which assigns higher importance to safety-critical areas. We evaluate our approach on large-scale public image segmentation datasets spanning off-road and urban scenes. In a zero-shot cross-dataset generalization experiment, we show that our affordance learning scheme can be applied across a diverse mix of datasets and improves driveability estimation in unseen environments compared to general-purpose, single-dataset segmentation.
翻訳日:2021-09-16 14:52:37 公開日:2021-09-15
# S3LAM:構造化シーンSLAM

S3LAM: Structured Scene SLAM ( http://arxiv.org/abs/2109.07339v1 )

ライセンス: Link先を確認
Mathieu Gonzalez, Eric Marchand, Amine Kacete and J\'er\^ome Royan(参考訳) 本稿では,シーン内のオブジェクトと構造の意味セグメンテーションを用いた新しい汎用slamシステムを提案する。 セマンティック情報はSLAMをより正確で堅牢な高レベル情報を含むため、関連性が高い。 私たちの貢献は3倍です i)ORB-SLAM2に基づく新しいSLAMシステムにより、シーン内のオブジェクトのインスタンスや構造に対応する点の集合からなる意味マップを作成する。 二 幾何学的前処理を用いて各クラスターを拘束するための古典的な束調整定式化の修正により、カメラの局在化及び再構成が改善され、シーンをよりよく理解することができる。 三 古典的バンドル調整の収束を改善するため、クラスターのレベルでの新しいバンドル調整の定式化 我々は、公開データセットから複数のシーケンスに対するアプローチを評価し、orb-slam2に関して、カメラのポーズ推定を改善することを示す。

We propose a new general SLAM system that uses the semantic segmentation of objects and structures in the scene. Semantic information is relevant as it contains high level information which may make SLAM more accurate and robust. Our contribution is threefold: i) A new SLAM system based on ORB-SLAM2 that creates a semantic map made of clusters of points corresponding to objects instances and structures in the scene. ii) A modification of the classical Bundle Adjustment formulation to constrain each cluster using geometrical priors, which improves both camera localization and reconstruction and enables a better understanding of the scene. iii) A new Bundle Adjustment formulation at the level of clusters to improve the convergence of classical Bundle Adjustment. We evaluate our approach on several sequences from a public dataset and show that, with respect to ORB-SLAM2 it improves camera pose estimation.
翻訳日:2021-09-16 14:52:11 公開日:2021-09-15
# 皮膚運動の接触認識再ターゲティング

Contact-Aware Retargeting of Skinned Motion ( http://arxiv.org/abs/2109.07431v1 )

ライセンス: Link先を確認
Ruben Villegas, Duygu Ceylan, Aaron Hertzmann, Jimei Yang, Jun Saito(参考訳) 本稿では,自己接触を保ち,相互接続を防止するモーションリターゲティング手法を提案する。 手を触れる時や胴体や頭部などの自己接触は人体言語や力学の重要な属性であるが、既存の方法はこれらの接触をモデル化したり保存したりしない。 同様に、胴体に手が通るなどの相互侵入は、運動推定法の典型的な人工物である。 本手法の入力は,人間の動作シーケンスとターゲット骨格とキャラクタ形状である。 この方法は、入力動作における自己接触と接点を識別し、これらの接点を保持しながら、出力骨格に適用する動きを最適化する。 本稿では,接触制約を満たしながら効率的な再ターゲティングを実現するエンコーダ空間最適化戦略を備えた,新たな幾何条件リカレントネットワークを提案する。 実験では,従来の手法を定量的に上回り,近年の成果よりも高い品質で再ターゲットされた動きを評価できるユーザスタディを実施している。 また,人間の映像から推定した動作を一般化し,先行作よりも改善し,目に見える相互侵入を生じさせる方法を示した。

This paper introduces a motion retargeting method that preserves self-contacts and prevents interpenetration. Self-contacts, such as when hands touch each other or the torso or the head, are important attributes of human body language and dynamics, yet existing methods do not model or preserve these contacts. Likewise, interpenetration, such as a hand passing into the torso, are a typical artifact of motion estimation methods. The input to our method is a human motion sequence and a target skeleton and character geometry. The method identifies self-contacts and ground contacts in the input motion, and optimizes the motion to apply to the output skeleton, while preserving these contacts and reducing interpenetration. We introduce a novel geometry-conditioned recurrent network with an encoder-space optimization strategy that achieves efficient retargeting while satisfying contact constraints. In experiments, our results quantitatively outperform previous methods and we conduct a user study where our retargeted motions are rated as higher-quality than those produced by recent works. We also show our method generalizes to motion estimated from human videos where we improve over previous works that produce noticeable interpenetration.
翻訳日:2021-09-16 14:51:54 公開日:2021-09-15
# ニューラルヒューマンパフォーマー:人間のパフォーマンスレンダリングのための一般化されたラミアンスフィールドの学習

Neural Human Performer: Learning Generalizable Radiance Fields for Human Performance Rendering ( http://arxiv.org/abs/2109.07448v1 )

ライセンス: Link先を確認
Youngjoong Kwon and Dahun Kim and Duygu Ceylan and Henry Fuchs(参考訳) 本稿では、スパースマルチビューカメラを用いて、任意の人間のパフォーマンスの視点映像を合成することを目的とする。 近年,nerf(person-specifi c neural radiance fields)を学習し,人間の出現を捉えることでこの問題に対処した研究がいくつか行われている。 並行して、ピクセルアライメント機能を使用して、任意の新しいシーンやオブジェクトにラミアンスフィールドを一般化する方法も提案されている。 しかしながら、そのような一般化アプローチを人間に適用することは、重い閉塞と身体部分のダイナミックな明瞭さのために非常に困難である。 この課題を解決するために,我々は,強靭なパフォーマンスキャプチャのためのパラメトリック人体モデルに基づいて,一般化可能な神経放射場を学習するニューラルヒューマン・パフォーマを提案する。 具体的には,まず,追跡された視覚特徴を経時的骨格運動に基づいて集約する時空変圧器を導入する。 さらに,複数視点からのハエの観測を統合させるため,時間差のある特徴と画素対応特徴とを相互に関連付けるためにマルチビュートランスフォーマーを提案する。 ZJU-MoCap と AIST のデータセットを用いた実験により,本手法は近頃の一般化可能な NeRF 法よりも顕著に優れていることが示された。 ビデオの結果とコードはhttps://youngjoongun c.github.io/nhpで入手できる。

In this paper, we aim at synthesizing a free-viewpoint video of an arbitrary human performance using sparse multi-view cameras. Recently, several works have addressed this problem by learning person-specific neural radiance fields (NeRF) to capture the appearance of a particular human. In parallel, some work proposed to use pixel-aligned features to generalize radiance fields to arbitrary new scenes and objects. Adopting such generalization approaches to humans, however, is highly challenging due to the heavy occlusions and dynamic articulations of body parts. To tackle this, we propose Neural Human Performer, a novel approach that learns generalizable neural radiance fields based on a parametric human body model for robust performance capture. Specifically, we first introduce a temporal transformer that aggregates tracked visual features based on the skeletal body motion over time. Moreover, a multi-view transformer is proposed to perform cross-attention between the temporally-fused features and the pixel-aligned features at each time step to integrate observations on the fly from multiple views. Experiments on the ZJU-MoCap and AIST datasets show that our method significantly outperforms recent generalizable NeRF methods on unseen identities and poses. The video results and code are available at https://youngjoongun c.github.io/nhp.
翻訳日:2021-09-16 14:51:37 公開日:2021-09-15
# 自律機械処理システム設計におけるデータフローアーキテクチャの約束

The Promise of Dataflow Architectures in the Design of Processing Systems for Autonomous Machines ( http://arxiv.org/abs/2109.07047v1 )

ライセンス: Link先を確認
Shaoshan Liu, Yuhao Zhu, Bo Yu, Jean-Luc Gaudiot, Guang R. Gao(参考訳) 自律機械の商業化は繁栄する分野であり、PC、クラウドコンピューティング、モバイルコンピューティングに続く次の主要なコンピューティング需要の原動力になる可能性が高い。 それでも、自律機械に適したコンピュータアーキテクチャは欠落しており、多くの企業は拡張性も拡張性もないアドホックコンピューティングソリューションの開発を余儀なくされている。 本稿では、自律的マシンコンピューティングの需要を分析し、自律的マシンにおけるデータフローアーキテクチャの期待について論じる。

The commercialization of autonomous machines is a thriving sector, and likely to be the next major computing demand driver, after PC, cloud computing, and mobile computing. Nevertheless, a suitable computer architecture for autonomous machines is missing, and many companies are forced to develop ad hoc computing solutions that are neither scalable nor extensible. In this article, we analyze the demands of autonomous machine computing, and argue for the promise of dataflow architectures in autonomous machines.
翻訳日:2021-09-16 14:51:11 公開日:2021-09-15
# リスク計測、リスクエントロピーおよび自動運転リスクモデリング

Risk Measurement, Risk Entropy, and Autonomous Driving Risk Modeling ( http://arxiv.org/abs/2109.07211v1 )

ライセンス: Link先を確認
Jiamin Yu(参考訳) 運転の知覚、予測、計画、制御のために自動運転車のビッグデータを使用するのは、長い間のことです。 当然、なぜこのビッグデータをリスク管理やアクチュアルモデリングに使わないのか、という疑問が高まっている。 本稿では、自律運転シナリオにおける技術的困難、新しいアイデア、リスクモデリングの手法について考察する。 従来のリスクモデルと比較すると、新しいモデルは実際の道路交通や運転安全性能と一貫性がある。 さらに重要なことは、コンピュータシミュレーション環境下でリスク評価と自動車保険の価格を実現するための技術的実現性を提供する。

It has been for a long time to use big data of autonomous vehicles for perception, prediction, planning, and control of driving. Naturally, it is increasingly questioned why not using this big data for risk management and actuarial modeling. This article examines the emerging technical difficulties, new ideas, and methods of risk modeling under autonomous driving scenarios. Compared with the traditional risk model, the novel model is more consistent with the real road traffic and driving safety performance. More importantly, it provides technical feasibility for realizing risk assessment and car insurance pricing under a computer simulation environment.
翻訳日:2021-09-16 14:49:54 公開日:2021-09-15
# 21世紀の大病発生のモデル化--因果的アプローチ

Modelling Major Disease Outbreaks in the 21st Century: A Causal Approach ( http://arxiv.org/abs/2109.07266v1 )

ライセンス: Link先を確認
Abli Marathe, Saloni Parekh, Harsh Sakhrani(参考訳) 地球規模の事象のダイナミクスをモデル化しようとする疫学者は、疾患の発生など異常と関連する要因を特定する上で大きな課題に直面している。 本稿では,グローバルな開発指標をマーカーとして,感染症の発生に敏感な最も重要な開発セクターを特定する手法を提案する。 我々は,これらの指標と疾患発生の因果関係を統計的に評価し,最も頻度の高い指標を見つけるために,統計手法を用いる。 統計解析に加えて,データインプテーション手法を用いて生の現実世界のデータセットを有意義なデータに変換し,因果推論を行った。 インジケータ間の因果関係の検出に様々なアルゴリズムを適用することが,本研究の課題である。 国間の政府政策の格差が因果連鎖の相違の原因となっているにもかかわらず、いくつかの指標は21世紀に世界中での疾病の発生に敏感な決定要因として現れる。

Epidemiologists aiming to model the dynamics of global events face a significant challenge in identifying the factors linked with anomalies such as disease outbreaks. In this paper, we present a novel method for identifying the most important development sectors sensitive to disease outbreaks by using global development indicators as markers. We use statistical methods to assess the causative linkages between these indicators and disease outbreaks, as well as to find the most often ranked indicators. We used data imputation techniques in addition to statistical analysis to convert raw real-world data sets into meaningful data for causal inference. The application of various algorithms for the detection of causal linkages between the indicators is the subject of this research. Despite the fact that disparities in governmental policies between countries account for differences in causal linkages, several indicators emerge as important determinants sensitive to disease outbreaks over the world in the 21st Century.
翻訳日:2021-09-16 14:49:44 公開日:2021-09-15
# FORTAP:数値推論対応テーブル事前学習のためのフォーミュラの利用

FORTAP: Using Formulae for Numerical-Reasoning- Aware Table Pretraining ( http://arxiv.org/abs/2109.07323v1 )

ライセンス: Link先を確認
Zhoujun Cheng, Haoyu Dong, Fan Cheng, Ran Jia, Pengfei Wu, Shi Han, Dongmei Zhang(参考訳) テーブルは豊富な数値データを格納するが、テーブル上の数値推論は依然として難しい。 本稿では,表内の数値の計算を行うスプレッドシート公式が,自然に数値推論の強力な監督対象であることを示す。 さらに、Web上では、専門家による公式付き大量のスプレッドシートが利用可能であり、容易に入手することができる。 FORTAPは, スプレッドシート公式の大規模コーパスを利用して, 事前学習を行うための最初の方法である。 半構造化テーブルで数値参照と計算を学習するために、FOTAPを明示的にガイドする2つの定式前処理タスクを設計する。 FORTAPは、セルタイプ分類と公式予測という2つの典型的な下流タスクにおける最先端の成果を達成し、数値推論を意識した事前学習の可能性を示す。

Tables store rich numerical data, but numerical reasoning over tables is still a challenge. In this paper, we find that the spreadsheet formula, which performs calculations on numerical values in tables, is naturally a strong supervision of numerical reasoning. More importantly, large amounts of spreadsheets with expert-made formulae are available on the web and can be obtained easily. FORTAP is the first method for numerical-reasoning- aware table pretraining by leveraging large corpus of spreadsheet formulae. We design two formula pretraining tasks to explicitly guide FORTAP to learn numerical reference and calculation in semi-structured tables. FORTAP achieves state-of-the-art results on two representative downstream tasks, cell type classification and formula prediction, showing great potential of numerical-reasoning- aware pretraining.
翻訳日:2021-09-16 14:49:31 公開日:2021-09-15
# DCUR:強化学習を用いたサンプルを用いたデータカリキュラム

DCUR: Data Curriculum for Teaching via Samples with Reinforcement Learning ( http://arxiv.org/abs/2109.07380v1 )

ライセンス: Link先を確認
Daniel Seita, Abhinav Gopal, Zhao Mandi, John Canny(参考訳) 深部強化学習(Deep reinforcement learning, RL)は経験的成功は大きいが, 脆性やサンプル不効率に悩まされている。 潜在的な治療法は、以前訓練されたポリシーを監督の源として使うことである。 そこで本研究では,これらの政策を教師として,データ利用に焦点をあてて,その専門性を新しい学生政策に移す方法について検討する。 まず,オンライン深層rlを用いて教師を訓練し,ログ付き環境対話履歴を記憶する,強化学習のためのデータカリキュラム(dcur)を提案する。 そして、オフラインのRLを実行するか、少量の自己生成データと組み合わせて教師データを使用することで学習する。 DCURの中心的な考え方は、訓練時間の関数として、全教師データの固定されたサブセットからのサンプリングを制限するデータカリキュラムのクラスを定義することである。 教師と学生は、さまざまなデータカリキュラムにまたがって最先端の深層RLアルゴリズムを用いてテストする。 その結果,データキュリキュラの選択は学生の学習に大きく影響し,初期トレーニング段階でデータを制限することは有益であり,データの可用性は徐々に向上することが示唆された。 オフラインのRLアルゴリズムに頼らずに、学生がオフラインで学習し、教師のパフォーマンスにマッチできる時期を特定する。 さらに,少数のオンラインデータを集めることで,データカリキュラムに補完的なメリットが得られることを示す。 追加資料はhttps://tinyurl.com/ teach-dcur.comで入手できる。

Deep reinforcement learning (RL) has shown great empirical successes, but suffers from brittleness and sample inefficiency. A potential remedy is to use a previously-trained policy as a source of supervision. In this work, we refer to these policies as teachers and study how to transfer their expertise to new student policies by focusing on data usage. We propose a framework, Data CUrriculum for Reinforcement learning (DCUR), which first trains teachers using online deep RL, and stores the logged environment interaction history. Then, students learn by running either offline RL or by using teacher data in combination with a small amount of self-generated data. DCUR's central idea involves defining a class of data curricula which, as a function of training time, limits the student to sampling from a fixed subset of the full teacher data. We test teachers and students using state-of-the-art deep RL algorithms across a variety of data curricula. Results suggest that the choice of data curricula significantly impacts student learning, and that it is beneficial to limit the data during early training stages while gradually letting the data availability grow over time. We identify when the student can learn offline and match teacher performance without relying on specialized offline RL algorithms. Furthermore, we show that collecting a small fraction of online data provides complementary benefits with the data curriculum. Supplementary material is available at https://tinyurl.com/ teach-dcur.
翻訳日:2021-09-16 14:49:18 公開日:2021-09-15
# ニューラルネットワークの形が聞こえますか? 磁気サイドチャネルによるGPUのスヌーピング

Can one hear the shape of a neural network?: Snooping the GPU via Magnetic Side Channel ( http://arxiv.org/abs/2109.07395v1 )

ライセンス: Link先を確認
Henrique Teles Maia, Chang Xiao, Dingzeyu Li, Eitan Grinspun, Changxi Zheng(参考訳) 企業と個人の両方でニューラルネットワークアプリケーションの人気が高まっている。 ネットワークソリューションは各タスクごとに注意深く調整され、クエリを堅牢に解決できる設計は、高要求で終わる。 正確でパフォーマンスの高い機械学習モデルの商用価値が増大するにつれて、ニューラルアーキテクチャを機密投資として保護するニーズも高まる。 我々は、加速ハードウェア間のブラックボックスとして展開されるニューラルネットワークの脆弱性を電磁的側チャネルを通じて調査する。 我々は、グラフィック処理装置の電源ケーブルから発生する磁束を、安価な3ドルの誘導センサで取得し、この信号がブラックボックスニューラルネットワークモデルの詳細なトポロジーとハイパーパラメータを裏切ることを見出した。 攻撃は、未知の入力値を持つが既知の入力次元を持つ1つのクエリのための磁気信号を取得する。 ディープニューラルネットワークを評価するモジュール層シーケンスにより,ネットワーク再構成が可能となる。 そこで我々は,各層成分の評価結果から,階層トポロジ,幅,関数型,シーケンス順序を,整数計画に基づく整合性最適化と適切に訓練された分類器を用いて推定できる磁化信号シグニチャが得られた。 ネットワーク仕様を回復できる範囲を調査し,ネットワーク類似性を比較するための指標を検討する。 我々は、ランダム設計を含む幅広いネットワークアーキテクチャの詳細を復元する上で、このサイドチャネル攻撃の潜在的な精度を示す。 我々は,この新たなサイドチャネル露出を悪用するアプリケーションについて考察する。 そこで本研究では,本手法や他のスヌーピング技術に対する対策について論じる。

Neural network applications have become popular in both enterprise and personal settings. Network solutions are tuned meticulously for each task, and designs that can robustly resolve queries end up in high demand. As the commercial value of accurate and performant machine learning models increases, so too does the demand to protect neural architectures as confidential investments. We explore the vulnerability of neural networks deployed as black boxes across accelerated hardware through electromagnetic side channels. We examine the magnetic flux emanating from a graphics processing unit's power cable, as acquired by a cheap $3 induction sensor, and find that this signal betrays the detailed topology and hyperparameters of a black-box neural network model. The attack acquires the magnetic signal for one query with unknown input values, but known input dimensions. The network reconstruction is possible due to the modular layer sequence in which deep neural networks are evaluated. We find that each layer component's evaluation produces an identifiable magnetic signal signature, from which layer topology, width, function type, and sequence order can be inferred using a suitably trained classifier and a joint consistency optimization based on integer programming. We study the extent to which network specifications can be recovered, and consider metrics for comparing network similarity. We demonstrate the potential accuracy of this side channel attack in recovering the details for a broad range of network architectures, including random designs. We consider applications that may exploit this novel side channel exposure, such as adversarial transfer attacks. In response, we discuss countermeasures to protect against our method and other similar snooping techniques.
翻訳日:2021-09-16 14:48:54 公開日:2021-09-15
# 変分オートエンコーダを用いた物理場の分散生成因子

Disentangling Generative Factors of Physical Fields Using Variational Autoencoders ( http://arxiv.org/abs/2109.07399v1 )

ライセンス: Link先を確認
Christian Jacobsen and Karthik Duraisamy(参考訳) 教師なしの方法でデータの高次元分野から生成パラメータを抽出する能力は、計算物理学において非常に望ましいが未実現の目標である。 本研究は, 非線形次元低減のための変分オートエンコーダ(vaes)の利用を考察し, 低次元の潜在変数を分離して, データを生成する独立な物理パラメータを同定することを目的としている。 不整合分解は解釈可能であり、生成的モデリング、設計最適化、確率的還元順序モデリングを含む様々なタスクに転送することができる。 従来のvae損失関数(すなわちelbo)を最小に修正し、高い再構成精度を維持することで、vaesを用いた絡み合いを特徴付けることが本研究の主な重点である。 乱れは潜在空間の回転、ハイパーパラメータ、ランダム初期化、学習スケジュールに非常に敏感であることが示されている。 損失の風景は、望ましい解を取り囲む過剰に正規化された局所的ミニマによって特徴づけられる。 本稿では,モデル多孔質流れ問題における学習潜在分布と「真の」生成因子を交互に配置することにより,不連続表現と絡み合い表現の比較を行う。 階層的先行性(HP)の実装は、古典的VAE上での非絡み合った表現の学習をより促進する。 先行分布の選択は乱れに劇的な影響を与えることが示されている。 特に、回転不変前のトレーニングにおいて、正規化損失は潜時回転の影響を受けず、非回転不変の事前学習は、生成因子の特性を捕捉し、乱れを改善するのに大いに役立つ。 過正規化局所ミニマへの収束など,VAEの訓練に固有のいくつかの課題が説明され,検討され,緩和のための潜在的技術が提示される。

The ability to extract generative parameters from high-dimensional fields of data in an unsupervised manner is a highly desirable yet unrealized goal in computational physics. This work explores the use of variational autoencoders (VAEs) for non-linear dimension reduction with the aim of disentangling the low-dimensional latent variables to identify independent physical parameters that generated the data. A disentangled decomposition is interpretable and can be transferred to a variety of tasks including generative modeling, design optimization, and probabilistic reduced order modelling. A major emphasis of this work is to characterize disentanglement using VAEs while minimally modifying the classic VAE loss function (i.e. the ELBO) to maintain high reconstruction accuracy. Disentanglement is shown to be highly sensitive to rotations of the latent space, hyperparameters, random initializations and the learning schedule. The loss landscape is characterized by over-regularized local minima which surrounds desirable solutions. We illustrate comparisons between disentangled and entangled representations by juxtaposing learned latent distributions and the 'true' generative factors in a model porous flow problem. Implementing hierarchical priors (HP) is shown to better facilitate the learning of disentangled representations over the classic VAE. The choice of the prior distribution is shown to have a dramatic effect on disentanglement. In particular, the regularization loss is unaffected by latent rotation when training with rotationally-invaria nt priors, and thus learning non-rotationally-inv ariant priors aids greatly in capturing the properties of generative factors, improving disentanglement. Some issues inherent to training VAEs, such as the convergence to over-regularized local minima are illustrated and investigated, and potential techniques for mitigation are presented.
翻訳日:2021-09-16 14:48:30 公開日:2021-09-15
# 旅行時間推定のための多視点空間時間モデル

Multi View Spatial-Temporal Model for Travel Time Estimation ( http://arxiv.org/abs/2109.07402v1 )

ライセンス: Link先を確認
ZiChuan Liu, Zhaoyang Wu, Meng Wang(参考訳) タクシーの到着時刻予測は、インテリジェント交通システムの構築に不可欠である。 従来の到着時刻推定手法は主に交通地図の特徴抽出に依存しており、複雑な状況や非線形な空間的・時間的関係をモデル化できない。 そこで本稿では,時空間と軌道の依存性を捉えるためのマルチビュー時空間モデル(MVSTM)を提案する。 具体的には,空間ビューのモデル化にGraph2vec,軌跡ビューのモデル化にデュアルチャネル時間モジュール,トラフィックセマンティクスのモデル化に構造埋め込みを用いる。 大規模タクシー軌道データを用いた実験により,本手法は新規手法よりも有効であることが示された。 ソースコードはhttps://github.com/7 75269512/SIGSPATIAL- 2021-GISCUP-4th-Solu tionから取得できる。

Taxi arrival time prediction is an essential part of building intelligent transportation systems. Traditional arrival time estimation methods mainly rely on traffic map feature extraction, which can not model complex situations and nonlinear spatial and temporal relationships. Therefore, we propose a Multi-View Spatial-Temporal Model (MVSTM) to capture the dependence of spatial-temporal and trajectory. Specifically, we use graph2vec to model the spatial view, dual-channel temporal module to model the trajectory view, and structural embedding to model the traffic semantics. Experiments on large-scale taxi trajectory data show that our approach is more effective than the novel method. The source code can be obtained from https://github.com/7 75269512/SIGSPATIAL- 2021-GISCUP-4th-Solu tion.
翻訳日:2021-09-16 14:48:00 公開日:2021-09-15
# 剛体物体の広域・低レイテンシ・電力効率6-DoF追跡システム

A Wide-area, Low-latency, and Power-efficient 6-DoF Pose Tracking System for Rigid Objects ( http://arxiv.org/abs/2109.07428v1 )

ライセンス: Link先を確認
Young-Ho Kim, Ankur Kapoor, Tommaso Mansi, Ali Kamen(参考訳) 位置感度検出器(PSD)は、単一のアクティブマーカーの2度(または3度)自由度(DoF)の位置を高精度に追跡できると同時に、高速な応答時間と高い更新周波数と低レイテンシを持つ。 しかし, 方位測定の欠如, 追跡範囲の制限, 環境変動に対する感受性などにより, 6自由度物体姿勢追跡システムには特に適さない。 単一のアクティブマーカーを必要とする剛体物体追跡のための新しい6-DoFポーズトラッキングシステムを提案する。 提案システムは、ステレオベースのPSDペアと複数慣性測定ユニット(IMU)を用いる。 これは、赤外線発光ダイオード(IR-LED)のアクティブマーカーのパワーを特定し制御するための実用的なアプローチに基づいて、トラッキング作業量を増やし、消費電力を減らすことを目的としている。 提案するトラッキングシステムは,3つの作業空間サイズ,および3つの動作パターンを持つロボットアームマニピュレータを用いた静的および動的位置精度で検証した。 その結果, 静的位置のルート平均二乗(RMS)誤差は0.6mmであった。 動的位置 RMS 誤差は 0.7-0.9mm である。 RMSの向きの誤差は0.04から0.9度であり、動的運動は様々である。 全体として,提案するトラッキングシステムは,作業空間の中間領域における剛体姿勢と,実験室環境下のすべての作業空間における低度精度を追跡することができる。

Position sensitive detectors (PSDs) offer possibility to track single active marker's two (or three) degrees of freedom (DoF) position with a high accuracy, while having a fast response time with high update frequency and low latency, all using a very simple signal processing circuit. However they are not particularly suitable for 6-DoF object pose tracking system due to lack of orientation measurement, limited tracking range, and sensitivity to environmental variation. We propose a novel 6-DoF pose tracking system for a rigid object tracking requiring a single active marker. The proposed system uses a stereo-based PSD pair and multiple Inertial Measurement Units (IMUs). This is done based on a practical approach to identify and control the power of Infrared-Light Emitting Diode (IR-LED) active markers, with an aim to increase the tracking work space and reduce the power consumption. Our proposed tracking system is validated with three different work space sizes and for static and dynamic positional accuracy using robotic arm manipulator with three different dynamic motion patterns. The results show that the static position root-mean-square (RMS) error is 0.6mm. The dynamic position RMS error is 0.7-0.9mm. The orientation RMS error is between 0.04 and 0.9 degree at varied dynamic motion. Overall, our proposed tracking system is capable of tracking a rigid object pose with sub-millimeter accuracy at the mid range of the work space and sub-degree accuracy for all work space under a lab setting.
翻訳日:2021-09-16 14:47:30 公開日:2021-09-15
# Spline-PINN:高速・物理インフォームド・ハーマイト・スプラインCNNを用いたデータなしPDEへのアプローチ

Spline-PINN: Approaching PDEs without Data using Fast, Physics-Informed Hermite-Spline CNNs ( http://arxiv.org/abs/2109.07143v1 )

ライセンス: Link先を確認
Nils Wandel, Michael Weinmann, Michael Neidlin, Reinhard Klein(参考訳) 部分微分方程式(PDE)は解くのがとても難しい。 一般に、閉形式解は利用できず、数値近似スキームは計算コストが高い。 本稿では,最近登場した2つの機械学習手法の利点を組み合わせた新しい手法に基づいて,pdesの解法へのアプローチを提案する。 まず、物理インフォームドニューラルネットワーク(PINN)はPDEの連続的な解を学習し、基礎となる真理データをほとんど、あるいは全く含まないで訓練することができる。 しかし、PINNは見えない領域に対してうまく一般化しない。 第二に、畳み込みニューラルネットワークは高速な推論と一般化を提供するが、大量のトレーニングデータを必要とするか、不正確さや離散化成果物につながる可能性のある有限差分に基づく物理制約付き損失を必要とする。 我々はこれらの2つのアプローチの利点を、CNNで処理できるグリッドベースの状態表現を継続的に補間するために、Hermiteスプラインカーネルを使用することで活用する。 これにより、物理インフォームド損失関数のみを使用して事前計算されたトレーニングデータなしでトレーニングが可能となり、目に見えない領域に一般化する高速で連続的なソリューションが提供される。 非圧縮性ナビエ・ストークス方程式と減衰波方程式の例として本手法の可能性を示す。 私たちのモデルは、カルマン渦通り、マグヌス効果、ドップラー効果、干渉パターン、波の反射といった興味深い現象を学べます。 我々の定量的評価とインタラクティブなリアルタイムデモは、教師なしMLベースの手法の精度の差を産業用CFDソルバに狭め、桁違いに高速であることを示している。

Partial Differential Equations (PDEs) are notoriously difficult to solve. In general, closed-form solutions are not available and numerical approximation schemes are computationally expensive. In this paper, we propose to approach the solution of PDEs based on a novel technique that combines the advantages of two recently emerging machine learning based approaches. First, physics-informed neural networks (PINNs) learn continuous solutions of PDEs and can be trained with little to no ground truth data. However, PINNs do not generalize well to unseen domains. Second, convolutional neural networks provide fast inference and generalize but either require large amounts of training data or a physics-constrained loss based on finite differences that can lead to inaccuracies and discretization artifacts. We leverage the advantages of both of these approaches by using Hermite spline kernels in order to continuously interpolate a grid-based state representation that can be handled by a CNN. This allows for training without any precomputed training data using a physics-informed loss function only and provides fast, continuous solutions that generalize to unseen domains. We demonstrate the potential of our method at the examples of the incompressible Navier-Stokes equation and the damped wave equation. Our models are able to learn several intriguing phenomena such as Karman vortex streets, the Magnus effect, Doppler effect, interference patterns and wave reflections. Our quantitative assessment and an interactive real-time demo show that we are narrowing the gap in accuracy of unsupervised ML based methods to industrial CFD solvers while being orders of magnitude faster.
翻訳日:2021-09-16 14:46:46 公開日:2021-09-15
# マルコフ決定過程の制御チャネルにおける攻撃の検出性と性能のバランス

Balancing detectability and performance of attacks on the control channel of Markov Decision Processes ( http://arxiv.org/abs/2109.07171v1 )

ライセンス: Link先を確認
Alessio Russo, Alexandre Proutiere(参考訳) 我々は,マルコフ決定過程(MDPs)の制御チャネルにおける最適なステルス毒素攻撃を設計する問題について検討する。 この研究は、MDPに適用された敵国・毒殺攻撃や強化学習(RL)手法に対する研究コミュニティの最近の関心に動機づけられている。 これらの手法による方針は、意思決定者の観察を乱す攻撃に対して脆弱であることが示されている。 このような攻撃では、教師付き学習で使用される敵の例からインスピレーションを得て、敵の摂動の振幅はいくつかの規範に従って制限され、この制約が攻撃を不可避にすることを期待している。 しかしながら、そのような制約はいかなる非検出性も許容せず、基礎となるマルコフ過程の動的な性質を考慮に入れない。 本稿では,情報理論量に基づく新たな攻撃定式化を提案し,攻撃の検出可能性と制御プロセスの性能を最小化することを目的としている。 攻撃の効率と検出可能性のトレードオフを分析する。 このトレードオフを示す実例と数値シミュレーションで結論付ける。

We investigate the problem of designing optimal stealthy poisoning attacks on the control channel of Markov decision processes (MDPs). This research is motivated by the recent interest of the research community for adversarial and poisoning attacks applied to MDPs, and reinforcement learning (RL) methods. The policies resulting from these methods have been shown to be vulnerable to attacks perturbing the observations of the decision-maker. In such an attack, drawing inspiration from adversarial examples used in supervised learning, the amplitude of the adversarial perturbation is limited according to some norm, with the hope that this constraint will make the attack imperceptible. However, such constraints do not grant any level of undetectability and do not take into account the dynamic nature of the underlying Markov process. In this paper, we propose a new attack formulation, based on information-theoreti cal quantities, that considers the objective of minimizing the detectability of the attack as well as the performance of the controlled process. We analyze the trade-off between the efficiency of the attack and its detectability. We conclude with examples and numerical simulations illustrating this trade-off.
翻訳日:2021-09-16 14:46:20 公開日:2021-09-15
# PoWareMatch: 人間のスキーママッチングを改善するための品質を考慮したディープラーニングアプローチ

PoWareMatch: a Quality-aware Deep Learning Approach to Improve Human Schema Matching ( http://arxiv.org/abs/2109.07321v1 )

ライセンス: Link先を確認
Roee Shraga, Avigdor Gal(参考訳) スキーママッチングは、あらゆるデータ統合プロセスの中核的なタスクである。 データベース、ai、セマンティックweb、データマイニングの分野において長年にわたって調査されてきたが、主な課題は、データコンセプト(例えばデータベース属性)間で品質マッチングを生成する能力である。 本研究では,人間をマッチング者として行動する新たな角度について検討し,マッチング生成をプロセスとして検討する。 一般的な評価尺度(precision, recall, and f-measure)のダイナミクスを,この角度に関して分析し,この分析をサポートするために偏りのないマッチングの必要性を強調する。 非バイアスマッチング(unbiased matching)は、人間の決定がスキーマ対応の信頼できる評価を示すという共通の仮定を記述する概念であるが、人間のマッチング者固有の特性ではない。 以下に示すように,マッチングの質を裏付ける人間のマッチング決定を校正し,フィルタリングする深層学習機構を用いたPoWareMatchを設計し,アルゴリズムマッチングと組み合わせてより優れたマッチング結果を生成する。 我々は、一般的なベンチマークよりも200人以上いる人間のマッチング者による実験に基づいて、powarematchは、マッチを追加の対応で拡張し、高品質のマッチングを生成する利点を十分に予測しているという実証的な証拠を提供する。 加えて、powarematchは最先端のマッチングアルゴリズムを上回る。

Schema matching is a core task of any data integration process. Being investigated in the fields of databases, AI, Semantic Web and data mining for many years, the main challenge remains the ability to generate quality matches among data concepts (e.g., database attributes). In this work, we examine a novel angle on the behavior of humans as matchers, studying match creation as a process. We analyze the dynamics of common evaluation measures (precision, recall, and f-measure), with respect to this angle and highlight the need for unbiased matching to support this analysis. Unbiased matching, a newly defined concept that describes the common assumption that human decisions represent reliable assessments of schemata correspondences, is, however, not an inherent property of human matchers. In what follows, we design PoWareMatch that makes use of a deep learning mechanism to calibrate and filter human matching decisions adhering the quality of a match, which are then combined with algorithmic matching to generate better match results. We provide an empirical evidence, established based on an experiment with more than 200 human matchers over common benchmarks, that PoWareMatch predicts well the benefit of extending the match with an additional correspondence and generates high quality matches. In addition, PoWareMatch outperforms state-of-the-art matching algorithms.
翻訳日:2021-09-16 14:46:03 公開日:2021-09-15
# Union:空間加速器のテンソル操作評価のためのMLIRの統一HW-SW共同設計エコシステム

Union: A Unified HW-SW Co-Design Ecosystem in MLIR for Evaluating Tensor Operations on Spatial Accelerators ( http://arxiv.org/abs/2109.07419v1 )

ライセンス: Link先を確認
Geonhwa Jeong, Gokcen Kestor, Prasanth Chatarasi, Angshuman Parashar, Po-An Tsai, Sivasankaran Rajamanickam, Roberto Gioiosa, Tushar Krishna(参考訳) 商用および科学応用におけるディープラーニングの極端な計算要求を満たすため、データフローアクセラレーターはますます人気が高まっている。 これらの"ドメイン固有の"アクセラレータはCPUやGPUのように完全にプログラム可能ではないが、データオーケストレーション、すなわちデータフローとタイリングの最適化に関して様々なレベルの柔軟性を保ち、効率を向上させる。 新しいハードウェア上でターゲット問題のアルゴリズムを実行するための新しいアルゴリズムとマッピングアプローチを設計する場合、いくつかの課題がある。 以前の作品は、これらの課題を個別に扱っている。 この課題全体に対処するため、この研究では、一般的なMLIRコンパイラインフラストラクチャ内でUnionと呼ばれる空間加速器のためのHW-SW共同設計エコシステムを提示する。 我々のフレームワークは、様々なアルゴリズムとそのマッピングをいくつかの加速器コストモデル上で探索できる。 Unionはまた、簡単に拡張できるアクセラレータコストモデルとマッパーのプラグアンドプレイライブラリも備えている。 アルゴリズムと加速器コストモデルは、ハードウェア、ワークロード、マッパーからの制約に基づいて体系的に切断できる空間加速器のマップ空間をキャプチャする新しいマッピング抽象化を介して接続される。 我々は、異なるマッピング方式を用いて様々な加速器アーキテクチャ上で異なるテンソル演算(CONV/GEMM/Tensor Contraction)をオフロードするいくつかのケーススタディで、コミュニティに対するUnionの価値を実証する。

To meet the extreme compute demands for deep learning across commercial and scientific applications, dataflow accelerators are becoming increasingly popular. While these "domain-specific" ; accelerators are not fully programmable like CPUs and GPUs, they retain varying levels of flexibility with respect to data orchestration, i.e., dataflow and tiling optimizations to enhance efficiency. There are several challenges when designing new algorithms and mapping approaches to execute the algorithms for a target problem on new hardware. Previous works have addressed these challenges individually. To address this challenge as a whole, in this work, we present a HW-SW co-design ecosystem for spatial accelerators called Union within the popular MLIR compiler infrastructure. Our framework allows exploring different algorithms and their mappings on several accelerator cost models. Union also includes a plug-and-play library of accelerator cost models and mappers which can easily be extended. The algorithms and accelerator cost models are connected via a novel mapping abstraction that captures the map space of spatial accelerators which can be systematically pruned based on constraints from the hardware, workload, and mapper. We demonstrate the value of Union for the community with several case studies which examine offloading different tensor operations(CONV/GEMM /Tensor Contraction) on diverse accelerator architectures using different mapping schemes.
翻訳日:2021-09-16 14:45:41 公開日:2021-09-15
# クローズドループ安定性向上によるニューラルネットワーク最適フィードバック制御

Neural network optimal feedback control with enhanced closed loop stability ( http://arxiv.org/abs/2109.07466v1 )

ライセンス: Link先を確認
Tenavi Nakamura-Zimmerer and Qi Gong and Wei Kang(参考訳) 近年の研究では、教師あり学習は高次元非線形力学系のための最適フィードバックコントローラを設計するための有効なツールであることが示されている。 しかし、これらのニューラルネットワーク(NN)コントローラの挙動はまだよく理解されていない。 本稿では,典型的なテスト精度指標がnnコントローラのシステム安定化能力を効果的に捉えていないことを示すために,数値シミュレーションを用いた。 特に、テスト精度の高いnnは、ダイナミクスの安定化に失敗する可能性がある。 そこで我々は線形二次レギュレータ(lqr)を局所的に近似する2つのnnアーキテクチャを提案する。 数値シミュレーションにより,提案アーキテクチャが性能を犠牲にすることなく安定化フィードバックコントローラを確実に生成することを示す。 さらに, NN制御システムの安定性について述べる予備的理論的結果を紹介する。

Recent research has shown that supervised learning can be an effective tool for designing optimal feedback controllers for high-dimensional nonlinear dynamic systems. But the behavior of these neural network (NN) controllers is still not well understood. In this paper we use numerical simulations to demonstrate that typical test accuracy metrics do not effectively capture the ability of an NN controller to stabilize a system. In particular, some NNs with high test accuracy can fail to stabilize the dynamics. To address this we propose two NN architectures which locally approximate a linear quadratic regulator (LQR). Numerical simulations confirm our intuition that the proposed architectures reliably produce stabilizing feedback controllers without sacrificing performance. In addition, we introduce a preliminary theoretical result describing some stability properties of such NN-controlled systems.
翻訳日:2021-09-16 14:45:18 公開日:2021-09-15
# (参考訳) ロバストフェデレーション型ベストアーム識別における不均一性の利用

Exploiting Heterogeneity in Robust Federated Best-Arm Identification ( http://arxiv.org/abs/2109.05700v2 )

ライセンス: CC BY 4.0
Aritra Mitra, Hamed Hassani and George Pappas(参考訳) 確率的多腕バンディットにおける最良腕識別問題の連帯型について検討する: 各腕のサブセットのみをサンプリングできるクライアントの集合は、サーバを介して協力し、最高の腕(すなわち、最高の平均報酬を持つ腕)を所定の信頼度で識別する。 そこで本稿では,Fed-SELを提案する。Fed-SELは,逐次除去技術に基づく単純な通信効率のアルゴリズムで,クライアントの局所サンプリングを行う。 本稿では,Fed-SELの性能を検討するために,異なるクライアントに対応するアームの分布の相違を捉えるアームヘテロジニティの概念を導入する。 興味深いことに,本研究は,feed-selのサンプルと通信複雑度を減少させる際のアームヘテロゲニティの利点を明らかにする。 分析の特別な例として、ある異種問題の場合、Fed-SELは1ラウンドの通信後にベストアームを出力することを示す。 最近の研究で統計的不均一性が性能の低下につながることが示されているフェデレート教師付き学習とは異なり、局所計算とフェデレートベストアーム識別のヘテロゲニティの両方の利点を確実に享受することができる。 最終コントリビューションとして、フェデレーションとピアツーピアの両方を対象としてFed-SELの亜種を開発しました。

We study a federated variant of the best-arm identification problem in stochastic multi-armed bandits: a set of clients, each of whom can sample only a subset of the arms, collaborate via a server to identify the best arm (i.e., the arm with the highest mean reward) with prescribed confidence. For this problem, we propose Fed-SEL, a simple communication-effici ent algorithm that builds on successive elimination techniques and involves local sampling steps at the clients. To study the performance of Fed-SEL, we introduce a notion of arm-heterogeneity that captures the level of dissimilarity between distributions of arms corresponding to different clients. Interestingly, our analysis reveals the benefits of arm-heterogeneity in reducing both the sample- and communication-comple xity of Fed-SEL. As a special case of our analysis, we show that for certain heterogeneous problem instances, Fed-SEL outputs the best-arm after just one round of communication. Our findings have the following key implication: unlike federated supervised learning where recent work has shown that statistical heterogeneity can lead to poor performance, one can provably reap the benefits of both local computation and heterogeneity for federated best-arm identification. As our final contribution, we develop variants of Fed-SEL, both for federated and peer-to-peer settings, that are robust to the presence of Byzantine clients, and hence suitable for deployment in harsh, adversarial environments.
翻訳日:2021-09-16 11:39:17 公開日:2021-09-15
# (参考訳) DBMSにおける心性評価 : 総合的ベンチマーク評価 [全文訳有]

Cardinality Estimation in DBMS: A Comprehensive Benchmark Evaluation ( http://arxiv.org/abs/2109.05877v3 )

ライセンス: CC BY 4.0
Yuxing Han, Ziniu Wu, Peizhi Wu, Rong Zhu, Jingyi Yang, Liang Wei Tan, Kai Zeng, Gao Cong, Yanzhao Qin, Andreas Pfadler, Zhengping Qian, Jingren Zhou, Jiangneng Li, Bin Cui(参考訳) カーディナリティ推定(CardEst)はDBMSのクエリオプティマイザのための高品質なクエリプランを生成する上で重要な役割を果たす。 過去10年間で、予測精度と推論遅延に優れた高度なCardEstメソッド(特にMLベース)が提案されている。 しかし、これらの手法の質を体系的に評価し、基本的な問題に答える研究は存在せず、この手法が現実世界の設定においてクエリオプティマイザの性能をどの程度向上させるかは、カードレストの究極の目標である。 本稿では,実際のDBMSにおけるCardEst手法の有効性を包括的かつ体系的に比較する。 CardEstの新しいベンチマークは、新しい複雑な実世界のデータセットSTATSと多様なクエリワークロードSTATS-CEBを含んでいる。 複数の代表的なcardestメソッドをオープンソースのデータベースシステムpostgresqlに統合し,クエリプランの品質向上や,推論レイテンシやモデルサイズ,トレーニング時間など,その適用性に影響する重要な側面を包括的に評価して,効率と正確性を更新する。 異なるデータとクエリの設定の下で,cardestメソッドに対する多くの重要な発見を得た。 さらに,広く用いられている推定精度指標 (q-error) は,クエリ最適化において異なるサブプランクエリの重要性を識別できないため,cardestメソッドによって生成されたクエリプランの品質を真に反映できないことがわかった。 そこで本研究では,Q-Errorの限界を克服し,CardEst法全体のエンドツーエンド性能を反映できる,CardEst法の性能を評価するための新しい測度P-Errorを提案する。 ベンチマークデータと評価コードは、https://github.com/N athaniel-Han/End-to- End-CardEst-Benchmar kで公開しました。

Cardinality estimation (CardEst) plays a significant role in generating high-quality query plans for a query optimizer in DBMS. In the last decade, an increasing number of advanced CardEst methods (especially ML-based) have been proposed with outstanding estimation accuracy and inference latency. However, there exists no study that systematically evaluates the quality of these methods and answer the fundamental problem: to what extent can these methods improve the performance of query optimizer in real-world settings, which is the ultimate goal of a CardEst method. In this paper, we comprehensively and systematically compare the effectiveness of CardEst methods in a real DBMS. We establish a new benchmark for CardEst, which contains a new complex real-world dataset STATS and a diverse query workload STATS-CEB. We integrate multiple most representative CardEst methods into an open-source database system PostgreSQL, and comprehensively evaluate their true effectiveness in improving query plan quality, and other important aspects affecting their applicability, ranging from inference latency, model size, and training time, to update efficiency and accuracy. We obtain a number of key findings for the CardEst methods, under different data and query settings. Furthermore, we find that the widely used estimation accuracy metric(Q-Error) cannot distinguish the importance of different sub-plan queries during query optimization and thus cannot truly reflect the query plan quality generated by CardEst methods. Therefore, we propose a new metric P-Error to evaluate the performance of CardEst methods, which overcomes the limitation of Q-Error and is able to reflect the overall end-to-end performance of CardEst methods. We have made all of the benchmark data and evaluation code publicly available at https://github.com/N athaniel-Han/End-to- End-CardEst-Benchmar k.
翻訳日:2021-09-16 11:38:03 公開日:2021-09-15
# (参考訳) 文字列モデルの大規模なアンサンブルを用いた後OCR文書補正 [全文訳有]

Post-OCR Document Correction with large Ensembles of Character Sequence Models ( http://arxiv.org/abs/2109.06264v2 )

ライセンス: CC BY 4.0
Juan Ramirez-Orta and Eduardo Xamena and Ana Maguitman and Evangelos Milios and Axel J. Soto(参考訳) 本稿では,光学文字認識(OCR)システムですでに処理されている文書を訂正するための文字列列列モデルに基づく新しい手法を提案する。 本論文の主な貢献は, サンプルと資源効率を両立させ, 徹底的な実験によって支援されたシーケンスモデルのトレーニングよりも, 文字列を正確に処理する戦略の集合である。 最高のパフォーマンスを持つ戦略は、入力文書を文字n-gramに分割し、多数のシーケンスモデルのアンサンブルに相当する投票方式を用いて、個々の修正を最終的な出力に組み合わせることである。 さらに、このアンサンブルのメンバーのそれぞれからの貢献度を測る方法について検討する。 我々は,ICDAR 2019コンペティションの9言語を対象に,OCR後のテキスト修正を行い,その中5言語で新たな最先端性能を実現する。 OCR修正後のコードはhttps://github.com/j arobyte91/post_ocr_c orrectionで共有されます。

In this paper, we propose a novel method based on character sequence-to-sequence models to correct documents already processed with Optical Character Recognition (OCR) systems. The main contribution of this paper is a set of strategies to accurately process strings much longer than the ones used to train the sequence model while being sample- and resource-efficient, supported by thorough experimentation. The strategy with the best performance involves splitting the input document in character n-grams and combining their individual corrections into the final output using a voting scheme that is equivalent to an ensemble of a large number of sequence models. We further investigate how to weigh the contributions from each one of the members of this ensemble. We test our method on nine languages of the ICDAR 2019 competition on post-OCR text correction and achieve a new state-of-the-art performance in five of them. Our code for post-OCR correction is shared at https://github.com/j arobyte91/post_ocr_c orrection.
翻訳日:2021-09-16 11:08:09 公開日:2021-09-15
# (参考訳) 法的なトランスフォーマーモデル、常に役に立たないかもしれない [全文訳有]

Legal Transformer Models May Not Always Help ( http://arxiv.org/abs/2109.06862v2 )

ライセンス: CC BY 4.0
Saibo Geng, R\'emi Lebret, Karl Aberer(参考訳) ディープラーニングベースの自然言語処理手法、特にトランスフォーマーは、ここ数年で目覚ましいパフォーマンスを達成した。 このような最先端のNLPメソッドを法的活動に適用して、簡単な作業の自動化や単純化は大きな価値があります。 本研究では,法的NLPタスクにおけるドメイン適応型事前学習と言語アダプタの価値について検討する。 言語モデルの性能と、異なるタスクと異なるデータセット分割におけるドメイン適応型事前学習を比較して、ドメイン適応型事前学習は低リソースの下流タスクにしか役に立たないことを示す。 また、典型的法定nlpタスクにおけるアダプタのパフォーマンスをベンチマークし、より少ないトレーニングコストでフルモデルのチューニングと同様のパフォーマンスが得られることを示した。 さらなる結果として、法定コーパスで事前訓練されたRoBERTaモデルであるLegalRoBERTaをリリースする。

Deep learning-based Natural Language Processing methods, especially transformers, have achieved impressive performance in the last few years. Applying those state-of-the-art NLP methods to legal activities to automate or simplify some simple work is of great value. This work investigates the value of domain adaptive pre-training and language adapters in legal NLP tasks. By comparing the performance of language models with domain adaptive pre-training on different tasks and different dataset splits, we show that domain adaptive pre-training is only helpful with low-resource downstream tasks, thus far from being a panacea. We also benchmark the performance of adapters in a typical legal NLP task and show that they can yield similar performance to full model tuning with much smaller training costs. As an additional result, we release LegalRoBERTa, a RoBERTa model further pre-trained on legal corpora.
翻訳日:2021-09-16 10:59:49 公開日:2021-09-15
# (参考訳) 対照的に学習された意味空間を用いたアレン基準アトラスからの部分マウス脳顕微鏡像の同定 [全文訳有]

Identifying partial mouse brain microscopy images from Allen reference atlas using a contrastively learned semantic space ( http://arxiv.org/abs/2109.06662v2 )

ライセンス: CC BY 4.0
Justinas Antanavicius, Roberto Leiras, Raghavendra Selvan(参考訳) マウス脳の解剖学的構造を基準アトラスに登録する場合、マウス脳顕微鏡画像の正確な同定は重要な第一歩である。 実践者は、通常、完全な画像が存在すると仮定する画像やツールを手動で比較する。 本研究は、与えられた2次元マウス脳画像に対して対応する2次元参照アトラスプレートを探索する方法として、シアムネットワークを探索する。 siamese networkは、重みの共有パスを使用して入力画像のペアの低次元埋め込みを得る畳み込みニューラルネットワーク(cnns)のクラスである。 部分的マウス脳画像と参照アトラスプレートとの対応は、対照学習を用いてシャムネットワークから得られる脳スライスの低次元埋め込みとアトラスプレートとの間の距離に基づいて決定される。 実験の結果、Samese CNNは、同じソースから画像のトレーニングやテストを行うときに、アレンマウスの脳アトラスを使って脳のスライスを正確に識別できることがわかった。 TOP-1とTOP-5の精度はそれぞれ25%と100%で、29枚の画像を特定するのにわずか7.2秒しかかからなかった。

Precise identification of mouse brain microscopy images is a crucial first step when anatomical structures in the mouse brain are to be registered to a reference atlas. Practitioners usually rely on manual comparison of images or tools that assume the presence of complete images. This work explores Siamese Networks as the method for finding corresponding 2D reference atlas plates for given partial 2D mouse brain images. Siamese networks are a class of convolutional neural networks (CNNs) that use weight-shared paths to obtain low dimensional embeddings of pairs of input images. The correspondence between the partial mouse brain image and reference atlas plate is determined based on the distance between low dimensional embeddings of brain slices and atlas plates that are obtained from Siamese networks using contrastive learning. Experiments showed that Siamese CNNs can precisely identify brain slices using the Allen mouse brain atlas when training and testing images come from the same source. They achieved TOP-1 and TOP-5 accuracy of 25% and 100%, respectively, taking only 7.2 seconds to identify 29 images.
翻訳日:2021-09-16 10:49:12 公開日:2021-09-15
# すべてのモデルが同じ場所で言語知識をローカライズするわけではない:BERToidsの表現に基づく階層的探索

Not All Models Localize Linguistic Knowledge in the Same Place: A Layer-wise Probing on BERToids' Representations ( http://arxiv.org/abs/2109.05958v2 )

ライセンス: Link先を確認
Mohsen Fayyaz, Ehsan Aghazadeh, Ali Modarressi, Hosein Mohebbi, Mohammad Taher Pilehvar(参考訳) 最近の研究の多くはBERTに焦点を当てており、他のモデルと類似している可能性があると推定されている。 本研究では,本研究をエレクトラとxlnetという2つのモデルに拡張し,事前学習目標やアーキテクチャ選択のバリエーションが,表現における言語情報のエンコーディングにおいて異なる行動をもたらすことを示した。 最も注目すべきは、ELECTRAはより深い層で言語知識をエンコードする傾向にあり、XLNetはそれ以前の層に集中していることです。 また、前者は微調整時にわずかに変化し、後者は大幅に調整される。 さらに,各層にまたがる表現の標準的相違を考えると,重み付け評価戦略に基づく結論が,層単位での探索の文脈で広く用いられていることは誤解を招く可能性があることを示す。 代わりに、最小記述長の代替情報理論探索を採用し、より信頼性が高く情報的な結果が得られることが最近証明された。

Most of the recent works on probing representations have focused on BERT, with the presumption that the findings might be similar to the other models. In this work, we extend the probing studies to two other models in the family, namely ELECTRA and XLNet, showing that variations in the pre-training objectives or architectural choices can result in different behaviors in encoding linguistic information in the representations. Most notably, we observe that ELECTRA tends to encode linguistic knowledge in the deeper layers, whereas XLNet instead concentrates that in the earlier layers. Also, the former model undergoes a slight change during fine-tuning, whereas the latter experiences significant adjustments. Moreover, we show that drawing conclusions based on the weight mixing evaluation strategy -- which is widely used in the context of layer-wise probing -- can be misleading given the norm disparity of the representations across different layers. Instead, we adopt an alternative information-theoreti c probing with minimum description length, which has recently been proven to provide more reliable and informative results.
翻訳日:2021-09-16 10:39:45 公開日:2021-09-15
# 構造知覚解析のためのスパースファジィ注意

Sparse Fuzzy Attention for Structured Sentiment Analysis ( http://arxiv.org/abs/2109.06719v2 )

ライセンス: Link先を確認
Letain Peng, Zuchao Li and Hai Zhao(参考訳) セマンティクスや構文依存構文解析といったタスクのパースに成功している。 しかし、構造化感情分析のようにパースにモデル化されたタスクでは、"依存性のエッジ"はパーサーのパフォーマンスを阻害する非常にスパースである。 そこで我々は,パーサ性能の向上と構造的感情分析の新たな最先端設定を実現した,疎密でファジィなアテンションスコアリング手法を提案する。 さらに,2次解析による構造化感情分析のパースモデリングをさらに検討し,パース性能を著しく向上させる新たなスパース2次エッジ構築手順を導入する。

Attention scorers have achieved success in parsing tasks like semantic and syntactic dependency parsing. However, in tasks modeled into parsing, like structured sentiment analysis, "dependency edges" are very sparse which hinders parser performance. Thus we propose a sparse and fuzzy attention scorer with pooling layers which improves parser performance and sets the new state-of-the-art on structured sentiment analysis. We further explore the parsing modeling on structured sentiment analysis with second-order parsing and introduce a novel sparse second-order edge building procedure that leads to significant improvement in parsing performance.
翻訳日:2021-09-16 10:39:10 公開日:2021-09-15
# マルチレベルCNN機能の再定義によるFew-shotセグメンテーションの改善

Improved Few-shot Segmentation by Redefinition of the Roles of Multi-level CNN Features ( http://arxiv.org/abs/2109.06432v2 )

ライセンス: Link先を確認
Zhijie Wang, Masanori Suganuma, Takayuki Okatani(参考訳) 本研究は,クエリ画像中の未認識オブジェクトクラスの領域を,そのインスタンスのサポートイメージ(s)によって分割する,少数ショットのセグメンテーションに関するものである。 現在の方法は、サポートとクエリイメージの事前訓練されたCNN機能に依存している。 優れたパフォーマンスの鍵は、中レベルの特徴と高レベルの特徴の適切な融合に依存し、前者は形状指向情報、後者はクラス指向情報である。 現在の最先端の手法はTianらのアプローチに従っており、これは中級の特徴を主役とし、上位の特徴を二次役にする。 本稿では,マルチレベル機能の役割を再定義することで,この広く採用されているアプローチを再解釈し,プライマリとセカンダリの役割を交換する。 特に,本手法は,中間特徴量を用いた高次特徴量から生成された初期推定値を改善する。 この再解釈は、現在の方法の新しい応用を示唆している: 同じネットワークを複数回適用して、最初の見積もりから、オブジェクトの領域の推定を反復的に更新する。 実験の結果,COCO-20$^i$,PASCAL-5$^i$の1ショット設定,PASCAL-5$^i$設定において,従来のCOCO-20$^i$を更新した。

This study is concerned with few-shot segmentation, i.e., segmenting the region of an unseen object class in a query image, given support image(s) of its instances. The current methods rely on the pretrained CNN features of the support and query images. The key to good performance depends on the proper fusion of their mid-level and high-level features; the former contains shape-oriented information, while the latter has class-oriented information. Current state-of-the-art methods follow the approach of Tian et al., which gives the mid-level features the primary role and the high-level features the secondary role. In this paper, we reinterpret this widely employed approach by redifining the roles of the multi-level features; we swap the primary and secondary roles. Specifically, we regard that the current methods improve the initial estimate generated from the high-level features using the mid-level features. This reinterpretation suggests a new application of the current methods: to apply the same network multiple times to iteratively update the estimate of the object's region, starting from its initial estimate. Our experiments show that this method is effective and has updated the previous state-of-the-art on COCO-20$^i$ in the 1-shot and 5-shot settings and on PASCAL-5$^i$ in the 1-shot setting.
翻訳日:2021-09-16 10:38:58 公開日:2021-09-15
# 提案分類のための知識誘導長可変階層ラベル生成

Expert Knowledge-Guided Length-Variant Hierarchical Label Generation for Proposal Classification ( http://arxiv.org/abs/2109.06661v2 )

ライセンス: Link先を確認
Meng Xiao, Ziyue Qiao, Yanjie Fu, Yi Du, Pengyang Wang(参考訳) 科学技術の発展を促進するため、研究提案は政府機関(例えばNSF)によって開発されたオープンコート競争プログラムに提出される。 提案分類は、効果的かつ公正なレビュー課題を達成する上で最も重要な課題の1つである。 提案分類は、提案をラベルの長さ可変シーケンスに分類することを目的としている。 本稿では,提案分類問題を階層型マルチラベル分類タスクに定式化する。 先行研究もあるが、提案分類には独特の特徴がある。 1) 提案の分類結果は,粒度の異なる階層的な規律構造にある。 2) 複数の種類の書類を含む提案 3) ドメインの専門家は、タスクパフォーマンスを改善するために活用できる部分的なラベルを経験的に提供できます。 本稿では,これら3つの特徴を共同でモデル化する新しい深層提案分類フレームワークの開発に着目する。 特に,ラベルを逐次生成するために,事前に生成したラベルを活用して次のレベルのラベルを予測する。専門家による部分ラベルを統合するには,これらの経験的部分ラベルを埋め込んでニューラルネットワークの状態を初期化する。 我々のモデルは,次のラベル予測を止めるために,ラベルシーケンスの最適な長さを自動的に識別することができる。 最後に,本手法がラベル配列における部分的ラベル,テキスト情報,意味的依存関係を共同でモデル化できることを実証するために,広範な結果を提示する。

To advance the development of science and technology, research proposals are submitted to open-court competitive programs developed by government agencies (e.g., NSF). Proposal classification is one of the most important tasks to achieve effective and fair review assignments. Proposal classification aims to classify a proposal into a length-variant sequence of labels. In this paper, we formulate the proposal classification problem into a hierarchical multi-label classification task. Although there are certain prior studies, proposal classification exhibit unique features: 1) the classification result of a proposal is in a hierarchical discipline structure with different levels of granularity; 2) proposals contain multiple types of documents; 3) domain experts can empirically provide partial labels that can be leveraged to improve task performances. In this paper, we focus on developing a new deep proposal classification framework to jointly model the three features. In particular, to sequentially generate labels, we leverage previously-generated labels to predict the label of next level; to integrate partial labels from experts, we use the embedding of these empirical partial labels to initialize the state of neural networks. Our model can automatically identify the best length of label sequence to stop next label prediction. Finally, we present extensive results to demonstrate that our method can jointly model partial labels, textual information, and semantic dependencies in label sequences, and, thus, achieve advanced performances.
翻訳日:2021-09-16 10:38:34 公開日:2021-09-15
# Tuna-AI:海洋学と超音波FADデータに基づく機械学習モデルによるマグロバイオマス推定

Tuna-AI: tuna biomass estimation with Machine Learning models trained on oceanography and echosounder FAD data ( http://arxiv.org/abs/2109.06732v2 )

ライセンス: Link先を確認
Daniel Precioso, Manuel Navarro-Garc\'ia, Kathryn Gavira-O'Neill, Alberto Torres-Barr\'an, David Gordo, Victor Gallego-Alcal\'a, David G\'omez-Ullate(参考訳) 漂流FADに付加されたブイによって登録されたエコーソーダデータはマグロの個体群とその行動に関する非常に貴重な情報源となる。 これらのデータをCMEMSから得られた海洋データで補うと、この値が増加する。 本研究では,マグロ群集の特徴である日時パターンを3日間のエコーソーダデータを用いて把握し,マグロのバイオマスの予測を目的とした機械学習モデルであるマグロAIを開発した。 訓練用監視信号として,AGACマグロシーヌ艦隊が報告したマグロ漁獲量の5000種以上のイベントを運用している。

Echo-sounder data registered by buoys attached to drifting FADs provide a very valuable source of information on populations of tuna and their behaviour. This value increases whenthese data are supplemented with oceanographic data coming from CMEMS. We use these sources to develop Tuna-AI, a Machine Learning model aimed at predicting tuna biomass under a given buoy, which uses a 3-day window of echo-sounder data to capture the daily spatio-temporal patterns characteristic of tuna schools. As the supervised signal for training, we employ more than 5000 set events with their corresponding tuna catch reported by the AGAC tuna purse seine fleet.
翻訳日:2021-09-16 10:38:15 公開日:2021-09-15
# 深層強化学習における探索:包括的調査

Exploration in Deep Reinforcement Learning: A Comprehensive Survey ( http://arxiv.org/abs/2109.06668v2 )

ライセンス: Link先を確認
Tianpei Yang, Hongyao Tang, Chenjia Bai, Jinyi Liu, Jianye Hao, Zhaopeng Meng and Peng Liu(参考訳) Deep Reinforcement Learning (DRL)とDeep Multi-agent Reinforcement Learning (MARL)は、ゲームAI、自動運転車、ロボティクス、ファイナンスなど、幅広い領域で大きな成功を収めている。 しかし、DRLと深層MARLエージェントはサンプリング非効率であることが広く知られており、比較的単純なゲーム設定でも数百万のインタラクションが必要であるため、実際の産業シナリオにおける広範な適用を妨げている。 背景にあるボトルネックの1つは、よく知られた探索問題、すなわち、未知の環境を効率的に探索し、政策学習に最も役立つ情報的経験を集める方法である。 本稿では,drl と deep marl における既存の探索手法に関する総合的な調査を行い,重要な問題と解決策に関する理解と洞察を提供する。 まず、効率的な探査を実現するためのいくつかの重要な課題を特定します。 次に,既存のアプローチを不確実性指向探索と本質的モチベーション指向探索の2つのカテゴリに分類し,体系的な調査を行う。 不確実性指向探索の本質は、認識論的不確実性の定量化を利用して効率的な探索を導出することである。 対照的に、本質的な動機づけ指向の探索方法は、通常、内在的な探索指導に異なる報酬非依存の情報を取り入れている。 以上の2つの主な分野の他,高度な技術を採用するが,これら2つのカテゴリに分類することは困難である他の探索手法も結論づける。 さらに、よく使われるベンチマークのセット上でDRLの探索手法を総合的に比較する。 最後に,DRLと深部MARLにおける探索のオープンな問題を要約し,今後の方向性を指摘する。

Deep Reinforcement Learning (DRL) and Deep Multi-agent Reinforcement Learning (MARL) have achieved significant success across a wide range of domains, such as game AI, autonomous vehicles, robotics and finance. However, DRL and deep MARL agents are widely known to be sample-inefficient and millions of interactions are usually needed even for relatively simple game settings, thus preventing the wide application in real-industry scenarios. One bottleneck challenge behind is the well-known exploration problem, i.e., how to efficiently explore the unknown environments and collect informative experiences that could benefit the policy learning most. In this paper, we conduct a comprehensive survey on existing exploration methods in DRL and deep MARL for the purpose of providing understandings and insights on the critical problems and solutions. We first identify several key challenges to achieve efficient exploration, which most of the exploration methods aim at addressing. Then we provide a systematic survey of existing approaches by classifying them into two major categories: uncertainty-oriented exploration and intrinsic motivation-oriented exploration. The essence of uncertainty-oriented exploration is to leverage the quantification of the epistemic and aleatoric uncertainty to derive efficient exploration. By contrast, intrinsic motivation-oriented exploration methods usually incorporate different reward agnostic information for intrinsic exploration guidance. Beyond the above two main branches, we also conclude other exploration methods which adopt sophisticated techniques but are difficult to be classified into the above two categories. In addition, we provide a comprehensive empirical comparison of exploration methods for DRL on a set of commonly used benchmarks. Finally, we summarize the open problems of exploration in DRL and deep MARL and point out a few future directions.
翻訳日:2021-09-16 10:38:05 公開日:2021-09-15
# 畳み込みネットワークのための学習可能な離散ウェーブレットプール(LDW-Pooling)

Learnable Discrete Wavelet Pooling (LDW-Pooling) For Convolutional Networks ( http://arxiv.org/abs/2109.06638v2 )

ライセンス: Link先を確認
Jun-Wei Hsieh, Ming-Ching Chang, Bor-Shiun Wang, Ping-Yang Chen, Lipeng Ke, Siwei Lyu(参考訳) ポーリングは、機能集約と抽出のためのモダンなディープCNNアーキテクチャにおいて、単純だが必須のレイヤーである。 典型的なcnn設計はconv層とアクティベーション関数に焦点を当て、プール層を少ない選択肢で残している。 学習離散ウェーブレットプーリング(LDW-Pooling)を導入し、標準的なプール操作を置き換え、精度と効率を向上した特徴抽出を行う。 ウェーブレット理論に動機づけられ, 2次元特徴マップ上でのプーリングに, ローパス (l) とハイパス (h) フィルタを水平および垂直に採用した。 特徴信号は4つのサブバンド(ll, lh, hl, hh)に分解され、機能を維持し、情報の落下を避ける。 ウェーブレット変換は、プール後の特徴を完全に保存し、回収することができる。 次に,重要な特徴と代表的特徴を細かく選択するために,エネルギーに基づく注意学習を採用する。 LDW-PoolingはWaveletPoolingやLiftPoolingといった他の最先端のプール技術と比較して効率的かつ効率的である。 広範囲な実験的検証により、ldwプールは幅広い標準cnnアーキテクチャに適用でき、一貫して標準(max、平均、混合、確率的)プール操作を上回ることが示されている。

Pooling is a simple but essential layer in modern deep CNN architectures for feature aggregation and extraction. Typical CNN design focuses on the conv layers and activation functions, while leaving the pooling layers with fewer options. We introduce the Learning Discrete Wavelet Pooling (LDW-Pooling) that can be applied universally to replace standard pooling operations to better extract features with improved accuracy and efficiency. Motivated from the wavelet theory, we adopt the low-pass (L) and high-pass (H) filters horizontally and vertically for pooling on a 2D feature map. Feature signals are decomposed into four (LL, LH, HL, HH) subbands to retain features better and avoid information dropping. The wavelet transform ensures features after pooling can be fully preserved and recovered. We next adopt an energy-based attention learning to fine-select crucial and representative features. LDW-Pooling is effective and efficient when compared with other state-of-the-art pooling techniques such as WaveletPooling and LiftPooling. Extensive experimental validation shows that LDW-Pooling can be applied to a wide range of standard CNN architectures and consistently outperform standard (max, mean, mixed, and stochastic) pooling operations.
翻訳日:2021-09-16 10:37:35 公開日:2021-09-15
# 良質な例外挿

Good-Enough Example Extrapolation ( http://arxiv.org/abs/2109.05602v2 )

ライセンス: Link先を確認
Jason Wei(参考訳) 本稿では、あるクラスから別のクラスへのテキスト例の隠れ空間分布の補間が、データ拡張の有効な帰納バイアスであるかどうかを問う。 本稿では,この問題を運用するために,GE3(Good-enough example extrapolation)と呼ばれる単純なデータ拡張プロトコルを提案する。 GE3は軽量でハイパーパラメータを持たない。 さまざまなデータ不均衡シナリオのための3つのテキスト分類データセットに適用されるGE3は、アップサンプリングやその他の隠れスペースデータ拡張メソッドよりもパフォーマンスが向上する。

This paper asks whether extrapolating the hidden space distribution of text examples from one class onto another is a valid inductive bias for data augmentation. To operationalize this question, I propose a simple data augmentation protocol called "good-enough example extrapolation" (GE3). GE3 is lightweight and has no hyperparameters. Applied to three text classification datasets for various data imbalance scenarios, GE3 improves performance more than upsampling and other hidden-space data augmentation methods.
翻訳日:2021-09-16 10:37:12 公開日:2021-09-15
# ePiC: 抽象言語理解のためのベンチマークとしてコンテキストにProverbsを採用する

ePiC: Employing Proverbs in Context as a Benchmark for Abstract Language Understanding ( http://arxiv.org/abs/2109.06838v2 )

ライセンス: Link先を確認
Sayan Ghosh and Shashank Srivastava(参考訳) 大規模言語モデルはいくつかのnlpベンチマークでエキサイティングな進歩を見せているが、複雑な類似推論の能力の評価は未検討のままである。 本稿では,抽象言語理解のベンチマークとして,文脈の証明を取り入れた高品質なクラウドソース型物語データセットを提案する。 データセットは、段落と物語の間の配列の微妙な注釈を提供し、物語と段落の間に最小限の語彙的重複を含むため、モデルが成功するためには表面レベルの推論を超える必要がある。 提案課題は,(1)推理とアライメント予測,(2)与えられた推理と話題の物語生成,(3)類似したモチーフを持つ物語の同定の3つである。 我々の実験では、ニューラルネットワークモデルは人間に比べてタスクに苦労しており、タスクは複数の学習課題を引き起こす。

While large language models have shown exciting progress on several NLP benchmarks, evaluating their ability for complex analogical reasoning remains under-explored. Here, we introduce a high-quality crowdsourced dataset of narratives for employing proverbs in context as a benchmark for abstract language understanding. The dataset provides fine-grained annotation of aligned spans between proverbs and narratives, and contains minimal lexical overlaps between narratives and proverbs, ensuring that models need to go beyond surface-level reasoning to succeed. We explore three tasks: (1) proverb recommendation and alignment prediction, (2) narrative generation for a given proverb and topic, and (3) identifying narratives with similar motifs. Our experiments show that neural language models struggle in our tasks compared to humans, and the tasks pose multiple learning challenges.
翻訳日:2021-09-16 10:37:02 公開日:2021-09-15
# 長期計画のための最適To-Doリストゲーミフィケーション

Optimal To-Do List Gamification for Long Term Planning ( http://arxiv.org/abs/2109.06505v2 )

ライセンス: Link先を確認
Saksham Consul, Jugoslav Stojcheski, Valkyrie Felso, Falk Lieder(参考訳) ほとんどの人は仕事の優先順位付けに苦労している。 不正確なヒューリスティックは時間が経つにつれて開発されてきたが、どの日、月、週、年で取り組むべき多くのタスクのうちどれに取り組むべきかを決定する、扱いやすい原則付きアルゴリズムはいまだに存在しない。 さらに、現在のバイアスのような認知バイアスに悩まされ、長期的な結果よりもすぐれた経験を優先し、自らを先延ばしと非効率なタスク優先として表す人もいる。 本手法は最適ゲーミフィケーションを用いて,各タスクの長期的価値を伝達する複数のポイントのインセンティブを与えることにより,これらの課題を克服する。 我々は、最適なゲーミフィケーション手法の以前のバージョンを拡張し、すべての処理に十分な時間がなければ、どのタスクをすべきで、実行すべきでないかを判断するためのサービスを追加します。 to-doリストソルバの効率とスケーラビリティを改善するため,我々は,トップレベル目標からきめ細かなタスクに至るまでの問題に取り組む階層的な手順を設計した。 様々なケーススタディにおいて,価値反復を用いて正確に計算したポイントと戦略の性能を比較することにより,インセンティブ付きto-doリストの精度を検証した。 これらのケーススタディは、パフォーマンスを正確に判断するために、コーナーケースをカバーするように特別に設計された。 本手法はすべてのケーススタディの正確な方法と同じ性能を示した。 その機能を実証するため、私たちはWebやアプリサービスにメソッドを簡単にデプロイできるAPIをリリースしました。 我々は,To-Doリストに適用することで,メソッドのスケーラビリティを評価し,目標数の増加,目標ごとのサブゴール,階層的にネストしたサブゴールレベルについて検討した。 私たちのAPIを通じて提供されるメソッドは、576のタスクを持つかなり大きなto-doリストに対処できることがわかった。 これは,本手法が実世界のアプリケーションに適していることを示す。

Most people struggle with prioritizing work. While inexact heuristics have been developed over time, there is still no tractable principled algorithm for deciding which of the many possible tasks one should tackle in any given day, month, week, or year. Additionally, some people suffer from cognitive biases such as the present bias, leading to prioritization of their immediate experience over long-term consequences which manifests itself as procrastination and inefficient task prioritization. Our method utilizes optimal gamification to help people overcome these problems by incentivizing each task by a number of points that convey how valuable it is in the long-run. We extend the previous version of our optimal gamification method with added services for helping people decide which tasks should and should not be done when there is not enough time to do everything. To improve the efficiency and scalability of the to-do list solver, we designed a hierarchical procedure that tackles the problem from the top-level goals to fine-grained tasks. We test the accuracy of the incentivised to-do list by comparing the performance of the strategy with the points computed exactly using Value Iteration for a variety of case studies. These case studies were specifically designed to cover the corner cases to get an accurate judge of performance. Our method yielded the same performance as the exact method for all case studies. To demonstrate its functionality, we released an API that makes it easy to deploy our method in Web and app services. We assessed the scalability of our method by applying it to to-do lists with increasingly larger numbers of goals, sub-goals per goal, hierarchically nested levels of subgoals. We found that the method provided through our API is able to tackle fairly large to-do lists having a 576 tasks. This indicates that our method is suitable for real-world applications.
翻訳日:2021-09-16 10:36:46 公開日:2021-09-15
# robustart: アーキテクチャ設計とトレーニングテクニックに関するベンチマークロバスト性

RobustART: Benchmarking Robustness on Architecture Design and Training Techniques ( http://arxiv.org/abs/2109.05211v2 )

ライセンス: Link先を確認
Shiyu Tang and Ruihao Gong and Yan Wang and Aishan Liu and Jiakai Wang and Xinyun Chen and Fengwei Yu and Xianglong Liu and Dawn Song and Alan Yuille and Philip H.S. Torr and Dacheng Tao(参考訳) ディープニューラルネットワーク(DNN)は、モデル堅牢性のベンチマークを動機付ける敵対的ノイズに対して脆弱である。 既存のベンチマークは主に防御の評価に焦点を当てているが、アーキテクチャ設計と一般的なトレーニング技術が堅牢性にどのように影響するかに関する包括的な研究はない。 彼らの関係を総合的にベンチマークすることは、より理解し、堅牢なDNNを開発する上で非常に有益である。 そこで我々は,ImageNet(オープンソースツールキット,事前学習されたモデル動物園,データセット,分析を含む)のArchitecture設計(44の人間設計のオフザシェルフアーキテクチャとニューラルアーキテクチャ検索からの1200以上のネットワーク)とトレーニング技術(データ拡張など10以上の一般的なテクニック)に関する,最初の総合的なロバストネス調査ベンチマークであるRobustARTを提案する。 Extensive experiments revealed and substantiated several insights for the first time, for example: (1) adversarial training largely improves the clean accuracy and all types of robustness for Transformers and MLP-Mixers; (2) with comparable sizes, CNNs > Transformers > MLP-Mixers on robustness against natural and system noises; Transformers > MLP-Mixers > CNNs on adversarial robustness; (3) for some light-weight architectures (e.g., EfficientNet, MobileNetV2, and MobileNetV3), increasing model sizes or using extra training data cannot improve robustness. 筆者らのベンチマーク http://robust.art/ : (1) は,多種多様なロバスト性評価を行うためのオープンソースプラットフォームを提示する; (2) 頑健性評価を容易にするために,さまざまなトレーニング技術を備えた事前学習モデルを提供し,(3) 解析によって裏付けられた堅牢性DNNアーキテクチャ設計のメカニズムをより深く理解するための,新たな視点を提案する。 私たちはコミュニティのためにこのエコシステムの構築に継続的に貢献します。

Deep neural networks (DNNs) are vulnerable to adversarial noises, which motivates the benchmark of model robustness. Existing benchmarks mainly focus on evaluating the defenses, but there are no comprehensive studies of how architecture design and general training techniques affect robustness. Comprehensively benchmarking their relationships will be highly beneficial for better understanding and developing robust DNNs. Thus, we propose RobustART, the first comprehensive Robustness investigation benchmark on ImageNet (including open-source toolkit, pre-trained model zoo, datasets, and analyses) regarding ARchitecture design (44 human-designed off-the-shelf architectures and 1200+ networks from neural architecture search) and Training techniques (10+ general techniques, e.g., data augmentation) towards diverse noises (adversarial, natural, and system noises). Extensive experiments revealed and substantiated several insights for the first time, for example: (1) adversarial training largely improves the clean accuracy and all types of robustness for Transformers and MLP-Mixers; (2) with comparable sizes, CNNs > Transformers > MLP-Mixers on robustness against natural and system noises; Transformers > MLP-Mixers > CNNs on adversarial robustness; (3) for some light-weight architectures (e.g., EfficientNet, MobileNetV2, and MobileNetV3), increasing model sizes or using extra training data cannot improve robustness. Our benchmark http://robust.art/ : (1) presents an open-source platform for conducting comprehensive evaluation on diverse robustness types; (2) provides a variety of pre-trained models with different training techniques to facilitate robustness evaluation; (3) proposes a new view to better understand the mechanism towards designing robust DNN architectures, backed up by the analysis. We will continuously contribute to building this ecosystem for the community.
翻訳日:2021-09-16 10:36:16 公開日:2021-09-15
# MLFW: マスケ顔の顔認識のためのデータベース

MLFW: A Database for Face Recognition on Masked Faces ( http://arxiv.org/abs/2109.05804v2 )

ライセンス: Link先を確認
Chengrui Wang, Han Fang, Yaoyao Zhong, Weihong Deng(参考訳) 新型コロナウイルス(covid-19)のパンデミックでマスクを着用する人が増えているため、既存の顔認識システムはマスクを認識した場合、パフォーマンスが著しく低下する可能性がある。 マスクが顔認識モデルに与える影響を明らかにするため,マスク付き顔からマスク付き顔を自動的に生成するシンプルなツールを構築し,Cross-Age LFW(CALFW)データベースに基づくMasked LFW(MLFW)と呼ばれる新しいデータベースを構築した。 本手法により生成したマスク面は,元の顔と良好な視認性を有する。 さらに,様々なマスクテンプレートを収集し,日常生活に現れる一般的なスタイルのほとんどをカバーし,多様な世代効果を実現する。 現実的なシナリオを考えると、3種類の顔の組み合わせを設計します。 SOTAモデルの認識精度は、元の画像の精度と比較して、MLFWデータベース上で5%-16%低下する。 MLFWデータベースは \url{http://whdeng.cn/mlf w} で閲覧およびダウンロードできる。

As more and more people begin to wear masks due to current COVID-19 pandemic, existing face recognition systems may encounter severe performance degradation when recognizing masked faces. To figure out the impact of masks on face recognition model, we build a simple but effective tool to generate masked faces from unmasked faces automatically, and construct a new database called Masked LFW (MLFW) based on Cross-Age LFW (CALFW) database. The mask on the masked face generated by our method has good visual consistency with the original face. Moreover, we collect various mask templates, covering most of the common styles appeared in the daily life, to achieve diverse generation effects. Considering realistic scenarios, we design three kinds of combinations of face pairs. The recognition accuracy of SOTA models declines 5%-16% on MLFW database compared with the accuracy on the original images. MLFW database can be viewed and downloaded at \url{http://whdeng.cn/mlf w}.
翻訳日:2021-09-16 10:35:41 公開日:2021-09-15
# 画像属性編集のための高忠実GANインバージョン

High-Fidelity GAN Inversion for Image Attribute Editing ( http://arxiv.org/abs/2109.06590v2 )

ライセンス: Link先を確認
Tengfei Wang, Yong Zhang, Yanbo Fan, Jue Wang, Qifeng Chen(参考訳) 本稿では, 画像固有の細部(背景, 外観, 照明など)をよく保存した属性編集を可能にする, GAN(High-fidelity Generative Adversarial Network)インバージョンフレームワークを提案する。 まず,ganインバージョンを損失データ圧縮問題として定式化し,レート・ディストリクト・editトレードオフを慎重に議論する。 このトレードオフのため、以前の作業は、低ビットレートの遅延コードでのみ魅力的な編集能力を保ちながら、高忠実な再構築を達成できなかった。 そこで本研究では,再構成基準として歪みマップを用いた歪みコンサルテーション手法を提案する。 歪みコンサルテーションインバージョン (DCI) において、歪みマップは最初、高いレートの潜時写像に投影され、その後、基本的な低レート潜時符号と(ロスト)詳細をコンサルテーション融合により補完する。 高忠実度編集を実現するために,自己教師付きトレーニングスキームを用いた適応歪みアライメント(ADA)モジュールを提案する。 顔と車領域での広範囲な実験は、反転と編集品質の両方において明らかに改善されている。

We present a novel high-fidelity generative adversarial network (GAN) inversion framework that enables attribute editing with image-specific details well-preserved (e.g., background, appearance and illumination). We first formulate GAN inversion as a lossy data compression problem and carefully discuss the Rate-Distortion-Edit trade-off. Due to this trade-off, previous works fail to achieve high-fidelity reconstruction while keeping compelling editing ability with a low bit-rate latent code only. In this work, we propose a distortion consultation approach that employs the distortion map as a reference for reconstruction. In the distortion consultation inversion (DCI), the distortion map is first projected to a high-rate latent map, which then complements the basic low-rate latent code with (lost) details via consultation fusion. To achieve high-fidelity editing, we propose an adaptive distortion alignment (ADA) module with a self-supervised training scheme. Extensive experiments in the face and car domains show a clear improvement in terms of both inversion and editing quality.
翻訳日:2021-09-16 10:35:25 公開日:2021-09-15
# 無監督点雲登録のためのサンプリングネットワーク誘導クロスエントロピー法

Sampling Network Guided Cross-Entropy Method for Unsupervised Point Cloud Registration ( http://arxiv.org/abs/2109.06619v2 )

ライセンス: Link先を確認
Haobo Jiang, Yaqi Shen, Jin Xie, Jun Li, Jianjun Qian, Jian Yang(参考訳) 本稿では,ポイントクラウド登録タスクをマルコフ決定プロセスとしてモデル化することにより,教師なし3次元登録のためのクロスエントロピー法(CEM)を組み込んだエンドツーエンドのディープモデルを提案する。 我々のモデルはサンプリングネットワークモジュールと微分可能なCEMモジュールで構成される。 サンプリングネットワークモジュールでは、一対の点雲が与えられた場合、サンプリングネットワークは変換空間上の事前サンプリング分布を学習する。 学習したサンプリング分布は、微分可能なCEMモジュールの「良い」初期化として使うことができる。 微分可能なcemモジュールでは,まず,ポイントクラウド登録タスクの報奨関数として,最大コンセンサス基準に基づくアライメントメトリックを提案する。 報酬関数に基づいて、各状態に対して融合スコア関数を構築し、サンプル変換を評価し、変換の現在および将来の報酬を重み付けます。 特に、この変換状態において反復的最接近点(icp)アルゴリズムを実行し、サンプル変換の将来的な報酬を得る。 最高スコアのtop-k変換を選択することで,サンプリング分布を反復的に更新する。 さらに、CEMを微分可能にするために、sparsemax関数を使用して、ハードトップ$k$選択を置き換える。 最後に、geman-mcclure estimatorベースの損失を定式化し、エンドツーエンドの登録モデルをトレーニングします。 大規模な実験結果から,ベンチマークデータセット上での本手法の良好な登録性能が示された。

In this paper, by modeling the point cloud registration task as a Markov decision process, we propose an end-to-end deep model embedded with the cross-entropy method (CEM) for unsupervised 3D registration. Our model consists of a sampling network module and a differentiable CEM module. In our sampling network module, given a pair of point clouds, the sampling network learns a prior sampling distribution over the transformation space. The learned sampling distribution can be used as a "good" initialization of the differentiable CEM module. In our differentiable CEM module, we first propose a maximum consensus criterion based alignment metric as the reward function for the point cloud registration task. Based on the reward function, for each state, we then construct a fused score function to evaluate the sampled transformations, where we weight the current and future rewards of the transformations. Particularly, the future rewards of the sampled transforms are obtained by performing the iterative closest point (ICP) algorithm on the transformed state. By selecting the top-k transformations with the highest scores, we iteratively update the sampling distribution. Furthermore, in order to make the CEM differentiable, we use the sparsemax function to replace the hard top-$k$ selection. Finally, we formulate a Geman-McClure estimator based loss to train our end-to-end registration model. Extensive experimental results demonstrate the good registration performance of our method on benchmark datasets.
翻訳日:2021-09-16 10:35:06 公開日:2021-09-15
# 通信効率からみた形状バイアスの出現

The Emergence of the Shape Bias Results from Communicative Efficiency ( http://arxiv.org/abs/2109.06232v2 )

ライセンス: Link先を確認
Eva Portelance, Michael C. Frank, Dan Jurafsky, Alessandro Sordoni, Romain Laroche(参考訳) 2歳までに、子供は新しい単語のカテゴリーが色やテクスチャではなく物体の形状に基づいていると仮定する傾向があり、この仮定を形バイアス(shape bias)と呼ぶ。 彼らは、介護者の言語が形状に基づくカテゴリーに偏っていることを観察することによって、このバイアスを学ぶと考えられている。 これはニワトリと卵の問題を示しており、子供がそれを学ぶために形バイアスが言語に存在しなければならない場合、そもそもどのようにしてそれが言語で発生したのか? 本稿では, コミュニケーション効率が, 形状バイアスの発生方法と世代間で持続する理由の両方を説明することを提案する。 我々はこの過程を、生のピクセル画像についてコミュニケーションを学ぶ神経新生言語エージェントでモデル化する。 まず,エージェントによる効果的なコミュニケーション戦略の結果として,形状バイアスが出現することを示す。 第二に、コミュニケーションの必要性によってもたらされる圧力は世代にわたって持続する必要があり、エージェントの入力言語における形状バイアスが不十分であることを示す。 これらの結果は、他の学習戦略の操作の前後で、人間の学習者の形状バイアスが出現し、コミュニケーションの圧力によって持続されることを示唆している。

By the age of two, children tend to assume that new word categories are based on objects' shape, rather than their color or texture; this assumption is called the shape bias. They are thought to learn this bias by observing that their caregiver's language is biased towards shape based categories. This presents a chicken and egg problem: if the shape bias must be present in the language in order for children to learn it, how did it arise in language in the first place? In this paper, we propose that communicative efficiency explains both how the shape bias emerged and why it persists across generations. We model this process with neural emergent language agents that learn to communicate about raw pixelated images. First, we show that the shape bias emerges as a result of efficient communication strategies employed by agents. Second, we show that pressure brought on by communicative need is also necessary for it to persist across generations; simply having a shape bias in an agent's input language is insufficient. These results suggest that, over and above the operation of other learning strategies, the shape bias in human learners may emerge and be sustained by communicative pressures.
翻訳日:2021-09-16 10:34:45 公開日:2021-09-15
# MotionHint: 運動制約のある自己監督型単眼視眼振

MotionHint: Self-Supervised Monocular Visual Odometry with Motion Constraints ( http://arxiv.org/abs/2109.06768v2 )

ライセンス: Link先を確認
Cong Wang, Yu-Ping Wang, Dinesh Manocha(参考訳) 動作制約を考慮に入れたモノクローナル・ビジュアル・オドメトリー(VO)のための新しい自己教師型アルゴリズムMotionHintを提案する。 我々のアプローチの重要な側面は、既存の自己教師付き単分子VO(SSM-VO)アルゴリズムが自己教師付き損失関数内の局所最小値に関連する問題を克服するのに役立つ適切な動作モデルを使用することである。 動きモデルは、ppnetと呼ばれるニューラルネットワークで表現される。 カメラの次のポーズとこの予測の不確実性を粗く予測するように訓練される。 我々の自己監督的アプローチは、予測と生成された自我運動の重み付けされた差である、元の損失と運動損失を組み合わせたものである。 2つの既存のssm-voシステムをベースラインとして,標準kittiベンチマークでmotionhintアルゴリズムを評価した。 実験結果から,MotionHintアルゴリズムは既存のオープンソースSSM-VOシステムに容易に適用でき,その結果のATEを最大28.73%削減できることがわかった。

We present a novel self-supervised algorithm named MotionHint for monocular visual odometry (VO) that takes motion constraints into account. A key aspect of our approach is to use an appropriate motion model that can help existing self-supervised monocular VO (SSM-VO) algorithms to overcome issues related to the local minima within their self-supervised loss functions. The motion model is expressed with a neural network named PPnet. It is trained to coarsely predict the next pose of the camera and the uncertainty of this prediction. Our self-supervised approach combines the original loss and the motion loss, which is the weighted difference between the prediction and the generated ego-motion. Taking two existing SSM-VO systems as our baseline, we evaluate our MotionHint algorithm on the standard KITTI benchmark. Experimental results show that our MotionHint algorithm can be easily applied to existing open-sourced state-of-the-art SSM-VO systems to greatly improve the performance by reducing the resulting ATE by up to 28.73%.
翻訳日:2021-09-16 10:34:27 公開日:2021-09-15
# 対話型What-If分析による意思決定の強化

Augmenting Decision Making via Interactive What-If Analysis ( http://arxiv.org/abs/2109.06160v2 )

ライセンス: Link先を確認
Sneha Gathani and Madelon Hulsebos and James Gale and Peter J. Haas and \c{C}a\u{g}atay Demiralp(参考訳) ビジネスデータ分析の基本的な目標は、データを使用してビジネス決定を改善することである。 営業、マーケティング、製品、運用マネージャといったビジネスユーザは、顧客の維持、コストの削減、販売の増加といった重要なパフォーマンス指標(KPI)の目標を達成するために意思決定をすることが多い。 ドライバーとして想定されるデータ属性とKPIに対応するデータの関係を発見するには、現在、ビジネスユーザーは、複数の組み合わせとシナリオを考慮し、スライシング、ディクシング、そしてデータ変換を行いながら、長い探索的な分析を行う必要がある。 例えば、年四半期にわたる顧客保持の分析や、顧客層を越えた最適なメディアチャネルの提案などです。 しかし、データセットの複雑さの増加と人間の認知的限界が組み合わさって、単純なデータセットであっても、複数の仮説を乗り越えることは困難である。 そのため、そのような分析を精神的に行うのは難しい。 既存の商用ツールは、まだ有効性が不明な部分的なソリューションを提供するか、ビジネスユーザを満足させることができない。 ここでは、ビジネスユーザがデータ属性のセット間の関係(機能)を対話的に学び、推論できるようにする必要があると考える4つの機能について論じる。 対話型ビジュアル分析システムであるsystemdでは,これらの機能を実装して,ビジネスユーザがどのような質問をすれば,そのデータを試すことができる。 マーケティングミックスモデリング分析,顧客保持分析,取引クローズ分析という3つのビジネスユースケースを通じてシステムを評価し,複数のビジネスユーザからのフィードバックを報告する。 全体として、ビジネスユーザは直感的で、興味のあるkpiに関する仮説の素早いテストと検証、効果的で迅速なデータ駆動決定に役立ちます。

The fundamental goal of business data analysis is to improve business decisions using data. Business users such as sales, marketing, product, or operations managers often make decisions to achieve key performance indicator (KPI) goals such as increasing customer retention, decreasing cost, and increasing sales. To discover the relationship between data attributes hypothesized to be drivers and those corresponding to KPIs of interest, business users currently need to perform lengthy exploratory analyses, considering multitudes of combinations and scenarios, slicing, dicing, and transforming the data accordingly. For example, analyzing customer retention across quarters of the year or suggesting optimal media channels across strata of customers. However, the increasing complexity of datasets combined with the cognitive limitations of humans makes it challenging to carry over multiple hypotheses, even for simple datasets. Therefore mentally performing such analyses is hard. Existing commercial tools either provide partial solutions whose effectiveness remains unclear or fail to cater to business users. Here we argue for four functionalities that we believe are necessary to enable business users to interactively learn and reason about the relationships (functions) between sets of data attributes, facilitating data-driven decision making. We implement these functionalities in SystemD, an interactive visual analysis system enabling business users to experiment with the data by asking what-if questions. We evaluate the system through three business use cases: marketing mix modeling analysis, customer retention analysis, and deal closing analysis, and report on feedback from multiple business users. Overall, business users find SystemD intuitive and useful for quick testing and validation of their hypotheses around interested KPI as well as in making effective and fast data-driven decisions.
翻訳日:2021-09-16 10:34:09 公開日:2021-09-15